[인터뷰 질문] ML 기초 (1) - 데이터

728x90

인터뷰 대비 ML 치트 시트 제작

"데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집" 기준으로 이전 ML 면접 스터디에서 정리한 내용 바탕
zzsza / Datascient-interview-questions

(기타)

✔️ "상관관계는 인과관계를 의미하지 않는다"라는 말이 있습니다. 설명해주실 수 있나요?

데이터 부족

✔️ 훈련 데이터가 부족하다면 어떤 문제를 일으킬까요?

✔️ 어떻게 데이터 부족이 야기하는 문제들을 완화할 수 있을까요?

feature

✔️ Feature vector 란 무엇일까요?

✔️ 좋은 feature란 무엇인가요. 이 feature의 성능을 판단하기 위한 방법에는 어떤 것이 있나요?

✔️ 나만의 feature selection 방식을 설명해봅시다.

✔️ 데이터 간의 유사도를 계산할 때, feature의 수가 많다면(예: 100개 이상), 이러한 high-dimensional clustering을 어떻게 풀어야할까요?

정규화

✔️ 정규화를 왜 해야할까요? 정규화의 방법은 무엇이 있나요?

✔️ 수치형 데이터에 대한 피처 정규화가 중요한 이유는 무엇인가?

✔️ 피처 정규화가 필요한 경우와 아닌 경우는 언제인가요?

✔️ 데이터 정제 작업을 진행할 때 범주형 피처는 어떻게 처리해야 할까요?

데이터 추출

✔️ 텍스트 더미에서 주제를 추출해야 합니다. 어떤 방식으로 접근해 나가시겠나요?

차원의 저주

✔️ 차원의 저주에 대해 설명해주세요

✔️ 차원이 의미하는 것은 무엇인가?

✔️ 차원이 크다는 건 나쁜건가요?

✔️ 차원의 저주가 문제인 이유?

✔️ 차원이 커짐에 따라 공간의 범위가 기하급수적으로 증가하는 이유는?

✔️ 차원의 저주 해결 방법은?

데이터 샘플링

✔️ 데이터 셋은 어떻게 분할해야 할까?

✔️ 데이터 샘플링이란?

✔️ 왜 데이터 샘플링이 필요할까?

✔️ 데이터 샘플링 방법에는 무엇이 있나?

✔️ 머신러닝에서 샘플링이 어떻게 활용되는지 설명해 보세요.

데이터 리샘플링

✔️ 샘플링과 리샘플링이란?

✔️ 리샘플링이 어떻게 변동성을 확인 할 수있나요?

✔️ 리샘플링 종류는?

✔️ 부트스트래핑의 단점?

불균형 데이터

✔️ 어떻게 불균형 데이터를 판단할 수 있나?

✔️ 이진분류 문제에 대해 훈련 세트 중 양성-음성 샘플 비율이 99:1 일 때, 어떤 문제가 발생할까요?

✔️ 불균형 데이터로 분류 모델을 훈련할 때 문제가 발생하는 이유는?

✔️ 이진분류 문제에 대해 훈련 세트 중에 양성-음성 샘플 비율이 불균형할 때 어떻게 데이터를 처리해야 더 좋은 분류 모델을 훈련할 수 있을까요?

✔️ 불균형 데이터 문제를 해결하기 위한 데이터 리샘플링 방법의 종류는?

✔️ 각 샘플링 방법의 문제는?

✔️ 오버 샘플링의 문제점을 해결하는 방법은?.

✔️ 언더 샘플링의 정보 손실 문제를 해결하는 방법은?

✔️ Weight Balancing 방법을 설명해주세요

✔️ 단일 클래스 학습으로 전환하는 방법은?

저작자표시

'ML' 카테고리의 다른 글

[인터뷰 질문] ML 기초 (5) - 클래식 모델 (0)	2023.04.29
[인터뷰 질문] ML 기초 (4) - 앙상블 (0)	2023.04.29
[인터뷰 질문] ML 기초 (3) - 비지도 학습 (0)	2023.04.29
[인터뷰 질문] ML 기초 (2) - 차원 축소 (0)	2023.04.29

Contents

[인터뷰 질문] ML 기초 (1) - 데이터

인터뷰 대비 ML 치트 시트 제작

✔️ "상관관계는 인과관계를 의미하지 않는다"라는 말이 있습니다. 설명해주실 수 있나요?

✔️ 훈련 데이터가 부족하다면 어떤 문제를 일으킬까요?

✔️ 어떻게 데이터 부족이 야기하는 문제들을 완화할 수 있을까요?

✔️ Feature vector 란 무엇일까요?

✔️ 좋은 feature란 무엇인가요. 이 feature의 성능을 판단하기 위한 방법에는 어떤 것이 있나요?

✔️ 나만의 feature selection 방식을 설명해봅시다.

✔️ 데이터 간의 유사도를 계산할 때, feature의 수가 많다면(예: 100개 이상), 이러한 high-dimensional clustering을 어떻게 풀어야할까요?

✔️ 정규화를 왜 해야할까요? 정규화의 방법은 무엇이 있나요?

✔️ 수치형 데이터에 대한 피처 정규화가 중요한 이유는 무엇인가?

✔️ 피처 정규화가 필요한 경우와 아닌 경우는 언제인가요?

✔️ 데이터 정제 작업을 진행할 때 범주형 피처는 어떻게 처리해야 할까요?

✔️ 텍스트 더미에서 주제를 추출해야 합니다. 어떤 방식으로 접근해 나가시겠나요?

✔️ 차원의 저주에 대해 설명해주세요

✔️ 차원이 의미하는 것은 무엇인가?

✔️ 차원이 크다는 건 나쁜건가요?

✔️ 차원의 저주가 문제인 이유?

✔️ 차원이 커짐에 따라 공간의 범위가 기하급수적으로 증가하는 이유는?

✔️ 차원의 저주 해결 방법은?

✔️ 데이터 셋은 어떻게 분할해야 할까?

✔️ 데이터 샘플링이란?

✔️ 왜 데이터 샘플링이 필요할까?

✔️ 데이터 샘플링 방법에는 무엇이 있나?

✔️ 머신러닝에서 샘플링이 어떻게 활용되는지 설명해 보세요.

✔️ 샘플링과 리샘플링이란?

✔️ 리샘플링이 어떻게 변동성을 확인 할 수있나요?

✔️ 리샘플링 종류는?

✔️ 부트스트래핑의 단점?

✔️ 어떻게 불균형 데이터를 판단할 수 있나?

✔️ 이진분류 문제에 대해 훈련 세트 중 양성-음성 샘플 비율이 99:1 일 때, 어떤 문제가 발생할까요?

✔️ 불균형 데이터로 분류 모델을 훈련할 때 문제가 발생하는 이유는?

✔️ 이진분류 문제에 대해 훈련 세트 중에 양성-음성 샘플 비율이 불균형할 때 어떻게 데이터를 처리해야 더 좋은 분류 모델을 훈련할 수 있을까요?

✔️ 불균형 데이터 문제를 해결하기 위한 데이터 리샘플링 방법의 종류는?

✔️ 각 샘플링 방법의 문제는?

✔️ 오버 샘플링의 문제점을 해결하는 방법은?.

✔️ 언더 샘플링의 정보 손실 문제를 해결하는 방법은?

✔️ Weight Balancing 방법을 설명해주세요

✔️ 단일 클래스 학습으로 전환하는 방법은?

'ML' 카테고리의 다른 글

당신이 좋아할만한 콘텐츠

티스토리툴바