인터뷰 대비 ML 치트 시트 제작
(기타)
✔️ "상관관계는 인과관계를 의미하지 않는다"라는 말이 있습니다. 설명해주실 수 있나요?
데이터 부족
✔️ 훈련 데이터가 부족하다면 어떤 문제를 일으킬까요?
✔️ 어떻게 데이터 부족이 야기하는 문제들을 완화할 수 있을까요?
feature
✔️ Feature vector 란 무엇일까요?
✔️ 좋은 feature란 무엇인가요. 이 feature의 성능을 판단하기 위한 방법에는 어떤 것이 있나요?
✔️ 나만의 feature selection 방식을 설명해봅시다.
✔️ 데이터 간의 유사도를 계산할 때, feature의 수가 많다면(예: 100개 이상), 이러한 high-dimensional clustering을 어떻게 풀어야할까요?
정규화
✔️ 정규화를 왜 해야할까요? 정규화의 방법은 무엇이 있나요?
✔️ 수치형 데이터에 대한 피처 정규화가 중요한 이유는 무엇인가?
✔️ 피처 정규화가 필요한 경우와 아닌 경우는 언제인가요?
✔️ 데이터 정제 작업을 진행할 때 범주형 피처는 어떻게 처리해야 할까요?
데이터 추출
✔️ 텍스트 더미에서 주제를 추출해야 합니다. 어떤 방식으로 접근해 나가시겠나요?
차원의 저주
✔️ 차원의 저주에 대해 설명해주세요
✔️ 차원이 의미하는 것은 무엇인가?
✔️ 차원이 크다는 건 나쁜건가요?
✔️ 차원의 저주가 문제인 이유?
✔️ 차원이 커짐에 따라 공간의 범위가 기하급수적으로 증가하는 이유는?
✔️ 차원의 저주 해결 방법은?
데이터 샘플링
✔️ 데이터 셋은 어떻게 분할해야 할까?
✔️ 데이터 샘플링이란?
✔️ 왜 데이터 샘플링이 필요할까?
✔️ 데이터 샘플링 방법에는 무엇이 있나?
✔️ 머신러닝에서 샘플링이 어떻게 활용되는지 설명해 보세요.
데이터 리샘플링
✔️ 샘플링과 리샘플링이란?
✔️ 리샘플링이 어떻게 변동성을 확인 할 수있나요?
✔️ 리샘플링 종류는?
✔️ 부트스트래핑의 단점?
불균형 데이터
✔️ 어떻게 불균형 데이터를 판단할 수 있나?
✔️ 이진분류 문제에 대해 훈련 세트 중 양성-음성 샘플 비율이 99:1 일 때, 어떤 문제가 발생할까요?
✔️ 불균형 데이터로 분류 모델을 훈련할 때 문제가 발생하는 이유는?
✔️ 이진분류 문제에 대해 훈련 세트 중에 양성-음성 샘플 비율이 불균형할 때 어떻게 데이터를 처리해야 더 좋은 분류 모델을 훈련할 수 있을까요?
✔️ 불균형 데이터 문제를 해결하기 위한 데이터 리샘플링 방법의 종류는?
✔️ 각 샘플링 방법의 문제는?
✔️ 오버 샘플링의 문제점을 해결하는 방법은?.
✔️ 언더 샘플링의 정보 손실 문제를 해결하는 방법은?
✔️ Weight Balancing 방법을 설명해주세요
✔️ 단일 클래스 학습으로 전환하는 방법은?