새소식

반응형
ML

[인터뷰 질문] ML 기초 (1) - 데이터

  • -
728x90
반응형

인터뷰 대비 ML 치트 시트 제작


(기타)

✔️ "상관관계는 인과관계를 의미하지 않는다"라는 말이 있습니다. 설명해주실 수 있나요?

 

데이터 부족

✔️ 훈련 데이터가 부족하다면 어떤 문제를 일으킬까요?

✔️ 어떻게 데이터 부족이 야기하는 문제들을 완화할 수 있을까요?

 

feature

✔️ Feature vector 란 무엇일까요?

✔️ 좋은 feature란 무엇인가요. 이 feature의 성능을 판단하기 위한 방법에는 어떤 것이 있나요?

✔️ 나만의 feature selection 방식을 설명해봅시다.

✔️ 데이터 간의 유사도를 계산할 때, feature의 수가 많다면(예: 100개 이상), 이러한 high-dimensional clustering을 어떻게 풀어야할까요?

 

정규화

✔️ 정규화를 왜 해야할까요? 정규화의 방법은 무엇이 있나요?

✔️ 수치형 데이터에 대한 피처 정규화가 중요한 이유는 무엇인가?

✔️ 피처 정규화가 필요한 경우와 아닌 경우는 언제인가요?

✔️ 데이터 정제 작업을 진행할 때 범주형 피처는 어떻게 처리해야 할까요?

 

데이터 추출

✔️ 텍스트 더미에서 주제를 추출해야 합니다. 어떤 방식으로 접근해 나가시겠나요?

 

차원의 저주

✔️ 차원의 저주에 대해 설명해주세요

✔️ 차원이 의미하는 것은 무엇인가?

✔️ 차원이 크다는 건 나쁜건가요?

✔️ 차원의 저주가 문제인 이유?

✔️ 차원이 커짐에 따라 공간의 범위가 기하급수적으로 증가하는 이유는?

✔️ 차원의 저주 해결 방법은?

 

데이터 샘플링

✔️ 데이터 셋은 어떻게 분할해야 할까?


✔️ 데이터 샘플링이란?

✔️ 왜 데이터 샘플링이 필요할까?

✔️ 데이터 샘플링 방법에는 무엇이 있나?

✔️ 머신러닝에서 샘플링이 어떻게 활용되는지 설명해 보세요.

 

데이터 리샘플링

✔️ 샘플링과 리샘플링이란?

✔️ 리샘플링이 어떻게 변동성을 확인 할 수있나요?

✔️ 리샘플링 종류는?

✔️ 부트스트래핑의 단점?

 

 

불균형 데이터

✔️ 어떻게 불균형 데이터를 판단할 수 있나?

✔️ 이진분류 문제에 대해 훈련 세트 중 양성-음성 샘플 비율이 99:1 일 때, 어떤 문제가 발생할까요?

✔️ 불균형 데이터로 분류 모델을 훈련할 때 문제가 발생하는 이유는?

✔️ 이진분류 문제에 대해 훈련 세트 중에 양성-음성 샘플 비율이 불균형할 때 어떻게 데이터를 처리해야 더 좋은 분류 모델을 훈련할 수 있을까요?

✔️ 불균형 데이터 문제를 해결하기 위한 데이터 리샘플링 방법의 종류는?

✔️ 각 샘플링 방법의 문제는?

✔️ 오버 샘플링의 문제점을 해결하는 방법은?.

✔️ 언더 샘플링의 정보 손실 문제를 해결하는 방법은?

✔️ Weight Balancing 방법을 설명해주세요

✔️ 단일 클래스 학습으로 전환하는 방법은?

반응형
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.