시나리오 기반 문제 해결
사기 탐지 모델을 구축 중입니다. 데이터셋에는 1% 의 사기 거래가 있습니다. 이 클래스 불균형을 어떻게 처리하시겠습니까?
답변:
오버샘플링 (SMOTE), 언더샘플링 또는 이 둘의 조합과 같은 기법을 사용할 것입니다. 또는 LightGBM 또는 XGBoost 와 같이 불균형에 강건한 알고리즘을 사용하고, 정확도 대신 정밀도, 재현율, F1-score 또는 AUC-ROC 를 사용하여 성능을 평가하는 것을 고려할 것입니다.
'user_age'라는 새로운 특징은 'user_income'과 높은 상관관계를 가집니다. 둘 중 어느 것을 선형 회귀 모델에 포함할지 어떻게 결정하시겠습니까?
답변:
각 특징의 도메인 관련성과 해석 가능성을 평가할 것입니다. 둘 다 관련성이 있다면, 다중공선성을 탐지하기 위해 VIF(Variance Inflation Factor) 를 사용하는 것을 고려할 것입니다. 둘 다 VIF 가 높다면, 예측력에 따라 하나를 선택하거나 적절하다면 둘을 결합하거나 Ridge/Lasso와 같은 정규화 기법을 사용할 수 있습니다.
모델이 훈련 데이터에서는 잘 작동하지만 보지 못한 테스트 데이터에서는 성능이 좋지 않습니다. 이를 진단하고 수정하기 위해 어떤 단계를 취하시겠습니까?
답변:
이는 과적합을 나타냅니다. 데이터 누수 (data leakage) 를 확인하고, 모델 복잡성을 줄이거나 (예: 특징 수 감소, 더 단순한 알고리즘, 낮은 다항식 차수), 훈련 데이터를 늘리거나, 정규화 기법 (L1/L2) 을 적용할 것입니다. 교차 검증은 또한 더 강력한 성능 추정치를 얻는 데 도움이 될 것입니다.
추천 시스템을 배포했는데, 사용자들이 관련 없는 추천에 대해 불평하고 있습니다. 어떻게 디버깅하시겠습니까?
답변:
먼저 데이터 파이프라인에 문제가 있는지 (예: 오래된 데이터, 잘못된 특징 공학) 확인할 것입니다. 그런 다음 사용자 피드백 패턴을 분석하고, 추천 알고리즘의 로직과 매개변수를 검토하며, 대안적인 추천 전략이나 모델 버전을 사용하여 A/B 테스트를 수행하여 개선 사항을 파악할 것입니다.
고객 이탈 (customer churn) 을 예측하는 모델을 구축해야 합니다. 모델 평가를 위해 어떤 지표를 우선시하겠으며, 그 이유는 무엇인가요?
답변:
재현율 (거짓 음성, 즉 이탈하는 고객을 식별하지 못하는 경우를 최소화하기 위해) 과 정밀도 (불필요하게 이탈하지 않는 고객을 타겟팅하는 것을 피하기 위해) 를 우선시할 것입니다. F1-score 는 균형을 제공하며, AUC-ROC 는 특히 불균형 데이터에서 다양한 임계값에 걸쳐 전반적인 모델 판별에 좋습니다.
중요한 특징에 결측값이 많이 포함된 데이터셋이 있습니다. 어떻게 처리하시겠습니까?
답변:
접근 방식은 결측 패턴과 비율에 따라 달라집니다. 옵션으로는 대체 (평균, 중앙값, 최빈값, K-NN, 회귀 대체) 또는 결측값을 본질적으로 처리할 수 있는 모델 (예: XGBoost, LightGBM) 사용이 있습니다. 결측 비율이 높다면 특징이나 행을 삭제하는 것을 고려할 수 있지만, 신중해야 합니다.
주택 가격을 예측하는 모델을 구축한다고 가정해 봅시다. 어떤 특징들을 고려할 것이며, 'neighborhood'와 같은 범주형 특징은 어떻게 처리하시겠습니까?
답변:
주요 특징으로는 거주 면적, 침실/욕실 수, 대지 면적, 건축 연도, 위치 (neighborhood), 건물 유형 등이 포함될 것입니다. 'neighborhood'의 경우, 원 - 핫 인코딩 (one-hot encoding) 또는 타겟 인코딩 (target encoding) 을 사용할 것입니다. 고유값 수가 많은 경우, 타겟 인코딩 또는 드문 범주 그룹화가 효과적일 수 있습니다.
'p-value' 개념을 비기술적인 이해관계자에게 어떻게 설명하시겠습니까?
답변:
p-value 는 실제로 효과나 관계가 없을 때, 우리의 데이터 (또는 더 극단적인 데이터) 를 관찰할 가능성이 얼마나 되는지를 알려줍니다. 작은 p-value(일반적으로 < 0.05) 는 관찰된 결과가 우연에 의한 것일 가능성이 낮다는 것을 시사하므로, 실제 효과가 있다고 확신할 수 있습니다.
분류 모델을 구축했는데 정확도가 95% 입니다. 이것으로 충분한가요? 무엇을 더 확인할 건가요?
답변:
정확도만으로는 충분하지 않으며, 특히 클래스가 불균형할 때는 더욱 그렇습니다. 거짓 양성 및 거짓 음성을 이해하기 위해 혼동 행렬 (confusion matrix) 을 확인할 것입니다. 또한 정밀도, 재현율, F1-score 및 AUC-ROC 도 살펴볼 것입니다. 도메인 맥락이 중요합니다. 95% 는 일부 문제에서는 훌륭할 수 있지만 다른 문제 (예: 희귀 질병 탐지) 에서는 좋지 않을 수 있습니다.
복잡한 모델 (예: 딥러닝) 보다 단순한 모델 (예: 로지스틱 회귀) 을 사용하는 것이 선호될 수 있는 시나리오를 설명해주세요.
답변:
해석 가능성이 중요하거나, 계산 리소스가 제한적이거나, 데이터셋이 작거나, 문제가 선형적으로 분리 가능한 경우 단순한 모델이 선호됩니다. 디버깅이 쉽고, 훈련이 빠르며, 작은 데이터셋에서 과적합될 가능성이 적고, 많은 비즈니스 문제에 대해 충분한 성능을 제공하는 경우가 많습니다.