3. 앙상블 학습 knn 모델은 실제로 잘 사용되지 않음 요즘 자주 쓰이는 모델 : 앙상블 여러 개의 분류기를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법 이미지, 영상, 음성, 자연어 등 비정형 데이터의 분류는 딥러닝 모델이 뛰어난 성적을 얻고있지만, 대부분의 정형 데이터 분류에는 앙상블 모델이 뛰어난 성능을 보임 대표적으로 RandomForest, GradientBoost(GBM) 등이 있음 사용하기 쉬울뿐 아니라 성능 역시 뛰어남 앙상블 유형 Voting (잘 사용 안함) Bagging - Decision Tree, Random Forest -> 둘의 하이퍼 파라미터는 거의 같음 Boosting - AdaBoost, Gradient Boost, XGBoost(eXtra G..
전체 글
데이터 분석 블로그
1. 10950번 문제 두 정수 A와 B를 입력받은 다음, A+B를 출력하는 프로그램을 작성하시오. 입력 첫째 줄에 테스트 케이스의 개수 T가 주어진다. 각 테스트 케이스는 한 줄로 이루어져 있으며, 각 줄에 A와 B가 주어진다. (0 < A, B < 10) 출력 각 테스트 케이스마다 A+B를 출력한다. T = int(input()) for i in range(T): A, B = map(int, input().split()) print(A+B) 코드 설명 첫째 줄에 테스트 케이스 개수 T가 주어진다는 조건이 있으므로 input() 함수와 int() 함수를 사용해 T를 입력받는다. for 반복문을 통해 변수 i를 T번 만큼 반복시키면서 A, B를 입력받는다. 이 때 i는 역할이 없는 변수여서 _로 표현해도..
KNN(K-nearest Neighbor) Classifier 최근접 이웃 알고리즘 가장 간단한 지도학습 머신러닝 알고리즘 훈련데이터를 저장해두는 것이 모델을 만드는 과정의 전부 k -> 몇 개의 이웃(가장 가까운 훈련 데이터)을 확인할 것인지. 홀수로 지정하는 게 일반적 k의 결정 k가 작으면 이상점 등 노이즈에 민감하게 반응해 과적합 문제 발생 k가 크면 자료의 패턴을 잘 파악할 수 없어 예측 성능이 저하됨 -> 과소적합 검증용(validation) 데이터를 이용해 주어진 훈련 데이터에 가장 적합한 k를 찾아야함 거리의 측정 n개의 특성변수를 가지는 자료에서 두 개의 관찰점 유클리디안 거리 맨해튼 거리 자료 스케일에 차이가 있는 경우, 스케일이 큰 특성변수에 의해 거리가 결정되어버릴 수 있음 표준화 ..
4장 분류 1 분류(Classification)의 개요 지도학습은 label, 명시적인 정답이 있는 데이터가 주어진 상태에서 학습하는 머신러닝 방식 지도학습의 대표적인 유형인 분류는 학습 데이터로 주어진 데이터의 피처와 레이블값을 머신러닝 알고리즘으로 학습 모델을 생성하고, 생성된 모델에 새로운 데이터값이 주어졌을 때 미지의 레이블 값을 예측하는 것 다양한 머신러닝 분류 알고리즘 Naive Bayes : 베이지 통계와 생성 모델에 기반 Logistic Regression : 독립변수와 종속변수 간 선형 관계성에 기반 (이름은 회귀지만 실제로는 분류 모델) Decision Tree : 데이터 균일도에 따른 규칙 기반의 결정 트리 Support Vector Machine : 개별 클래스 간의 최대 분류 마진..