데이터분석 공부/멋사 AIS 7기

1. F1 score 이미지 출처 : https://en.wikipedia.org/wiki/F-score 분류 성능 평가 지표 중 F1 Score는 Precision과 Recall의 조화평균을 의미한다. F1 Score는 0.0~ 1.0 사이의 값을 가지고, 1에 가까울수록 좋은 모델이다. 정밀도와 재현율을 균형 있게 반영하기 위해 산술평균이 아닌 조화평균을 사용한다. 데이터 분류 클래스가 불균형할 때 모델의 성능을 정확하게 평가할 수 있다. F-Beta Score 관점에서 보면 Beta가 1인 경우가 F1 Score에 해당한다. 2. F-Beta Score 이미지 출처 : https://en.wikipedia.org/wiki/F-score F1 기반 평가산식 중 하나로 Beta를 매개변수로 사용해 Pr..
멋사 ai스쿨 두 번째 자기주도 학습 시간 뭘 하면 좋을지 고민하다가 캐글 데이터로 시각화를 해보기로 결정했다. plot 수업 시간에 코드 받아쓰기만 했던 슬픈 기억 덕분이다. 시각화에 사용할 데이터(Bike Sharing Demand)를 다운받고 업로드한 다음 (colab을 이용했기 때문에 파일로 업로드 했다) https://www.kaggle.com/competitions/bike-sharing-demand/overview 1. 파이썬 환경 설정 import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt 데이터를 불러와서 확인하기 데이터 이름이 train이어서 train data => td로 설..
판다스의 대표적인 데이터 타입인 시리즈와 데이터프레임은 비슷하면서도 다르다. 두 타입의 차이점은 표와 같다. 이전의 사진에서 확인했듯 시리즈는 1차원 벡터구조인 반면 데이터프레임은 2차원 행렬구조를 가지고 있다. 시리즈가 여러 개 모인 것을 데이터프레임으로, 데이터프레임을 하나로 쪼갠 것을 시리즈로 볼 수도 있다.
2022.09.22 데이터프레임에서 자주 등장하는 loc와 iloc의 개념, 차이점을 정리해보았다. loc = location 데이터프레임의 행이나 열에 label, boolean array(True, False)로 데이터에 접근 사람이 읽기 편한 라벨로 특정 값을 추출 loc 사용법 df.loc[행 인덱싱 값, 열 인덱싱 값] iloc = inter location 데이터프레임의 행이나 열의 순서를 나타내는 정수(int), 인덱스 값으로 특정값을 추출 정수(숫자)로 접근하기 때문에 컴퓨터가 읽기 좋은 방법 iloc 사용법 df.iloc[행 인덱스, 열 인덱스] loc와 iloc의 실행 방법 df.loc[0] -> 전체 데이터프레임에서 인덱스 이름이 0인 행만 추출 df.iloc[0] -> 전체 데이터프..
이삼오
'데이터분석 공부/멋사 AIS 7기' 카테고리의 글 목록