12/03/2024 TIL

18/03/24 TIL 분류 성능 평가 지표(정확도, 오차행렬, 정밀도, 재현율, F1 스코어) (0)	2024.03.18
03/15/2024 TIL (0)	2024.03.15
iloc loc Value Error 정리 (0)	2024.03.11
파이썬 데이터프레임 특정 문자 포함된 행 삭제하기 / str.replace() 추천하지 않는 경우 (0)	2024.03.09
파이썬 데이터프레임 astype( ) 으로 데이터 자료형 변경하기 (0)	2024.03.08

상단으로

5장 데이터 사전 처리

누락 데이터 처리

누락 데이터 제거

중복 데이터 처리

중복 데이터 확인

중복 데이터 제거

데이터 표준화

단위 환산

범주형(카테고리) 데이터 처리

구간 분할

더미 변수

원핫인코딩

토큰에 위치를 부여해서 입력값이 토큰값과 같으면 해당하는 위치에 지정해둔 값을 출력

sklearn

전처리를 위한 encoder 객체 생성

label encoder로 문자열 범주를 숫자형 범주로 변환

출력 컬럼의 최대값의 절대값으로 모든 데이터를 나눠서 저장

문자열 데이터(시리즈 객체)를 판다스 Timestamp로 변환

시계열 값으로 변환된 컬럼을 인덱스로 설정. 기존 날짜 컬럼은 삭제

날짜 형식의 문자열로 구성된 리스트

문자열 데이터(시리즈 객체)를 판다스 Timestamp로 변환

날짜 기준

월 기준

연 기준

Timestamp 배열 만들기

1시간 간격 Period 배열

2시간 간격 Period 배열

사용자 함수 정의

데이터프레임의 각 컬럼(시리즈)를 인수로 전달하면 데이터프레임을 반환

데이터프레임 2개 열을 선택하여 적용

x=df, a=df['age'], b=df['ten']

데이터프레임 전달해서 데이터프레임 반환

데이터프레임 전달해서 시리즈 반환

시리즈 전달해서 값 반환

pipe 메서드 매핑

컬럼 이름 리스트 만들기

기존 컬럼명

컬럼명 알파벳 정렬

기존 순서의 역순 정렬

사용자 정의 순서로 재배치

df['연'] = df['연월일'].dt.year

df['월'] = df['연월일'].dt.month

df['일'] = df['연월일'].dt.day

연산할 게 아니라면 dt.year로 분리하지 않아도 됨

10대 승객만 선택

& |

'데이터분석 공부 > DSBA 4기' 카테고리의 다른 글

티스토리툴바