5장 데이터 사전 처리 누락 데이터 처리 머신러닝 등 데이터분석의 정확도는 분석 데이터의 품질에 의해 좌우됨 데이터 품질을 높이기 위해서는 누락 데이터, 중복 데이터 등 오류를 수정하고 분석 목적에 맞게 변형하는 과정이 필요함 빅데이터에서 원소 데이터 값이 누락되는 경우 -> 데이터를 파일로 입력할 때 빠트리거나 형식을 변환하면서 데이터가 소실되는 경우 판다스에서 유효하지 않거나 데이터 값이 존재하는 않은 데이터를 NaN으로 표시 머신러닝 분석 모형에 데이터를 입력하기 전에 반드시 누락 데이터를 제거하거나 다른 적절한 값으로 대체하는 과정이 필요 누락 데이터 제거 # NaN 값이 500개 이상인 컬럼을 모두 삭제 -> deck 컬럼 df_thresh = df.dropna(axis=1, thresh=500..
전체 글
데이터 분석 블로그
아래래의 남북한 발전 전력량 데이터에서 전력량 컬럼은 남한과 북한만, 연도 컬럼들은 1990부터 2016까지만 담은 데이터프레임을 만들고자 한다. df_ns = df.iloc[[0, 5], 2:] df_ns.index = ['South', 'North'] df_ns.columns = df_ns.columns.map(int) df_ns iloc를 사용 데이터프레임을 슬라이싱하고 인덱스 이름을 South와 North로 새로 지정했다. df_ns = df.iloc[:6, 2:] 라는 코드로도 가능하지 않을까? 라는 생각에 코드를 작동시켰더니 ValueError: Length mismatch: Expected axis has 6 elements, new values have 2 elements 라는 오류가 발생..

1. str.replace( ) 추천하지 않는 경우 파이썬에서 데이터프레임 속 문자열 데이터를 변경(대체)할 때 주로 str.replace 메서드를 사용한다. 오늘은 이 메서드를 사용하면 안 되는 경우에 대해 알아보겠다. 아래는 UCI 머신러닝 저장소에서 제공하는 자동차 연비 데이터(auto mpg data)로 연비, 실린더 수, 배기량, 출력, 차종, 가속능력, 출시년도, 제조국, 모델명 정보를 담고 있다. car_name을 제외한 컬럼들은 숫자형 데이터로 보이지만 df.info( )로 데이터 타입을 확인해보면 horse_power 컬럼이 object 타입임을 알 수 있다. car_names를 제외한 컬럼들을 계산이 가능한 데이터 타입으로 변경하려 한다. horsepower 컬럼에는 소수점이 있는 숫자..

1. astype( ) 메서드 사용법 데이터프레임 속의 데이터 타입을 바꿔주는 astype( ) 메서드 사용법은 다음과 같다. df.astype(dtype, copy=True, errors='raies') - dtype : 변경할 데이터 타입을 입력한다. - copy : 사본 생성 여부로 bool 타입으로 입력한다. 입력하지 않을 때 기본값은 True로 copy=False는 원본 데이터를 변경시키므로 주의가 필요하다. - errors : 데이터 타입을 오류를 발생시킬지 여부로 'raies', 'ignore' 로 입력한다. 'raies' : 오류 발생 O => 오류 문구가 반환된다. 'ignore' : 오류 발생 X => 변경 불가능한 요소는 기존 dtype 그대로 보존된다. 2. astype( ) 메서드..