5장 데이터 사전 처리 누락 데이터 처리 머신러닝 등 데이터분석의 정확도는 분석 데이터의 품질에 의해 좌우됨 데이터 품질을 높이기 위해서는 누락 데이터, 중복 데이터 등 오류를 수정하고 분석 목적에 맞게 변형하는 과정이 필요함 빅데이터에서 원소 데이터 값이 누락되는 경우 -> 데이터를 파일로 입력할 때 빠트리거나 형식을 변환하면서 데이터가 소실되는 경우 판다스에서 유효하지 않거나 데이터 값이 존재하는 않은 데이터를 NaN으로 표시 머신러닝 분석 모형에 데이터를 입력하기 전에 반드시 누락 데이터를 제거하거나 다른 적절한 값으로 대체하는 과정이 필요 누락 데이터 제거 # NaN 값이 500개 이상인 컬럼을 모두 삭제 -> deck 컬럼 df_thresh = df.dropna(axis=1, thresh=500..