Kaggle: Your Machine Learning and Data Science Community
Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.
www.kaggle.com
코랩에서 캐글 데이터를 사용할 때 데이터를 다운받고 압축을 해제해서 하나씩 업로드하는 게 번거로울 수 있다.
캐글의 개인 api와 간단한 리눅스 명령어를 사용해 데이터를 바로 다운받아보자.
먼저 Settings에서 Username과 Key가 있는 개인 Api 파일이 필요하다.
캐글에서 우측 상단의 아이디를 누르고 Settings 페이지로 이동하면 API 항목이 있다.
Create New Token으로 API 토큰이 담긴 json 파일을 다운받는다.
json 파일을 메모장에서 편집으로 열면 위와 같이 username, key가 담겨있다.
이제 코랩에서 간단한 코드를 통해 데이터를 받을 수 있다.
import os
os.environ['KAGGLE_USERNAME'] = 'user name 입력'
os.environ['KAGGLE_KEY'] = 'key number 입력'
os 모듈로 환경 변수나 디렉터리, 파일 등의 OS 자원을 제어할 수 있다.
os.environ은 현재 시스템의 환경 변수에 대한 정보를 딕셔너리 형태로 구성된 environ 객체로 리턴한다.
위의 코드로 코랩에 캐글 유저 이름과 키를 입력해서 환경을 설정한다.
https://www.kaggle.com/datasets/dgomonov/new-york-city-airbnb-open-data
New York City Airbnb Open Data
Airbnb listings and metrics in NYC, NY, USA (2019)
www.kaggle.com
캐글의 New York City Airbnb Open Data를 받아오려고 한다.
가져올 데이터의 링크를 참고해서 리눅스 코드를 작성한다.
!kaggle datasets download -d dgomonov/new-york-city-airbnb-open-data
위의 코드를 작성하면 캐글 content에 데이터셋이 다운로드된다.
데이터가 저장되는 것은 아니므로 런타임을 다시 시작할 경우 다시 코드를 실행해야 한다.
'캐글 요청-데이터셋-다운로드-데이터셋 약자-데이터를 업로드한 유저 이름-데이터이름' 이 코드에 담겨 있다.
https://www.kaggle.com/competitions/bike-sharing-demand/data
Bike Sharing Demand | Kaggle
www.kaggle.com
!kaggle competitions download -c bike-sharing-demand
만약 대회용 데이터를 가져오고 싶다면 위와 같이 작성한다.
'캐글 요청-대회-다운로드-대회 약자-대회 이름' 이 코드에 담겨 있다.
데이터 페이지에서 api 코드를 제공한다면 직접 작성하지 않고 복사해서 사용할 수도 있다.
!unzip '*.zip'
이렇게 불러온 파일은 zip 파일로 캐글에 올라가므로 !unzip 명령어로 압축을 해제한다.
'*.zip'은 파일 이름에 관계없이 zip 파일을 선택할 수 있다.
전체 코드는 위와 같다.
'프로젝트' 카테고리의 다른 글
로컬 프로젝트 폴더 GitHub 업로드 / There isn’t anything to compare / everything up-to-date 에러 해결 (0) | 2024.07.01 |
---|---|
최종 프로젝트 2주차 TIL : 한글 데이터 너무 무섭다... (1) | 2024.06.12 |
애증의 AI 허브 데이터 (0) | 2024.06.05 |
티스토리 hELLO 스킨 본문 글자색, 코드블럭 테마 커스텀 (0) | 2024.04.03 |
이혼 사유 별 발생 건수는 어떻게 변화했을까? : 파이썬 데이터분석 프로젝트 (0) | 2024.03.05 |