전체 글

데이터 분석 블로그
· 프로젝트
한 달 동안 진행한 최종 프로젝트 결과 대상을 수상했다. 무려 국회의원상! 처음으로 팀 리더를 맡았는데 상까지 받아서 아주 의미있었다.  슬프게도 이번에도 주제를 한 번 바꿨다. 처음 설정한 주제는 양식 김의 성장 분석 및 모델 개발이었는데 프로젝트를 진행할 수록 데이터가 참 이상했다. 어떻게든 기워봤지만 이진분류 모델에서 정확도가 0.5 이상을 넘지 않는 대참사가 발생했다. 학습 횟수를 늘리면 과적합이 발생하고, 시계열 데이터여서 증강도 못하는 진퇴양난에 빠졌다. 결국 프로젝트 마감이 2주 남은 시점에 빠르게 주제를 바꾸고 이미지 데이터 라벨링부터 시작했다.  https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDat..
· 프로젝트
프로젝트에서 streamlit 웹앱 개발을 맡았다. 장고를 배웠음에도 스트림릿을 선택한 이유는 깃허브로 쉽게 배포할 수 있기 때문이다. 좀 더 도전할 생각이었다면 다른 프레임워크를 사용했겠지만 이번 프로젝트에서 웹은 주요 파트가 아니었고 yolo 모델이 이렇게 작동한다는 정도만 보여주면 충분하므로 스트림릿을 골랐다. 스트림릿은 나 혼자 진행하는 파트여서, 로컬에서 작업을 끝내고 깃허브에 폴더를 통채로 커밋하여 배포한 다음 이미지와 동영상 링크를 수정했다. 저번 프로젝트 때는 push 단계에서 뭔가 꼬여서 깃허브 웹페이지에서 파일을 하나하나 업로드했는데 이번엔 다행히 해결했다.  깃허브 웹에서 레파지토리를 만들고 Git Bash Here로 로컬의 한 폴더를 지정한 다음 아래 명령어를 한 줄씩 입력하면 쉽게..
· 프로젝트
틀린 그림 찾기같은 문자열로 찾았는데 왜 있다가 없다가 할까? AI허브에서 데이터를 받았는데 label 데이터와 image 데이터 수가 달랐다. (이건 시작에 불과했음을... 데이터가 볼수록 이상하다. 사기 당했다.) label이 있는 이미지만 사용할 수 있으니까 img_file_name 컬럼을 추출해서 txt 파일로 만들고, 이 파일과 매치되는 이름의 데이터만 새로운 폴더로 복사해 모델을 만들려고 했다. 1. 기존 데이터프레임의 컬럼으로 txt 파일 생성2. txt 파일과 매치되는 이름의 이미지만 새 폴더에 복사3. 새 폴더에서 파일명을 리스트로 받아오고 데이터프레임으로 변환4. 파일명 데이터프레임과 기존 데이터프레임을 join 해서 이미지가 있는 데이터만 남기기 이렇게 기깔나는 계획을 세웠는데 파일명..
· 프로젝트
어떻게 마무리했는지 모르게 중간 프로젝트가 끝나고 바로 파이널 프로젝트가 시작되었다. 이번엔 AI 허브 데이터를 사용하는데 데이터 형식이 정말... 모든 정보가 때려넣어진 json 파일과 씨름하고 있다. 용량은 또 얼마나 큰지 json 파일로 12GB나 된다. 로컬에 다운로드 하느라 시간 쓰고 구글 드라이브 올리느라 시간 쓰고 이게 맞는지 모르겠다.전처리를 한 번에 하려고 코드를 짰는데 용량이 너무 커서 한 시간 넘게 돌려보다가 포기했다. 욕심 부리지 말고 나눠서 하자. 샘플 데이터로 코드를 돌리는 중인데 데이터가 240개인데 고유값은 222개가 나와서 약간 막막해졌다. 데이터 설명서에도 고유값이라고 했는데. 혹시 내가 모르는 사이에 고유값의 뜻이 바뀌었나.
이삼오
소처럼 코딩하기