Embedding Embedding 층은 수많은 단어 또는 데이터를 벡터 형태로 표현할 수 있기 때문에 텍스트 분류를 위해 사용하는 가장 기본에 해당하는 츨 사전 학습 모델을 불러와 사용할 수 있음 토큰, 토큰화, 텍스트 분류에 해당하는 기본적 용어를 알고 사용해보자 토큰 (Token) 문법적으로 더 이상 나눌 수 없는 언어 요소 이를 수행하는 작업을 토큰화(Tokenizer)라고 함 텍스트 데이터를 신경망에 입력하기 위해서 일반적으로 토큰화 작업을 수행하고 정의된 토큰에 고유 인덱스를 부여한 뒤 인코딩을 통해 적절한 형태로 바꿔주는 전처리 작업 과정을 거치게 됨 원핫 인코딩, 이진 인코딩 워드 임베딩(Word Embedding) 토큰화 작업 수행하기 tensorflow.keras.preprocessin..
1. F1 score 이미지 출처 : https://en.wikipedia.org/wiki/F-score 분류 성능 평가 지표 중 F1 Score는 Precision과 Recall의 조화평균을 의미한다. F1 Score는 0.0~ 1.0 사이의 값을 가지고, 1에 가까울수록 좋은 모델이다. 정밀도와 재현율을 균형 있게 반영하기 위해 산술평균이 아닌 조화평균을 사용한다. 데이터 분류 클래스가 불균형할 때 모델의 성능을 정확하게 평가할 수 있다. F-Beta Score 관점에서 보면 Beta가 1인 경우가 F1 Score에 해당한다. 2. F-Beta Score 이미지 출처 : https://en.wikipedia.org/wiki/F-score F1 기반 평가산식 중 하나로 Beta를 매개변수로 사용해 Pr..
과대적합을 방지할 수 있는 방법 예방책일 뿐 100% 해결해주지 않음 규제화 함수 드롭아웃 배치 정규화 규제화 함수 tensorflow.keras.regularizers 케라스에서 제공 L1, L2, ElasticNet 규제화함수는 기능에 맞게 가중치의 합을 구해 손실함수에 더해줌 안정적인 그래프가 그려짐 드롭아웃 학습이 진행되는 동안 신경망의 일부 유닛을 제외(드롭) 일부 유닛의 가중치를 학습에서 제외시킴 -> 학습 데이터에 대한 모델의 예측 성능을 저하시켜서 과적합을 방지함 테스트 시에는 드롭아웃이 작동하지 않고 모든 유닛이 활성화되는 대신, 출력값을 드롭아웃 비율만큼 줄여줌 Dropout rate는 일반적으로 0.2~0.5 사용 과적합 해소 정확도 역시 개선됨 배치 정규화 드롭아웃과 비교되어 사용되..
워크벤치에서 EER 모델을 만드는 방법 두 가지 1. EER 모델을 만들고 DB에 적용 -> Database - Forward Engineer 2. 만들어진 DB에서 EER 모델을 끄집어내기 -> Database - Reverse Engineer EER 모델이란? DB 속 테이블 사이의 연결, 관계를 나타내는 설계도