Seq2seq 모델, Attention 모델의 메커니즘

Sequence-to-Sequence

https://jalammar.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq-models-with-attention/
Seq2seq은 기계 번역, 문서 요약, 이미지 캡셔닝 등의 문제에서 큰 성공을 거둔 딥러닝 모델
글자, 단어, 이미지의 feature등을 시퀀스로 입력받아 모델에서 처리
신경망 기계 번역 : 입력-일련의 단어로 이뤄진 시퀀스-> 맨 앞 단어부터 차례로 모델에서 처리-> 출력-비슷하지만 다른 형태의 문장
seq2seq 모델은 하나의 encoder와 하나의 decoder로 이뤄져 있음
신경망 기계 번역도 동일한 구조
기계 번역의 경우 context가 하나의 벡터 형태로 전달됨
대부분 encoder, decoder는 둘 다 RNN을 이용함
context는 float로 이뤄진 하나의 벡터(더 높은 값을 가지는 소수를 더 밝게 표시)
이 context 벡터의 크기는 모델을 처음 설정할 때 원하는 값으로 설정할 수 있지만, 보통 encoder RNN의 hidden unit 개수로 지정
hidden unit에서 출력된 hidden state를 하나의 벡터 형태로 만들어서 사용하기 때문

인코더는 훨씬 더 많은 데이터를 디코더에 전달
- 인코더는 인코딩 단계의 마지막 hidden state의 context vector만 전달하지 않고 모든 step의 hidden states를 디코더에 전달
decoder가 출력을 생성할 때 현재 스텝에서 관련있는 입력을 찾아내기 위한 과정이 추가됨
1. encoder에서 받은 전체 hidden states를 반영
2. hidden state에 점수를 부여 -> decoder가 단어를 생성하는 매 스텝마다 반복
3. hidden state에 소프트맥스 점수를 곱하여 점수가 높은 숨겨진 상태를 증폭하고 점수가 낮은 hidden state를 제거

깃허브 파일 및 폴더 삭제 (0)	2024.05.12
딥러닝 언어 모델 (순방향/역방향 언어 모델, Masked Language Model, Skip-Gram Model) (0)	2024.04.30
파이썬 pip install 에러 해결 : 윈도우 환경변수 PATH 설정 (0)	2024.04.28
순환 신경망(Recurrent Neural Network, RNN) (0)	2024.04.22
16/04/24 TIL 딥러닝 컨볼루션 신경망, 과대적합 방지, 전이 학습, 파인 튜닝 (0)	2024.04.16

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`