SK mysuni/2023 SK guided project

SKHy DRAM 내부 회로의 파형 예측(Pytorch)_transformer 모델을 통한 파형 예측

파이썬정복 2023. 8. 27. 15:10

St라는 벡터와 각각의 히든 스테이트를 이용해서  다 곱해줌

간다 라는 단어를 go로 바꾸기 때문에 알파3(weight)의 크기가 가장 크다

 

attention weight

 


attention 모델에 문제점이 있음

이런 과정을 통해 병렬처리를 할 수 있음

 


self attention 에서 decoder는 출력을 매 타임스텝마다 출력을 함

항상 뒤에 있는 시퀀스에서 앞에있는 시퀀스로 전달되도록 구성되어 있다

 

간단하게 내부함수를 통해 구현

실제로 트랜스포머 학습을 하는데 

아까 전 슬라이드 hidden state의 크기, head의 개수, endcoder decoder layer의 개수를 바꾸어 가면서 성능이 잘 나오는 모델을 찾는게 좋음