欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

Transformer

最编程 2024-10-05 07:11:51
...

Transformer包含多个dot-attention层:
( 7 ) : a t t ( X q , X k , X v ) = s o f t m a x ( X q X k T d a t t ) X v (7):att(X^q,X^k,X^v)=softmax(\frac{X^qX^{kT}}{\sqrt{d^{att}}})X^v (7):att(Xq,Xk,Xv)=softmax(datt XqXkT)Xv
其中 X k , X v ∈ R n k × d a t t X^k,X^v\in \mathbb{R}^{n^k\times d^{att}} Xk,Xv<