欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

社区贡献 | 说明 RoPE 旋转位置编码及其特征

最编程 2024-06-09 18:11:38
...

在这里先直接抛出一个直观的结论:RoPE位置编码通过将一个向量旋转某个角度,为其赋予位置信息


RoPE的出发点

接下来进入今天的主角RoPE位置编码。在绝对位置编码中,尤其是在训练式位置编码中,模型只能感知到每个词向量所处的绝对位置,并无法感知两两词向量之间的相对位置。对于Sinusoidal位置编码而言,这一点得到了缓解,模型一定程度上能够感知相对位置。


对于RoPE而言,作者的出发点为:通过绝对位置编码的方式实现相对位置编码。回顾我们此前定义的位置编码函数,该函数表示对词向量   添加绝对位置信息   ,得到   :

RoPE希望   与   之间的点积,即   中能够带有相对位置信息   。那么   如何才算带有相对位置信息呢?只需要能够将   表示成一个关于   、   、   的函数   即可,其中   便表示着两个向量之间的相对位置信息。


因此我们建模的目标就变成了:找到一个函数   ,使得如下关系成立:

 

上一篇: Java JVM——10.对象实例化、内存布局与访问定位-创建对象的步骤

下一篇: 启动并运行终端:oh-my-zsh + autojump + screen - 3. 与 screen 一起使用