arxiv Do language models plan ahead for future tokens?

名称
Do language models plan ahead for future tokens?
首页
https://yiyibooks.cn/arxiv/2404.00859v1/index.html
原始地址
https://arxiv.org/abs/2404.00859
描述
 Transformer 在给定位置进行推理时是否“提前思考”?众所周知, Transformer 在 $t$ 的前向传递的隐藏状态中准备信息,然后在未来的前向传递 $t+\tau$ 中使用该信息。我们对这种现象提出了两种解释:预缓存,其中训练中存在的非对角梯度项导致模型计算与当前推理任务无关但对未来有用的特征,以及面包屑,其中特征与时间步 $t$ 最相关的已经与在时间 $t+\tau$ 时最有利于推理的那些相同。我们通过训练语言模型来测试这些假设,而不将梯度传播到过去的时间步长,我们将这种方案形式化为短视训练 ...