大型语言模型(LLM)擅长各种自然语言处理任务,但它们产生幻觉的倾向削弱了它们的可靠性。现有的利用隐藏状态的幻觉检测方法主要关注静态和孤立的表示,忽视了它们跨层的动态演变,这限制了功效。为了解决这个限制,我们将重点转移到隐藏状态更新过程,并引入了一种新的指标,即 ICR 分数(对残余流的信息贡献),它量化了模块对隐藏状态更新的贡献 ...
通过 best-of-N 采样增强大型语言模型 (LLM) 的性能非常有效,并引起了广泛关注。然而,由于大量的、需要大量数据的基于文本的奖励模型,它在计算上是令人望而却步的。通过将数据源从文本更改为隐藏状态,我们引入了 SWIFT(简单加权内在反馈技术),这是一种新颖的轻量级技术,利用 LLM 隐藏状态中嵌入的丰富信息来解决这些问题,该技术在 Token 级别上运行并且仅由线性层组成 ...