Unsupervised Real-Time Hallucination Detection based on the Internal States of Large Language Models
大语言模型 (LLM) 中的幻觉是指 LLM 产生连贯但实际上不准确的响应的现象。这个问题破坏了 LLM 在实际应用中的有效性,因此需要研究检测和减轻 LLM 的幻觉。先前的研究主要集中在幻觉检测的后处理技术上,由于它们与 LLM 的推理过程分离,因此往往计算量大且有效性有限 ...
推荐系统在在线应用领域中是队列的,顺序推荐由于其能够封装用户兴趣的动态变化而受到相当大的欢迎。然而,此前的顺序建模方法在队列上下文信息方面仍然存在主要局限性。原因是缺乏对特定领域知识和项目相关文本内容的理解... ...
大型视觉语言模型 (VLM) 在自动驾驶领域引起了越来越多的兴趣,因为它们在复杂推理任务中具有先进的能力,这对于高度自主的车辆行为至关重要。尽管具有潜力,但由于缺乏带有注释推理链的数据集来解释驾驶决策过程,自动系统的研究受到阻碍。为了弥补这一差距,我们提出了 Reason2Drive,这是一个包含超过 60 万个视频文本对的基准数据集,旨在促进复杂驾驶环境中可解释推理的研究 ...
最近,大型语言模型(LLM)在语言理解和生成方面取得了重大进展。通过利用文本特征,定制的 LLM 也可用于推荐,并在不同的推荐场景中展示改进。然而,大多数现有方法执行免训练推荐,严重依赖于预先训练的知识(例如, ...
在不断发展的个性化新闻推荐领域,理解底层数据的语义至关重要。像 GPT-4 这样的大型语言模型 (LLM) 在理解自然语言方面表现出了良好的性能。然而,它们在新闻推荐系统中的适用范围仍有待验证 ...
由于需要开发仿真工具来验证和确认在由自动驾驶和人类驾驶车辆组成的交通中运行的自动驾驶系统,我们提出了一个在不受控制的十字路口对车辆交互进行建模的框架。所提出的交互建模方法基于具有多个并发领导者-追随者对的博弈论,并考虑了常见的流量规则。我们对交叉口布局和几何形状进行参数化,以对具有各种配置的不受控制的交叉口进行建模,并应用所提出的方法对这些交叉口的车辆交互行为进行建模 ...
现有的方面提取方法大多依赖于显式或真实的方面信息,或者使用数据挖掘或机器学习方法从隐式用户反馈(例如用户评论)中提取方面。然而,提取的方面如何帮助为用户生成更有意义的建议仍有待探索。同时,现有的基于方面的推荐研究通常依赖于单独的方面提取模型或假设给出了方面,而没有考虑到最佳方面集可能取决于手头的推荐任务的事实 ...
FourCastNet 是傅立叶预测神经网络的缩写,是一个全球数据驱动的天气预报模型,能够以 0.25 美元的分辨率提供准确的短期到心血管全球预测。 FourCastNet 能够准确预测高精度、快速时间尺度的指标,例如表面风速、降水和大气水汽... ...