这项研究重点是评估开放式问题答案(Open-QA)任务,该任务可以直接估计大语言模型(LLMS)的事实。当前的自动评估方法已显示出局限性,表明人类评估仍然是最可靠的方法。我们介绍了一项新任务,评估了QA评估(QA-eval)和相应的数据集Evouna,旨在评估与Open-QA中标准答案有关的AI生成答案的准确性 ...

0 0 0 0 2025/02/08 arXiv:2305.12421v4 latte

大型语言模型 (LLM) 表现出了令人印象深刻的语言理解和生成能力,使它们能够回答各个领域的广泛问题。然而,这些模型并非完美无缺,并且经常产生包含错误或错误信息的响应。这些错误通常被称为幻觉,使得 LLM 在许多情况下不可靠,甚至无法使用 ...

0 0 0 0 2025/01/15 arXiv:2311.01041v4 latte

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)