这项研究重点是评估开放式问题答案(Open-QA)任务,该任务可以直接估计大语言模型(LLMS)的事实。当前的自动评估方法已显示出局限性,表明人类评估仍然是最可靠的方法。我们介绍了一项新任务,评估了QA评估(QA-eval)和相应的数据集Evouna,旨在评估与Open-QA中标准答案有关的AI生成答案的准确性 ...
大型语言模型 (LLM) 表现出了令人印象深刻的语言理解和生成能力,使它们能够回答各个领域的广泛问题。然而,这些模型并非完美无缺,并且经常产生包含错误或错误信息的响应。这些错误通常被称为幻觉,使得 LLM 在许多情况下不可靠,甚至无法使用 ...