GPT-4,DeepSeek-R1和ReasonFlux等大型语言模型(LLMS)在各种推理任务上显示出显着改善。但是,较小的LLM仍在复杂的数学推理上挣扎,因为它们无法有效地识别和纠正推理错误。最近的基于反射的方法旨在通过实现自我反思和自我纠正来解决这些问题,但它们在其推理步骤中仍然独立地检测错误时仍面临挑战 ...
这项研究重点是评估开放式问题答案(Open-QA)任务,该任务可以直接估计大语言模型(LLMS)的事实。当前的自动评估方法已显示出局限性,表明人类评估仍然是最可靠的方法。我们介绍了一项新任务,评估了QA评估(QA-eval)和相应的数据集Evouna,旨在评估与Open-QA中标准答案有关的AI生成答案的准确性 ...
大型语言模型 (LLM) 表现出了令人印象深刻的语言理解和生成能力,使它们能够回答各个领域的广泛问题。然而,这些模型并非完美无缺,并且经常产生包含错误或错误信息的响应。这些错误通常被称为幻觉,使得 LLM 在许多情况下不可靠,甚至无法使用 ...