latte的文档

latte

个性签名 ...

SuperCorrect: Advancing Small LLM Reasoning with Thought Template Distillation and Self-Correction

GPT-4，DeepSeek-R1和ReasonFlux等大型语言模型（LLMS）在各种推理任务上显示出显着改善。但是，较小的LLM仍在复杂的数学推理上挣扎，因为它们无法有效地识别和纠正推理错误。最近的基于反射的方法旨在通过实现自我反思和自我纠正来解决这些问题，但它们在其推理步骤中仍然独立地检测错误时仍面临挑战 ...

0 0 0 0 2025/03/28 arXiv:2410.09008v3 latte

Evaluating Open-QA Evaluation

这项研究重点是评估开放式问题答案（Open-QA）任务，该任务可以直接估计大语言模型（LLMS）的事实。当前的自动评估方法已显示出局限性，表明人类评估仍然是最可靠的方法。我们介绍了一项新任务，评估了QA评估（QA-eval）和相应的数据集Evouna，旨在评估与Open-QA中标准答案有关的AI生成答案的准确性 ...

0 0 0 0 2025/02/08 arXiv:2305.12421v4 latte

Learn to Refuse: Making Large Language Models More Controllable and Reliable through Knowledge Scope Limitation and Refusal Mechanism

大型语言模型 (LLM) 表现出了令人印象深刻的语言理解和生成能力，使它们能够回答各个领域的广泛问题。然而，这些模型并非完美无缺，并且经常产生包含错误或错误信息的响应。这些错误通常被称为幻觉，使得 LLM 在许多情况下不可靠，甚至无法使用 ...

0 0 0 0 2025/01/15 arXiv:2311.01041v4 latte

SuperCorrect: Advancing Small LLM Reasoning with Thought Template Distillation and Self-Correction

Evaluating Open-QA Evaluation

Learn to Refuse: Making Large Language Models More Controllable and Reliable through Knowledge Scope Limitation and Refusal Mechanism

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您在阅读时勇敢地改正翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）