关于推理问题的大型语言模型(LLM)的性能通常不会概括为无分布。先前的工作声称,这可以通过一系列思想提示来缓解这种方法,以证明解决方案程序的方法,其直觉是可以在contept中教授llm作为解决该问题的算法。本文介绍了一个关于经典规划领域Blockworld的问题的思想链研究的案例研究,并检查了两个轴上两个最先进的LLM的性能:迅速给出的示例的一般性,以及每个提示中查询的问题的复杂性 ...
思想链(CoT)是一种广泛采用的提示方法,引发了大型语言模型(LLM)令人印象深刻的推理能力。受 CoT 顺序思维结构的启发,开发了许多 Chain-of-X (CoX) 方法来解决涉及 LLM 的不同领域和任务的各种挑战。在本文中,我们对不同背景下 LLM 的 Chain-of-X 方法进行了全面的调查 ...
在大型语言模型(LLM)推理中,多步骤过程已被证明可有效解决复杂的任务。但是,探索的深度会严重影响推理性能。自动决定深度的现有方法通常会带来高昂的成本和缺乏灵活性,从而破坏了模型的推理准确性 ...
在代码生成的背景下,已经证明了经过思考链(COT)推理是提高大语言模型(LLMS)的问题解决能力的有效技术。但是,现有的COT方法通常表现出“过度思考”的趋势,在该法学学士始终如一地应用推理策略而没有充分考虑任务的基本复杂性。这导致LLMS从 Token 中分配过多的计算资源,以相对简单的任务或已经明显的答案的问题 ...
我们提出了一种称为选项流(FOO)的新型推理方法,旨在解决大语模型(LLMS)中的内在偏见。 FOO使LLM可以系统地探索其推理中各种可能性的可能性,如基于Foo的代理系统用于自主解决机器学习任务(AUTOML)所证明的那样。我们的框架的表现优于最先进的基线,实现38的改进 ...
增强大语言模型的推理能力仍然是人工智能的关键挑战。我们介绍了Rdolt,《逻辑思想提示的递归分解》,这是一个新颖的框架,可显着提高LLM推理性能。 RDolt建立在三个关键创新上:(1)将复杂的推理任务递归地分解为渐进复杂性的子任务; (2)采用高级选择和评分机制来确定最有前途的推理思想; (3)整合一个知识传播模块,该模块通过跟踪强烈和弱小的信息传播来模仿人类的学习 ...
我们表明,通过缩放思维模板通过缩放思维模板推理层次结构的LLM推理可以有效地优化推理搜索空间,并优于OpenAI O1-Preview和DeepSeek V3(例如OpenAI O1-Preview和DeepSeek V3)的数学推理能力。我们仅使用8个GPU训练ReasonFlux-32b模型,并引入了三个创新:(i)一个结构化的通用思想模板库,其中包含大约500个高级思想模板,能够将其推广到类似或相关的推理问题; (ii)在一系列思想模板上而不是长COTS上进行层次增强学习,以优化基本LLM,以计划逐渐处理复杂问题的最佳模板轨迹; (iii)一个全新的推理缩放系统,通过在推理时间自适应地缩放思想模板来实现层次结构LLM推理。借助包含顺序思维模板的模板轨迹,我们的ReasonFlux-32b将数学推理能力显着提高到了最新的水平 ...
大型语言模型的最新进展表现出了通过思想链(COT)提示的显着推理能力,但通常以中间输出过度详细的陈述,这增加了计算开销。我们介绍了素描(SOT),这是一个新颖的提示框架,将认知启发的推理范式与语言约束结合在一起,以最大程度地减少 Token 用法,同时保持推理精度。 SOT被设计为一个灵活的框架,可以通过认知科学结合任何自定义的推理范式,我们将其实例化,以三个这样的范式实例化 - 概念链接,块状象征和专家词典 - 每个范式都适合不同的推理任务,并通过轻量级的路由模型动态选择 ...
大型语言模型(LLM)的最新进展通过长期的思考(COT)推理表现出了显着的推理能力。 R1蒸馏计划已成为具有提高推理能力的培训具有成本效益的模型的有前途的方法。但是,推动其有效性的基本机制尚不清楚 ...
大型语言模型(LLMS)计划的能力仍然是辩论的话题。一些批评家认为,提高LLMS推理技能的策略在计划任务方面无效,而另一些策略仅根据计划语料库的培训模型报告了强劲的结果。这项研究通过开发端到端的LLM规划师并采用不同的指标进行彻底评估来重新评估最新策略 ...