监督的微调(SFT)通常用于训练语言模型,以模仿给定指令的带注释的响应。在本文中,我们挑战了这个范式,并提出了批评微调(CFT),该策略学会学会批评噪音响应,而不是简单地模仿正确的响应。受到强调批判性思维的人类学习过程的启发,CFT鼓励了更深入的分析和经常被标准SFT忽略的细微理解特征 ...

0 1 0 0 2025/02/09 arXiv:2501.17703v3 18636279200

现有的大型语言模型很难支持多种低资源语言,特别是资源极低的语言,因为这些语言可用于有效参数更新的训练数据很少。因此,我们调查 LLM 是否可以仅通过提示即时学习一门新语言。为了研究这个问题,我们收集了壮语的研究套件,目前尚无 LLM 支持这种语言 ...

0 0 0 0 2025/01/15 arXiv:2402.19167v2 18636279200

幻觉对大语言模型(LLM)的实际实施提出了重大挑战。参数化知识在生成事实内容时的利用受到 LLM 知识有限的限制,可能会导致内部幻觉。虽然整合外部信息有助于填补知识空白,但它也带来了不相关信息的风险,从而增加了外部幻觉的可能性 ...

0 0 0 0 2024/11/11 arXiv:2402.10612v2 18636279200

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)