一译 —— 文档和论文翻译、对照阅读、讨论和社区

Mechanistic?

“机械解释性”一词的兴起伴随着对理解神经模型（尤其是语言模型）的兴趣越来越多。但是，这种行话也导致了很多混乱。那么，“机械”意味着什么？我们描述了该术语在可解释性研究中的四种用途 ...

0 0 0 2025/07/13 arXiv:2410.09087v1 parsifalster

Neuroplasticity and Corruption in Model Mechanisms: A Case Study Of Indirect Object Identification

先前的研究表明，有关一般任务的微调语言模型可以增强其潜在机制。但是，微调对中毒数据的影响以及这些机制的结果变化知之甚少。这项研究调查了在有毒微调过程中模型机制的变化，并确定了主要的腐败机制 ...

0 0 0 2025/07/13 arXiv:2503.01896v1 parsifalster

Rethinking Circuit Completeness in Language Models: AND, OR, and ADDER Gates

电路发现已逐渐成为机械解释性的重要方法之一，并且对电路完整性的研究也引起了人们的关注。不保证完整性的电路发现方法不仅会导致不固定在不同运行中的电路，还会导致关键机制被省略。不完整的性质来自电路中的存在或门的存在，通常仅在标准电路发现方法中部分检测到 ...

0 0 0 2025/07/13 arXiv:2505.10039v1 parsifalster

Are formal and functional linguistic mechanisms dissociated in language models?

尽管大型语言模型（LLM）的能力越来越多，但这些功能分布不均：它们在形式上的语言任务中表现出色，例如产生流利的语法文本，但在推理和始终如一的事实检索等功能性语言任务中挣扎。受神经科学的启发，最近的工作表明，要完成正式和功能性语言任务，LLMS应为每种任务使用不同的机制。这种本地化可以通过培训自发内置或自发出现。在本文中，我们问：具有快速改善的功能性语言能力的当前模型是否表现出正式和功能性语言机制的 ...

0 0 0 2025/07/13 arXiv:2503.11302v3 parsifalster

Optimal ablation for interpretability

可解释性研究通常涉及通过机器学习模型追踪信息流，以确定对感兴趣的任务执行相关计算的特定模型组件。先前的工作通过测量对该组件进行消融的影响或使用禁用组件模拟模型推断来量化模型组件对特定任务的重要性。我们提出了一种新方法，最佳消融（OA），并表明基于OA的组件重要性比通过其他消融方法衡量重要性具有理论和经验优势 ...

0 0 0 2025/07/13 arXiv:2409.09951v1 parsifalster

A Practical Review of Mechanistic Interpretability for Transformer-Based Language Models

机械解释性（MI）是一种新兴的解释性子场，试图通过反向工程进行内部计算来理解神经网络模型。最近，MI对解释基于 Transformer 的语言模型（LMS）引起了极大的关注，从而产生了许多新颖的见解，但引入了新的挑战。但是，尚未进行全面审查这些见解和挑战的工作，尤其是作为该领域新移民的指南 ...

0 0 0 2025/07/13 arXiv:2407.02646v3 parsifalster

MBC: Multi-Brain Collaborative Control for Quadruped Robots

在四足机器人的运动任务领域，盲目的政策和知觉政策都有自己的优势和局限性。盲目的政策依赖于预设的传感器信息和算法，适用于已知和结构化的环境，但在复杂或未知环境中缺乏适应性。感知策略使用视觉传感器来获取详细的环境信息，从而使其适应复杂的地形，但是在遮挡条件下，其有效性受到限制，尤其是在感知失败时 ...

0 0 0 2025/07/13 arXiv:2409.16460v1 lrk

A Survey of Controllable Text Generation using Transformer-based Pre-trained Language Models

（ctg）（nlg）（nlg）领域的新兴领域。它被认为对于开发更好地满足实际应用中的特定约束的先进文本生成技术至关重要。近年来，PLM）的方法 ...

0 0 0 2025/07/13 arXiv:2201.05337v5 kunling

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）