一译 —— 文档和论文翻译、对照阅读、讨论和社区

The Vendi Score: A Diversity Evaluation Metric for Machine Learning

多样性是机器学习（ML）许多领域（包括生成建模和数据集策划）的重要标准。但是，测量多样性的现有指标通常是特定于领域的且灵活性的限制。在本文中，我们通过提出VENDI评分来解决多样性评估问题，该评分将思想从生态和量子统计力学联系起来到ML ...

0 0 0 2025/06/09 arXiv:2210.02410v2 zhtzhtzht

ROCODE: Integrating Backtracking Mechanism and Program Analysis in Large Language Models for Code Generation

大型语言模型（LLM）最近在代码生成方面取得了令人印象深刻的性能，为程序员在软件开发方面提供了革命性的帮助。然而，由于 LLM 的自回归性质，它们很容易在代码生成过程中受到错误累积的影响。一旦产生错误， LLM 只能继续生成以此为条件的后续代码，因为他们无法调整先前的输出 ...

0 0 0 2025/06/09 arXiv:2411.07112v2 15966829631

ISPDiffuser: Learning RAW-to-sRGB Mappings with Texture-Aware Diffusion Models and Histogram-Guided Color Consistency

原始映射或传统摄像机图像信号处理器（ISP）的仿真旨在从智能手机传感器捕获的原始数据中生成DSLR质量的SRGB图像。尽管取得了与复杂的手工ISP解决方案相当的结果，但现有的基于学习的方法仍然在细节差异和颜色扭曲方面挣扎。在本文中，我们提出了ISPDiffuser，这是一个基于扩散的解耦框架，将原始到SRGB映射分为灰度空间中的细节重建，并将其从灰度到SRGB到SRGB ...

0 0 0 2025/06/09 arXiv:2503.19283v1 fany

Learned Cardinalities: Estimating Correlated Joins with Deep Learning

我们描述了一种新的深度学习方法来估计基数。 MSCN是一个多组的卷积网络，量身定制为代表关系查询计划，它采用设定的语义来捕获查询功能和真正的红衣主教。 MSCN建立在基于抽样的估计的基础上，当没有采样元素符合谓词并捕获结合跨相关性时，解决了其弱点 ...

0 0 0 2025/06/09 arXiv:1809.00677v2 ifzz

SelfReg: Self-supervised Contrastive Regularization for Domain Generalization

通常，深度学习的实验环境假设训练和测试数据集是从相同分布中取样的。但是，在现实情况下，可能发生两个数据集（域移动）之间的分布差异，这成为阻碍模型概括性能的主要因素。解决此问题的研究领域称为域泛化，它通过明确或隐式提取域不变特征来减轻域转移问题 ...

0 0 0 2025/06/09 arXiv:2104.09841v1 15966829631

Scaling Transformers for Discriminative Recommendation via Generative Pretraining

歧视性建议任务，例如CTR（点击率）和CVR（转换率）预测，在大规模工业推荐系统的排名阶段中起关键作用。但是，训练歧视模型遇到了数据稀疏引起的重大过度拟合问题。此外，这种过度拟合的问题会随着较大的模型而恶化，从而使它们的表现较小 ...

0 0 0 2025/06/09 arXiv:2506.03699v1 zw_data

Feature Stylization and Domain-aware Contrastive Learning for Domain Generalization

域的概括旨在增强对域移动的模型鲁棒性，而无需访问目标域。由于用于训练的可用源域是有限的，因此最近的方法着重于生成新型域的样本。然而，当合成丰富的领域时，他们要么要在优化问题上挣扎，要么引起类语义的扭曲 ...

0 0 0 2025/06/09 arXiv:2108.08596v1 15966829631

Is C4 Dataset Optimal for Pruning? An Investigation of Calibration Data for LLM Pruning

网络修剪已成为一种潜在的解决方案，以使LLMS更便宜。但是，现有的LLM修剪方法普遍依赖于C4数据集作为计算修剪分数的校准数据，而其最佳性尚未探索。在这项研究中，我们评估了在LLM培训和评估中最常用的广泛数据集，评估了LLM修剪的校准数据的选择，包括四个有关数据集的有关数据集以及包含九个数据集的三类下游任务 ...

0 0 0 2025/06/09 arXiv:2410.07461v1 Daenerays

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）