韩国大语模型(LLM)的最新进展刺激了许多基准和评估方法,但是缺乏标准化的评估框架导致结果不一致和可比性有限。为了解决这个问题,我们介绍了Hret Haerae评估工具包,这是一个专门针对韩国LLM量身定制的开源,自我发展的评估框架。 HRET统一了各种评估方法,包括基于logit的评分,精确匹配,语言侵犯性惩罚和LLM-AS-A-A-Gudge评估 ...
0 0 0 2025/04/14 arXiv:2503.22968v2 cdp
有效地对视频中的动态运动信息进行建模对于动作识别任务至关重要。大多数最先进的方法都在很大程度上依赖于致密的光流作为运动表示。尽管将光流与RGB框架作为输入相结合可以实现出色的识别性能,但光流提取非常耗时 ...
0 0 0 2025/04/14 arXiv:2008.03462v1 3220220917
知识蒸馏是将知识从强大的教师转移到有效的学生模型的有效方法。理想情况下,我们希望老师越好,学生越好。但是,这种期望并不总是成真 ...
0 0 0 2025/04/14 arXiv:2209.13335v3 kkkrd
无服务器计算已成为基于云模型推断的引人注目的解决方案。但是,随着现代大型语言模型(LLM)的规模不断增长,现有的无服务器平台通常会面临大量的模型启动开销。这在有效扩展模型实例中构成了重大挑战,以适应现实推理服务中通常观察到的动态,爆发的工作量 ...
0 0 0 2025/04/14 arXiv:2502.09922v1 Extious
大语言模型(LLMS)功率的AI代理在应对医疗和医疗保健挑战方面具有很高的自主权。凭借访问各种工具的能力,它们可以在开放式动作空间内运行。但是,随着自主权和能力的提高,也出现了不可预见的风险 ...
0 0 0 2025/04/14 arXiv:2504.03759v1 mingkai
差异隐私(DP)是训练机器学习模型的流行机制,涉及训练数据中特定点的泄漏。差异隐私的成本是降低模型的准确性。我们证明,在使用私人随机梯度下降(DP-SGD)训练的神经网络中,此成本不是平等的:DP模型的准确性对于代表性不足的类别和亚组的精度下降了很多 ...
0 0 0 2025/04/14 arXiv:1905.12101v2 xyz_syx
大型语言模型(RLLM)(例如OpenAI-O1和DeepSeek-R1)的推理的最新进展已证明了它们在数学和编码等复杂领域中令人印象深刻的功能。其成功的一个核心因素在于应用长链(长COT)特征,从而增强了推理能力并能够解决复杂的问题。然而,尽管有这些发展,但仍缺乏对长床的全面调查,限制了我们对传统的短链(短COT)的区别的理解,并使关于“过度思考”和“测试时间扩展”等问题的持续辩论变得复杂 .. ...
0 0 0 2025/04/14 arXiv:2503.09567v3 iris
当LDR图像表现出饱和和明显的运动时,从多个低动态范围(LDR)图像中恢复了无幽灵的高动态范围(HDR)图像变得具有挑战性。最近在HDR成像场中引入了最新的扩散模型(DMS),这表明了有希望的性能,尤其是与以前的基于DNN的方法相比,在视觉上可感知的结果中。但是,DMS需要大型迭代术,以估计整个图像,从而导致效率低下,从而阻碍其实际应用 ...
0 0 0 2025/04/14 arXiv:2404.00849v1 jennylove

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)