
当前的LLM与人类主人的水平之间仍然存在很大的差距。近年来,LLM(例如GPT-4,Claude,Gemini等)在发电代码领域取得了重大发展。它们不仅在像HumaneVal这样的经典编程基准上表现良好,而且在某些试验中还超过了人类的平均水平。它促使许多研究人员声称LLM发布了人类程序员,尤其是在竞争计划领域。进一步,在集成外部工具之后,某些型号(例如O3和O4-Mini-High)甚至在CodeForces Platform-a Mark上获得了2700多个ELO评级,该标记已达到了最高的0.1%的比赛。但是,对此数量的简单评论可以真正反映出该模型解决复杂问题的能力吗?问Youthat我们有一些问题:LLM确实有与领先的人类玩家相同的推理吗?实际推理能力有多少高模型分数,以及有多少依赖外部工具的结果?为了回答上述问题,包括纽约大学和普林斯顿大学在内的八家机构的研究人员建议,LiveCodeBench Pro提出了一场非常困难的竞争基准竞争竞争。值得一提的是,这项研究中的许多人参加了国际算法的比赛。例如,在纽约大学学习的本科生Zheng代表ICPC世界决赛的学校。 LiveCodeBench Pro包含584个高质量问题,截至2025年4月25日,所有这些都来自NG CodeForces,ICPC系列和IOI系列等顶级活动。这些问题将继续进行更新,以减少可能的数据污染。此外,所有问题均以奥运会奖章的算法类别为标志,并且模型生成提交未能作为线分析提交线路。纸张标题:Livecodebench Pro:奥运会奖牌获得者是竞争者的LLMS法官ve编程?纸质地址:https://arxiv.org/pdf/2506.11928项目主页:https://livecodebenchpro.com/github:https://github.com/github.com/gavinzhengoi/gavinzhengoi/livecodebench-pro和DeepSeek R1。基于此数据和审核框架,本文发现,当前的切割模型仍然存在重大缺点:没有工具支持,最多的性能模型在中等难题的问题中只有53%的通行证@1,对于非常困难的问题(0%)完全无法使用(0%),这些地方是人类专家仍然可以扮演可靠的角色。 LiveCodeBench Pro的排名此外,本文还发现,LLM在重大实施问题上表现良好,但是在处理复杂的算法推理和对边境状况的检查时的表现不佳,甚至经常发展信心和错误的解释。高分模型更多地取决于SUP辅助工具的港口比真正的推理技能。 LiveCodeBench Pro的出现表明,当前LLM和人类主层之间仍然存在显着差距。性能和talakethat中的发现是对算法的各种范式的讨论。大型语言模型在密集和逻辑问题中更好地执行,但在观察或强化案例问题上不擅长。本文显示了各种编程问题中6个模型的性能。研究发现,人们在不同的问题标签上的表现更加不断地表现,而模型评分由于不同的标签而显示出更多的差异。主要发现是总结如下:密集知识问题是大语言模型的舒适区。在大多数模型中,标签,段树,图理论,树木和数据结构等标签的问题显示出高性能。这些问题通常是通过已知模板(例如,阵列的Trees,Digestella算法,欧盟)解决的。LER路径)。这正是大语言模型的优点,因为所需模式在训练数据中实际上出现了,而大型语言模型的句法正确模板的开发比人类更容易。逻辑问题也通过同样好的结果来实现。大型语言模型在逻辑类别中也表现良好,例如组合数学,数学,动态编程和二进制搜索。这些类别需要更多的图案思维方式(例如,将组合者的身份应用于组合数学,在动态编程中发展状态空间并采用转移功能),并且可能会从整洁的脚手架代码中受益。在密集观察问题上的表现不佳。对于游戏理论,对问题(临时),贪婪算法和建设性问题的分析,模型的大多数标记都低于1500以下,大大低于其具有知识和逻辑密集型的类别的表现。解决这些问题通常取决于对小说的观点的发现,这些观点无法仅获得 - 莫名其妙的代码片段。大型语言模型在分类的讨论中发现了困难。值得注意的是,所有模型在分类讨论中均表现不佳。除了O4-Mini-High外,每个模型在此类别中的其他类别类别低于1500点,甚至O4-Mini-High得分。 MANU -MANU检查表明,未能识别和处理边界情况是所有模型上的已知失败模式。交互式问题暴露了模型的重要模型。在互动问题中,O4-Mini-High得分左右左右,其他模型也显示了斗争。在论文附录中讨论了这种不良表现的可能原因,以及解决互动问题的异常O3米尼高度行为。 诊断挫败感和与人比较的原因2。O3-Mini是比算法逻辑错误和错误观察中的人要多,但比实施逻辑错误要少。研究人员专门使用了最佳可读的O3-Mini模型进行注释和深入分析,并显示了图片图3的结果。概念误差是模型失败的主要原因。分支“虚假思维”中最大的红色家伙表明,在125个标签问题之外,O3 Mini在算法的逻辑上犯了34个错误,而不是人类锦标赛。这些是概念中的真正错误,而不是表面的过程错误。实施是模型的优势。与基础编码有关的指标通常在O3-Mini中有用。例如,在125个标记问题中,O3-Mini比人类产生的逻辑实现错误少25个。值得注意的是,所有观察到的启动错误和输入格式错误都会出现在人提交的代码中。评论结果的细分市场也证明了这一点S:O3-Mini几乎没有“运行时错误”,该错误具有相对较小的实现级别错误的影响。一个明显的例外 - thelimit空闲时间超过了。 “审查结果”下的深红色矩形表明,出现了“超过闲置时间”的罚款。它源自O3-Mini在互动问题上的独特行为,包括其大多数被认为是“意外时间”的提交。无法采样输入。该树图的特点是,在“失败”类别中,有45个O3微尼的机会,在这些情况下,解决方案可以累积,但是在问题的样本输入中,该解决方案失败了。与人不同,O3-Mini在制作前不能在本地编译或运行样品输入。具有终端和工具呼叫功能的模型(例如O3和O4-Mini-High)有望造成许多易于发现的错误。总而言之,这篇评论表明,Willg语言模型的代码通常更可靠从战术上讲,但是要开发正确的算法或从问题中正确观察所需的高水平推理时,困难。虽然正式注释仅涵盖O3-MINI提交,但初始手动检查表明大多数现有语言模型具有相同的错误模式。 发现了多次尝试(PASS@K)对模型性能的影响3。增加尝试的数量(Pass@k)可以显着提高模型的性能,但是由于高缺陷问题,它仍然会失败。 OpenAI报道说,具有终端访问权限和通过@K的O4-Mini在CES 2719上的ELO代码Foran标记中,与从O4-Mini-High检查中获得的2116分(无终端访问,通过@1)。这种差异促使研究人员研究了访问终端访问和工具调用的影响,以及允许多次尝试的效果(Pass@k)。如图4所示,模型标记将显着通过增加K的值来改善。例如,O4-Mini-Medium Mark从1793点上升到@1,当K升至10时转换为2334点。对于O4-Mini-low和O4-Mini-High,也观察到类似的登山者。尽管许多尝试的收益很大,但场景标记仍然比报道的2719点少400点。因此,可以想象其余空间主要归因于工具调用和终端访问的好处。如图5所示,将指出的是,在最大的改进类别中,其中三个游戏理论,贪婪的算法以及对EndType-ARE观察问题的讨论通常可以通过假设的结论来解决。以较高的频率进行有根据的预测将大大增加正确解决这些问题的可能性。概念模型与不合格的模型4之间发现的比较:推理能力带来了最大的比较组合数学的改善,在密集类别中有了更大的改善,而强度观察类别的改进相对较小。研究人员回顾了使推理能力对问题的每个标签的影响,对大语言模型。具体而言,他们直接将概念模型和无私的模型进行比较,以控制模型,培训数据和其他外部hilan an的架构的变化,从而排除了理解的真正影响。这种分离对于证明扩展方法对在显示额外的心理或测试链时解决问题的能力的真正影响至关重要。该研究特别选择的是比较DeepSeek V3和R1以及Claude 3.7十四行诗的非思想和思想版本。如图6所示,这是两个基本的切割模型,既有不是推断的版本,又可以预见到相应版本的版本。主要发现是总结如下:组合数学的最大改进:这两种模型均显示组合数学的最大改善,DeepSeek-R1得分近1400点比V3高1400点。在类别强烈的知识上的改进更大:为了使LIFTTuID能够为密集的知识(例如数据结构和细分树)带来更大的改进(例如,在Deptseek中,细分树问题的标记增加了近700点;在Claude中,数据结构问题的标记增加了约500点)。这与期望一致,因为这些类别中的问题通常涉及结构化思维。 limitadong pagpapabuti sa mga kategorya na masinsinang pagmamasid:kapansin -pansin,para sa teorya ng laro,mga sakim na algorithm,tiyak na pagsusuri na tiyak na tiyak na tiyak na resighta na soragea Madalas na Nakatagpo ng mga paghihira的maraming pagmamasidP Sa Maga Modelo Ng Wika,Kahit Na Ang Pag -Iintindi Ay Pinagana,Nagdadala Lamang Ito ng Isang Bahagyang Pagpapabuti(Halimbawa,Para Sa Deepseek,Ang Pagpabuti Sagame理论几乎是cla; claude the Ristrest the Ristrest the Ristrest;它提出了一个问题:当前的思维方法是否对这类问题有自然的限制?或者存在阈值的出现 - 即,当理解在某个时刻发展的能力时,它最终可能会在这些领域中释放出明显的性能。