SWE-Bench Verified is Contaminated: What Comes Next — with OpenAI Frontier Evals team

AICodingLLMEvaluationSWE-Bench
Latent Space
Latent Space
27:10
2026/2/23

无效的视频链接

本次播客邀请了 OpenAI Frontier Evals 团队的 Olivia 和研究副总裁 Mia,共同探讨了 SWE-Bench 这一重要的代码基准测试的现状及其面临的挑战。SWE-Bench 曾是衡量代码生成模型进展的“北极星”指标,但随着模型能力的提升,该基准测试已出现饱和和污染问题,导致其衡量代码性能提升的能力下降。播客深入分析了 SWE-Bench 原始版本存在的问题,以及 OpenAI 为此进行的详尽的人工数据标注和清理工作,旨在提升基准测试的质量和可靠性。然而,即使经过改进,数据污染(模型在训练数据中接触到测试样本)和测试用例过于狭窄等问题依然存在,使得该基准测试的有效性受到质疑。播客还介绍了新的代码基准测试 Super-Bench Pro,它提供了更具挑战性、更多样化且污染更少的数据集,被认为是未来衡量代码生成模型能力的重要方向。此外,对话还触及了评估模型在更广泛的白领工作中的能力(如通过 HumanEval),以及未来评估方向,包括更长期的任务、代码质量、设计品味和实际应用价值等,强调了开发更具代表性和前瞻性的评估方法的重要性。