AI总结 SWE-Bench Verified is Contaminated: What Comes Next — with OpenAI Frontier Evals team

本次播客邀请了 OpenAI Frontier Evals 团队的 Olivia 和研究副总裁 Mia，共同探讨了 SWE-Bench 这一重要的代码基准测试的现状及其面临的挑战。SWE-Bench 曾是衡量代码生成模型进展的“北极星”指标，但随着模型能力的提升，该基准测试已出现饱和和污染问题，导致其衡量代码性能提升的能力下降。播客深入分析了 SWE-Bench 原始版本存在的问题，以及 OpenAI 为此进行的详尽的人工数据标注和清理工作，旨在提升基准测试的质量和可靠性。然而，即使经过改进，数据污染（模型在训练数据中接触到测试样本）和测试用例过于狭窄等问题依然存在，使得该基准测试的有效性受到质疑。播客还介绍了新的代码基准测试 Super-Bench Pro，它提供了更具挑战性、更多样化且污染更少的数据集，被认为是未来衡量代码生成模型能力的重要方向。此外，对话还触及了评估模型在更广泛的白领工作中的能力（如通过 HumanEval），以及未来评估方向，包括更长期的任务、代码质量、设计品味和实际应用价值等，强调了开发更具代表性和前瞻性的评估方法的重要性。

SWE-Bench Verified is Contaminated: What Comes Next — with OpenAI Frontier Evals team

SWE-Bench Verified is Contaminated: What Comes Next — with OpenAI Frontier Evals team

AI生成总结及关键点