科技

OpenAI发布新基准测试，评估AI模型与人类专业人士表现差距

2025年09月25日 23:28

OpenAI周四（9月25日）推出名为GDPval的新基准测试，评估其AI模型在多个行业与人类专业人士的性能对比。

测试显示，GPT-5和Anthropic的Claude Opus 4.1已接近行业专家水平，反映AI在经济价值任务上的进展。

测试覆盖美国国内生产总值贡献最大的九个行业，包括医疗、金融、制造和政府，涉及软件工程师、护士、记者等44种职业。

在GDPval-v0测试中，OpenAI邀请经验丰富的专业人士比较AI生成报告与人类报告的优劣。例如，投资银行家被要求为最后一英里配送行业制作竞争格局分析，并与AI报告对比。结果显示，增强版GPT-5（GPT-5-high）在44种职业中，40.6%的任务表现优于或等同于人类专家。Anthropic的Claude Opus 4.1则在49%的任务中达到或超过人类水平，OpenAI认为其高分可能与生成吸引人的图形有关，而非纯粹性能。

OpenAI首席经济学家Aaron Chatterji在接受TechCrunch采访时表示，GDPval结果表明，专业人士可利用AI模型分担部分工作，专注于更高价值任务。评估负责人Tejal Patwardhan指出，GPT-4o（15个月前发布）仅获13.7%的胜率，而GPT-5已接近三倍，显示快速进步。

目前，GDPval-v0仅测试报告撰写，未涵盖职业中的其他实际任务。OpenAI承认测试范围有限，计划未来开发更全面的测试，覆盖更多行业和交互工作流程。

硅谷常用AIME 2025（数学竞赛题）和GPQA Diamond（博士级科学问题）等基准测试AI性能，但部分测试已接近饱和，业界呼吁更能反映现实任务的评估。GDPval可能成为重要工具，但需更完善版本以证明AI可全面超越人类。

关注纬度新闻网，更多信息请访问：Twitter Instagram Threads

相关文章

中国工信部：警惕开源智能体OpenClaw潜在安全风险

Anthropic报告：十个职业最容易受到人工智能影响

苹果发布新款MacBook系列 起售价1099美元

穆迪：美国五大科技公司积累6620亿美元数据中心租赁承诺

苹果发布新款MacBook系列起售价1099美元