OpenAI发布新基准测试,评估AI模型与人类专业人士表现差距

AI 人工智能
AI 人工智能

OpenAI周四(9月25日)推出名为GDPval的新基准测试,评估其AI模型在多个行业与人类专业人士的性能对比。

测试显示,GPT-5和Anthropic的Claude Opus 4.1已接近行业专家水平,反映AI在经济价值任务上的进展。

测试覆盖美国国内生产总值贡献最大的九个行业,包括医疗、金融、制造和政府,涉及软件工程师、护士、记者等44种职业。

在GDPval-v0测试中,OpenAI邀请经验丰富的专业人士比较AI生成报告与人类报告的优劣。例如,投资银行家被要求为最后一英里配送行业制作竞争格局分析,并与AI报告对比。结果显示,增强版GPT-5(GPT-5-high)在44种职业中,40.6%的任务表现优于或等同于人类专家。Anthropic的Claude Opus 4.1则在49%的任务中达到或超过人类水平,OpenAI认为其高分可能与生成吸引人的图形有关,而非纯粹性能。

OpenAI首席经济学家Aaron Chatterji在接受TechCrunch采访时表示,GDPval结果表明,专业人士可利用AI模型分担部分工作,专注于更高价值任务。评估负责人Tejal Patwardhan指出,GPT-4o(15个月前发布)仅获13.7%的胜率,而GPT-5已接近三倍,显示快速进步。

目前,GDPval-v0仅测试报告撰写,未涵盖职业中的其他实际任务。OpenAI承认测试范围有限,计划未来开发更全面的测试,覆盖更多行业和交互工作流程。

硅谷常用AIME 2025(数学竞赛题)和GPQA Diamond(博士级科学问题)等基准测试AI性能,但部分测试已接近饱和,业界呼吁更能反映现实任务的评估。GDPval可能成为重要工具,但需更完善版本以证明AI可全面超越人类。