OpenAI称GPT-5在部分工作中可媲美人类

OpenAI称GPT-5在部分工作中可媲美人类

当地时间周四，OpenAI发布了一项新的基准测试，用于比较其AI模型与各行业专业人士的工作表现。这项测试名为GDPval，是一次初步尝试，旨在评估OpenAI的系统距离在经济价值工作上超越人类有多近。而经济价值工作是OpenAI开发通用人工智能 (AGI) 的关键环节。OpenAI表示，其GPT-5模型以及竞争对手Anthropic公司的Claude Opus 4.1“已经接近行业专家的工作质量”。GPT-5-high在40.6%的情况下被评为优于或与行业专家持平。而Claude Opus 4.1模型则在49%的任务中被评为不输于行业专家。OpenAI对此解释称，之所以Claude得分更高，部分原因是其倾向于生成更美观的图表，而非纯粹性能。

—— 财联社、Techcrunch

OpenAI称GPT-5在部分工作中可媲美人类

联系人表单