OpenAI称GPT-5在部分工作中可媲美人类
当地时间周四,OpenAI发布了一项新的基准测试,用于比较其AI模型与各行业专业人士的工作表现。这项测试名为GDPval,是一次初步尝试,旨在评估OpenAI的系统距离在经济价值工作上超越人类有多近。而经济价值工作是OpenAI开发通用人工智能 (AGI) 的关键环节。OpenAI表示,其GPT-5模型以及竞争对手Anthropic公司的Claude Opus 4.1“已经接近行业专家的工作质量”。GPT-5-high在40.6%的情况下被评为优于或与行业专家持平。而Claude Opus 4.1模型则在49%的任务中被评为不输于行业专家。OpenAI对此解释称,之所以Claude得分更高,部分原因是其倾向于生成更美观的图表,而非纯粹性能。
—— 财联社、Techcrunch
当地时间周四,OpenAI发布了一项新的基准测试,用于比较其AI模型与各行业专业人士的工作表现。这项测试名为GDPval,是一次初步尝试,旨在评估OpenAI的系统距离在经济价值工作上超越人类有多近。而经济价值工作是OpenAI开发通用人工智能 (AGI) 的关键环节。OpenAI表示,其GPT-5模型以及竞争对手Anthropic公司的Claude Opus 4.1“已经接近行业专家的工作质量”。GPT-5-high在40.6%的情况下被评为优于或与行业专家持平。而Claude Opus 4.1模型则在49%的任务中被评为不输于行业专家。OpenAI对此解释称,之所以Claude得分更高,部分原因是其倾向于生成更美观的图表,而非纯粹性能。
—— 财联社、Techcrunch