OpenAI称GPT-5在部分工作中可媲美人类

OpenAI称GPT-5在部分工作中可媲美人类

当地时间周四,OpenAI发布了一项新的基准测试,用于比较其AI模型与各行业专业人士的工作表现。这项测试名为GDPval,是一次初步尝试,旨在评估OpenAI的系统距离在经济价值工作上超越人类有多近。而经济价值工作是OpenAI开发通用人工智能 (AGI) 的关键环节。OpenAI表示,其GPT-5模型以及竞争对手Anthropic公司的Claude Opus 4.1“已经接近行业专家的工作质量”。GPT-5-high在40.6%的情况下被评为优于或与行业专家持平。而Claude Opus 4.1模型则在49%的任务中被评为不输于行业专家。OpenAI对此解释称,之所以Claude得分更高,部分原因是其倾向于生成更美观的图表,而非纯粹性能。

—— 财联社Techcrunch

*

发表评论 (0)
后一页 前一页