测试表明 DeepSeek V4 的性能比美国领先模型落后约 8 个月

测试表明 DeepSeek V4 的性能比美国领先模型落后约 8 个月

DeepSeek V4 是迄今为止在 CAISI 评估的各个领域(网络安全、软件工程、自然科学、抽象推理和数学)中性能最强的 PRC 模型。CAISI 在上述五个领域中的九个基准测试中对模型进行了评估,其中包括两个未受污染的独立基准测试:ARC-AGI-2 的半私有数据集和 CAISI 内部开发的软件工程评估平台 PortBench。DeepSeek V4 的性能比美国领先模型落后约 8 个月

DeepSeek V4 是迄今为止经 CAISI 评估的最强大的中国人工智能模型。CAISI的评估涵盖网络安全、软件工程、自然科学、抽象推理和数学等领域。
DeepSeek V4 在 DeepSeek 自行发布的评估中得分高于 CAISI 的评估结果。根据 DeepSeek 的数据,DeepSeek V4 的性能与大约两个月前发布的 Opus 4.6 和 GPT-5.4 相当。然而,CAISI 的评估(包括非公开基准测试)表明,DeepSeek V4 的性能与大约八个月前发布的 GPT-5 类似。
与其他功能相近的型号相比,DeepSeek V4 更具成本效益。与最具性价比的美国参考型号(GPT-5.4 mini)相比,DeepSeek V4 在 7 项基准测试中的 5 项上都更具成本效益。在这 7 项基准测试中,DeepSeek V4 的价格优势在 53% 到 41% 之间。
的价格优势在 53% 到 41% 之间。


—— 美国国家标准及技术研究所

*

发表评论 (0)
后一页 前一页