测试表明 DeepSeek V4 的性能比美国领先模型落后约 8 个月

测试表明 DeepSeek V4 的性能比美国领先模型落后约 8 个月

DeepSeek V4 是迄今为止在 CAISI 评估的各个领域（网络安全、软件工程、自然科学、抽象推理和数学）中性能最强的 PRC 模型。CAISI 在上述五个领域中的九个基准测试中对模型进行了评估，其中包括两个未受污染的独立基准测试：ARC-AGI-2 的半私有数据集和 CAISI 内部开发的软件工程评估平台 PortBench。DeepSeek V4 的性能比美国领先模型落后约 8 个月

DeepSeek V4 是迄今为止经 CAISI 评估的最强大的中国人工智能模型。CAISI的评估涵盖网络安全、软件工程、自然科学、抽象推理和数学等领域。
DeepSeek V4 在 DeepSeek 自行发布的评估中得分高于 CAISI 的评估结果。根据 DeepSeek 的数据，DeepSeek V4 的性能与大约两个月前发布的 Opus 4.6 和 GPT-5.4 相当。然而，CAISI 的评估（包括非公开基准测试）表明，DeepSeek V4 的性能与大约八个月前发布的 GPT-5 类似。
与其他功能相近的型号相比，DeepSeek V4 更具成本效益。与最具性价比的美国参考型号（GPT-5.4 mini）相比，DeepSeek V4 在 7 项基准测试中的 5 项上都更具成本效益。在这 7 项基准测试中，DeepSeek V4 的价格优势在 53% 到 41% 之间。
的价格优势在 53% 到 41% 之间。

—— 美国国家标准及技术研究所

测试表明 DeepSeek V4 的性能比美国领先模型落后约 8 个月

联系人表单