【事件】 2025年8月21日,DeepSeek正式发布V3.1版本,宣布采用UE8M0 FP8 Scale参数精度。这一技术专门针对下一代国产芯片设计,旨在提升计算效率并降低内存占用。寒武纪单日大涨12%,国产芯片板块迎来爆发式增长,背后是DeepSeek新版本与FP8国产算力生态的深度融合。

- DeepSeek新版本适配FP8国产芯片
DeepSeek-V3.1使用UE8M0 FP8 Scale参数精度,这是专为国产AI芯片优化的超低精度数值格式。FP8格式通过减少数据位宽,显著降低显存占用和计算资源需求。
相比传统FP16或FP32格式,FP8能实现算力密度倍增、功耗大幅下降和延迟极致压缩。这一适配意味着国产AI芯片-国产开源模型-下游应用的全方位生态闭环正在形成。
-赤兔引擎突破技术壁垒,首都在线率先完成FP8适配
清程极智与清华大学合作开源的“赤兔”推理引擎,实现了非英伟达Hopper架构GPU及国产芯片上运行原生FP8模型的突破。

在A800集群测试中,赤兔引擎展示出卓越性能:与vLLM等传统方案相比,GPU使用量减少50%,同时推理速度提升3.15倍。
-适配工作的重要性和必要性
FP8适配的重要性在于它打破了先进模型与高端硬件的绑定困境。此前,FP8模型主要依赖英伟达最新的Hopper架构GPU运行,现在则可以在国产芯片上高效运行。
这种适配的必要性体现在三个方面:降低对国外高端GPU的依赖、大幅减少企业部署大模型的成本、提升国产芯片的竞争力。
-清程极智的作用与首都在线的关系
清程极智是清华系科创企业,与清华大学翟季冬教授团队联合开发了赤兔推理引擎。该公司专注于大模型推理优化和国产算力适配。
首都在线与清程极智是战略合作伙伴关系,双方合作将依托各自资源和专业优势,在多个关键领域展开深度合作。

首都在线将其“一云多芯”业务布局与赤兔引擎的多样化芯片部署需求相结合,通过国产卡适配、模型调优等关键能力建设,更好地满足不同模型对算力方案的选择。
首都在线:2025 年半年报强调,搭建起国产 GPU 算力测试与适配平台。通过不懈努力,攻克了国产芯片与大模型兼容性的难题。

总结
首都在线通过与清程极智的深度合作,率先完成国产芯片的FP8精度适配,为大规模AI应用落地提供了坚实基础。随着“国产大模型+国产引擎+国产芯片”的完整技术闭环逐渐形成,中国人工智能产业有望在算力自主化的道路上加速前进。

