DeepSeek-R1 的 W4A8 方案,部署成本减半】 火山引擎与 NVIDIA 深度协同,推出基于 NVIDIA TensorRT-LLM 推理框架的 DeepSeek-R1 加速优化方案,通过 W4A8 量化技术实现性能突破,在大幅降低模型存储需求和计算复杂度的同时,最大限度的保留了模型精度。基于该 TensorRT-LLM 的 W4A8 优化方案,可以在火山引擎 ecs.hpcpni3ln.45xlarge 实例规格上部署 DeepSeek-R1,相比非量化方案,在不影响模型本身效果的情况下(参照 MMLU 和 MATH-500 基准数据对比),量化方案的 Tokens 吞吐提升 100%,所需硬件资源及成本减半。 更多详情,请点击:
DeepSeek-R1的W4A8方案,部署成本减半】 火山引擎与NVI
梅达侃科技
2025-06-09 22:41:10
0
阅读:4