搜索
房产
装修
汽车
婚嫁
健康
理财
旅游
美食
跳蚤
二手房
租房
招聘
二手车
教育
茶座
我要买房
买东西
装修家居
交友
职场
生活
网购
亲子
情感
龙城车友
找美食
谈婚论嫁
美女
兴趣
八卦
宠物
手机
打印 上一主题 下一主题

DeepSeek代码开源第三弹:DeepGEMM代码库,V3/R1的训练推理动力

[复制链接]
查看: 11|回复: 0

19万

主题

19万

帖子

58万

积分

论坛元老

Rank: 8Rank: 8

积分
587895
跳转到指定楼层
楼主
发表于 2025-8-1 19:18 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
2月26日消息,在宣布开源MLA解码核FlashMLA以及DeepEP两款代码库后,DeepSeek在开源周的第三天宣布开放DeepGEMM代码库。
DeepSeek介绍,DeepGEMM是专为简洁高效的FP8通用矩阵乘法(GEMMs)而设计,它同时支持普通的和专家混合(MoE)分组的GEMM运算,为V3/R1训练和推理提供动力支持。该库使用CUDA编写,在安装过程中无需编译,通过在运行时使用轻量级即时编译模块来编译所有内核。
目前,DeepGEMM仅支持英伟达Hopper架构运算,为解决FP8张量核心累加不精确的问题,它采用了CUDA核心的两级累加(提升)方法。该代码库设计非常简洁,只有一个核心内核函数,代码量约为300行。
尽管其设计轻巧,DeepGEMM的性能在各种矩阵形状上与专家调优的库相匹配或超越。
DeepSeek团队在H800上使用NVCC 12.8测试了DeepSeek-V3/R1推理中可能使用的所有形状(包括预填充和解码,但没有张量并行)。
从测试结果来看,DeepGEMM计算性能最高可达1358 TFLOPS,内存宽带最高可达2668 GB/s。与基于CUTLASS 3.6的优化实现相比,可提速最高可达2.7倍。另外,分组GEMM(MoE模型)中连续性布局、掩码布局下可提速多达1.2倍。
另外,使用DeepGEMM需要的环境要求,包括:
* 必须支持Hopper架构的GPU,sm_90a
* Python 3.8及以上
* CUDA 12.3及以上(推荐12.8)
* PyTorch 2.1及以上
* CUTLASS 3.6及以上
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2006-2014 oopz大明星网,男女明星图片,明星八卦新闻,明星个人资料大全 版权所有 法律顾问:高律师 客服电话:0791-88289918
技术支持:迪恩网络科技公司  Powered by Discuz! X3.2
快速回复 返回顶部 返回列表