DeepSeek开源周第三波：专为FP8设计的DeepGEMM，核心代码仅300行！

2025-02-27 12:53:00 · 机智鸟 · 用AI搞流量

关注机智鸟，持续为您推送DeepSeek开源周资讯。

开源周进行到第三天，DeepSeek不仅带来了技术，还传出R2在路上的好消息。据多位知情人士透露，DeepSeek 正在加速推出 R1 强推理大模型的后续版本。其中有两人表示，DeepSeek 原本计划在 5 月初发布 R2，但现在希望尽早发布。DeepSeek 希望新模型拥有更强大的代码生成能力，并能够推理除英语以外的语言。

今天开源的项目名叫 DeepGEMM，是一款支持密集型和专家混合（MoE）GEMM 的 FP8 GEMM 库，为 V3/R1 的训练和推理提供了支持，在 Hopper GPU 上可以达到 1350+ FP8 TFLOPS 的计算性能。

开源地址：https://github.com/deepseek-ai/DeepGEMM

DeepGEMM是一个专为简洁高效的FP8通用矩阵乘法（GEMMs）设计的库，具有细粒度缩放功能（如DeepSeek-V3中提出的方案）。

一、DeepGEMM的亮点

GEMM，即通用矩阵乘法，是线性代数中的基本运算，是科学计算、机器学习、深度学习等领域中“常客”，也是许多高性能计算任务的核心。

而DeepSeek这次开源的DeepGEMM，依旧是保持了“高性能+低成本”的特性，亮点如下：

高性能：在Hopper架构的GPU上，DeepGEMM能够实现高达1350+FP8 TFLOPS的性能。
简洁性：核心逻辑仅约 300 行代码，在各种矩阵形状上的性能与专家调优的库相当，甚至在某些情况下更优。
即时编译（JIT）：采用完全即时编译的方式，这意味着它可以在运行时动态生成优化的代码，从而适应不同的硬件和矩阵大小。
无重依赖：这个库设计得非常轻量级，没有复杂的依赖关系，可以让部署和使用变得简单。
支持多种矩阵布局：支持密集矩阵布局和两种 MoE 布局，这使得它能够适应不同的应用场景，包括但不限于深度学习中的混合专家模型。

二、DeepGEMM的性能如何？

DeepSeek 在 H800 上使用 NVCC 12.8 测试了 DeepSeek-V3/R1 推理中可能使用的所有形状（包括预填充和解码，但不包括张量并行），最高可以实现 2.7 倍加速。所有加速指标均基于内部精心优化的 CUTLASS 3.6 实现。

但根据项目介绍，DeepGEMM 在某些特定矩阵形状下的表现不够理想，有待优化。

密集模型的标准 GEMM

MoE 模型的分组 GEMM（连续布局）

MoE 模型的分组 GEMM（掩码布局）

三、DeepGEMM如何快速布局？

首先需要以下配置：

Hopper 架构的 GPU，必须支持 sm_90a；
Python 3.8 或更高版本；
CUDA 12.3 或更高版本，但为了获得最佳性能，DeepSeek 强烈推荐使用 12.8 或更高版本；
PyTorch 2.1 或更高版本；
CUTLASS 3.6 或更高版本（可通过 Git 子模块克隆）。

配置完成后，就是部署：

# Submodule must be cloned

git clone --recursive git@github.com:deepseek-ai/DeepGEMM.git

# Make symbolic links for third-party (CUTLASS and CuTe) include directories

python setup.py develop

# Test JIT compilation

python tests/test_jit.py

# Test all GEMM implements (normal, contiguous-grouped and masked-grouped)

python tests/test_core.py

然后是安装：

python setup.py install

最后在你的 Python 项目中导入 deep_gem，就可以使用了。

-END-

入群联系|加微信89931668

免费DeepSeek教程与学习资料

下载网址：qitongshe.com/deepseek

阅读全文

评论 0

评论

查看全部 0条评论

摩擦垫片正在发货中！！

“齿”艺精湛，畅享浙超

#008 子路老师讲官网小故事_流量线索性VS电线杆上贴狗皮膏药

一夜之间，选大学的逻辑全变了

不用写代码，什么工具可建出这样复杂交易系统的网站和小程序?

模板库第117次上新：多套智能制造与供应链行业官网模板，工业产品展示及订单全流程追踪功能的数字化网站主题风格

LTD荣获“2023年AI应用创新TOP50强”称号@920行行AI大会

杭州租车费用一览表

租车自驾有哪些注意事项？

数转教练徐一帆：实现销售业绩与数据资产双增长的“整合运营”策略

杭州游客包车游览静安寺

【招聘职位】数字营销专员

汽车租赁方式有哪些？

智驱未来：高效悬挂减速机开启盾构机动力传输新篇章

南通佰航无人机：智领低空未来

营销枢纽云第290次升级 | 名片设计制作小程序上线、扫纸质名片自动电子化 • 小程序订单自动同步微信后台 • App写文章可加摘要

自驾租车需注意哪些事项？

国际粮食减损大会分论坛聚焦全球议题，中外专家共议减损路径擘画节粮减损“无形良田”新图景

斜齿轮弧齿锥齿轮减速机：高空作业平台升降的强劲动力之源

厂房降温怎么选？蒸发式工业冷风机 vs 空调，康友用实测数据揭晓答案！

杭州车辆租赁

稀有高科荣膺“中国面料之星最佳科技创新奖”

一个图完美诠释了中国与全球的消费力！

齿轮传动浙超官方合作伙伴邀您共赴浙超之旅

起底LTD：1个方法5个工具，打造百亿市场增长的飞轮

营销枢纽CDP属性让独立站用户更好留存，促进成交转化

中秋出游怎么选车？

杭州包车服务热线

智能悬挂减速机驱动物料分拣输送系统升级革新

齿轮传动精工铸就·质领未来

DeepSeek开源周第三波：专为FP8设计的DeepGEMM，核心代码仅300行！

企通社 · 用AI搞流量

5个月前 · 公益传播商业,UP利它价值!

关注机智鸟，持续为您推送DeepSeek开源周资讯。

开源周进行到第三天，DeepSeek不仅带来了技术，还传出R2在路上的好消息。据多位知情人士透露，DeepSeek 正在加速推出 R1 强推理大模型的后续版本。其中有两人表示，DeepSeek 原本计划在 5 月初发布 R2，但现在希望尽早发布。DeepSeek 希望新模型拥有更强大的代码生成能力，并能够推理除英语以外的语言。

今天开源的项目名叫 DeepGEMM，是一款支持密集型和专家混合（MoE）GEMM 的 FP8 GEMM 库，为 V3/R1 的训练和推理提供了支持，在 Hopper GPU 上可以达到 1350+ FP8 TFLOPS 的计算性能。

开源地址：https://github.com/deepseek-ai/DeepGEMM

DeepGEMM是一个专为简洁高效的FP8通用矩阵乘法（GEMMs）设计的库，具有细粒度缩放功能（如DeepSeek-V3中提出的方案）。

一、DeepGEMM的亮点

GEMM，即通用矩阵乘法，是线性代数中的基本运算，是科学计算、机器学习、深度学习等领域中“常客”，也是许多高性能计算任务的核心。

而DeepSeek这次开源的DeepGEMM，依旧是保持了“高性能+低成本”的特性，亮点如下：

高性能：在Hopper架构的GPU上，DeepGEMM能够实现高达1350+FP8 TFLOPS的性能。
简洁性：核心逻辑仅约 300 行代码，在各种矩阵形状上的性能与专家调优的库相当，甚至在某些情况下更优。
即时编译（JIT）：采用完全即时编译的方式，这意味着它可以在运行时动态生成优化的代码，从而适应不同的硬件和矩阵大小。
无重依赖：这个库设计得非常轻量级，没有复杂的依赖关系，可以让部署和使用变得简单。
支持多种矩阵布局：支持密集矩阵布局和两种 MoE 布局，这使得它能够适应不同的应用场景，包括但不限于深度学习中的混合专家模型。

二、DeepGEMM的性能如何？

DeepSeek 在 H800 上使用 NVCC 12.8 测试了 DeepSeek-V3/R1 推理中可能使用的所有形状（包括预填充和解码，但不包括张量并行），最高可以实现 2.7 倍加速。所有加速指标均基于内部精心优化的 CUTLASS 3.6 实现。

但根据项目介绍，DeepGEMM 在某些特定矩阵形状下的表现不够理想，有待优化。

密集模型的标准 GEMM

MoE 模型的分组 GEMM（连续布局）

MoE 模型的分组 GEMM（掩码布局）

三、DeepGEMM如何快速布局？

首先需要以下配置：

Hopper 架构的 GPU，必须支持 sm_90a；
Python 3.8 或更高版本；
CUDA 12.3 或更高版本，但为了获得最佳性能，DeepSeek 强烈推荐使用 12.8 或更高版本；
PyTorch 2.1 或更高版本；
CUTLASS 3.6 或更高版本（可通过 Git 子模块克隆）。

配置完成后，就是部署：

# Submodule must be cloned

git clone --recursive git@github.com:deepseek-ai/DeepGEMM.git

# Make symbolic links for third-party (CUTLASS and CuTe) include directories

python setup.py develop

# Test JIT compilation

python tests/test_jit.py

# Test all GEMM implements (normal, contiguous-grouped and masked-grouped)

python tests/test_core.py

然后是安装：

python setup.py install

最后在你的 Python 项目中导入 deep_gem，就可以使用了。

-END-

入群联系|加微信89931668

免费DeepSeek教程与学习资料

下载网址：qitongshe.com/deepseek

阅读全文

收藏

0

0

全部评论

评论

查看全部评论

关注我们

长按下方图片「识别二维码」关注公众号

Copyright © 2025 杭州电子商务研究院引流文章与共享海报发布网站

备案号：浙ICP备16025413号-10

浙公网安备33010602013137号

友情链接:

杭州市瑞安商会杭州电子商务研究院域名注册商标注册专利申请爱名奖数字化网站 LTD方法论网站建设域名查询商标查询数字化经营思想 LTD学习中心 2b2c网址导航产业数字化网址导航 2b2c联盟dao tob总监联盟 TOB问答网页编辑器心蘭基金官微名片洪泽湖大闸蟹佰邦信息丽水山泉浙工大校友企业家联谊会

云计算支持反馈枢纽云管理