“DeepSeek甚至绕过了CUDA”工程师灵魂提问：英伟达护城河还在吗？AI搜索引擎

DeepSeek | 2025-04-01 19:33

　　原标题：“DeepSeek甚至绕过了CUDA”，论文细节再引热议，工程师灵魂提问：英伟达护城河还在吗？

　　英伟达刚刚从DeepSeek-R1引发的4万亿元暴跌中缓过劲来，又面临新的压力？

　　来自Mirae Asset Securities Research（韩国未来资产证券）的分析称，V3的硬件效率之所以能比Meta等高出10倍，可以总结为“他们从头开始重建了一切”。

　　在使用英伟达的H800 GPU训练DeepSeek-V3时，他们针对自己的需求把132个流式多处理器（SMs）中的20个修改成负责服务器间的通信，而不是计算任务。

　　PTX在接近汇编语言的层级运行，允许进行细粒度的优化，如寄存器分配和Thread/Warp级别的调整。

　　这种编程非常复杂且难以维护，所以行业通用的做法是使用CUDA这样的高级编程语言。

　　有网友表示，如果有一群人嫌CUDA太慢而使用PTX，那一定是前量化交易员。

　　一位亚马逊工程师提出灵魂质问：CUDA是否还是护城河？这种顶尖实验室可以有效利用任何GPU。

　　甚至有网友开始畅想，如果“新源神”DeepSeek开源了一个CUDA替代方案……

　　来自p>

　　在实际编译流程中，CUDA代码首先被编译为PTX代码，PTX代码再被编译为目标GPU架构的机器码（SASS,Streaming ASSembler）。

　　Llama.cpp项目中的一个新PR请求，使用SIMD指令（允许一条指令同时处理多个数据）显著提升WebAssembly在特定点积函数上的运行速度，提交者表示：