“DeepSeek甚至绕过了CUDA”工程师灵魂提问:英伟达护城河还在吗?AI搜索引擎

  DeepSeek     |      2025-04-01 19:33

  DeepSeek是一款基于AI技术的智能搜索引擎,结合深度学习与自然语言处理,提供精准、高效的搜索体验。探索DeepSeek,感受未来智能搜索的无限可能!

“DeepSeek甚至绕过了CUDA”工程师灵魂提问:英伟达护城河还在吗?AI搜索引擎

  原标题:“DeepSeek甚至绕过了CUDA”,论文细节再引热议,工程师灵魂提问:英伟达护城河还在吗?

  英伟达刚刚从DeepSeek-R1引发的4万亿元暴跌中缓过劲来,又面临新的压力?

  来自Mirae Asset Securities Research(韩国未来资产证券)的分析称,V3的硬件效率之所以能比Meta等高出10倍,可以总结为“他们从头开始重建了一切”。

  在使用英伟达的H800 GPU训练DeepSeek-V3时,他们针对自己的需求把132个流式多处理器(SMs)中的20个修改成负责服务器间的通信,而不是计算任务。

  PTX在接近汇编语言的层级运行,允许进行细粒度的优化,如寄存器分配和Thread/Warp级别的调整。

  这种编程非常复杂且难以维护,所以行业通用的做法是使用CUDA这样的高级编程语言。

  有网友表示,如果有一群人嫌CUDA太慢而使用PTX,那一定是前量化交易员。

  一位亚马逊工程师提出灵魂质问:CUDA是否还是护城河?这种顶尖实验室可以有效利用任何GPU。

  甚至有网友开始畅想,如果“新源神”DeepSeek开源了一个CUDA替代方案……

  来自p>

  在实际编译流程中,CUDA代码首先被编译为PTX代码,PTX代码再被编译为目标GPU架构的机器码(SASS,Streaming ASSembler)。

  Llama.cpp项目中的一个新PR请求,使用SIMD指令(允许一条指令同时处理多个数据)显著提升WebAssembly在特定点积函数上的运行速度,提交者表示: