高端 GPU 持续缺货之下,一家要挑战英伟达的芯片初创公司成为行业热议焦点。
8 枚芯片跑大模型,就能支持 5 万亿参数(GPT-4 的三倍) 。
这是独角兽企业SambaNova刚刚发布的新型 AI 芯片SN40L——
型号中 40 代表是他们第四代产品,L 代表专为大模型(LLM)优化:高达1.5T 的内存,支持25.6 万个 token的序列长度。
CEO Rodrigo Liang表示,当前行业标准做法下运行万亿参数大模型需要数百枚芯片,我们的方法使总拥有成本只有标准方法的 1/25。
SambaNova 目前估值 50 亿美元(约 365 亿人民币),累计完成了 6 轮总计 11 亿美元的融资,投资方包括英特尔、软银、三星、GV 等。
他们不仅在芯片上要挑战英伟达,业务模式上也说要比英伟达走的更远:直接参与帮助企业训练私有大模型。
目标客户上野心更是很大:瞄准世界上最大的 2000 家企业。
1.5TB 内存的 AI 芯片
最新产品 SN40L,由台积电 5 纳米工艺制造,包含 1020 亿晶体管,峰值速度 638TeraFLOPS。
与英伟达等其他 AI 芯片更大的不同在于新的三层 Dataflow 内存系统。
520MB 片上 SRAM 内存
65GB 的高带宽 HBM3 内存
以及高达 1.5TB 的外部 DRAM 内存
与主要竞品相比,英伟达 H100 最高拥有 80GB HBM3 内存,AMD MI300 拥有 192GB HBM3 内存。
SN40L 的高带宽 HBM3 内存实际比前两者小,更多依靠大容量 DRAM。
Rodrigo Liang 表示,虽然 DRAM 速度更慢,但专用的软件编译器可以智能地分配三个内存层之间的负载,还允许编译器将 8 个芯片视为单个系统。
除了硬件指标,SN40L 针对大模型做的优化还有同时提供密集和稀疏计算加速。
他们认为大模型中许多权重设置为 0,像其他数据一样去执行操作很浪费。
他们找到一种软件层面的加速办法,与调度和数据传输有关,但没有透露细节," 我们还没准备好向公布是如何做到这一点的 "。
咨询机构 Gartner 的分析师 Chirag Dekate 认为,SN40L 的一个可能优势在于多模态 AI。
GPU 的架构非常严格,面对图像、视频、文本等多样数据时可能不够灵活,而 SambaNova 可以调整硬件来满足工作负载的要求。
目前,SambaNova 的芯片和系统已获得不少大型客户,包括世界排名前列的超算实验室,日本富岳、美国阿贡国家实验室、劳伦斯国家实验室,以及咨询公司埃森哲等。
业务模式也比较特别,芯片不单卖,而是出售其定制技术堆栈,从芯片到服务器系统,甚至包括部署大模型。
为此,他们与 TogetherML 联合开发了 BloomChat,一个 1760 亿参数的多语言聊天大模型。
BloomChat 建立在 BigScience 组织的开源大模型 Bloom 之上,并在来自 OpenChatKit、Dolly 2.0 和 OASST1 的 OIG 上进行了微调。
训练过程中,它使用了 SambaNova 独特的可重配置数据流架构,然后在 SambaNova DataScale 系统进行训练。
这也是这家公司最大被投资者热捧之外的最大争议点之一,很多人不看好一家公司既做芯片又做大模型。
给每家大企业打造 150 个大模型
在与 The Next Platform 网站交流时,CEO Rodrigo Liang 表示:
用于大模型训练的公开数据已快耗尽,但对参数数量的追求还在不断增加。
各种大模型的性能相差只有几个百分点,这不是大家应该玩的游戏。
他认为大模型与生成式 AI 商业化的下一个战场是企业的私有数据,尤其是大企业。
这些企业坐拥大量的数据,但自己不知道其中大部分内容是什么。
对于企业私有大模型的形态,SambaNova 也有与众不同的观点。
他们认为最终企业内部不会运行一个 GPT-4 或谷歌 Gemini 那样的超大模型,而是根据不同数据子集创建 150 个独特的模型,聚合参数超过万亿。
相当于把 GPT-4 等大模型内部的Mixture of Experts(专家混合)架构扩展到整个系统,称为Composition of Experts(专家合成)。
在企业运转的每个节点运行一个完整且经过专门调整的基础模型,分别用法律语料库、制造语料库、风险管理语料库、财富管理语料库、客户销售语料库、客户支持语料库等等不同数据训练。
这些专家模型之间通过一种软件路由或负载平衡器联在一起,收到推理请求后决定具体向哪个模型推送提示词。
这一策略与 GPT-4 和谷歌 Gemini 等做法形成鲜明对比,巨头大多希望创建一个能泛化到数百万个任务的巨型模型。
分析师认为技术上可能谷歌的做法性能更强,但 SambaNova 的方法对企业来说更实用。
没有任何一个模型或人能完整访问企业的所有数据,限制每个部门能访问的专家模型,就能限制他们能访问的数据。
斯坦福系芯片公司,华人工程师主力
SambaNova 成立于 2017 年,2020 年之前都比较低调。
联创 3 人都是斯坦福背景,连产品系列名Cardinal(深红色)都是斯坦福的昵称与代表颜色。
CEO Rodrigo Liang 是前 Sun/ 甲骨文工程副总裁,也有人将这个名字解读为暗指甲骨文老对头 IBM 的 DeepBlue(深蓝)。
另外两位联合创始人都是斯坦福教授。
CTO Kunle Olukotun是电气工程教授,因多核芯片架构方面的研究而闻名,开发了首批支持线程级推测 ( TLS ) 的芯片之一。
Christopher R é是计算机科学副教授,重点研究方向机器学习和数据分析的速度和可扩展性。
此外团队中还有不少华人工程师。
从官网公开信息来看,SambaNova 的领导团队中,至少有 3 名华人。
Jonathan Chang,拥有 UC 伯克利的机械工程学士学位以及南加州大学的 MBA 学位。
他在构建高增长方面拥有 20 多年的经验。加入 SambaNova 之前,Chang 在特斯拉工作了近 9 年。
Marshall Choy,此前曾担任甲骨文公司系统产品管理和解决方案开发副总裁,监督了数十个行业的企业硬件和软件产品的上市。
Penny Li,在 EDA 工具和微处理器设计方面拥有超过 27 年的经验。此前,她曾在 IBM 和甲骨文工作过。
如果去领英搜索还能发现更多华人团队成员。
目前 SambaNova 包含 SN40L 芯片的人工智能引擎已上市,但定价没有公开。
根据 Rodrigo Liang 的说法,8 个 SN40L 组成的集群总共可处理 5 万亿参数,相当于 70 个 700 亿参数大模型。
全球 2000 强的企业只需购买两个这样的 8 芯片集群,就能满足所有大模型需求。
参考链接:
[ 1 ] https://spectrum.ieee.org/ai-chip-sambanova
[ 2 ] https://www.nextplatform.com/2023/09/20/sambanova-tackles-generative-ai-with-new-chip-and-new-approach/
[ 3 ] https://sambanova.ai/resources/