谷歌最后一位Transformer论文作者离职创业，野心不小，要颠覆当前生成AI范式

文章正文

发布时间：2023-08-18 17:35

他们将开发一种基于自然启示智能的新的基本模型：制造多个较小的人工智能模型，每个模型都有自己独特的优势和较小的数据集，让他们像鱼群一样协同起来，共同解决一个问题。

8 月 17 日，两位著名的前谷歌研究人员 David Ha、Llion Jones 宣布创立一家人工智能公司 Sakana AI，总部位于日本东京。

Llion Jones 是谷歌 2017 年研究论文 Attention is all you need 的第五作者，该论文介绍了 Transformers 深度学习架构，该架构后来成为 ChatGPT 以及当前由生成 AI 驱动产品的基础。

论文于 2017 年 6 月首次发表后，随着全球对生成人工智能人才竞争不断升温，这些合著者陆续离开谷歌，自立门户创业。Llion Jones 是八位作者中最后一个退出谷歌的人。

David Ha 是谷歌日本人工智能研究部门的前负责人。他于 2022 年离开谷歌，后担任 Stability AI 研究主管。Ha 是一位有着不凡研究品味并且笔耕不辍的人，写了不少鼓舞人心并颇有启发性的技术博客。

David Ha （右）与 Llion Jones（左）

David Ha 担任公司 CEO。据日媒报道，其退出 Stability 可能是因为工作内容与研究存在距离。Jones 退出谷歌可能因为老东家动作慢，这也是大公司面临创新时的通病。

Sakana AI 拒绝透露资金细节。

Sakana AI 将构建自己的生成 AI 模型 - 可以生成文本，图像，代码和其他多媒体的软件，研究灵感正是 Sakana 。

这个单词源于日语单词さかな（ sa-ka-na ），也就是「鱼」的意思。以此作为公司名称，是想唤起「一群鱼聚集在一起，从简单的规则中形成一个连贯的实体」的想法，根据两位联合创始人的说法，他们的研究灵感来自自然概念，如进化和集体智慧。

英国社会学家、哲学家 Andrew Pickering 曾在其著作 The Cybernetic Brain 中写道的：

「桥梁和建筑物的设计都是为了对环境漠不关心，承受波动，而不是适应它们。最好的桥是那种不管天气如何都屹立不倒的桥。」

两人认为，当前人工智能模型的建构方式就像工程学，构造神经网络就像建造一座桥梁或者建筑，其局限性在于它们被设计成脆弱、不可改变的结构。

比如，谷歌正专注于整个公司的生成人工智能，但「因为框架非常严格」，创新也变得很困难。

相比之下，在自然系统中，涌现起着重要作用。基于集体智慧的自然系统，其复杂设计对周围世界变化非常敏感，自然系统适应并成为环境的一部分。

他们希望利用这些进化、集群智慧等计算原理构建基础模型，解决当前范式下的系统成本和安全性等问题。

工程桥梁与军蚁形成桥梁

Sakana 竞争对手包括 Character.AI 、Cohere、Anthropic 等同一论文合著者创立的公司。他们在过去几个月中分别筹集到了不菲资金，Anthropic 最近刚获得来自韩国电信巨头的投资。

Sakana 也将与一些世界上最大的人工智能公司竞争，包括谷歌，Microsoft， OpenAI 等。

在公司官网 logo 设计上，这些竞争对手就像一只只黑色的鱼，基本上依循同一方向游走。而 Sakana 是那只红色叛逆的鱼，朝向另一个截然不同的方向，「代表着我们不想做其他人正在做的事情」：

制作基础模型的对手专注于使用大量数据、计算能力训练更大的人工智能模型，试图通过构建越来越大的人工智能系统来超越彼此。

Sakana 认为，自己或许能够用更少数据做更多的事情。

我们计划制造多个较小的人工智能模型，每个模型都有自己独特的优势和较小的数据集，并让这些模型像鱼群一样协同起来，共同解决一个问题，为 ChatGPT 等产品提供支持。David Ha 说，尽管他也澄清这还只是一个想法。

Logo 设计一方面希望人们可以联想到一群逻辑门形的鱼聚集在一起，通过简单的规则形成一个连贯的实体。另一方面，也希望人们知道，一只红色的叛逆鱼游向远方，代表着这家公司不想做其他人正在做的事情，而是真正致力于下一步的研究。

其实，在过去几年里，他们已经注意到在深度学习研究中出现了许多使用集体智慧创意的研究，特别是在紧急复杂系统领域。

例如，2021 年，David Ha 撰写了关于集体智慧的论文 The Sensory Neuron as a Transformer: Permutation-Invariant Neural Networks for Reinforcement Learning。

最近，David Ha 还与 Yujin Tang 合著了一篇论文 Collective Intelligence for Deep Learning: A Survey of Recent Developments ，系统调查了机器学习中越来越受欢迎的基于复杂系统的想法、例如群体智能，自组织和紧急行为等。

MAgent 包围战术的出现，来自 Collective Intelligence for Deep Learning: A Survey of Recent Developments。

两位创始人在日本工作了几年，之所以选择东京作为公司总部，主要是考虑到训练数据。他们强调培训适合非西方社会和文化的数据和模型，对于推动下一个技术突破很重要。

另外，也是为了避免北美研究人才的白热化竞争。他们认为，东京对非日本工人很有吸引力，因为它拥有受过高等教育的劳动力，而且是一座国际城市。

参考链接

https://blog.otoro.net/2022/10/01/collectiveintelligence/

https://twitter.com/hardmaru/status/1692170657470263347

https://twitter.com/SakanaAILabs/status/1692187814811820158

如何快速掌握大模型技术与实践？

机器之心主办的「Llama 2 大模型算法与应用实践」论坛，拆解以 Llama 2 为代表的大模型算法和应用，帮助你系统学习大模型算法理论，并上手搭建一个专属大模型，在实践中巩固学习成果。

你将了解：大模型技术细节、行业落地案例、多模态改造、量化及低成本微调……

投稿或寻求报道：content@jiqizhixin.com

标签