瞄准百亿参数级大模型,云从科技想降低行业大模型的使用门槛

文章正文
发布时间:2023-09-21 23:22

界面新闻记者 | 于浩

在ChatGPT所带来的“预训练大模型+人类反馈强化学习”技术范式的推动作用下,国内各大厂商都开启了大模型及相关应用生态方面的商业竞赛。 

无论是打出“1024对标ChatGPT”口号的科大讯飞,还是将自身新模型InternLM-123B与Meta llama2做横向对比的商汤,其着力点都在于千亿参数级大模型。而被称作“AI四小龙”之一的云从科技也在5月发布了其自研的从容大模型,后于8月迭代至1.5版本。

与上述企业不同,此次从容大模型1.5版本的重点在于参数量为130亿(13B)的行业大模型,试图在保证大模型算法推理性能的同时降低使用门槛。 

这与云从科技对自身的定义不无关系。自成立时,云从科技便自称为AI平台公司,为客户提供人机协同应用产品和整体操作系统。去年11月所提出的云从人机协同操作系统(Cloudwalk Operating System)概念展现出云从科技对于打造底层软件系统的野心,也使得积极与现实行业结合互动成为云从科技的业务底色。 

云从科技董事长周曦在业绩沟通会上曾定调,从容大模型后续版本的规划是以百亿模型为主体走行业落地方向。在接受界面新闻专访时,云从科技技术管理部负责人叶懋表示,后续迭代会注重指令遵循、任务分解、多模态、工作长短记忆等方面能力,大多与商业落地需要相关。 

以大模型为基础的服务形态也为云从科技带来了商业模式上的变化。叶懋告诉界面新闻,大模型本身的内容属性决定了提供服务的厂商需要不断做微调,如果客户有大减私有大模型集群的需求,厂商还需要提供平台运维支持。这改变了原先以项目制为主的商业模式,使得资金流动更灵活。

从财务数据来看,云从科技上半年的表现并不算理想,营业收入约1.64亿元,同比减少58.16%,归属于上市公司股东的净亏损约3.04亿元,较去年同期净亏损约3.25亿元相比略有收窄。

周曦表示,随着产品化和服务化的能力不断提升,大模型的边际效应也会逐渐显露出来,目前在下半年已经有基于模型形成的产品和方案,预计会带来试点收入。叶懋也强调了未来会基于头部客户的合作案例推出具备行业普遍性需求的应用,会优先从具备技术优势的方向着手,如数字人、营销文案生成等等场景。

以下为专访内容(有删改): 后续迭代方向与商业落地相关

界面新闻:此次从容1.5版本的着力点在于解决上下文长度、推理速度和运算成本之间的矛盾,团队在模型蒸馏(一种模型压缩技术)的过程中会遇到哪些技术难点?

叶懋:第一个就是教师模型(复杂的大型的模型)和学生模型(更小、更简单的模型)选型的问题,尤其是要蒸馏出来的学生模型。最后我们选择了比较成熟稳定的模型结构。

第二个比较核心的是数据分布的问题,即用哪些数据来驱动蒸馏的过程。在这方面我们的算法和数据团队花了很多功夫去研究,因为蒸馏出的学生模型性能损失和数据设计有比较大的关系。 

界面新闻:OpenAI Sam Altman曾提到当参数量级来到万亿,再向上提升所带来的边际收益会有收窄,你怎么看?

叶懋:我们认为参数规模增加的边际收益会收窄,甚至幅度会比较大。从技术上看,训练大模型通常需要参数规模乘以20的自监督数据。如果是万亿级的模型就需要20万亿的token,这么大一个量级的有效数据就很难提供。相当于一个人脑容量很大,但却没有书供他学习;推理成本方面,万亿级参数大模型也很难有客户用得起。 

界面新闻:在此前提下,作为教师模型的千亿级大模型,后续能力迭代的重点方向有哪些?

叶懋:我们比较关心的几个能力,一个是指令遵循的能力,因为应用落地的过程中,企业对这方面能力的需求很广泛。另一个是任务分解的能力,这在落地过程中也是比较重要的能力。其次就是多模态这方面,如果在企业应用场景里有多模态的能力就能打开很多场景。还有工作长短记忆方面,在应用场景里支持的上下文长度过短,比如只能记住三五句话是有问题的,以及对上下文中的内容或者关键信息(比如:数字)记忆、理解、推理的效果,这也会是我们重要研究的方向。目前从容大模型已经支持上下文长度超过5万字。

界面新闻:后续的迭代方向与大模型的商业化落地都是密切相关的?

叶懋:是的,这也是我们为什么这次重点推出13B的模型,就是考虑到在构建大模型体系和能力时,成本对企业来说是很重要的一个考量。如果是千亿级模型,企业自己做SFT(监督微调),光硬件投入可能就得上千万,这个对企业来说负担太重。所以我们在降低参数规模、推理框架优化、国产化适配网络这些方面都试图降低使用门槛。13B模型在NVIDIA T4、华为昇腾、寒武纪和海光上都是可以跑起来的,这对客户来说压力会小很多。

探索具备普遍性需求的行业应用

界面新闻:国内芯片品牌众多,从容大模型在面向不同客户群时是怎么做适配的?

叶懋:客观来说,大模型时代的芯片平台相对于上一个时代来说更统一一些,主要还是英伟达、寒武纪、华为晟腾等。落地的真正门槛在于,做出一个能够对话的大模型demo很容易,但是给到客户实际应用前还是需要基于客户数据做SFT、搭建向量数据库,这其实是愿意投入做大模型的AI厂商要一起攻坚去做的事。

界面新闻:小模型时代所积累下来的行业理解对于大模型微调会有帮助吗?

叶懋:非常有帮助。例如在做机场航班节点保障系统时,需要协调航司内部大概几十个部门的工作,环节步骤、合规标准等数据积累起来对大模型能力提升很有帮助,这就是非常好的思维链数据。

我们认为,某一场景下的大模型首先应该学习场景内的基础知识,第二就是学习这类思维链数据,明确做事的过程并一步步完成。这两类数据对模型的推理能力、落地应用都很有帮助。

界面新闻:目前头部大模型厂商都在积极对接行业头部客户做定制化产品,这类合作是由于商业变现的压力吗?

叶懋:商业化的压力是存在的,但是与头部客户合作并不是解决商业变现的直接手段。一方面,头部客户会成为标杆案例;另一方面,大模型也需要去学习优秀企业的知识储备,才能成为行业专家。

界面新闻:后续的商业价值释放的空间又在哪里?

叶懋:跟头部客户合作后会产出一些有普遍性的应用,可以向行业推广。目前我们把应用分为几个层次,第一阶段就是启蒙阶段的应用,比如交互类、知识问答类,这类应用很容易复制到腰部常规客户;接下来我们会做Copilot类应用,将企业里各种业务系统通过大模型更好地整合起来,我们把它叫做敏捷业务中台,员工可以向大模型提出需求,由大模型完成系统流程的对接。

界面新闻:这是否会影响到我们的商业模式?

叶懋:这是一个很重要的点。过去我们更偏向项目制,但现在由于大模型本身是有内容属性的,需要不断更新,所以就要在算法层面去做微调、与人类专家做对齐。

另外,有部分数据属于大模型的长期或短期记忆,不管是进入向量数据库还是做成prompt模板形式,都属于我们可以提供的数据服务;同时,如果客户要搭建私有大模型集群,我们也会提供平台运维的支持。客户企业可以按照年费的方式购买服务,这就导致我们不再是按项目营收,资金流动会更灵活。

界面新闻:云从西部智算中心未来算力规模预计达到5000p,目前算力搭建的进度如何?会面临哪些困难?

叶懋:目前算力规模已经上千p,主要的困难还是适配和效率的问题,因为英伟达的生态非常完善,CUDA(英伟达研发的平行运算平台及编程模型)能力很强大。国产的可以用,但是效率可能会降低。 

界面新闻:云从科技对大模型产品的整体设想是怎样的?

叶懋:我们不只是要做一个大模型,而是要做人机协同的操作系统,当然大模型是其中很重要的板块。在感知方面,CV大模型是我们一个投入很大的方向;认知层面大语言模型是核心;行动方面可能是驱动机械臂等等构成闭环。这是一个系统工程,把这些东西整合好是我们整个技术体系里最重要的任务。

首页
评论
分享
Top