云知声：通往AGI的路不只有一条

媒体深度丨云知声：通往AGI的路不只有一条

2023-04-03

云知声董事长梁家恩最近开始推动新一轮技术升级，并频繁接待客户和投资人。ChatGPT走红之后，外界惊叹ChatGPT的表现，但对于人工智能业界而言，这意味着技术范式的转变，更意味着通向AGI的大门可能正在开启。

入行25年的AI老兵和资深团队创立公司11年后发现，自己正置身当下最火热的跑道上，而这群AI老兵要投身新一轮变革浪潮的热情依然澎湃。

梁家恩给这场大模型的角力划定了时间表，“今年之内肯定要有一个行业内认可的千亿级大模型成果出来”。

从2012年开始做深度学习，到后来搭建AI全栈能力，再到大模型角力，这已是云知声的第三次重大技术体系升级。而过去十一年对人工智能的理解和布局，在此刻都变成了现成的武器和财富。如果把这波热潮里的参与者视作一个集合，梁家恩认为，他们有底气成为走到下一轮的“分子”之一。而业界认为，这样的团队目前两只手能数得过来。

“这是令人兴奋的技术”

“这是让我入行25年来感到最exciting的技术突破。”梁家恩告诉数智前线，ChatGPT推出之后，人工智能的范式正在转变。实际上，此前10年，深度学习带来了一波人工智能的增长，但并未改变AI的范式。

云知声创立的2012年，赶上了深度学习的崭露头角，在那一年9月的ImageNet视觉识别挑战赛上，AlexNet异军突起，碾压了所有对手。它的创造者之一Hinton教授， 2006年在Science发起“深度学习”革命后，在重大技术评测上首次获得突破性进展，展示了深度学习的威力。云知声团队虽然在那一年6月刚成立，也迅速入局深度学习，成为国内最早将该技术应用到产业服务的团队之一。

230403-媒体01.jpg

深度学习虽然比传统的统计学习展现出了更大威力，但并未跳出旧的AI范式——预先定义任务目标，采集该任务的大量数据并进行人工标注，通过模型训练达到最优效果，切换不同任务目标时，往往需要重新采集数据和训练，无法实现不同任务间的高效迁移——被称为“窄AI”或“弱AI”，本质上是某种“高级自动化”。一个例子是，针对银行开发的模型，不能用于保险公司的类似任务，甚至同一家银行的业务流程变了，模型也要重新训练。这导致很多踌躇满志的人工智能企业变成了项目型公司，制约了人工智能的潜力。

业界称之为AI1.0时代。智源研究院总工林咏华称，由于这样的局限性，过去几年人工智能又开始走向一个低谷。

2017年，谷歌提出了Transformer模型。“我们当时判断这个模型具备一统江山的能力，因为对序列建模问题而言，从数据驱动的数学优化意义上它太完美了。”梁家恩回忆。谷歌、OpenAI等开始尝试它的各种实现（包括GPT、BERT、T5等），通过大规模无监督预训练基础模型，实现多种任务的快速迁移，都取得了相当优异的成果，将语言理解问题真正纳入深度学习框架之中。

真正推动AI进入2.0时代的，还是2022年11月，ChatGPT的推出。它作为一个人工智能语言大模型，拥有自然语言理解、上下文学习、常识推理和高质量应答等特点，效果惊艳四座。

“ChatGPT将人工智能研究的核心带回到语言本身，而语言其实是人类智能的一个核心载体。”梁家恩分析说，“语言理解也被誉为人工智能皇冠上的明珠，语言跟知识和智能本身是紧密结合的。”ChatGPT开放公测后，清华大学刘嘉教授感叹，ChatGPT不仅有功能性，同时还是人格化，它终于让人们看到了“通用人工智能的一线曙光”。

“这是一个非常大的突破，我们认为这是一个从专用AI转向通用AI（AGI）的突破口。”梁家恩称。这也直接带动了云知声的第三次技术升级。这将是一次大的跳变。“一些人认为ChatGPT只是一个聊天的人工智能，但对于我们团队而言，把它放在了向通用AI演进这样的级别来看待的，虽然通用AI还有很长的路要走。”

梁家恩称，云知声要在人工智能决赛圈有所作为，就必须跑通从专用AI向通用AI的通路。而此前，他们对技术的紧密跟踪、储备和守住的盘面，让其有信心抓住这一波浪潮。

在2012年入局深度学习之后，云知声曾在2016年开展了第二次技术升级。那一年阿尔法狗击败人类围棋冠军李世石时，云知声早将深度学习在物联市场应用起来了。“我们的关注点是深度学习要有一个强大的算力支撑。实际上，我们关注到阿尔法狗的研发团队Deepmind，正是借助谷歌超强的并发计算能力，同时调度上千个GPU来完成的，这代表了未来深度增强学习的大规模计算趋势。”

于是，在阿尔法狗击败李世石的当月，梁家恩就赶到了硅谷，与硅谷专家探讨如何面向深度学习构建大规模超算平台。最终，他们花了将近一年时间，将Atlas大规模机器学习超算平台构建了起来，并逐步布局知识图谱和多模态等全栈AI技术，从一家语音识别公司向更深层延伸，开始从“声(感知)”到“知(认知)”的技术体系升级。

现在，云知声将面临第三次跳变。

先质后量，打通大模型新范式

在ChatGPT推出后，云知声已开始训练模型，但数智前线获悉，在云知声看来，本轮技术升级并非只是简单的 “大力出奇迹”，而是开启了新的“数据动力学范式”，需要从数据规模、质量和模型调教下手，才能真正解决问题，“大力”只是“必要不充分条件”。按照公司的规划，技术升级将分两步推进：先在六七百亿参数提升优质数据规模，再扩大到千亿级参数提升大模型效果。

为什么要分两步走？这与技术实现和商业落地相关。

按照业内的实践，在优质数据规模足够大情况下，模型越大效果越好，但训练成本也越高。从六七百亿参数起步，是因为从业内成果分析看，只有参数规模达到五六百亿以上，模型才可能出现“智能涌现”。这是一种神奇的现象，如同一个小孩子，到了某个年龄突然“开窍”了，发生了从量变到质变的“跳跃”。“我们判断六七百亿参数的模型，是比较有把握出现涌现效果的，先以这个参数规模，提升优质数据规模和大模型效果，再做千亿以上参数来提高大模型性能。Deepmind和Meta等最近都放出这种规模的模型，效果都还不错。”梁家恩称。

但今年不只是要做好大模型，还要考虑产业实际应用的成本和部署等因素。云知声认为，大模型训练成功后，以目前的算力成本，可能需要把大模型参数量通过蒸馏技术压缩10倍才能满足实时性和规模化应用要求，这要视具体应用场景而定。云知声在做BERT模型时，就积累了丰富的经验，通过模型蒸馏提速近百倍，而实际性能损失很小。“就像打击索马里海盗，不能每次都开着航母过去。”梁家恩称，“我认为OpenAI最终可能也会走这个路径，只不过它现在不那么着急，它现阶段要先砸资源摸到大模型的潜力和边界，不需要太关注成本。”

230403-媒体02.jpg

GPT是一个端到端打通的框架，同时结合了很多学习能力，比如小样本学习，让它有更强的适应能力。同时，OpenAI的CEO Sam Altman透露，他们使用的数据远比外界想象的要多得多，大量工作也围绕在数据方面，为此还引入了新的数学模型。

“我们首先把它的端到端打通，再针对性地去解决问题，有些可能是从算法角度去优化，有些可能要通过数据层面去优化，包括并入医疗数据后，哪些跟现有的知识不能很好的融合，都要针对性做研究。”

云知声以前基于BERT模型，现在需要切换到以GPT为模式的框架。两者本质上都基于Transformer模型，有不同的优缺点和特性。云知声这次并不需要从底层开始干，而是进行模型架构的切换，“会比从头做的变量要少很多，而且有行业应用场景、客户和数据的积累”。

按照计划，云知声将在今年第二季度开启针对性优化，并与第一批客户衔接，在实战场景中解决问题。

在落地行业上，物联和医疗是两个优先的行业，此前他们在这两个领域投入和积累最多。但两个行业的侧重点并不一样。物联行业本质上是提升交互能力，当大模型技术升级以后，人机对话就不会“聊死了”，不过，这些是通用场景，拓展应用场景“广度”。

在医疗行业，问题的侧重点则是精准度和可控性。这需要结合知识图谱和行业问题进行强化学习。“很多大模型的可解释性、可控性，要通过后端这个手段来解决掉，否则无法有效应用到严肃场景中”。

大模型也将给之前的应用带来改变。云知声2016年进入医疗行业，主要利用人工智能技术，解决病历的语音录入、缺陷检查、医保控费等问题。“如果有了比较好的生成式AI能力，我们可以根据已收集的数据，协助医生生成高质量的病历和诊疗方案。”

在美国休斯顿的MD安德森癌症中心，已有医生向ChatGPT询问病人现在的情况以及治疗方案，得到的结果和中心诊断的结果几乎一模一样。梁家恩称，大模型在医疗行业的终极目标，肯定是成为一个辅助诊疗工具，但还有相当长的路要走，精准度和可靠性是必须解决的问题。

从全栈能力到MaaS模式升级

新的浪潮来临时，创业距今已有十一年的云知声站到了一个新的风口。就像一场球赛进行到中场，一个站在球门附近的人，“突然”接到了球。

这是一支深度思考行业趋势，密切关注行业前沿技术发展的团队，同时也在行业里有了多年积累，已形成全栈能力，给新一轮技术升级奠定了扎实的基础，也为打造以大模型为基础的MaaS（Model as a Service，模型即服务）平台做好准备。

在最底层的算力层面，受AlphaGO的启发，2016年开始云知声团队开始建立大规模超算平台Atlas。Atlas在希腊神话里是泰坦族擎天神，用双肩支撑苍天。当时，他们看到能同时调度上千块GPU去完成一个任务的能力，会是一家人工智能公司的重要壁垒。当他们部署超算平台时，硅谷的专家甚至惊讶，一家成立四年的创业公司考虑这个问题还太早。

230403-媒体03.png

但今天来看，底层算力平台对于上层支撑的价值已经凸显。

在算力平台之上是数据中心模型优化(DCML)层。云知声在2016年开始进入医疗行业后，发现根据不同应用场景数据，需要对模型进行高效的针对性优化，本质上是如何根据应用数据对模型进行快速调优，GPT模型的强化学习也是在这层完成的。这一层的构建目标就在于此，其作用是能够提高产品的标准化程度，通过模型而非代码来解决应用场景差异，大幅提升人效比。

再之上是模型层。这也是目前正在改变的地方。在此前的AI范式下，无论是人机交互，还是各种行业应用，实际上要先做好各单元模型，再把各种单元模型整合起来实现业务目标，现在则要转变为以GPT为核心的大模型来做。而过去各种部件级模型，像语音降噪、语音识别、语音合成等标准模块仍会持续优化，但也会借鉴大模型的思路，比如加大无监督预训练数据规模，实现多语种联合建模、轻量级定制和个性化等，可以显著降低成本，同时提升效果和效率。

除了这些能力，这些年在智慧物联和智能医疗等行业场景积累的行业know-how和数据，也是云知声在全栈能力中的一个关键。以医疗行业为例，像教材、临床指南、病历知识等一系列行业数据，都需要时间的沉淀才能获得，这也是未来训练行业大模型不可或缺的原料。

而有了数据之后，能否解决行业的真实问题，还需要对行业本质问题的理解和认知。“行业大模型并不是一个万能黑盒子，有了它就能马上打败所有的医生。”梁家恩称。这就像从高校毕业的医学博士，要解决临床问题，需要很多实战经验一样，医疗大模型出来也要跨越这一步。ChatGPT也是在GPT3.5之上，完成SFT和RLHF优化才能真正接近实用，而医疗行业应用，对准确度和可靠性的要求要高很多。

本轮 GPT技术升级，不是简单的算法升级或模型做大，而是AGI新范式的重构：从标准AI零部件根据业务需求组装优化，到以大模型为基础的MaaS模式的转变，即业务逻辑由多语言多模态智能交互（MM-CAI）大模型来对接，实现真正自然语言为主的人机交互模式，通过大模型的情景学习（ICL：In Context Learning）能力来快速对接任务，极大提升业务迁移效率，涉及专业领域问题，则通过调用行业大模型或API来精准可靠解决，做好交互自然度和行业专业度的有效结合。

行业问题导向，从专用到通用

在过去十年里，AI浪潮起起伏伏，不少人工智能企业头顶光环，生存却举步维艰，甚至还有玩家悄无声息倒在了这波AI热潮的前夜。技术落地和产品化是他们遭遇的共性问题。

一位资深人士称，不同于机器能轻松超过人类的单点可计算类问题，人工智能企业的产品落地面对的是真实和综合的场景。过去十年里，云知声在工程化和产品落地层面也做了不少尝试，经验可以沉淀为“广度”和“深度”两个层面。

在物联网场景里，关键在于连接的“广度”。任何一个玩家都需要让自己的产品在尽可能多的场景，尽可能多的用户以及尽可能多设备上，以足够低的成本跑起来。

深度学习技术开始介入行业时，行业里普遍认为，要靠GPU才能跑起来，但云知声将它优化到能在CPU甚至手机芯片上跑起来。

2016年时，他们甚至把模型做进了主频只有200MHz、计算内存只有200k的WiFi芯片中。“要把模型压缩100倍，装进芯片端，还要能运转起来。”梁家恩向数智前线说。这个产品在格力等家电企业落地应用，也令大企业中搞深度学习的资深人士感到不可思议。

在产品落地中，他们又发现没有特别好的物联网芯片，于是在2016年组建团队做了面向物联网的智能交互芯片。“等行业里的人意识到要做AI芯片时，我们的芯片在已经点亮了。”梁家恩说。到今天为止，芯片和模组已出货超过2000万片。

230403-媒体04.jpg

而在医疗的场景里，人工智能技术要落地打通，则不能停留在外围应用中，要真正解决行业应用的“深度”问题。“语音输入能够提升效率，但不能提升业务质量”，团队意识到了感知的局限。从感知向认知升级，他们的做法是走向行业深处，建设行业知识图谱，才能进入核心场景，真正有效解决行业关键问题。这也是近年来人工智能业界强调的落地重要路径，去年百度李彦宏就在公司内部提出深入核心场景的要求。

球已经到了脚下，接下来要做的事情变得确定。数智前线获悉，云知声一季度就扩充了30%算力，去做大模型的转轨，年底算力预计将翻几倍，“升级下一代以GPT为核心的架构”。在以大模型实现智慧物联（广度）和智慧医疗（深度）两个行业技术升级后，MaaS模式也将完成验证，再结合各行业应用需求，逐步扩充行业大模型，最终将MaaS平台做到万亿级以上参数，实现从专用走向通用。

之所以选择从专用到通用的发展路径，云知声主要出于三个方面考量：1）无论AI还是AGI，有效、可靠解决实际问题是第一位的，靠创造价值而非概念立足；2）依托物联和医疗行业有多年的深耕积累，而非在通用领域直接对抗巨头，更能发挥自身优势；3）“MM-CAI+行业大模型”的MaaS模式，具有更好的可控性、扩展性和灵活性，随着行业大模型的积累，能构建更可靠的通用智能。

这是一场巨变的开始，但梁家恩喜欢借用盖茨的观点，“我们经常高估了今后一两年内将发生的变革，但又常常低估了今后10年内将要发生的变化”。虽然ChatGPT引发了热潮，但仍面临不小的挑战。保持谨慎的乐观，十年后回望，这或许是人工智能走入更大规模、更多场景，走向AGI的起点。

以下为数智前线与梁家恩的对话节选：

Q：中国企业能否实现类ChatGPT？

A：首先像ChatGPT，其实里面没有任何一个算法是新的，甚至很多都不是OpenAI发明的。过去10年积累的机器学习方法，已经足够它做出这个事，但主要是这些方法要如何有效的组合，以及如何去选择数据来调整模型，OpenAI下了很大的决心，也投入了很多资源，才走通了这个技术范式，这是它对AI行业最重要的贡献。

我经常把这个比喻为“曼哈顿计划”。爱因斯坦在1905年就从理论上证明了E=MC2，“曼哈顿计划”是第一个去探索和实践出来的。但每个国家造原子弹的路径并不相同，像中国的“596工程”就不需要完全去把“曼哈顿计划”follow一遍。这个路径是通的，我们在根本的原理上去研究这个问题，再看怎么做。

Q：现在互联网巨头也在推出大模型，并进入行业，你们与他们如何竞争？

A：在巨头积累深厚的通用行业，我们是很难单靠技术颠覆的，OpenAI也要跟微软的Bing和Office结合，才能在商业上叫板搜索巨头。在我们所聚焦的行业里，我们不惧怕任何巨头的团队。因为这是我们的全部，但对巨头来说，先守住自己主业是当务之急，主业之外的应用创新，本身积累也有限，而且东方不亮西方亮，哪个行业做不起来其实没所谓。

而且医疗绝对是一个坑挺大的行业，巨头的创新团队能不能在被裁掉之前搞定，有很多变数。实际上，我们在医疗行业的很多头部客户，也是跟巨头竞争中获得的。所以，从绝对的资源角度，我们比不上大厂，但在我们真正深耕多年的这些行业，比资源投入、决心和实战经验，我们绝对不怕任何大厂的团队。

Q：互联网巨头有一个提法，大模型领域不要重复造轮子。您怎么看这个观点？行业里为什么大家还会坚持自己来做一遍基础大模型？

A：这是巨头的期待，但造轮子的比喻在这里并不恰当。轮子是一个标准化产品，而在大模型要复杂得多，同样方法在不同行业解决的问题和用到的数据是很不一样的，我们相信“行业大模型”，相比包罗万象的“万能超大模型”是要更精准、高效和经济的。

我们提到的“通用”的概念更多是方法论意义上的。它不再像过去的AI方法论，要预先定义很多确定性目标，然后再分别针对目标优化对应模型。现在的通用模型指的是，方法论上可以支持非特定任务的大规模无监督学习，然后基于大模型可以通过快速学习来完成各类任务的能力。这种能力怎么来的呢？因为我们有一个大规模的预训练基础模型，已经有非常丰富的关于语言、知识的基础信息在里面，是一个很好的基础模型。

有了这个基础，针对行业性问题，找到行业性数据和真正的任务去跟它做一个应用调优和反馈强化，它的可靠性解决会更好。

通用，是说“无监督预训练+行业应用调优+反馈强化学习”技术框架是通用的。专用，是通用大模型框架优先在特定行业应用，训练行业专用的大模型，解决各种专业问题，让它的可用性和可靠性达到实际应用的要求。这两个概念不应该被对立起来。

Q：前几天ChatGPT已经接受插件，对行业的知识可以直接调用了。这对你们现在做的事情是不是一种威胁？

A：这是目前解决ChatGPT可靠性最直接的方法，现在这个行业调用，其实还是传统API能力通过自然语言的整合。我们认为比较理想的手段，可能是前面有一个什么都能聊的多模态对话式模型，它能进行丰富的自然语言交互，涉及专业度很高的问题，转到后面的行业大模型来精准高效解决。

为什么后面的行业问题也需要用大模型来重新刷一遍？就在于现在用的API都是写死的，我定义几个功能，你就只能用这几种能力。未来可能要用大模型把更多专业能力解锁出来，这样更灵活，也更完善。现在ChatGPT出来后，直接调用是一个比较取巧也有效的方案，但这可能不是最终状态。

我们过去很多需求实际上是受限于技术能力被锁死的，像人机交互，最早是专业的工程师用打孔机才能搞定的，后面变成键盘、鼠标，再变成触屏，未来可能就彻底变成自然语言交互了。演进趋势是很明确的，它至少已经很准确的理解你的意图，可能回应还有一些胡说八道的东西，但我觉得用自然语言跟机器做交互，未来会成为一个标配。现在你还要有“提示词”的技巧，未来这个要求也会降低下来。

云知声山海大模型正式开启公测

06-01-2023

云知声山海大模型今日正式开启公测！自5月24日首次亮相以来，云知声山海大模型收获了众多关注。目前，经过一周迭代、优化，大模型性能与功能已趋于成熟。...

查看详情

云知声董事长梁家恩：AIGC时代，数字文化产业趋势与机遇

06-09-2023

人工智能的应用已拉开大幕。当下，AI技术影响着各个领域和学科的应用场景，也冲击着人们固有的思维方式。在文化产业领域，AIGC更是如同一场技术革命，改写了...

查看详情

返回列表