阿里进入大模型时代,核心是算力和生态
AI大转型的浪潮,似乎正将所有互联网厂商拉到同一起跑线上。
“面对AI时代,所有产品都值得用大模型重做一次。”在4月11日的2023阿里云峰会上,阿里巴巴集团董事会主席兼CEO、阿里云智能集团CEO张勇说。
在本届阿里云峰会上,张勇宣布,阿里巴巴所有产品未来都将接入大模型,全面升级。
这样的动作,意味着在阿里云,AI大模型将更像是一个应用型平台,北京软件和信息服务业协会首席研究员仓剑将其比喻为“超级APP”。阿里想打造的,正是这样一个App的底座,云业务则是这个生态的基础。
“阿里云非常幸运,我们赶上了中国过去十几年互联网产业热潮。”张勇如是说。根据第三方市调机构Canalys最新发布的2022年中国云市场数据显示,阿里云在2022年占中国云市场份额的36%,排名第一,虽然业绩稳定增长,但增速持续放缓。在云业务这样的新兴市场,相比近两年快速增长的“其他云”,阿里云的关键词更像是“守业”。
而就在阿里云缓步前行时,ChatGPT从天而降。
在这波AI技术的爆发中,ChatGPT依云而生,Azure在ChatGPT训练、运行过程中表现出色。AI大模型能力,成了全球云厂商追捧的焦点,也成为了未来云业务最核心的竞争优势之一。
眼下,对于云厂商来说,不论前期发展如何,这波AI热潮,的确是一个换道超车的机会,模型能力、基础设施、开发者生态,都有可能决定云厂商的未来。
算力仍是重点
算力、算法、数据是AI大模型研发的三大要素,在AI大模型的竞逐中,主流云计算厂商显然在算力方面有着更强的实力,但一项创新技术的研发必然面临诸多复杂的问题,有时候优势亦是挑战。
“阿里云未来核心要做好两件事情:第一,让算力更普惠;第二,让AI更普及。”张勇提出,云计算是AI大规模普及的最佳方式,他说,“我们希望在阿里云上训练一个模型的成本,能够降低到现在的十分之一,甚至是百分之一。即使是中小企业,也能通过云平台获得AI大模型的能力和服务。”
据周靖人介绍,过去十年里,阿里云提供的算力成本下降了80%,存储成本下降了近9成。2023年,阿里云将推出一款更接近云计算终极形态的算力产品,这款被命名为通用Universal实例的产品进一步屏蔽了传统IT的硬件参数,让数据中心真正成为一台超级计算机,为中小企业和开发者提供普惠的算力。通用Universal实例的价格有大幅降低,对比上一代主售实例最高可下降40%。
降价、普惠的确是推广云服务、普及AI的有效路径,但普惠算力能满足大模型的研发需求吗?
AI大模型的研发对算力需求很高,而算力的强弱,取决于多个条件,包括硬件性能、硬件数量、系统和网络、软件优化、算法效率以及能源供应和散热等。
OpenAI的公开资料显示,GPT-3模型的研发采用的全部是英伟达A100显卡。而目前国内算力服务商在A100的囤货量上,并不乐观。
“AI的训练、运营都需要算力,无论传统的AI模型还是现在的预训练大模型,算力肯定是云计算厂商的核心优势。”仓剑告诉虎嗅,GPU芯片是影响AI大模型训练算力的重要条件。国内服务商缺芯问题目前还不是很明显,因为从运营、发展的角度来说,国内厂商都会在算力方面进行长期储备。
此外,对于云厂商来说,服务器对芯片技术的要求相比手机低一些,主要是体积和能耗方面的问题,部分国内自研芯片基本也能满足60%-70%的AI大模型研发需求。
然而,对于AI大模型研发来说,虽然没有高端GPU也能研发AI大模型,但训练效果和效率必然会大打折扣。首先,如果GPU现存不够的话,就需要对大模型进行架构优化、使用模型并行技术或降低批量大小来适应显存限制,但这可能会影响模型性能和训练稳定性。
阿里云研究员、阿里云官网负责人蒋林泉表示,“对于大模型研发来说,高端GPU芯片意味着数据的存储能力更强,对于用到大量数据的AI大模型训练更加友好。但如果没有足够先进的GPU,就需要扩大GPU集群,通过分布式训练等手段,来做大模型训练。”
然而,对于云厂商来说,要扩大GPU集群的分布式训练,就需要在构建GPU集群的过程中,保证高速通信和同步的能力,这对于云计算厂商来说同样存在一定的技术门槛。
阿里云并没有透露大模型使用的芯片情况。目前,国内大模型训练使用的芯片多是英伟达的A100。
虽然云服务商的存货能满足一时的需求,但随着AI大模型的迅速发展,算力缺口可能会呈几何级数上涨,而且随着AI技术、芯片技术的迭代更新,国内厂商的“库存”或许很快就不够用了。而单纯低端显卡并联,很难满足更高级的研发需求,且很快也会面临能耗、成本的问题,未来算力市场要如何算账,自研芯片要如何开发,都是摆在云厂商面前的难题。
生态是制胜的关键
算力之外,生态是大模型争夺的战场,各大厂商正在跑马圈地。
在阿里云峰会上,周靖人正式公布了阿里云的大型语言模型产品——通义千问。
虽然在几天前,通义千问就已经上线进行了邀测,不过测试的邀请码申请只开放了半天,多数申请用户似乎都没有收到邀请码。周靖人介绍说,目前通义千问的测试主要针对定向的企业用户。
本次展示的通义千问能力比目前的邀测版本更丰富,不仅包括了大规模语言模型 (LLM)的对话功能,多轮交互及复杂指令理解。还提到了与GPT-4的“识图”能力相似的多模态融合,以及支持外部增强API的功能。
阿里的AI大模型能力与阿里云成立之初一样,第一步都是服务“自己人”。在本届阿里云峰会上,张勇宣布,阿里巴巴所有产品未来将接入大模型,全面升级。他表示,要建设全新的AI开放生态,需要从阿里内部开始。
以钉钉为例,在周靖人的演示Demo中,钉钉接入通义千问之后可实现近10项新AI功能,用户可通过快捷键,随时随地唤起AI,开启全新工作方式。在钉钉文档中,通义千问可以创作诗歌小说、撰写邮件、生成营销策划方案等,全面辅助办公。在钉钉会议中,通义千问可以随时生成会议记录并自动总结会议纪要、生成待办事项。通义千问还可以帮助自动总结未读群聊信息中的要点。
一个趋势是,AI能力将会成为SaaS软件的硬指标。“有人曾说国内SaaS卷不动可以出海试试。不过现在恐怕也没戏了,在国内你面对的是钉钉等产品,但是到了海外,可能就要面对带GPT-4的团队了。”某国内协同办公软件公司高管对虎嗅透露,短期来看SaaS、协同办公软件上的AI功能可能还要等一阵,毕竟成本摆在那儿,不过如果微软、谷歌不计成本地“卷起来了”,国内厂商的好日子可能就要到头了。
“AI大模型可能更像微信、支付宝这种超级APP,它是一个应用型平台。”仓剑认为。国内大厂不太可能共享自己的数据,因此也不可能共享一个通用AI大模型,更不会依托于其他厂商的大模型。
生态竞争将成为各厂商AI大模型的制胜关键之一。“对于以大模型为主业的企业来说,主要的客户或合作伙伴应该会是AI能力不强的行业企业。通过加入某一个大模型的生态,绑定某一个重要的服务商,实现AI大模型的赋能。”仓剑说。
抓住用户,让企业加入自己的生态,光有价格优惠还不够。对于企业和用户来说,无论何种数字化、智能化转型,目的无非是“降本、提质、增效”,一直以来,云技术都在努力从企业的业务中找到能够实现这三个目标的场景。然而在今天,任何一种生成式AI大模型,要找到这样的场景,首先要面对的就是“降低成本、提高稳定性”这两个重要问题,对ChatGPT、GPT-4如是,对通义千问亦如是。