直击WAIC丨大模型风起 通用与垂直之困何解?
21世纪经济报道记者张梓桐 上海报道
7月6日-8日,2023年世界人工智能大会在上海开幕,作为今年WAIC当之无愧的中心位,大模型成为了与会专家和企业热议的焦点所在。
21世纪经济报道记者在走访中了解到,当下行业内存在两种大模型的路线分化。一种是以商汤科技AI大装置SenseCore、百度“文心一言”为代表的,具有大规模参数体量的通用大模型;另一种路径则是在开源大模型的基础上,进行垂直行业的大模型建设和应用。即底层是开源的技术大模型,上层则是针对垂直行业,用垂直行业的数据结合通用的数据。
(相关资料图)
“通用大模型要解决的问题,是让不具备通用模型能力建设的人享受通用模型的便利;而垂直行业的大模型更多要聚焦在去解决行业的问题,大家的分工存在很大差异。” 蜜度首席技术官刘益东在接受21世纪经济报道记者采访时表示,通用大模型更适合资源、时间以及技术实力非常强的头部企业去做,而一些规模较小的企业更适合的是聚焦行业,聚焦垂直领域进行模型开发。
而商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚在接受21世纪经济报道在内的媒体时表示,商汤推出的通用大模型:“AI大装置SenseCore”可以被理解为商汤科技理解内部的一个基础设施。各个大模型的团队在做好大模型的同时,也会把模型提供给各个行业里面的行业线。
通用与垂直之辨
近日发布的《中国人工智能大模型地图研究报告》显示,当前,中国人工智能大模型正呈现蓬勃发展态势。据不完全统计,截至目前,参数在 10 亿规模以上的大模型全国已发布了 79 个。而与之并行的,还有许多聚焦垂直场景的行业模型
针对二者的区别,刘益东表示,通用大模型拥有很多数据、很大参数,但它并不聚焦于某个任务。而行业模型在进入垂直领域的时候就会有特定的任务目标,例如在校对任务中,行业模型就可以利用常识问题的积累来检测易混淆词等问题。
但与此同时,如果只用垂直行业的数据去训练模型,模型的认知也会出现偏差,因此通用大模型成为了这一时代的“底层基座”。
在这一背景下,如何深入了解场景进而服务好客户,成为垂直大模型面临的难题。
刘益东告诉记者,在垂直大模型构建的过程中,模型提供方与行业客户是有交互的。从模型训练的角度来看,大模型需要基于人类反馈的增强学习,而人工智能企业需要基于客户反馈的数据,才能进一步促进行业大模型建设能力的提升。
“因此我们服务的过程也是共促的过程,对于垂直行业训练的数据质量,我们的客户会不断的给我们反馈与优化。”刘益东说道。
此外,刘益东表示,行业未来竞争的核心就在于考验不同企业大模型落地以及盈利的能力。”这就涉及到一个庞大的公司运作机制的问题,它不光是模型本身。因此最终在大模型垂直落地应用中能够生存下来的企业,一定是能够达到投入产出比平衡,并且是良性循环的企业。”
在2023年世界人工智能大会期间,蜜度发布了首个支持国产化软硬件运行环境的知识问答与内容生成大语言模型——蜜巢。记者在现场了解到,蜜巢知识问答与内容生成大语言模型以数千亿高质量中文多模态数据训练为基础打造,可以实现“千文千面,千人千面”的定制化内容生成。
而哈工大人工智能研究院院长、IEEE Fellow刘劼则在中国电子云主办的“云上智能,可信智算”分论坛上指出,相比于偏重上层应用的垂直行业模型,通用大模型在技术与资金方面的投入无疑会更大。
“GPT-3的训练数据有5000亿个数据点,从能耗来说相对于从月球到地球再回来,训练一次大约是500到1000万美元,耗电190MWh,因此粗略估计训练一次大模型需要1亿元的体量级别,所以没有这个钱就不要玩大模型。”
在数据训练成本如此“烧钱”的背景下,如何让大模型具备自学习能力,成为中小型企业在涉足大模型时要解决的难题。
刘劼以OpenAI举例称,在他看来,其核心优势就在于采用了强化学习的方法,用人评价生成模型的好坏来实现进一步降本增效。“OpenAI做得最成功的事情就是让人尽量少贡献力量,即找到一个模拟人类对话质量的评测方法,去实现自动的闭环,所谓的'飞轮效应’就可以转起来。”
换言之,因为用户在使用过程当中给大模型不断输入调节的信号。因此没有足够多用户的系统很难生成评价模型。
“现在比拼的都是百亿、千亿,乃至于上亿的模型,模型规模越来越大,而且看不到直径。”刘劼表示,当下模型参数体量正在不断提高,大模型趋势仍然不断增长。
打造公共算力
如上述业内人士所述,在1000亿个参数单次训练成本达到千万美元量级的背景下,中小企业对于大模型的应用难免“望而却步”。而由于这些模型参数量和数据量的庞大,后续支持性的基础设施重要性也日益突出。
因此业内开始探索从国家角度建设普惠性的公共算力中心,即以构建公共基础设施的服务方式提供算力,降低单位可变成本,为全社会提供算力服务。
“我们认为普惠算力是解决成本的重要渠道。”赛迪顾问股份有限公司副总裁宋宇告诉21世纪经济报道记者,目前通用的工厂模式越来越难以充分发挥整个计算性能,会造成一定的资源浪费。同时,对于中小企业来说,大型的算法、高质量数据如果自建的话成本难以接受。而用户更多需要的是计算,还有以计算为基础的全流程服务。
“因此我认为,未来算力实现会以一个’算力风洞’模式实现。”宋宇说道。
近日,以网信事业为核心主业的央企中国电子云在2023人工智能大会期间提出,将面向行业需求,在未来2到3年内在中国范围内投资建设N个可信智算中心。另一方面,中国电子云也将开发一套异构兼容、安全可信、云数一体、开放共享的可信智算云平台产品。
除此之外,随着未来对高密度算力需求的不断增长,算力中心的能耗耗电也在面临越来越大的挑战。
“数据中心和智算中心本身就是一个能耗大户,从长远的角度来看,智算中心POE管控将会越来越严格。”
刘劼认为,在能耗标准日趋严格的背景下,未来行业应该探索从全链条深入推进智算中心绿色化,包括智算中心能耗提升、绿电使用比例、液冷新的节能技术应用,以此来解决高能耗难题。