由深圳市人民政府主办的第二十七届高交会于2025年11月14日-16日在深圳举行。作为高交会的重要论坛“中国高新技术论坛”于11月14日举办,论坛主题为:人工智能赋能未来产业发展”。北京潞晨科技有限公司创始人兼董事长尤洋在演讲中提到,真正需要构建自己的私有大模型或者行业大模型的企业今天只有三类:第一类,传统大型企业;第二类,有海量数据的中小型企业;第三类,颠覆行业的新型公司。
如何用好大模型?在他看来,未来如果是做ToB的AI大模型业务,肯定不仅仅是调API或者部署DeepSeek这样的标准通用开源模型就行了。“我们始终坚信开源大模型只有被专业化训练过后才有可能战胜闭源大模型。通用大模型,特别是开源的通用大模型,就像刚刚毕业的大学生,必须结合本公司专业技能和业务的培训,才有可能在要从事的某个领域内产生自己最大的价值。”
因此,尤洋表示,有了这个理论基础,企业未来做好大模型最重要的事情就两点:一、最大化算力效率,通过GPU把能源转换成智能。二、是否能把业务做成强化学习或者微调模板。
以为为演讲实录:
尤洋:今天很高兴跟大家来交流,我主要分享一下我们帮助企业把大模型落地到千行百业中发现的一些比较有意思值得分享的经验。
首先简单介绍一下我个人。
我之前从清华大学毕业后,继续在美国加州大学伯克利分校获得博士学位,然后到新加坡国立大学担任校长青年教授。2021年8月创立了潞晨科技,这个公司很荣幸获得了红杉资本、创新工厂等很多投资人的投资。目前公司已经发展了四年,有了一些我们自己的心得体会,我们核心就是帮忙更多企业做出自己的行业模型、私有模型,把AI大模型的技术价值在企业生产环节中最大化收益。
我们打造的软件叫Colossal-AI,这个Colossal-AI背后的技术很荣幸被很多企业所使用。
首先说一下我们的技术积累,2018年谷歌打造了世界上第一个千卡AI集群,后续包括英伟达、华为或者寒武纪也做了类似方案。我们当时就为这个世界上最早的AI集群设计了优化算法LAMB,创业后我们也把这些技术成功用于华为盘古大模型的训练,获得了国际大语言模型会议的杰出论文,在具体科研成果和落地上都获得了收获。
世界上最顶尖的AI专家也是曾经使用过我们技术的,比如Benjamin Mann (Anthropic的联合创始人,GPT-3的共同第一作者),几年前他使用了我们的技术,第一次把Transformer,也就是现在几乎所有AI大模型的基石,训练扩展到128个GPU上。
算力硬件大家都有,使用英伟达或华为等标准建设方案,我们的客户之所以选择用我们的方案,核心差异是能不能让客户感觉到自己的开发效率、计算效率、产品迭代加速,AI投入产出最大化,成本得到最大的节省,即能不能让同样的机器运行任务快两三倍,同样预算下能不能训练出更好的模型,竞品迭代一次我迭代两三次。
这是英伟达官方的GitHub,根据英伟达他们的报道,我们的LAMB方案比之前最优的方法能快17倍,而且是在比较真实的应用场景下。
我们打造了Colossal-AI,用于帮客户训练、部署、微调大模型。
在商业化付费客户方面,最近两三年很荣幸收获了8个世界500强以及大概10个世界2000强30个211大学总共3000家企业客户。我们服务了这么多客户,也想讲一下我们自己收获的大模型落地的感悟和心得。
为了让大家对我们有更好的理解,我说一些跟我们类似的公司,我们到底是做什么的。
跟我们比较类似的公司,美国有一个公司叫Thinking Machines Lab,是Open AI前CTO的公司,目标是打造下一个Open AI,这个公司目前没有任何营收,估值达到120亿美金,打造的唯一产品是Tinker,帮助企业或者研发人员微调或者强化学习的方式做出自己的私有模型或行业模型或AI Agent。另外一个是Together AI,是一个GPU云,也想通过一些优化技术提升GPU的价值,把GPU任务加速,降低成本。我们的上游包括Coreweave或者IDC这样的原始数据中心建设方。这是我们的大概生态定位。
企业做大模型过程中,刚才听几位前辈分享了工业上如何落地大模型的故事,我们的客户问的第一个问题是大模型肯定不是万能的,我的企业到底是否需要大模型。
我先给大家展示一些公开案例,已经成功实践过大模型,并且收获了初步效果的企业。
比如中石油发布了3000亿参数的昆仑大模型。可能大家对这个行业不是很了解,我2012年开始在清华读硕士时,高性能计算,也是当前AI大模型的基石,还没有用到AI场景,但大家也用GPU做计算、英特尔各种处理器做计算,当时的主要应用场景是做石油勘探。石油勘探的计算量非常大,我们要通过正演反演算法判断地下的结构和油的位置。传统方法都是在解一个线性方程组,大模型就是能不能给这个线性方程组产生一个近似解,大模型肯定无法保证这是全局最优解,但一个足够好的近似解可能就够很多工业领域使用。包括华为的盘古大模型、阿斯利康利用AI找到肿瘤靶点的治疗性抗体、李维斯大模型生成服装模型等。
总结,真正需要构建自己的私有大模型或者行业大模型的企业今天只有三类:第一类:传统大型企业,不仅数据量大,还有自己比较高利润的主营业务,大模型肯定是兵家必争之地;第二类:有海量数据的中小型企业,数据还是大模型最核心的源泉。前段时间大家可能也听说过美国Facebook(Meta)公司裁员了600个AI科学家,同时也聘请了Scale AI的CEO王先生担任自己的AI负责人。有人推测为什么Facebook老板要裁掉600个AI专家去招一个标注数据公司的人做他的AI业务主管,甚至导致图灵奖得主LeCun离职。可能他会有一种印象,他觉得大家的大模型结构都差不多,看一下千问、DeepSeek、Llama或者GPT。他的判断,现在大模型在结构上可能不会产生太大区别,真正产生区别的是谁的数据好或者谁的数据标注得更好。之前我们看到一些消息,连DeepSeek的梁文峰老师都会自己帮DeepSeek标注一些数据,所以数据就是大模型最重要的源泉,能把数据标注好,有海量高质量数据的企业肯定是最适合做大模型的。第三类:颠覆行业的新型公司,不管是金融、制药、社交、电商、能源,结合AI都是非常好的场景。
不同类型的企业如何做好自己的大模型业务?如果企业没有大量行业数据,直接使用ChatGPT或者调用通义千问等API就可以了。二是有足量文本数据,比如律师事务所,构建RAG企业知识库+调用大模型API也能解决问题,不需要自己构建一个私有模型或者微调、训练。假如一个企业有海量多模态数据,这种企业是最适合构建行业模型或者私有模型的,比如中石油的石油勘探大模型,它的私有数据肯定从来没有被DeepSeek或者ChatGPT看过,或者一个顶尖的医疗机构、制药公司,它的数据也是严格保密积累在内部的,因为它的数据跟互联网上的博客、网页截然不同,企业是相信大模型的智能能力、投入产出比,才会去做一个私有模型。
私有模型或者行业模型的市场规模到底多大?我引用一下Grand View Research的数据,仅语言模型方向,就会迅速达到数千亿的市场。
如何用好大模型?我们的判断,未来如果是做ToB的AI大模型业务,肯定不仅仅是调API或者部署DeepSeek这样的标准通用开源模型就行了。我们始终坚信开源大模型只有被专业化后训练过后才有可能战胜闭源大模型。通用大模型特别是开源的通用大模型,就像刚刚毕业的大学生,必须得给他一些结合本公司专业技能和业务的培训,他才有可能在要从事的某个领域内产生自己最大的价值。有了这个信念或者有了这个理论基础,企业未来做好大模型最重要的事情就两点:一是最大化算力效率,通过GPU把能源转换成智能。这个过程就是靠GPU为代表的算力,那提高算力的效率就是第一件最重要的事情。二是能不能把我的业务做成强化学习或者微调模板。显然大多数企业没有OpenAI、谷歌、阿里巴巴或者字节跳动这样顶尖的AI能力,如何把自己的数据、业务做成强化学习的微调模板,低成本快速见效,复用扩展,是非常关键的。
我们已帮各行业的知名企业做了许多落地案例。
我们目前发现大模型的应用除了ChatGPT、AI Agent,包括制药、医疗诊断、石油勘探外,三方面目前发展比较快:一是车企,不管是智能座舱、故障诊断、自动驾驶,都有很大的空间;二是我们的客户里也有做今年很火的具身智能的大模型,通过一些技术发现可以大幅度提升具身智能的智能化水平和效率;三是视频AI。举例,今天很多学生学习不好或者跟老师的沟通频率不一样。未来每一个学生学一个知识点,都可以按照要求让大模型给我生成一个针对性的方案,班里有50个学生,每天可能有1000个因材施教的案例,大模型未来在教育等行业的视频生成方面,有非常高的应用前景,并且未来电影、短视频里大量的镜头可能都会由AI生成,不再需要高成本的特效公司或实景拍摄。而比如一位导演拍《阿凡达》、《淞沪会战》这显然是不同风格的,可能也需要不同风格的AI视频大模型。
未来潞晨将继续致力于解放AI生产力,助力AI大模型赋能千行百业,谢谢大家!