不知道你有没有过这种经历——想用AI做点东西...

不知道你有没有过这种经历——想用AI做点东西，结果随便调用几次API，账单就够吃一顿火锅了。老板问“能不能自己搞一个”，你查了一圈开源模型，发现要么性能拉胯，要么部署成本高得离谱。最气人的是，那些号称“遥遥领先”的闭源模型，你连它怎么训练的都不知道，全程都是黑盒机制，想做深度研究根本无从下手。

我太懂这种进退两难的感受了。直到我翻到阿里巴巴达摩院M6的官方技术报告，里面一组数据直接刷新认知：10万亿参数，同期全球规模最大多模态预训练模型，同等规模下训练能耗仅有GPT-3的1%。我当时第一反应是：这数据是不是写错了？

仔细核对各类官方披露资料后才确认，数据完全属实，没有夸大。

2020年6月，阿里巴巴达摩院正式启动M6项目，率先发布3亿参数基础中文多模态模型；仅仅7个月后的2021年1月，参数规模直接冲到百亿级别，一举成为全球最大中文多模态模型；又过4个月，2021年5月万亿参数版本M6完成训练并投入内部测试商用；真正的行业王炸出现在2021年10月，M6迭代升级为全球首个10万亿参数多模态大模型。对比一下同期标杆，GPT-3仅有1750亿参数，M6的参数体量直接达到GPT-3的57倍，在当年直接甩开谷歌、微软所有万亿级模型。

很多人会疑惑，单纯堆参数到底有什么实际价值？

参数体量更大，意味着模型内部模拟人类神经元的单元更多，能够容纳、记忆海量跨领域知识，真正具备人类一样举一反三、融会贯通的泛化学习能力。M6核心优势是多模态、多任务统一处理，不局限于单纯文字对话，能够同步识别、解析、生成图像、网页、音频、视频各类跨模态数据。它不是只会空谈文字的“嘴炮型AI”，而是兼具读图、阅读理解、工业设计、图文创作的全能型通用AI底座。

但最让我彻底服气的，从来不是夸张的参数规模，而是它做到超大模型的同时，把训练成本压到了行业极致。

行业常识里，训练万亿级超大模型需要消耗恐怖的算力与电力，公开资料显示，训练GPT-3产生的能耗，等效于汽车往返地月一次的行驶耗电量。而M6团队仅依靠512张V100 32G GPU，只用10天就完成具备完整可用能力的10万亿参数模型训练；同等参数规模条件下，M6整体能耗仅为GPT-3的1%。

1%这个数字直观来说，别人完成同等量级训练要...

1%这个数字直观来说，别人完成同等量级训练要耗费100度电，M6只用1度电就能搞定，低碳高效的优势碾压同期所有超大模型方案。

能实现这种极致压缩，核心依靠达摩院自研Whale分布式训练框架，搭配多层创新优化技术：专家并行调度策略、细粒度CPU离线卸载、共享-解除内存复用算法等一整套自研方案。这套技术体系不止服务M6自身，更是直接降低了超大模型研发门槛，让单台普通服务器、少量显卡就能完成千亿参数模型训练，打破了海外大厂垄断超大算力集群的壁垒。

M6从来不是单一孤立的模型，它完整证明了一套国产自研大模型技术体系的可行性：国内科研团队不只是能把模型参数做大规模，更能靠底层架构优化做到低成本、低能耗、高效率，这是实打实的技术壁垒。

而且M6很早就走出实验室落地商用，是国内首个实现规模化商业化落地的多模态大模型。在天猫业务线，M6负责自动生成虚拟主播完整直播剧本；在犀牛智造工业平台，AI自动完成潮流服饰设计，产出的款式直接上架淘宝售卖；淘宝、支付宝搜索链路接入M6，依靠跨模态识别提升商品、内容检索精准度；支付宝向量召回场景依托M6优化，搜索页面点击率获得明显提升。截至2021年底，M6已经落地超40条企业业务场景，模型整体日调用量突破上亿次，真正实现技术落地变现。

2022年9月达摩院正式发布通义全系列大模型...

2022年9月达摩院正式发布通义全系列大模型，M6衍生出的M6-OFA统一范式，成为整套通义大模型的底层核心底座，换句话说，M6就是如今通义千问、千问Qwen系列大模型的直接技术前身。截至2025年，阿里通义开源模型数量突破300个，全球Hugging Face总下载量突破6亿次，社区基于底座微调衍生的细分模型超17万个，完整延续了M6当年开源开放、轻量化高效的技术路线。

整个发展路径看下来，M6从不足十人的小型研发小组起步，一路做到全球规模顶尖的多模态大模型，再沉淀为通义千问全系的底层基座，完整走过中国大模型行业从跟跑、并跑，到局部领域引领的完整发展缩影。

最后给大家掏心窝分享几条实用参考建议：

如果你是开发者、科研人员，想要深入研究超大规模多模态模型分布式训练、跨模态统一预训练逻辑，一定要精读M6官方论文《M6: A Chinese Multimodal Pretrainer》（arXiv:2103.00823）。论文完整公开M6-Corpus超大中文多模态数据集搭建方案、两阶段文生图生成框架、全套分布式算力优化细节，这些底层技术逻辑，闭源商用模型永远不会对外公开。

如果你是企业技术负责人，正在评估自家大模型私...

如果你是企业技术负责人，正在评估自家大模型私有化落地的算力、能耗成本，M6开创的低碳高效训练路线非常值得参考。行业误区总觉得想要强性能就必须无限堆砌高端算力，而M6证明，依靠架构、内存、并行算法优化，能用更少硬件资源训练出超大参数模型，这才是企业长期落地的核心技术护城河。

如果你是普通互联网用户，日常使用淘宝搜索、观看天猫虚拟主播直播，背后的智能图文生成、跨模态检索能力，根源都来自M6沉淀下来的技术体系。很多底层AI技术都有这个特点，用户日常感知不到它的存在，但每时每刻都在后台稳定承接海量业务需求。

M6或许不是大众口中曝光度最高的AI模型，但绝对是业内最被低估的国产大模型里程碑产品。

毕竟，只用1%的能耗，就能完成别家需要百倍资源才能实现的超大模型训练，这种低调硬核的底层技术突破，才真正值得尊重。

阿里巴巴M6——全球首个10万亿参数多模态大模型，能耗却只有GPT-3的1%

不知道你有没有过这种经历——想用AI做点东西...

很多人会疑惑，单纯堆参数到底有什么实际价值？

1%这个数字直观来说，别人完成同等量级训练要...

2022年9月达摩院正式发布通义全系列大模型...

如果你是企业技术负责人，正在评估自家大模型私...

相关标签 / 长尾词