如何看待 Minimax 新的 M3 多模态模型以及更新的 Token Plan?

最新AI日报 2026-06-02 15 阅读

本来想直接说“M3很强”或者“也就那样”——但后来发现，这玩意儿真不是一句话能说清的。我先承认一件事：我对Minimax有偏见。不是那种恶意的，是“被坑过”的那种偏见。

本来想直接说“M3很强”或者“也就那样”——但后来发现，这玩意儿真不是一句话能说清的。

我先承认一件事：我对Minimax有偏见。不是那种恶意的，是“被坑过”的那种偏见。

几个月前，我一个同事疯狂给我安利Minimax的API，说“太好用了，我要付费”。我当时试了一下，嗯……怎么说呢，就那个M2系列，给我的感觉是——神一下鬼一下。

举个例子。我问它“帮我找附近最近的麦当劳”，它理解成“你要吃快餐是因为赶时间”，然后推荐了附近的中式快餐。这个推理能力，我当时真的惊了，心想这也太聪明了吧？

结果下一秒，我问它“上周三的会议纪要帮我整理一下”，它把“上周三”理解成了昨天。我当时就无语了

大哥，时间都搞不清楚，你怎么帮我干活？

所以我后来对Minimax的态度就是：敬而远之。好用的时候是真神，翻车的时候是真坑。

然后这次M3发布，我其实是有点懒得看的。又是“多模态”又是“1M上下文”的，这些词我都听麻了。

但架不住同事又来安利，说“这次真的不一样”。行吧，我试试。

先说结论：确实不一样，但也没到封神的程度。

我先测了它那个“原生多模态”。官方说的是从零开始做多模态训练，不是先练文本再外挂视觉。这个区别我当时没太在意——直到我试了一个很刁钻的场景。

我把我自己用AI生成的一个短视频丢给它，里面有很多赛博朋克风格的元素，还藏了一个很隐晦的彩蛋（一个像素风的小猫）。它看完之后，不仅把赛博朋克的元素全识别出来了，居然还发现了那只小猫，说“这个细节很有意思，像是创作者在跟用户开玩笑”。

我当时真的愣了一下。不是因为识别准确率高——现在的模型基本都能做到。而是因为它理解了“为什么”。它知道那不是随便画的，是创作者故意的。

但翻车的地方也有。我问它一个经典的逻辑题：“一对夫妻，丈夫不是色盲，女儿是色盲，为什么？”

懂的人都知道，答案是父亲被绿了（因为色盲是X染色体隐性遗传，女儿如果是色盲，父亲必须是色盲）。

DeepSeek一眼就看穿了，直接说“从遗传学角度看，这种情况不可能发生，除非……”——然后委婉地说了那个真相。

但M3呢？它认认真真地给我讲了一遍色盲的遗传规律，最后说“所以女儿是色盲是可能的”。大哥，你没发现矛盾吗？

所以我的感觉是：M3在“看懂”这件事上确实强，但在“想明白”这件事上，还差口气。

再说那个Token Plan。

说实话，看到价格涨了，我第一反应是“又来了”。本来M2.7的API价格我还勉强能接受，M3直接翻倍到4.2块每百万tokens。

但冷静下来想想，好像也不是不能理解。智谱的GLM-5.1卖6块，Claude卖得更贵。而且订阅制那个49块钱包月，给6亿tokens，算下来每百万tokens才8分钱——当然，前提是你得用完。

这让我想起我去年办的那张健身卡。当时觉得“好划算啊，一年才2000多”，结果去了不到十次。千万别为了“划算”买你用不完的东西——这句话我对自己说了无数遍，但每次看到“限时优惠”四个字还是忍不住。

所以我现在的策略是：先不急着订阅，用免费额度跑两周。如果真能把我日常的工作流覆盖住，再考虑付费。

对了，还有个事让我挺意外的。

我同事昨天测了一个很变态的任务：给M3一个YouTube视频链接，让它总结内容。M3没有现成的转文字工具，就自己想办法——先查本地有没有下载工具，没有；然后尝试第三方镜像站，失败了；接着现场写脚本，又报错……最后竟然硬是找到了一个接口，把字幕给扒了出来。

这个过程它不是“一次成功”，而是试了三四次，每次失败后调整策略。说实话，比起那个最终结果，我反而更惊讶于这个“自己想办法”的过程。

有点像你让一个实习生去做一件他从没做过的事，他搞砸了两次，但第三次自己摸索出了门道。这种“成长感”，是其他模型很少给我的。

所以回到你的问题：怎么看待这件事？

我不会说M3吊打谁谁谁，因为实测下来它确实有短板。尤其是在纯逻辑推理上，跟DeepSeek还有差距。

但我也不会说它“不过如此”，因为在Agent场景下——就是那种需要模型自己去操作、去尝试、去解决问题的场景——它的体验是目前国产模型里让我最舒服的。

如果你想听点实在的建议：

如果你是开发者，可以拿一个你手头正在做的、有点烦人的小项目去试试M3。别测那些标准化的东西，就让它在你真实的工作流里跑一跑。能帮你干活的模型，比能聊天的模型值钱多了。
关于付费，别急着冲。先用免费额度，等7天限时折扣结束之后再看。那时候社区的真实反馈也出来了，你再判断要不要掏钱。优惠天天有，钱包只有一个。
顺便提一嘴，M3这波开源是MIT协议，可以商用，可以本地部署。如果你公司对数据安全要求高，这个点值得关注一下。

最后说句题外话。

最近国产模型一个接一个地发，DeepSeek、Qwen、GLM、Kimi，现在又是Minimax。我本来以为会审美疲劳，但测下来发现，每个都有自己的脾气。

DeepSeek像个科班出身的学霸，逻辑严密但有点正经；Qwen像个标准化的产品，稳定但少点惊喜；M3呢，像个脑子好使但偶尔犯糊涂的聪明同事——跟他干活很爽，但你得时不时看着点别让他跑偏了。

至于你喜欢哪个，真的看你的需求。我的建议是：别被参数和跑分忽悠，让它们在你自己的任务里打一架。

如果你想了解更多的AI前沿消息，可以前往最新AI日报查看