如何看待 Minimax 新的 M3 多模态模型以及更新的 Token Plan?
本来想直接说“M3很强”或者“也就那样”——但后来发现,这玩意儿真不是一句话能说清的。
我先承认一件事:我对Minimax有偏见。不是那种恶意的,是“被坑过”的那种偏见。
几个月前,我一个同事疯狂给我安利Minimax的API,说“太好用了,我要付费”。我当时试了一下,嗯……怎么说呢,就那个M2系列,给我的感觉是——神一下鬼一下。
举个例子。我问它“帮我找附近最近的麦当劳”,它理解成“你要吃快餐是因为赶时间”,然后推荐了附近的中式快餐。这个推理能力,我当时真的惊了,心想这也太聪明了吧?
结果下一秒,我问它“上周三的会议纪要帮我整理一下”,它把“上周三”理解成了昨天。我当时就无语了
大哥,时间都搞不清楚,你怎么帮我干活?
所以我后来对Minimax的态度就是:敬而远之。好用的时候是真神,翻车的时候是真坑。
然后这次M3发布,我其实是有点懒得看的。又是“多模态”又是“1M上下文”的,这些词我都听麻了。
但架不住同事又来安利,说“这次真的不一样”。行吧,我试试。
先说结论:确实不一样,但也没到封神的程度。
我先测了它那个“原生多模态”。官方说的是从零开始做多模态训练,不是先练文本再外挂视觉。这个区别我当时没太在意——直到我试了一个很刁钻的场景。
我把我自己用AI生成的一个短视频丢给它,里面有很多赛博朋克风格的元素,还藏了一个很隐晦的彩蛋(一个像素风的小猫)。它看完之后,不仅把赛博朋克的元素全识别出来了,居然还发现了那只小猫,说“这个细节很有意思,像是创作者在跟用户开玩笑”。
我当时真的愣了一下。不是因为识别准确率高——现在的模型基本都能做到。而是因为它理解了“为什么”。它知道那不是随便画的,是创作者故意的。
但翻车的地方也有。我问它一个经典的逻辑题:“一对夫妻,丈夫不是色盲,女儿是色盲,为什么?”
懂的人都知道,答案是父亲被绿了(因为色盲是X染色体隐性遗传,女儿如果是色盲,父亲必须是色盲)。
DeepSeek一眼就看穿了,直接说“从遗传学角度看,这种情况不可能发生,除非……”——然后委婉地说了那个真相。
但M3呢?它认认真真地给我讲了一遍色盲的遗传规律,最后说“所以女儿是色盲是可能的”。大哥,你没发现矛盾吗?
所以我的感觉是:M3在“看懂”这件事上确实强,但在“想明白”这件事上,还差口气。
再说那个Token Plan。
说实话,看到价格涨了,我第一反应是“又来了”。本来M2.7的API价格我还勉强能接受,M3直接翻倍到4.2块每百万tokens。
但冷静下来想想,好像也不是不能理解。智谱的GLM-5.1卖6块,Claude卖得更贵。而且订阅制那个49块钱包月,给6亿tokens,算下来每百万tokens才8分钱——当然,前提是你得用完。
这让我想起我去年办的那张健身卡。当时觉得“好划算啊,一年才2000多”,结果去了不到十次。千万别为了“划算”买你用不完的东西——这句话我对自己说了无数遍,但每次看到“限时优惠”四个字还是忍不住。
所以我现在的策略是:先不急着订阅,用免费额度跑两周。如果真能把我日常的工作流覆盖住,再考虑付费。
对了,还有个事让我挺意外的。
我同事昨天测了一个很变态的任务:给M3一个YouTube视频链接,让它总结内容。M3没有现成的转文字工具,就自己想办法——先查本地有没有下载工具,没有;然后尝试第三方镜像站,失败了;接着现场写脚本,又报错……最后竟然硬是找到了一个接口,把字幕给扒了出来。
这个过程它不是“一次成功”,而是试了三四次,每次失败后调整策略。说实话,比起那个最终结果,我反而更惊讶于这个“自己想办法”的过程。
有点像你让一个实习生去做一件他从没做过的事,他搞砸了两次,但第三次自己摸索出了门道。这种“成长感”,是其他模型很少给我的。
所以回到你的问题:怎么看待这件事?
我不会说M3吊打谁谁谁,因为实测下来它确实有短板。尤其是在纯逻辑推理上,跟DeepSeek还有差距。
但我也不会说它“不过如此”,因为在Agent场景下——就是那种需要模型自己去操作、去尝试、去解决问题的场景——它的体验是目前国产模型里让我最舒服的。
如果你想听点实在的建议:
- 如果你是开发者,可以拿一个你手头正在做的、有点烦人的小项目去试试M3。别测那些标准化的东西,就让它在你真实的工作流里跑一跑。能帮你干活的模型,比能聊天的模型值钱多了。
- 关于付费,别急着冲。先用免费额度,等7天限时折扣结束之后再看。那时候社区的真实反馈也出来了,你再判断要不要掏钱。优惠天天有,钱包只有一个。
- 顺便提一嘴,M3这波开源是MIT协议,可以商用,可以本地部署。如果你公司对数据安全要求高,这个点值得关注一下。
最后说句题外话。
最近国产模型一个接一个地发,DeepSeek、Qwen、GLM、Kimi,现在又是Minimax。我本来以为会审美疲劳,但测下来发现,每个都有自己的脾气。
DeepSeek像个科班出身的学霸,逻辑严密但有点正经;Qwen像个标准化的产品,稳定但少点惊喜;M3呢,像个脑子好使但偶尔犯糊涂的聪明同事——跟他干活很爽,但你得时不时看着点别让他跑偏了。
至于你喜欢哪个,真的看你的需求。我的建议是:别被参数和跑分忽悠,让它们在你自己的任务里打一架。
如果你想了解更多的AI前沿消息,可以前往最新AI日报查看