5月27日凌晨,小米宣布大模型API(第三方应用接口)永久降价,最高降幅达99%,这是继DeepSeek之后,又一家厂商大幅下调API价格。
不过,在算力和存储芯片持续涨价的背景下,断言大模型“价格战”全面打响仍为时过早。但降价背后的定价逻辑已逐渐清晰:通过低价吸引开发者调用,提升模型缓存命中率,以价换量构建技术护城河。
与此同时,Token的计费方式也在发生演变,支付宝上线了业内首个“词元支付”服务,MiniMax和阶跃星辰已率先接入试点。
价格走势分化
根据小米公告,调价后,MiMo-V2.5系列模型API价格最高降幅达99%,且不再区分上下文窗口长度。以MiMo-V2.5-Pro模型为例,输入(缓存命中)价格可低至0.025元/百万tokens。计费体系调整后,同一价格Token Plan(词元套餐)的用量可提高5—8倍。
小米并非第一个吃螃蟹的人。一个月前,DeepSeek V4上线后便宣布Pro版本模型优惠低至2.5折,随后再度降价,缓存命中价格降至原价的1折。两轮降价后,DeepSeek又在5月22日宣布临时折扣永久有效,成了名副其实的“价格屠夫”。
不过,若将整个行业定性为“价格战”,也并不准确。
事实上,不少国产大模型因为需求火爆,反而多次涨价。今年三月份以来,阿里云和腾讯云相继宣布,受AI需求爆发及算力、存储芯片价格暴涨影响,部分模型API服务价格上调,有些涨幅翻了一倍以上。尤其是在海外市场反响较好的智谱华章,经过多轮涨价后,API价格已与GPT、Claude等海外顶尖大模型看齐。
值得注意的是,上述涨跌均指大模型API的价格,而非面向消费者的应用价格。据了解,小米MiMo大模型和DeepSeek自有的网页端、App端仍然免费开放,只有第三方平台通过API调用大模型时,才需要按Token消耗量付费。
DeepSeek网页端和App仍然免费。
此外,无论大模型API价格如何变动、是否收费,AI生成的内容均可能存在“幻觉”,仅供辅助决策参考,大模型平台并不因此承担相应责任。
不拼算力拼技术
在一片涨价声中,小米和DeepSeek为何能逆势降价?答案在于推理效率的工程优化。
记者从小米研发团队了解到,本次调价并非源于硬件成本下降,而是大模型团队在推理系统上的持续优化。具体而言,小米MiMo技术团队将多级存储间的缓存数据搬运量降至优化前的七分之一,可缓存Token数量提升近5倍,显著提升了缓存命中率与推理效率。
其中,缓存命中率的提升是降价的主要原因之一。
大模型在生成回答时是逐字逐句进行的。如果没有缓存机制,每次生成都需要重新回溯所有历史信息,既消耗算力,又拖慢速度。缓存机制有效解决了这一问题,生成内容时可直接调用已缓存的数据。当AI需要生成内容时,如果这一内容恰好存储在芯片缓存中,便称为“缓存命中”。命中率越高,AI计算量越小,整体运行速度越快,相当于节约了昂贵的算力成本。
因此,小米大模型“降价99%”并不意味着每次调用都能享受最低价,关键在于缓存是否命中。以MiMo-V2.5-Pro为例,缓存命中时输入价格仅为每百万Token 0.025元,缓存未命中时,价格则高达3元。因此,极低价格的前提是大量缓存命中,如果用户的任务十分罕见、此前几乎没有缓存积累,那么实际调用成本仍然较高。
小米大模型API收费最高降价99%。
小米和DeepSeek的策略意图十分清晰:通过极低的价格吸引更多开发者调用,由此积累大量缓存数据,进一步提升命中率、降低调用成本,再吸引更多开发者加入。“用户规模与缓存命中形成正向循环,借此构建大模型的技术护城河。”业内人士表示。
除了工程层面的优化,国产芯片的替代也有望在未来进一步降低API调用成本。
目前,“国模+国芯”趋势日益明显。DeepSeek首次将华为昇腾与英伟达并列写入硬件验证清单,并在华为昇腾芯片上验证了专家并行方案。结果显示,DeepSeek-V4在华为昇腾芯片上的推理速度较初期版本提升35倍,华为CANN框架与英伟达CUDA框架的代码兼容性已逼近95%。因此,待华为昇腾950超节点批量上市后,DeepSeek的API价格还有进一步下调的空间。
小米MiMo-V2.5大模型也适配国内外多家主流推理芯片,几乎覆盖所有国产推理芯片。记者了解到,阿里平头哥、天数智芯、燧原科技、沐曦和昆仑芯等国产芯片均已完成适配。
按量计费转向智能支付
记者发现,大模型API的变化不仅体现在价格上,支付方式也在悄然变革,从基础的Token按量计费到“套餐制”,再到各平台推出自有积分体系,计费模式正变得日益多元。
运营商率先试水“套餐制”。前不久,国内三大通信运营商纷纷推出Token套餐。中国电信套餐价格最低仅为每月9.9元,包含1000万Token,面向个人和开发者还有多档选择。中国联通上海分公司向OPC(一人公司)用户提供词元服务,每位用户可免费领取3000万词元额度。中国移动也推出了多种Token套餐。
与这种“话费套餐制”不同,不少云服务商正在尝试将Token计费转向积分(credits)计费。以千问3.6-Plus大模型为例,输入8349 Token相当于抵扣1.67积分,输出573 Token则相当于0.69积分。积分与Token消耗之间并没有固定的换算公式,而是由模型类型、Token用量、思考模式及工具调用等因素动态决定。
“现在的AI应用不再只是简单对话,而是涉及智能体、多模态等多种大模型的协同,原有的Token计费方式已难以满足当前需求。”阿里巴巴千问云技术专家告诉记者,AI云服务通常接入国内外绝大多数主流大模型,其中不乏文生图、图生视频等多模态模型,各模型的Token计费标准千差万别,开发者往往难以预估任务的消耗量。通过系统自动换算为积分制,可以统一不同模型的Token度量衡,方便开发者预估成本。
在计费模式演进的同时,Token支付也在走向自动化。5月26日,支付宝推出了业内首个Token Pay(词元支付)服务,这也是首个模型付款解决方案。
蚂蚁集团AI支付总经理朱林表示,开发者在处理长任务和多模型调用时,往往需要跨平台充值Token,不仅容易因Token不足导致任务中断,也缺乏统一管理Token的平台。Token Pay可实现跨平台订阅大模型,解决这一痛点。更关键的是,Token Pay还将支持智能体自动付费,当Token消耗殆尽时,Token Pay智能体能自动识别付费方案,在用户授权金额范围内自动充值,避免因Token耗尽而导致AI任务失败。
目前,上海两大基座模型MiniMax和阶跃星辰旗下多个AI原生产品已接入Token Pay服务,覆盖Token充值、会员订阅、营销等场景。
责编:贺雨婷
一审:姚茜琼
二审:唐能
三审:苏莉
来源:解放日报

湖南日报新媒体



