算力和存储芯片一涨再涨，国产大模型为何还敢“最高降价99%”？

新湖南 • 世相

2026-05-28 14:48:00

首页头条收录

5月27日凌晨，小米宣布大模型API（第三方应用接口）永久降价，最高降幅达99%，这是继DeepSeek之后，又一家厂商大幅下调API价格。

不过，在算力和存储芯片持续涨价的背景下，断言大模型“价格战”全面打响仍为时过早。但降价背后的定价逻辑已逐渐清晰：通过低价吸引开发者调用，提升模型缓存命中率，以价换量构建技术护城河。

与此同时，Token的计费方式也在发生演变，支付宝上线了业内首个“词元支付”服务，MiniMax和阶跃星辰已率先接入试点。

价格走势分化

根据小米公告，调价后，MiMo-V2.5系列模型API价格最高降幅达99%，且不再区分上下文窗口长度。以MiMo-V2.5-Pro模型为例，输入（缓存命中）价格可低至0.025元/百万tokens。计费体系调整后，同一价格Token Plan（词元套餐）的用量可提高5—8倍。

小米并非第一个吃螃蟹的人。一个月前，DeepSeek V4上线后便宣布Pro版本模型优惠低至2.5折，随后再度降价，缓存命中价格降至原价的1折。两轮降价后，DeepSeek又在5月22日宣布临时折扣永久有效，成了名副其实的“价格屠夫”。

不过，若将整个行业定性为“价格战”，也并不准确。

事实上，不少国产大模型因为需求火爆，反而多次涨价。今年三月份以来，阿里云和腾讯云相继宣布，受AI需求爆发及算力、存储芯片价格暴涨影响，部分模型API服务价格上调，有些涨幅翻了一倍以上。尤其是在海外市场反响较好的智谱华章，经过多轮涨价后，API价格已与GPT、Claude等海外顶尖大模型看齐。

值得注意的是，上述涨跌均指大模型API的价格，而非面向消费者的应用价格。据了解，小米MiMo大模型和DeepSeek自有的网页端、App端仍然免费开放，只有第三方平台通过API调用大模型时，才需要按Token消耗量付费。

DeepSeek网页端和App仍然免费。

此外，无论大模型API价格如何变动、是否收费，AI生成的内容均可能存在“幻觉”，仅供辅助决策参考，大模型平台并不因此承担相应责任。

不拼算力拼技术

在一片涨价声中，小米和DeepSeek为何能逆势降价？答案在于推理效率的工程优化。

记者从小米研发团队了解到，本次调价并非源于硬件成本下降，而是大模型团队在推理系统上的持续优化。具体而言，小米MiMo技术团队将多级存储间的缓存数据搬运量降至优化前的七分之一，可缓存Token数量提升近5倍，显著提升了缓存命中率与推理效率。

其中，缓存命中率的提升是降价的主要原因之一。

大模型在生成回答时是逐字逐句进行的。如果没有缓存机制，每次生成都需要重新回溯所有历史信息，既消耗算力，又拖慢速度。缓存机制有效解决了这一问题，生成内容时可直接调用已缓存的数据。当AI需要生成内容时，如果这一内容恰好存储在芯片缓存中，便称为“缓存命中”。命中率越高，AI计算量越小，整体运行速度越快，相当于节约了昂贵的算力成本。

因此，小米大模型“降价99%”并不意味着每次调用都能享受最低价，关键在于缓存是否命中。以MiMo-V2.5-Pro为例，缓存命中时输入价格仅为每百万Token 0.025元，缓存未命中时，价格则高达3元。因此，极低价格的前提是大量缓存命中，如果用户的任务十分罕见、此前几乎没有缓存积累，那么实际调用成本仍然较高。

小米大模型API收费最高降价99%。

小米和DeepSeek的策略意图十分清晰：通过极低的价格吸引更多开发者调用，由此积累大量缓存数据，进一步提升命中率、降低调用成本，再吸引更多开发者加入。“用户规模与缓存命中形成正向循环，借此构建大模型的技术护城河。”业内人士表示。

除了工程层面的优化，国产芯片的替代也有望在未来进一步降低API调用成本。

目前，“国模+国芯”趋势日益明显。DeepSeek首次将华为昇腾与英伟达并列写入硬件验证清单，并在华为昇腾芯片上验证了专家并行方案。结果显示，DeepSeek-V4在华为昇腾芯片上的推理速度较初期版本提升35倍，华为CANN框架与英伟达CUDA框架的代码兼容性已逼近95%。因此，待华为昇腾950超节点批量上市后，DeepSeek的API价格还有进一步下调的空间。

小米MiMo-V2.5大模型也适配国内外多家主流推理芯片，几乎覆盖所有国产推理芯片。记者了解到，阿里平头哥、天数智芯、燧原科技、沐曦和昆仑芯等国产芯片均已完成适配。

按量计费转向智能支付

记者发现，大模型API的变化不仅体现在价格上，支付方式也在悄然变革，从基础的Token按量计费到“套餐制”，再到各平台推出自有积分体系，计费模式正变得日益多元。

运营商率先试水“套餐制”。前不久，国内三大通信运营商纷纷推出Token套餐。中国电信套餐价格最低仅为每月9.9元，包含1000万Token，面向个人和开发者还有多档选择。中国联通上海分公司向OPC（一人公司）用户提供词元服务，每位用户可免费领取3000万词元额度。中国移动也推出了多种Token套餐。

与这种“话费套餐制”不同，不少云服务商正在尝试将Token计费转向积分（credits）计费。以千问3.6-Plus大模型为例，输入8349 Token相当于抵扣1.67积分，输出573 Token则相当于0.69积分。积分与Token消耗之间并没有固定的换算公式，而是由模型类型、Token用量、思考模式及工具调用等因素动态决定。

“现在的AI应用不再只是简单对话，而是涉及智能体、多模态等多种大模型的协同，原有的Token计费方式已难以满足当前需求。”阿里巴巴千问云技术专家告诉记者，AI云服务通常接入国内外绝大多数主流大模型，其中不乏文生图、图生视频等多模态模型，各模型的Token计费标准千差万别，开发者往往难以预估任务的消耗量。通过系统自动换算为积分制，可以统一不同模型的Token度量衡，方便开发者预估成本。

在计费模式演进的同时，Token支付也在走向自动化。5月26日，支付宝推出了业内首个Token Pay（词元支付）服务，这也是首个模型付款解决方案。

蚂蚁集团AI支付总经理朱林表示，开发者在处理长任务和多模型调用时，往往需要跨平台充值Token，不仅容易因Token不足导致任务中断，也缺乏统一管理Token的平台。Token Pay可实现跨平台订阅大模型，解决这一痛点。更关键的是，Token Pay还将支持智能体自动付费，当Token消耗殆尽时，Token Pay智能体能自动识别付费方案，在用户授权金额范围内自动充值，避免因Token耗尽而导致AI任务失败。

目前，上海两大基座模型MiniMax和阶跃星辰旗下多个AI原生产品已接入Token Pay服务，覆盖Token充值、会员订阅、营销等场景。

责编：贺雨婷

一审：姚茜琼

二审：唐能

三审：苏莉

来源：解放日报

打开新湖南APP，查看全部评论