手机用的多模态模型开源了(MiniCPM-V 4.6 )
面壁智能又开源了一个 1B 的多模态模型:MiniCPM-V 4.6,所有手机都能跑。
这是 MiniCPM-V 系列有史以来参数几乎最小的模型,只有 1.3B。但多模态综合能力,打败了阿里的 Qwen3.5-0.8B 和 Google 的 Gemma4-E2B-it。
参数更小了,能力更强了,速度还更快了。

话说回来,先看下成绩吧!
MiniCPM-V 4.6 提供了两个版本:Instruct(直接回答)和 Thinking(深度推理)。
下面是两个版本在不同任务下的表现情况。


直接看对比数据。
综合能力:大部分图文理解任务上,4.6 超过了 Qwen3.5-0.8B 和 Gemma4-E2B-it。
不是某一项强,是综合能力强。
智能密度:4.6 非推理版本运行只消耗 5.4M token,而Qwen3.5-0.8B 非推理版本要 101M,1/19 的消耗量。
推理版本差距更大,Qwen3.5-0.8B 推理版消耗 233M token,4.6 只有它的 1/43。用 2.5% 的 token 量就超过了 Qwen3.5-0.8B,这个效率差距非常夸张。

推理效率:
基于 vLLM 的 token 吞吐量是 Qwen3.5-0.8B 的 1.5 倍。
单卡吞吐 2624 token/s,每秒处理 14.3 张 1344² 图片(输出 200 token 时),是 Qwen3.5-0.8B 的 1.4 倍。
同样一张显卡,能承载数倍的线上流量。

首响延迟(TTFT):
处理 3136² 的高清大图,4.6 只需要 75.7ms。
比 Qwen3.5-0.8B 快 2.2 倍。最离谱的是,分辨率从低到高,延迟曲线几乎是平的。
分辨率翻倍,延迟几乎不涨。

接下来咱们说说。它为啥那么快!
MiniCPM-V 4.6 的极致效率,来自两项关键的技术创新。LLaVA-UHD v4:视觉编码效率翻倍

处理高清图片的时候,传统方案的算力消耗会随分辨率呈二次方增长。图片越大,计算量炸得越快。
现有的解决方案是在 ViT 之后做 Token 压缩,但这只减轻了下游 LLM 的负担,视觉编码器内部的计算量一点没少。
LLaVA-UHD v4 的思路是:
把 Token 压缩前移到 ViT 内部浅层。
越早压缩,后面需要处理的 Token 越少,整体计算量就越低。
但这里有个技术难点。ViT 的浅层已经学到了大量视觉表征,直接插入随机初始化的下采样模块,会破坏这些表征,带来高昂的额外训练代价。
LLaVA-UHD v4 的解决方案很巧妙:

在 Token 合并前引入窗口注意力(Window Attention),增强邻近 Token 的上下文交互。
复用相邻预训练 ViT 层的参数,减小对视觉表征的扰动。
结果就是视觉编码阶段的浮点运算量降低 55.8%,性能不掉点。
相比传统 ViT 节约了大约一半的图像编码开销。
4倍/16倍混合压缩:
之前二选一,现在兼得视觉 Token 压缩率直接影响到显存占用、首响延迟、推理吞吐和功耗这些关键指标。
市面上大部分模型只支持 4 倍压缩。
面壁从 2024 年就开始做 16 倍压缩,但之前只能在 4 倍和 16 倍之间二选一。
MiniCPM-V 4.6 把这两个都做进去了。
要精度用 4 倍压缩,要速度用 16 倍压缩。
一个模型,两种模式。
在云端也能以极低成本承接高并发流量。
16 倍压缩不是噱头,快手已经用在生产环境了。
快手 2025 年推出的 OneRec 推荐大模型,用 MiniCPM-V-8B 处理视频的字幕、标签、ASR、OCR、封面图等多模态表征,承接了快手短视频推荐主场景 25% 的请求。
日活几亿的产品,16 倍压缩扛住了。

然后最后说的就是,他的门槛又低了。
1.3B 参数意味着基本上所有个人设备都能跑。
手机、电脑、车机、智能家具,不需要高端芯片。
微调门槛极低。 RTX 4090 这样的消费级显卡就能全量跑通整个微调流程。独立开发者、高校团队、初创公司,不需要租算力集群就能做垂类定制。
而且生态全打通:
微调框架:ms-swift、LLaMA-Factory
推理部署:vLLM、SGLang、llama.cpp、Ollama
(评论区补图,因为帖子放不下了。)
主流框架全覆盖,不需要自己折腾环境。准备好数据,改几行配置,一键拉起训练。端侧部署指南:
英文:立即下载
中文:立即下载
demo:立即下载
看一眼 MiniCPM-V 系列的进化路线:
MiniCPM-V 2.0:2.8B 参数(2024 年 4 月)
MiniCPM-V 2.5:8B 参数(2024 年 5 月)
MiniCPM-V 2.6:8B 参数(2024 年 8 月)
MiniCPM-V 4.0:4.1B 参数(2025 年 8 月)
MiniCPM-V 4.5:8B 参数(2025 年 8 月)
MiniCPM-V 4.6:1.3B 参数(2026 年 5 月)
不是越做越大,是越做越密。
面壁在 2024 年提出了「密度定律」,不是模型越大越好,是智能密度越高越好。这项研究成果登上了 Nature 子刊。
MiniCPM-V 4.6 是密度定律的又一次验证:
1.3B 的参数,做到了同尺寸最高的智能密度。
截至 2026 年 3 月,MiniCPM-V 系列在开源社区的累计下载量接近 3000 万次。
面壁智能从第一天就在走端侧路线。模型做小不是为了小,是为了让 AI 落到每一台设备上。
Hugging Face地址: 立即下载
GitHub地址: 立即下载
Modelscope地址: 立即下载
Web Demo地址: 立即下载
App Demo地址: 立即下载