手机用的多模态模型开源了（MiniCPM-V 4.6 ）

面壁智能又开源了一个 1B 的多模态模型：MiniCPM-V 4.6，所有手机都能跑。

这是 MiniCPM-V 系列有史以来参数几乎最小的模型，只有 1.3B。但多模态综合能力，打败了阿里的 Qwen3.5-0.8B 和 Google 的 Gemma4-E2B-it。

参数更小了，能力更强了，速度还更快了。

手机用的多模态模型开源了（MiniCPM-V 4.6 ） - 第 1 张图
话说回来，先看下成绩吧！

MiniCPM-V 4.6 提供了两个版本：Instruct（直接回答）和 Thinking（深度推理）。

下面是两个版本在不同任务下的表现情况。

手机用的多模态模型开源了（MiniCPM-V 4.6 ） - 第 2 张图

手机用的多模态模型开源了（MiniCPM-V 4.6 ） - 第 3 张图
直接看对比数据。

综合能力：大部分图文理解任务上，4.6 超过了 Qwen3.5-0.8B 和 Gemma4-E2B-it。

不是某一项强，是综合能力强。

智能密度：4.6 非推理版本运行只消耗 5.4M token，而Qwen3.5-0.8B 非推理版本要 101M，1/19 的消耗量。

推理版本差距更大，Qwen3.5-0.8B 推理版消耗 233M token，4.6 只有它的 1/43。用 2.5% 的 token 量就超过了 Qwen3.5-0.8B，这个效率差距非常夸张。

手机用的多模态模型开源了（MiniCPM-V 4.6 ） - 第 4 张图
推理效率：
基于 vLLM 的 token 吞吐量是 Qwen3.5-0.8B 的 1.5 倍。

单卡吞吐 2624 token/s，每秒处理 14.3 张 1344² 图片（输出 200 token 时），是 Qwen3.5-0.8B 的 1.4 倍。

同样一张显卡，能承载数倍的线上流量。

手机用的多模态模型开源了（MiniCPM-V 4.6 ） - 第 5 张图
首响延迟（TTFT）：
处理 3136² 的高清大图，4.6 只需要 75.7ms。

比 Qwen3.5-0.8B 快 2.2 倍。最离谱的是，分辨率从低到高，延迟曲线几乎是平的。

分辨率翻倍，延迟几乎不涨。
手机用的多模态模型开源了（MiniCPM-V 4.6 ） - 第 6 张图
接下来咱们说说。它为啥那么快！

MiniCPM-V 4.6 的极致效率，来自两项关键的技术创新。LLaVA-UHD v4：视觉编码效率翻倍

手机用的多模态模型开源了（MiniCPM-V 4.6 ） - 第 7 张图
处理高清图片的时候，传统方案的算力消耗会随分辨率呈二次方增长。图片越大，计算量炸得越快。

现有的解决方案是在 ViT 之后做 Token 压缩，但这只减轻了下游 LLM 的负担，视觉编码器内部的计算量一点没少。

LLaVA-UHD v4 的思路是：
把 Token 压缩前移到 ViT 内部浅层。
越早压缩，后面需要处理的 Token 越少，整体计算量就越低。

但这里有个技术难点。ViT 的浅层已经学到了大量视觉表征，直接插入随机初始化的下采样模块，会破坏这些表征，带来高昂的额外训练代价。

LLaVA-UHD v4 的解决方案很巧妙：

手机用的多模态模型开源了（MiniCPM-V 4.6 ） - 第 8 张图
在 Token 合并前引入窗口注意力（Window Attention），增强邻近 Token 的上下文交互。

复用相邻预训练 ViT 层的参数，减小对视觉表征的扰动。

结果就是视觉编码阶段的浮点运算量降低 55.8%，性能不掉点。

相比传统 ViT 节约了大约一半的图像编码开销。

4倍/16倍混合压缩：
之前二选一，现在兼得视觉 Token 压缩率直接影响到显存占用、首响延迟、推理吞吐和功耗这些关键指标。
市面上大部分模型只支持 4 倍压缩。
面壁从 2024 年就开始做 16 倍压缩，但之前只能在 4 倍和 16 倍之间二选一。
MiniCPM-V 4.6 把这两个都做进去了。
要精度用 4 倍压缩，要速度用 16 倍压缩。
一个模型，两种模式。
在云端也能以极低成本承接高并发流量。
16 倍压缩不是噱头，快手已经用在生产环境了。
快手 2025 年推出的 OneRec 推荐大模型，用 MiniCPM-V-8B 处理视频的字幕、标签、ASR、OCR、封面图等多模态表征，承接了快手短视频推荐主场景 25% 的请求。
日活几亿的产品，16 倍压缩扛住了。

手机用的多模态模型开源了（MiniCPM-V 4.6 ） - 第 9 张图

然后最后说的就是，他的门槛又低了。

1.3B 参数意味着基本上所有个人设备都能跑。

手机、电脑、车机、智能家具，不需要高端芯片。

微调门槛极低。 RTX 4090 这样的消费级显卡就能全量跑通整个微调流程。独立开发者、高校团队、初创公司，不需要租算力集群就能做垂类定制。

而且生态全打通：
微调框架：ms-swift、LLaMA-Factory
推理部署：vLLM、SGLang、llama.cpp、Ollama
（评论区补图，因为帖子放不下了。）

主流框架全覆盖，不需要自己折腾环境。准备好数据，改几行配置，一键拉起训练。端侧部署指南：

英文：立即下载

中文：立即下载

demo：立即下载

看一眼 MiniCPM-V 系列的进化路线：
MiniCPM-V 2.0：2.8B 参数（2024 年 4 月）
MiniCPM-V 2.5：8B 参数（2024 年 5 月）
MiniCPM-V 2.6：8B 参数（2024 年 8 月）
MiniCPM-V 4.0：4.1B 参数（2025 年 8 月）
MiniCPM-V 4.5：8B 参数（2025 年 8 月）
MiniCPM-V 4.6：1.3B 参数（2026 年 5 月）

不是越做越大，是越做越密。

面壁在 2024 年提出了「密度定律」，不是模型越大越好，是智能密度越高越好。这项研究成果登上了 Nature 子刊。

MiniCPM-V 4.6 是密度定律的又一次验证：
1.3B 的参数，做到了同尺寸最高的智能密度。
截至 2026 年 3 月，MiniCPM-V 系列在开源社区的累计下载量接近 3000 万次。

面壁智能从第一天就在走端侧路线。模型做小不是为了小，是为了让 AI 落到每一台设备上。

Hugging Face地址: 立即下载

GitHub地址: 立即下载

Modelscope地址: 立即下载

Web Demo地址: 立即下载

App Demo地址: 立即下载