OpenBMB 发布 MiniCPM4 系列模型,专为端侧设备优化
时间:2025-06-09 15:32 来源:未知 作者:IT
OpenBMB 发布了 MiniCPM4 系列高效大语言模型,该系列专为端侧设备设计,通过在模型架构、训练数据、训练算法和推理系统四个维度的系统性创新,实现了效率的提升。
MiniCPM4 系列包括多个模型,具体如下:
模型名称
主要特点 / 用途
MiniCPM4-8B
旗舰模型,80亿
参数,8T
token 训练
MiniCPM4-0.5B
小型版,5亿
参数,1T
token 训练
MiniCPM4-8B-Eagle-FRSpec
MiniCPM4-8B
推理加速 Eagle head 模型
MiniCPM4-8B-Eagle-FRSpec-QAT-cpmcu
MiniCPM4-8B
推理加速 Eagle head 模型 (QAT)
MiniCPM4-8B-Eagle-vLLM
MiniCPM4-8B
推理加速 Eagle head 模型 (vLLM)
MiniCPM4-8B-marlin-Eagle-vLLM
MiniCPM4-8B
推理加速 Eagle head 模型 (marlin, vLLM)
BitCPM4-0.5B
极端三元量化模型,参数压缩至三元值,实现 90% 位宽缩减
BitCPM4-1B
极端三元量化模型
MiniCPM4-Survey
基于 MiniCPM4-8B
,用于生成综述论文
MiniCPM4-MCP
基于 MiniCPM4-8B
,用于调用 MCP 工具
该系列模型的关键技术特性包括:
-
采用可训练稀疏注意力机制 InfLLM v2,在处理 128K 长文本时每个 token 仅需与少于 5% 的 token 计算相关性;
-
通过 模型风洞 2.0 实现高效可预测扩展;
-
使用 BitCPM 进行极端三元量化;
-
采用 FP8 低精度计算 和多 token 预测训练策略。
-
数据方面,通过 UltraClean 流程 过滤和生成高质量预训练数据(开源了 UltraFinweb 数据集),并使用 UltraChat v2 生成高质量监督微调数据。
-
推理系统方面,推出了集成稀疏注意力、模型量化和推测采样技术的 CUDA 推理框架 CPM.cu,以及支持跨平台部署的 ArkInfer 系统。
MiniCPM4 原生支持高达 32768 token 的上下文长度,并可通过 LongRoPE 技术 扩展至 131072 token。在 Jetson AGX Orin 和 RTX 4090 等端侧芯片上,MiniCPM4 在长文本处理任务中展现出比同规模模型更快的处理速度,例如在 Jetson AGX Orin 上,其解码速度相较 Qwen3-8B 提升约 7 倍。
用户可以通过 CPM.cu、Hugging Face Transformers、SGLang 或 vLLM 进行模型推理:https://huggingface.co/openbmb/MiniCPM4-8B
(责任编辑:IT)
OpenBMB 发布了 MiniCPM4 系列高效大语言模型,该系列专为端侧设备设计,通过在模型架构、训练数据、训练算法和推理系统四个维度的系统性创新,实现了效率的提升。 MiniCPM4 系列包括多个模型,具体如下:
该系列模型的关键技术特性包括:
MiniCPM4 原生支持高达 32768 token 的上下文长度,并可通过 LongRoPE 技术 扩展至 131072 token。在 Jetson AGX Orin 和 RTX 4090 等端侧芯片上,MiniCPM4 在长文本处理任务中展现出比同规模模型更快的处理速度,例如在 Jetson AGX Orin 上,其解码速度相较 Qwen3-8B 提升约 7 倍。 用户可以通过 CPM.cu、Hugging Face Transformers、SGLang 或 vLLM 进行模型推理:https://huggingface.co/openbmb/MiniCPM4-8B (责任编辑:IT) |