> 其它学习 > DeepSeek >

DeepSeek LM Studio 本地部署蒸馏量化模型教程速看!

前言

春节期间最火爆的新闻是 DeepSeek 没有之一,这则消息足以震动全互联网。它是一款国产的开源大模型,APP 登顶苹果中国区和美国区应用商店免费下载排行榜。一夜之间,微软、英伟达、亚马逊等全部接入DeepSeek模型。

部署环境

运行设备:MacBook Air

操作系统:macOS: 15.3

处理器:Apple M2

运行内存:16.00GB

显存大小:10.67GB

由于设备性能存在局限,通过 LM Studio 看到 GPU 能调用的最大显存只有 10.67GB,因此本文进行部署的大多为 DeepSeek-R1 的蒸馏量化模型。这些模型实际表现或许达不到预期。对绝大多数用户的设备条件限制(尤其是那些仅能部署 14B 参数以下模型的设备)而言,直接选用现成的云端服务不失为一种更为明智的选择,而非执着于本地部署。

但是也有一些深度用户,想在电脑端部署,离线使用。Apple Silicon 的 Mac 电脑可以通过以下命令来提升 GPU 的显存最大限制:sudo sysctl iogpu.wired_limit_mb=16384

接下来就来介绍基于 macOS 以及 LM Studio 进行本地部署,全程无需代理,力求让你快速学会部署自己的大语言模型。

快速开始

LM Studio 下载安装

打开 LM Studio 的官网地址(https://lmstudio.ai)下载进行安装,目前该软件 Mac 端仅支持 Apple Silicon 的电脑,Intel 处理器的电脑可以去搜索下使用 Ollama 进行部署。

LM Studio 语言设置

LM Studio 提供简体中文 Beta 版,可以点击右下角的按钮(齿轮图标)进入设置,在语言处选择“简体中文 (Beta)”,这个设置不是必须的,这里是为了降低使用的难度。

 

模型下载

由于 huggingface.co 在国内没办法直接访问,直接在 LM Studio 下载模型,大概率会遇到这种情况:Model details error: fetch failed

可以前往 huggingface.co 的国内镜像 hf-mirror.com 进行模型的下载,我们这里先下载一个 DeepSeek-R1-Distill-Qwen-14B-Q4_K_M.gguf 模型,下载地址:https://hf-mirror.com/lmstudio-community/DeepSeek-R1-Distill-Qwen-14B-GGUF/tree/main

这个地址打开后会看到有 4 个 gguf 模型文件,在 LLM 语言模型领域,Q3、Q4、Q6、Q8 代表着不同量化位数的量化类型,即分别将模型参数以 3 位、4 位、6 位、8 位来存储和计算,模型量化类型越大,意味着有更高的精度,但也会带来更大的内存占用以及更大的计算成本。

模型导入

模型下载后,是一个独立的 gguf 文件,打开 LM Studio “我的模型”功能,找到模型目录,点击右边路径设置,选择“在 Finder 中显示”,就可以将模型复制到文件夹内即可。

 

也可以设置成你的外置硬盘,比如我的移动硬盘里面有个 AI_Models/LM_Studio 文件夹存放了一些 gguf 文件,重命名好文件夹方便分类管理,还不占用 Mac 本地的存储空间。

设置好模型目录后,LM Studio 无需要重启,会自动刷新模型目录,这里显示出来你下载的 gguf 模型文件即表示已经成功了。

开始对话

返回 LM Studio 的“聊天”界面,在顶部选择模型,模型参数默认就行,后面可以自行再去研究。接下来就可以发消息开始对话:

 

 

以下是我的电脑实测本地跑这模型的生成速度对比。

模型选择

这里科普一下模型的一些相关知识,什么是模型的蒸馏版?模型的蒸馏版就是通过模型蒸馏技术,将一个大型、复杂的 “教师模型” 的知识转移到一个小型、简单的 “学生模型” 后得到的版本。比如本文使用的 DeepSeek-R1-Distill-Qwen-14B 为例,具体含义如下:

DeepSeek-R1:是指基础的教师模型,即 671B 的高性能推理模型 DeepSeek-R1。

Distill:表示这是经过蒸馏技术处理得到的模型版本,代表该模型是通过将 DeepSeek-R1 模型的知识迁移到其他模型上而产生的。

Qwen-14B:代表以 Qwen2.5 系列中的 14B 模型作为学生模型,接收来自 DeepSeek-R1 的知识蒸馏。其中 Qwen 是阿里云通义千问大模型,14B 表示该模型具有 140 亿个参数。

可见,本地部署的这个蒸馏模型并不是原版的模型,该模型已经可以看作是一个新模型,性能要求降低的同时你也别指望结果能和原版一样。

为了更好的体验,在模型选择上,建议先追求更大参数量的模型(14B、32B、70B 等),然后再根据可用内存选择量化程度(Q3、Q4、Q6、Q8 等)。至于选 Qwen 还是 Llama,中文任务的话建议选 Qwen。

个人建议,由于 Apple Silicon 的 Mac 使用了统一内存(内存显存共享),Mac 电脑的 16GB 内存选 7B 参数量 Q4 量化模型,32GB 内存选 14B 参数量 Q4 量化的模型。Windows 平台要注意显存大小,显存不够可以使用内存来凑,但性能是没办法跟显存比的。

常见错误

错误一:The model has crashed without additional information. (Exit code:5)

模型可以运行,但是运行过程中出现了内存不足,可尝试换个内存要求更低的模型

错误二:Model loading aborted due to insufficient system resources. Overloading the system will likely cause it to freeze. If you believe this is a mistake, you can try to change the model loading guardrails in the settings.

内存不足导致模型无法运行,可尝试换个内存要求更低的模型

最后

文末,本地部署和在线使用各有利弊,本地对GPU配置要求较高,但运行稳定,不受网速影响。有需要的小伙伴可以体验一下,还是要提醒下,现阶段本地部署对大部份人来说依然是伪需求,使用云端的模型无论性能还是回答的结果,都比本地要好出很多。

若这篇文章为你提供了有用的信息,还望不吝点赞收藏,您的支持是我们创作的动力,感谢您的阅读!

 

2025 年 02 月 08 日补充信息:

目前 LM Studio 支持两种格式的模型,分别是 GGUF 和 MLX,在 LM Studio 设置的 Runtimes 能看到目前安装的运行扩展包。

其中 GGUF 格式用的是 llama.cpp 引擎来跑,而 MLX 用的是苹果的 Apple MLX 引擎,下面就来做一下测试。

因为 Apple Silicon 的 Mac 电脑采用了统一内存架构,内存可以给 GPU 来做显存使用,但并不会把全部的内存都分配给 GPU,比如 M1 8G 的 Mac 默认情况下 GPU 最大只能使用 5.4GB 的显存,用户可以通过命令语句把 Mac 的 GPU 可用显存设置到最大值。

比如我的 16GB 内存的 Mac,GPU 默认只能调 10.67GB 内存当显存,可以用过 sudo sysctl iogpu.wired_limit_mb=16384 这条语句临时改到 16GB,Mac 电脑关机或重启后,该值又会恢复默认的 10.67GB。

这里下载了 MLX 格式跟 GGUF 格式的相同参数及量化程度的模型进行比较,发现相同参数及量化程度下,MLX 的模型大小要比 GUFF 小一丢丢,下面这个是测试的结果图。

内存决定模型能不能跑起来,GPU 性能决定跑的快不快。

Apple Silicon 在跑 MLX 模型的时候,生成速度也会比 GUFF 快一点,占用的内存也要更小,还发现了一个有趣的事,就是 Apple MLX 引擎在推理的时候,CPU 资源使用量要比跑 GGUF 模型的更高。苹果从 A13 Bionic 开始在 CPU 顶部加入了 AMX 矩阵运算,AMX 运算单元可以加速机器学习的速度,Apple Silicon M 芯片自然也有 AMX 矩阵运算单元,甚至苹果还在 A17 Pro / M3 系列芯片开始为分别为 CPU 大小核的 AMX 单元增加了 AMX 缓存(可以通过 die shot 图看到 AMX 缓存存储单元)。

最后的最后

本地部署这种小模型意义不大,在有网络的情况下有谁会选本地计算而不是云端,如果自己无聊折腾一下玩玩还行,另外如果要在公司部署起码要满足 5-10 个用户同时使用,每个人至少要 20tok/sec 的速度才有意义。

经过实测 1.5B 模型回答的内容像个傻子,7B 模型像是有点智慧的傻子,回答的内容看着是对的,但反复去查依然有问题,14B 模型能用,也会回答错误,还要经过自己去网上搜索资料结合来看,32B 本地跑不起来,没测试效果如何。

目前网上很火的 14B、32B、70B 这些都不是真正的 DeepSeek-R1 模型,目前 DeepSeek 的多模态能力几乎为零,也不用想着苹果的 Apple Intelligence 会跟 DeepSeek 合作。




 
(责任编辑:IT)