2025 年 3 月我读了什么#
03-06: `DeepSeek 新手上路 (二) 模型自部署`__#
- 相关工具
部署:Ollama
查看显卡状态:📦 nvidia-utils 的
nvidia-smi
、⛺ XuehaiPan/nvitop模型导入导出:https://gist.github.com/nahushrk/5d980e676c4f2762ca385bd6fb9498a9
- 蒸馏#
以
deepseek-r1
的1.5b-qwen-distill-fp16
版本为例,使用了通义千问qwen
作为学生模型。
- 量化#
以
deepseek-r1
的671b-fp16
版本为例,fp16
就是使用了 16 位浮点数未经量化的版本,671b-q8_0
为 8 位量化版本,671b-q4_K_M
为 4 为量化版本。其他的参数可以理解为参数取整的策略?参看?llama.cpp里面的Q8_0,Q6_K_M,Q4_K_M量化原理是什么? - 知乎
- Troubleshooting
- Ollama 不使用 GPU
安装 📦 ollama-cuda,参见 ollama-cuda。
- Prompt 编写
也可以让 AI 写……闭环了。
- 爆显存