2025 年 3 月我读了什么

2025 年 3 月我读了什么#

03-06: `DeepSeek 新手上路 (二) 模型自部署`__#

相关工具
蒸馏#

deepseek-r11.5b-qwen-distill-fp16 版本为例,使用了通义千问 qwen 作为学生模型。

量化#

deepseek-r1671b-fp16 版本为例,fp16 就是使用了 16 位浮点数未经量化的版本,671b-q8_0 为 8 位量化版本,671b-q4_K_M 为 4 为量化版本。

其他的参数可以理解为参数取整的策略?参看?llama.cpp里面的Q8_0,Q6_K_M,Q4_K_M量化原理是什么? - 知乎

Troubleshooting
Ollama 不使用 GPU

安装 📦 ollama-cuda,参见 ollama-cuda

Prompt 编写

也可以让 AI 写……闭环了。

爆显存

GPU System Requirements for Running DeepSeek-R1