满血版 deepseek-R1, 参数 671B,理论上需要 350G 以上显存/内存才能够部署 FP4 的量化版本。对于家用电脑来说,这是不可能的,即使采用压缩、分层等优化方法,使用最新的 Nvidia RTX5090 显卡(32G 显存),每秒低于 10tokens 的推理输出速度不具备实用价值。普通人能实际部署的仅仅是 Deepseek-R1-distill 蒸馏版模型,这是大家可以真正用得上的版本;模型大小从 1.5B 到 70B 都有。那么问题来了,普通人为什么要部署呢?作者是没有“雅兴”在自己电脑上部署…