请问本地部署大语言模型有没有比较轻量化的方案呢？

sun35mr · 发表于 Post on 2025-2-10 16:54:25

请问本地部署大语言模型有没有比较轻量化的方案呢？主要是在家庭内使用
4090的显存只有24Gb，只能跑32b的模型
魔改2080Ti x2 的话功耗及风扇噪音难以接受
反而以前性价比最低的Mac电脑成为了目前的最优解了

r1ck · 发表于 Post on 2025-2-10 17:07:51

不如买API

Illuminatia · 发表于 Post on 2025-2-10 17:16:18

没火起来前Deepseek API 的delay就很高, 现在直接挂了. 本地部署还是看你花费, 通常做agent 8B的模型其实够用, 想完整部署等等老黄的Project Digits 买三台就可以部署600b了

akakcolin · 发表于 Post on 2025-2-11 11:04:21

32B常规用足够了，运行占显存20G左右，用单卡2080ti22GB 就行

xiaowei2022 · 发表于 Post on 2025-2-11 14:15:20

参数多，需要的算力自然也多了，不过32B对日常使用来说够用了

ysgwill · 发表于 Post on 2025-2-12 22:51:48

看了下你的硬件，你有一块4090，可以考虑用KTransformers，这是一个GPU+CPU异构推理的架构，它们最近在4代intel*2+382G内存（4800MT）+4090上实现了对全参数DS-R1（671B）的13tokens/s的推理速度，详细的可参阅它们的项目地址：https://github.com/kvcache-ai/ktransformers

Graphite · 发表于 Post on 2025-2-19 15:34:30

本帖最后由 Graphite 于 2025-2-19 15:39 编辑

要看你干嘛，我试了一圈放弃了本地部署。
感觉只有这种情况有必要：自己基于小尺寸模型（比如7-10b，13-14b）开发一些工作流、agent，希望稳定固化成一套工具，不时会进行一些高频次的调用，又比较注重数据隐私的情况。
否则只是低频次调用（比如一天几百次以内），调API更灵活。可以自己写个脚本管一套API池，放他10个8个备胎，谁卡了直接切就是。
如果涉及到微调训练，那普通人本地多大显存都不够用的。临时性提炼、生成一些东西也可以直接租卡，一天几十块钱而已。
主要是现在迭代还很快，三个月六个月之后又不知道是哪个模型更好用了。基础设施这块自然有人做（说实话API/租卡利润也没多少，让他赚就赚了），大部分人要的其实是开箱即用。

c00jsw00 · 发表于 Post on 2025-2-22 00:35:48

ysgwill 发表于 2025-2-12 22:51
看了下你的硬件，你有一块4090，可以考虑用KTransformers，这是一个GPU+CPU异构推理的架构，它们最近在4代i ...

KTransformers在windows 系統下很難安裝..一堆錯誤..實在是不好使用..

wjc404 · 发表于 Post on 2025-3-2 16:28:23

单卡4090可以试试蒸馏版32b的AWQ版，弄一个vLLM的docker镜像。更大的模型就别考虑了。

doublezhang · 发表于 Post on 2025-3-3 10:38:13

双路7B13 7C13 之类的挂满内存条子硬上

hdhxx123 · 发表于 Post on 2025-3-21 19:30:05

mistral-small-3.1 7900xt部署35tokens/s 基本够用

		自动登录 Automatic login	找回密码 Forget password
密码 Password			注册 Register

[配置讨论] 请问本地部署大语言模型有没有比较轻量化的方案呢？