计算化学公社

 找回密码 Forget password
 注册 Register
Views: 1913|回复 Reply: 10
打印 Print 上一主题 Last thread 下一主题 Next thread

[配置讨论] 请问本地部署大语言模型有没有比较轻量化的方案呢?

[复制链接 Copy URL]

89

帖子

0

威望

482

eV
积分
571

Level 4 (黑子)

跳转到指定楼层 Go to specific reply
楼主
请问本地部署大语言模型有没有比较轻量化的方案呢?主要是在家庭内使用
4090的显存只有24Gb,只能跑32b的模型
魔改2080Ti x2 的话功耗及风扇噪音难以接受
反而以前性价比最低的Mac电脑成为了目前的最优解了

20

帖子

0

威望

968

eV
积分
988

Level 4 (黑子)

2#
发表于 Post on 2025-2-10 17:07:51 | 只看该作者 Only view this author
不如买API

11

帖子

0

威望

863

eV
积分
874

Level 4 (黑子)

3#
发表于 Post on 2025-2-10 17:16:18 | 只看该作者 Only view this author
没火起来前Deepseek API 的delay就很高, 现在直接挂了. 本地部署还是看你花费, 通常做agent 8B的模型其实够用, 想完整部署等等老黄的Project Digits 买三台就可以部署600b了

32

帖子

1

威望

1596

eV
积分
1648

Level 5 (御坂)

4#
发表于 Post on 2025-2-11 11:04:21 | 只看该作者 Only view this author
32B常规用足够了,运行占显存20G左右,用单卡2080ti22GB 就行

51

帖子

0

威望

213

eV
积分
264

Level 3 能力者

5#
发表于 Post on 2025-2-11 14:15:20 | 只看该作者 Only view this author
参数多,需要的算力自然也多了,不过32B对日常使用来说够用了
是了,它已证明是可以信赖的,而且我从来也没有为选择了这条道路而后悔过。
——爱因斯坦

1

帖子

0

威望

103

eV
积分
104

Level 2 能力者

6#
发表于 Post on 2025-2-12 22:51:48 | 只看该作者 Only view this author
看了下你的硬件,你有一块4090,可以考虑用KTransformers,这是一个GPU+CPU异构推理的架构,它们最近在4代intel*2+382G内存(4800MT)+4090上实现了对全参数DS-R1(671B)的13tokens/s的推理速度,详细的可参阅它们的项目地址:https://github.com/kvcache-ai/ktransformers

395

帖子

8

威望

3906

eV
积分
4461

Level 6 (一方通行)

石墨

7#
发表于 Post on 2025-2-19 15:34:30 | 只看该作者 Only view this author
本帖最后由 Graphite 于 2025-2-19 15:39 编辑

要看你干嘛,我试了一圈放弃了本地部署。
感觉只有这种情况有必要:自己基于小尺寸模型(比如7-10b,13-14b)开发一些工作流、agent,希望稳定固化成一套工具,不时会进行一些高频次的调用,又比较注重数据隐私的情况。
否则只是低频次调用(比如一天几百次以内),调API更灵活。可以自己写个脚本管一套API池,放他10个8个备胎,谁卡了直接切就是。
如果涉及到微调训练,那普通人本地多大显存都不够用的。临时性提炼、生成一些东西也可以直接租卡,一天几十块钱而已。
主要是现在迭代还很快,三个月六个月之后又不知道是哪个模型更好用了。基础设施这块自然有人做(说实话API/租卡利润也没多少,让他赚就赚了),大部分人要的其实是开箱即用。
自在飞花轻似梦,无边丝雨细如愁。

全自动反应动力学(ReaxFF、AIMD、NEP等)后处理工具网页版:http://cc-portal.xyz/reax_tools

85

帖子

0

威望

2238

eV
积分
2323

Level 5 (御坂)

8#
发表于 Post on 2025-2-22 00:35:48 | 只看该作者 Only view this author
ysgwill 发表于 2025-2-12 22:51
看了下你的硬件,你有一块4090,可以考虑用KTransformers,这是一个GPU+CPU异构推理的架构,它们最近在4代i ...

KTransformers在windows 系統下很難安裝..一堆錯誤..實在是不好使用..

200

帖子

0

威望

531

eV
积分
731

Level 4 (黑子)

9#
发表于 Post on 2025-3-2 16:28:23 | 只看该作者 Only view this author
单卡4090可以试试蒸馏版32b的AWQ版,弄一个vLLM的docker镜像。更大的模型就别考虑了。

136

帖子

0

威望

2432

eV
积分
2568

Level 5 (御坂)

10#
发表于 Post on 2025-3-3 10:38:13 | 只看该作者 Only view this author
双路7B13 7C13 之类的挂满内存条子硬上

442

帖子

0

威望

2404

eV
积分
2846

Level 5 (御坂)

娃娃儿鱼

11#
发表于 Post on 2025-3-21 19:30:05 | 只看该作者 Only view this author
mistral-small-3.1 7900xt部署35tokens/s 基本够用
真·探

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2025-8-12 04:58 , Processed in 0.194846 second(s), 20 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list