计算化学公社

标题: 请问本地部署大语言模型有没有比较轻量化的方案呢? [打印本页]

作者
Author:
sun35mr    时间: 2025-2-10 16:54
标题: 请问本地部署大语言模型有没有比较轻量化的方案呢?
请问本地部署大语言模型有没有比较轻量化的方案呢?主要是在家庭内使用
4090的显存只有24Gb,只能跑32b的模型
魔改2080Ti x2 的话功耗及风扇噪音难以接受
反而以前性价比最低的Mac电脑成为了目前的最优解了
作者
Author:
r1ck    时间: 2025-2-10 17:07
不如买API
作者
Author:
Illuminatia    时间: 2025-2-10 17:16
没火起来前Deepseek API 的delay就很高, 现在直接挂了. 本地部署还是看你花费, 通常做agent 8B的模型其实够用, 想完整部署等等老黄的Project Digits 买三台就可以部署600b了
作者
Author:
akakcolin    时间: 2025-2-11 11:04
32B常规用足够了,运行占显存20G左右,用单卡2080ti22GB 就行
作者
Author:
xiaowei2022    时间: 2025-2-11 14:15
参数多,需要的算力自然也多了,不过32B对日常使用来说够用了
作者
Author:
ysgwill    时间: 2025-2-12 22:51
看了下你的硬件,你有一块4090,可以考虑用KTransformers,这是一个GPU+CPU异构推理的架构,它们最近在4代intel*2+382G内存(4800MT)+4090上实现了对全参数DS-R1(671B)的13tokens/s的推理速度,详细的可参阅它们的项目地址:https://github.com/kvcache-ai/ktransformers
作者
Author:
Graphite    时间: 2025-2-19 15:34
本帖最后由 Graphite 于 2025-2-19 15:39 编辑

要看你干嘛,我试了一圈放弃了本地部署。
感觉只有这种情况有必要:自己基于小尺寸模型(比如7-10b,13-14b)开发一些工作流、agent,希望稳定固化成一套工具,不时会进行一些高频次的调用,又比较注重数据隐私的情况。
否则只是低频次调用(比如一天几百次以内),调API更灵活。可以自己写个脚本管一套API池,放他10个8个备胎,谁卡了直接切就是。
如果涉及到微调训练,那普通人本地多大显存都不够用的。临时性提炼、生成一些东西也可以直接租卡,一天几十块钱而已。
主要是现在迭代还很快,三个月六个月之后又不知道是哪个模型更好用了。基础设施这块自然有人做(说实话API/租卡利润也没多少,让他赚就赚了),大部分人要的其实是开箱即用。

作者
Author:
c00jsw00    时间: 2025-2-22 00:35
ysgwill 发表于 2025-2-12 22:51
看了下你的硬件,你有一块4090,可以考虑用KTransformers,这是一个GPU+CPU异构推理的架构,它们最近在4代i ...

KTransformers在windows 系統下很難安裝..一堆錯誤..實在是不好使用..
作者
Author:
wjc404    时间: 2025-3-2 16:28
单卡4090可以试试蒸馏版32b的AWQ版,弄一个vLLM的docker镜像。更大的模型就别考虑了。
作者
Author:
doublezhang    时间: 2025-3-3 10:38
双路7B13 7C13 之类的挂满内存条子硬上
作者
Author:
hdhxx123    时间: 2025-3-21 19:30
mistral-small-3.1 7900xt部署35tokens/s 基本够用




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3