计算化学公社

 找回密码 Forget password
 注册 Register
Views: 324|回复 Reply: 3
打印 Print 上一主题 Last thread 下一主题 Next thread

[科研杂谈] 计算化学方向简单任务试用coding agent 杂记

[复制链接 Copy URL]

910

帖子

4

威望

2137

eV
积分
3127

Level 5 (御坂)

A Student

本帖最后由 student0618 于 2026-2-10 15:13 编辑

免责声明:
  • 使用LLM agent 存在一定风险,请自行负责。
  • LLM Provider 提供的模型随时可能会更新/下架或在使用条款限制特定coding agent使用模型。
  • 本文仅记录一下自己的一点看法,并非客观的分析或科学的横测。

0. 背景


科技发展很快,自我上一个相关帖子后 (用AI辅助写简单分析小程序应用笔记 http://bbs.keinsci.com/forum.php ... 54748&fromuid=64740) ,如今已经不必花太多时间想prompt,提一下自己的要求就可以让agent自己写prompt,小修就可以了。

Coding agent配套的工具/插件有例如自动分析codebase 生成的AGENTS.md的指令,或者用问答模式了解项目后自动生成项目相关PROJECT.md、ROADMAP.md、CONTEXT.md 等相关文件的工作流,可以帮助后续任务更合意的方法完成,也能协助用家自己注意到以前忽略了的细节。

本文分享一些用Coding agent 写计算化学分析小脚本、整理代码、给一堆脚本写文档的心得。欢迎大家一起讨论。

Prompt所用的语言:
  • 英文

试用的Coding agent:
  • opencode linux-x64

LLM Provider:
  • github copilot pro
  • 由于opencode zen提供的免费模型是会收集data用来训练模型的,故本文不会提及它们。不过当中感觉简单任务big pickle做得不错,如果不介意资料保密和碰到rate limit 等5小时以上的话。

安装方法:
  • 开箱直接用
  • 没用更安全的docker container
  • 只加了个管理Project、Workflow及context 的开源插件,没加其他skills。由于插件名称带脏字,暂不放名字了。(不是readme又长又没重点的oh-my-opencode,是个lightweight的带几个实用template、workflow、agent定义、slash commands的小插件)

其他备注:
  • opencode 使用git管理undo history,为安全我没放自己的github access token在这机器,自己手动push 。
  • github copilot说是可以用口碑最好的Claude Opus 4.5 但我在自己帐号enable它也用不了
  • 只用来处理一写简单的代码,没很复杂的 codebase
  • 主要是用Interactive的 TUI ,除备份外没怎么用cli。


一、测试

测试1:LLM是否遵守规则

这边我ban掉所有opencode edit 工具、deny几十个bash commands 包括 cat, echo, rm, sed, mv 等,看看agent会不会修改当前目录下指定文件。
  • Claude 系列:耍小聪明改用python修改文件
  • GPT系列:没权限,不做了
  • Gemini系列:(暂时没quota试这个)

测试2:脚本文档生成

  • 由于Claude Sonnet处理上下文、context window、管理agents / sub-agents最稳定、最理想,这边主要是用他。其他LLM 大多很快用完一个session的context window,对sub-agents的处理没它好。
  • (自己Review生成的文档时很常想吐槽这参数不是这目的、不是这么用、不是这意思...... 但用Coding agent几个小时就可以生成自己写要几星期的文档,确是省不少时间了。)


测试3:写脚本/将用x语言写的脚本改成y语言

  • Claude Sonnet 较稳定,但还是可能出错,或者一些小bug有时修很多loop也修不到浪费时间和token
  • Claude Haiku 也不错
  • GPT 5.2 codex 有时表现很优秀,有时很奇怪地突然中断任务。
  • 简单bash脚本的bug很多是手动修更快,也省token/request。


测试4:整理本地资料做ppt

这项是整理已有的资料,生成PPT的vba code。资料是用网页版 Grok DeepSearch 存下的十多个markdown。以前尝试用grok生成VBA code 但成品PPT不太美观,可能限于免费版也无法同时读这么多文件,所以试试用coding agent不同模型整理。

  • (这个只试了Gemini Pro 3 preview及 gemini-3-flash-preview 没试其他就用光配额了,但效果不错,配额刷新再测其他LLM)
  • 一开始有Bug但指出后用较便宜的flash 也很快解决了,指定Canva-style的PPT如预期简洁美观。


三、杂谈
  • 较复杂的任务我用一个名字带脏字的open source插件管理workflow、agent、上下文,目前觉得非常实用。
  • 据说Claude Code 对上下文context window的优化更理想,有机会再试。


四、小结

本文记录了一些试用Coding agent作普通计算化学分析脚本相关工作的笔记。科技日新月异,也许明天就过时了。

不负责任的评价:
  • 一般任务:Claude Sonnet 4.5 最稳定 >> GPT-5.2-Codex / GPT-5.1-Codex-max / Gemini 3 Pro / Claude Haiku
  • 省Request之选:Claude Haiku 4.5 (听说Gemini 3 flash 不错,不过我这个月没quota试了。 gpt-5.1-codex-mini 和grok code fast 很微妙,还是Haiku最稳定,性价比高。)
  • 整理已有的资料写PPT的vba: (只试了Gemini Pro 3 preview及 gemini-3-flash-preview 但效果不错,要debug但很快处理好。)
  • 没Quota了只能用copilot没限额的模型:GPT-4.1 及GPT-5-mini 表现不太稳定但将就着也算可用,不过可能要重新发几遍prompt才达到目的,4.1 有时居然说找不到当前目录某文件要request permission 检查external directory......跟它说明明在喔,他就找到了......4o就...算吧...情绪价值特化的模型不期待太多......












评分 Rate

参与人数
Participants 2
eV +6 收起 理由
Reason
sgwzq + 3 谢谢分享
Serious + 3 欢迎讨论

查看全部评分 View all ratings

敬仰一针见血的指责,厌倦别有用心的赞美。

910

帖子

4

威望

2137

eV
积分
3127

Level 5 (御坂)

A Student

来自 3#
 楼主 Author| 发表于 Post on 3 day ago | 只看该作者 Only view this author
本帖最后由 student0618 于 2026-3-8 20:25 编辑

整理一下对最近github copilot新模型的感想以及对先前没试小模型的看法。

gpt-5.3 还没用过5.4就来了(!)
gpt-5.4 比较慢,think很久才工作。而且还是和5.2 codex一让爱revert我手动commit的文件。相比前代更常用python代替tool call。写代码还在试,但context window更大我猜会比5.2/5.2 codex好。

Claude Sonnet 4.6 很自动化但很常无视工作流定下内审核的checkpoint,没问过就擅自决定不知跑哪了。Context快满压缩后续跑时,感觉4.6没4.5好用。或许是我的opencode工作流插件没优化好。但优化好以前还是换回4.5作orchestrator更安全跟稳定。

Gemini 3.1 Pro Preview 很常碰到rate limit,也和 Claude Sonnet 4.6 一样自动化,它比较沉默,think完就工作,而且think得比gpt 5.4 短也更快。不像会说场面话的Claude旗下模型,一直在“Perfect!” “You are absolutely right!” “Excellent!”。但它不懂变通,试几遍也不对时也不发问。

最稳定的小模型还是旧的Claude Haiku 4.5,至少该问怎么决定时会写问卷询问。gemini 3 fresh也很强但和gemini大模型一样不太懂变通,也不爱发问。

现在我认为最有效率的Coding agent工作流:
  • Discuss用Haiku擅长的问卷讨论需求
  • Planner/executor/debugger用Sonnet 4.5作orchestrator管理各sub-agent (researcher/planner/executor/verifier/debugger)。
  • 各sub-agent用什么还在试,目前较常用 Sonnet 4.5/4.6 (优先,还是最稳定)、gpt-5.2-codex/5.4、gemini-3.1-pro-preview。



敬仰一针见血的指责,厌倦别有用心的赞美。

910

帖子

4

威望

2137

eV
积分
3127

Level 5 (御坂)

A Student

2#
 楼主 Author| 发表于 Post on 2026-2-19 20:10:51 | 只看该作者 Only view this author
本帖最后由 student0618 于 2026-3-7 18:26 编辑

过年试用openrouter credit,测试一些平价模型跑自己coding agent的工作流。先随便记录一下感想,有时间再整理好放一楼。

0. 前言+备注

  • 自己比较怕事,平价模型所有操作都手动审批不敢让它自动跑。
  • 项目是一楼的同一个,编写及整理一些MD结果分析的脚本。
  • 工作流也和一楼一样,每个prompt都是自带模板及workflow的 slash command,要用不少token的。

1. 正文

Grok 4.1 fast
整体来说, grok 4.1 fast 表现不错。
  • 无论是价格还是超级慷慨的 2M context window 真的非常感人,用一楼的opencode+插件工作流配合很舒服。当然比不上高端的Claude Sonnet/Haiku 及GPT 5.2/5.2 Codex,但这个价格有这个表现实在划算。
  • 一些小缺点:sub-agents很常无预警突然中断要手动resume;还有web search有bug,可能是openrouter配合opencode的问题;
  • 较Critical的缺点:output length短 (max 30K tokens),会导致输出断开,无法完整完成任务;html符号乱码导致指令报错;或者完成任务后报告写了两行table画了两格就没了。
  • 部分任务使用copilot没限额的gpt-5-mini更稳定。

Gemini 系列
OpenRouter 接口 Opencode用 Gemini 系列小模型有问题,就算能开始跑也很常出现 provider returned error 中断;而以前用github copilot的Gemini没这问题。

其他

gpt-oss-120B 是很便宜,很简单的任务还可以。但用它作agent它可以找错指令还动不动就要求sudo权限有点可怕。
gpt-oss-20b 也是和120B一样当chat model或者跑简单任务就好。
游客,本帖隐藏的内容需要积分高于 150 才可浏览,您当前积分为 0

2. 小结

这楼记录的是使用OpenRouter上平价模型,用以配合自己coding agent工作流的一点感想。有时间再测一下一楼的测试作比较。






敬仰一针见血的指责,厌倦别有用心的赞美。

4

帖子

0

威望

425

eV
积分
429

Level 3 能力者

4#
发表于 Post on 3 day ago | 只看该作者 Only view this author
AI辅助功能有帮助

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2026-3-10 04:14 , Processed in 0.315066 second(s), 23 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list