计算化学公社
标题:
计算化学方向简单任务试用coding agent 杂记
[打印本页]
作者Author:
student0618
时间:
2026-2-6 23:19
标题:
计算化学方向简单任务试用coding agent 杂记
本帖最后由 student0618 于 2026-2-10 15:13 编辑
免责声明:
使用LLM agent 存在一定风险,请自行负责。
LLM Provider 提供的模型随时可能会更新/下架或在使用条款限制特定coding agent使用模型。
本文仅记录一下自己的一点看法,并非客观的分析或科学的横测。
0. 背景
科技发展很快,自我上一个相关帖子后 (用AI辅助写简单分析小程序应用笔记
http://bbs.keinsci.com/forum.php ... 54748&fromuid=64740
) ,如今已经不必花太多时间想prompt,提一下自己的要求就可以让agent自己写prompt,小修就可以了。
Coding agent配套的工具/插件有例如自动分析codebase 生成的AGENTS.md的指令,或者用问答模式了解项目后自动生成项目相关PROJECT.md、ROADMAP.md、CONTEXT.md 等相关文件的工作流,可以帮助后续任务更合意的方法完成,也能协助用家自己注意到以前忽略了的细节。
本文分享一些用Coding agent 写计算化学分析小脚本、整理代码、给一堆脚本写文档的心得。欢迎大家一起讨论。
Prompt所用的语言:
英文
试用的Coding agent:
opencode linux-x64
LLM Provider:
github copilot pro
由于opencode zen提供的免费模型是会收集data用来训练模型的,故本文不会提及它们。不过当中感觉简单任务big pickle做得不错,如果不介意资料保密和碰到rate limit 等5小时以上的话。
安装方法:
开箱直接用
没用更安全的docker container
只加了个管理Project、Workflow及context 的开源插件,没加其他skills。由于插件名称带脏字,暂不放名字了。(不是readme又长又没重点的oh-my-opencode,是个lightweight的带几个实用template、workflow、agent定义、slash commands的小插件)
其他备注:
opencode 使用git管理undo history,为安全我没放自己的github access token在这机器,自己手动push 。
github copilot说是可以用口碑最好的Claude Opus 4.5 但我在自己帐号enable它也用不了
只用来处理一写简单的代码,没很复杂的 codebase
主要是用Interactive的 TUI ,除备份外没怎么用cli。
一、测试
测试1:LLM是否遵守规则
这边我ban掉所有opencode edit 工具、deny几十个bash commands 包括 cat, echo, rm, sed, mv 等,看看agent会不会修改当前目录下指定文件。
Claude 系列:耍小聪明改用python修改文件
GPT系列:没权限,不做了
Gemini系列:(暂时没quota试这个)
测试2:脚本文档生成
由于Claude Sonnet处理上下文、context window、管理agents / sub-agents最稳定、最理想,这边主要是用他。其他LLM 大多很快用完一个session的context window,对sub-agents的处理没它好。
(自己Review生成的文档时很常想吐槽这参数不是这目的、不是这么用、不是这意思...... 但用Coding agent几个小时就可以生成自己写要几星期的文档,确是省不少时间了。)
测试3:写脚本/将用x语言写的脚本改成y语言
Claude Sonnet 较稳定,但还是可能出错,或者一些小bug有时修很多loop也修不到浪费时间和token
Claude Haiku 也不错
GPT 5.2 codex 有时表现很优秀,有时很奇怪地突然中断任务。
简单bash脚本的bug很多是手动修更快,也省token/request。
测试4:整理本地资料做ppt
这项是整理已有的资料,生成PPT的vba code。资料是用网页版 Grok DeepSearch 存下的十多个markdown。以前尝试用grok生成VBA code 但成品PPT不太美观,可能限于免费版也无法同时读这么多文件,所以试试用coding agent不同模型整理。
(这个只试了Gemini Pro 3 preview及 gemini-3-flash-preview 没试其他就用光配额了,但效果不错,配额刷新再测其他LLM)
一开始有Bug但指出后用较便宜的flash 也很快解决了,指定Canva-style的PPT如预期简洁美观。
三、杂谈
较复杂的任务我用一个名字带脏字的open source插件管理workflow、agent、上下文,目前觉得非常实用。
据说Claude Code 对上下文context window的优化更理想,有机会再试。
四、小结
本文记录了一些试用Coding agent作普通计算化学分析脚本相关工作的笔记。科技日新月异,也许明天就过时了。
不负责任的评价:
一般任务:Claude Sonnet 4.5 最稳定 >> GPT-5.2-Codex / GPT-5.1-Codex-max / Gemini 3 Pro / Claude Haiku
省Request之选:Claude Haiku 4.5 (听说Gemini 3 flash 不错,不过我这个月没quota试了。 gpt-5.1-codex-mini 和grok code fast 很微妙,还是Haiku最稳定,性价比高。)
整理已有的资料写PPT的vba: (只试了Gemini Pro 3 preview及 gemini-3-flash-preview 但效果不错,要debug但很快处理好。)
没Quota了只能用copilot没限额的模型:GPT-4.1 及GPT-5-mini 表现不太稳定但将就着也算可用,不过可能要重新发几遍prompt才达到目的,4.1 有时居然说找不到当前目录某文件要request permission 检查external directory......跟它说明明在喔,他就找到了......4o就...算吧...情绪价值特化的模型不期待太多......
欢迎光临 计算化学公社 (http://bbs.keinsci.com/)
Powered by Discuz! X3.3