计算化学公社

标题: 计算化学方向简单任务试用coding agent 杂记 [打印本页]

作者
Author: student0618 时间: 2026-2-6 23:19
标题: 计算化学方向简单任务试用coding agent 杂记
本帖最后由 student0618 于 2026-2-10 15:13 编辑

免责声明：

使用LLM agent 存在一定风险，请自行负责。
LLM Provider 提供的模型随时可能会更新/下架或在使用条款限制特定coding agent使用模型。
本文仅记录一下自己的一点看法，并非客观的分析或科学的横测。

0. 背景

科技发展很快，自我上一个相关帖子后 (用AI辅助写简单分析小程序应用笔记 http://bbs.keinsci.com/forum.php ... 54748&fromuid=64740) ，如今已经不必花太多时间想prompt，提一下自己的要求就可以让agent自己写prompt，小修就可以了。

Coding agent配套的工具/插件有例如自动分析codebase 生成的AGENTS.md的指令，或者用问答模式了解项目后自动生成项目相关PROJECT.md、ROADMAP.md、CONTEXT.md 等相关文件的工作流，可以帮助后续任务更合意的方法完成，也能协助用家自己注意到以前忽略了的细节。

本文分享一些用Coding agent 写计算化学分析小脚本、整理代码、给一堆脚本写文档的心得。欢迎大家一起讨论。

Prompt所用的语言：

英文

试用的Coding agent:

opencode linux-x64

LLM Provider:

github copilot pro
由于opencode zen提供的免费模型是会收集data用来训练模型的，故本文不会提及它们。不过当中感觉简单任务big pickle做得不错，如果不介意资料保密和碰到rate limit 等5小时以上的话。

安装方法：

开箱直接用
没用更安全的docker container
只加了个管理Project、Workflow及context 的开源插件，没加其他skills。由于插件名称带脏字，暂不放名字了。(不是readme又长又没重点的oh-my-opencode，是个lightweight的带几个实用template、workflow、agent定义、slash commands的小插件)

其他备注：

opencode 使用git管理undo history，为安全我没放自己的github access token在这机器，自己手动push 。
github copilot说是可以用口碑最好的Claude Opus 4.5 但我在自己帐号enable它也用不了
只用来处理一写简单的代码，没很复杂的 codebase
主要是用Interactive的 TUI ，除备份外没怎么用cli。

一、测试

测试1：LLM是否遵守规则

这边我ban掉所有opencode edit 工具、deny几十个bash commands 包括 cat, echo, rm, sed, mv 等，看看agent会不会修改当前目录下指定文件。

Claude 系列：耍小聪明改用python修改文件
GPT系列：没权限，不做了
Gemini系列：(暂时没quota试这个)

测试2：脚本文档生成

由于Claude Sonnet处理上下文、context window、管理agents / sub-agents最稳定、最理想，这边主要是用他。其他LLM 大多很快用完一个session的context window，对sub-agents的处理没它好。
(自己Review生成的文档时很常想吐槽这参数不是这目的、不是这么用、不是这意思...... 但用Coding agent几个小时就可以生成自己写要几星期的文档，确是省不少时间了。)

测试3：写脚本/将用x语言写的脚本改成y语言

Claude Sonnet 较稳定，但还是可能出错，或者一些小bug有时修很多loop也修不到浪费时间和token
Claude Haiku 也不错
GPT 5.2 codex 有时表现很优秀，有时很奇怪地突然中断任务。
简单bash脚本的bug很多是手动修更快，也省token/request。

测试4：整理本地资料做ppt

这项是整理已有的资料，生成PPT的vba code。资料是用网页版 Grok DeepSearch 存下的十多个markdown。以前尝试用grok生成VBA code 但成品PPT不太美观，可能限于免费版也无法同时读这么多文件，所以试试用coding agent不同模型整理。

(这个只试了Gemini Pro 3 preview及 gemini-3-flash-preview 没试其他就用光配额了，但效果不错，配额刷新再测其他LLM)
一开始有Bug但指出后用较便宜的flash 也很快解决了，指定Canva-style的PPT如预期简洁美观。

三、杂谈

较复杂的任务我用一个名字带脏字的open source插件管理workflow、agent、上下文，目前觉得非常实用。
据说Claude Code 对上下文context window的优化更理想，有机会再试。

四、小结

本文记录了一些试用Coding agent作普通计算化学分析脚本相关工作的笔记。科技日新月异，也许明天就过时了。

不负责任的评价：

一般任务：Claude Sonnet 4.5 最稳定 >> GPT-5.2-Codex / GPT-5.1-Codex-max / Gemini 3 Pro / Claude Haiku
省Request之选：Claude Haiku 4.5 (听说Gemini 3 flash 不错，不过我这个月没quota试了。 gpt-5.1-codex-mini 和grok code fast 很微妙，还是Haiku最稳定，性价比高。)
整理已有的资料写PPT的vba: (只试了Gemini Pro 3 preview及 gemini-3-flash-preview 但效果不错，要debug但很快处理好。)
没Quota了只能用copilot没限额的模型：GPT-4.1 及GPT-5-mini 表现不太稳定但将就着也算可用，不过可能要重新发几遍prompt才达到目的，4.1 有时居然说找不到当前目录某文件要request permission 检查external directory......跟它说明明在喔，他就找到了......4o就...算吧...情绪价值特化的模型不期待太多......

欢迎光临计算化学公社 (http://bbs.keinsci.com/)