优化:让 Agent 越用越好
构建并分发出去的 Agent 不是终点。它每天处理真实任务,这些会话历史本身就是最好的优化材料——哪里绕了路、哪段 prompt 总让它误解、哪些步骤又慢又贵,都记录在里面。优化,就是让 Agent 复盘自己的历史,把自己调得更准、更省。
优化始终围绕两个指标:单任务成本(cost/task) 和 任务成功率(task success rate)——task 指你交给它的一项通用任务。
自主调优(已上线)
Section titled “自主调优(已上线)”Agent 从会话历史中发现低效,持续打磨自己的提示词和 skill——澄清模糊的系统提示词、把不必同时激活的能力抽成按需加载的 skill、把高频或不稳的步骤脚本化。越跑越准,越省 token。
落地机制和审批模型见 Builder Mode:Agent 自己列出相关 session、按需下载分析、提出改动,每一笔都经你审批才生效。
模型替换(规划中)
Section titled “模型替换(规划中)”从会话历史自动构建评测集,验证更便宜的模型能否同样胜任,进一步压低成本。这一步最难——需要从真实 session 中抽取可回归的 test suite,配套一套评测能力,才能在不损失质量的前提下把昂贵模型替换为更便宜的模型。这部分能力仍在开发中。