优化：让 Agent 越用越好

构建并分发出去的 Agent 不是终点。它每天处理真实任务，这些会话历史本身就是最好的优化材料——哪里绕了路、哪段 prompt 总让它误解、哪些步骤又慢又贵，都记录在里面。优化，就是让 Agent 复盘自己的历史，把自己调得更准、更省。

优化始终围绕两个指标：单任务成本（cost/task） 和 任务成功率（task success rate）——task 指你交给它的一项通用任务。

自主调优（已上线）

Agent 从会话历史中发现低效，持续打磨自己的提示词和 skill——澄清模糊的系统提示词、把不必同时激活的能力抽成按需加载的 skill、把高频或不稳的步骤脚本化。越跑越准，越省 token。

落地机制和审批模型见 Builder Mode：Agent 自己列出相关 session、按需下载分析、提出改动，每一笔都经你审批才生效。

从会话历史自动构建评测集，验证更便宜的模型能否同样胜任，进一步压低成本。这一步最难——需要从真实 session 中抽取可回归的 test suite，配套一套评测能力，才能在不损失质量的前提下把昂贵模型替换为更便宜的模型。这部分能力仍在开发中。