Claude Code Skills That SELF IMPROVE (Forever)

Claude CodeAIAuto ResearchPrompt EngineeringSelf-Improving Skills
Nick Saraev
Nick Saraev
16:32
2026/3/13

无效的视频链接

本视频介绍了如何结合 Claude Code Skills 和一种名为 Auto Research 的 AI 新技术,以显著提高 Claude Code Skills 的可靠性和准确性,并使其能够自我改进。视频指出,Claude Code Skills 的输出并非总是可靠,大约 70% 的时间能得到预期结果,但仍有 30% 的时间输出不理想。为了解决这个问题,视频引入了 Andre Carpathy(前 OpenAI 创始成员,曾任特斯拉 AI 负责人)发布的 Auto Research GitHub 仓库。该仓库的核心思想是利用一组代理(agents)自主优化某个过程。在视频的场景中,这个过程就是不断改进 Claude Code Skills 的提示词(prompt),使其更加完善和精确。视频强调,理解 Auto Research 的关键在于其三个核心文件:`prepare.py`(主要用于机器学习模型训练,与 Claude Skills 无关)、`train.py`(可类比为 Claude Skills 本身)和 `program.md`(包含给代理的指令)。通过在 `program.md` 中为代理设定明确的指令,并提供一个评估标准(eval),代理可以不断尝试改进 Claude Skills 的提示词,以达到更高的性能。视频还展示了 Auto Research 的广泛应用,例如将其用于优化网站加载速度,将加载时间从 1100 毫秒降低到 67 毫秒。核心的三个要素是:1. 客观指标 (Objective Metric):一个可量化的数值,用于衡量改进效果,例如网站加载时间、回复率或 Claude Skills 的评估通过率。2. 测量工具 (Measurement Tool):用于自动化评估的工具,如 Google Lighthouse 或 API 分析工具。对于 Claude Skills,可以创建一个测试套件(test suite)来执行一系列评估。3. 可变因素 (Something to Change):即 Claude Skills 的指令或提示词本身。视频详细演示了如何为一个名为“Diagram Generator”的 Claude Skill 设置评估标准(eval),包括文本可读性、颜色匹配、线性布局和避免数字/序数等四个维度。通过让代理不断生成和评估图表,并根据评估结果迭代优化提示词,最终使技能达到接近完美的状态。视频还提供了关于设置 Eval 的技巧,建议使用简单的“是/否”二元问题,避免过于复杂的评分系统,以减少模型优化的不确定性。