Claude Code Skills That SELF IMPROVE (Forever)

Claude CodeAIAuto ResearchPrompt EngineeringSelf-Improving Skills

16:32

2026/3/13

无效的视频链接

本视频介绍了如何结合 Claude Code Skills 和一种名为 Auto Research 的 AI 新技术，以显著提高 Claude Code Skills 的可靠性和准确性，并使其能够自我改进。视频指出，Claude Code Skills 的输出并非总是可靠，大约 70% 的时间能得到预期结果，但仍有 30% 的时间输出不理想。为了解决这个问题，视频引入了 Andre Carpathy（前 OpenAI 创始成员，曾任特斯拉 AI 负责人）发布的 Auto Research GitHub 仓库。该仓库的核心思想是利用一组代理（agents）自主优化某个过程。在视频的场景中，这个过程就是不断改进 Claude Code Skills 的提示词（prompt），使其更加完善和精确。视频强调，理解 Auto Research 的关键在于其三个核心文件：`prepare.py`（主要用于机器学习模型训练，与 Claude Skills 无关）、`train.py`（可类比为 Claude Skills 本身）和 `program.md`（包含给代理的指令）。通过在 `program.md` 中为代理设定明确的指令，并提供一个评估标准（eval），代理可以不断尝试改进 Claude Skills 的提示词，以达到更高的性能。视频还展示了 Auto Research 的广泛应用，例如将其用于优化网站加载速度，将加载时间从 1100 毫秒降低到 67 毫秒。核心的三个要素是：1. 客观指标 (Objective Metric)：一个可量化的数值，用于衡量改进效果，例如网站加载时间、回复率或 Claude Skills 的评估通过率。2. 测量工具 (Measurement Tool)：用于自动化评估的工具，如 Google Lighthouse 或 API 分析工具。对于 Claude Skills，可以创建一个测试套件（test suite）来执行一系列评估。3. 可变因素 (Something to Change)：即 Claude Skills 的指令或提示词本身。视频详细演示了如何为一个名为“Diagram Generator”的 Claude Skill 设置评估标准（eval），包括文本可读性、颜色匹配、线性布局和避免数字/序数等四个维度。通过让代理不断生成和评估图表，并根据评估结果迭代优化提示词，最终使技能达到接近完美的状态。视频还提供了关于设置 Eval 的技巧，建议使用简单的“是/否”二元问题，避免过于复杂的评分系统，以减少模型优化的不确定性。

Claude Code Skills That SELF IMPROVE (Forever)

Claude CodeAIAuto ResearchPrompt EngineeringSelf-Improving Skills

Nick Saraev

16:32

2026/3/13

Claude Code Skills That SELF IMPROVE (Forever)

Claude Code Skills That SELF IMPROVE (Forever)

AI生成总结及关键点