对话知识图谱 · 补全版

理解 Skill：一种有原则的
模型引导结构

本文档整理自多轮深度对话 · 涵盖技能的逻辑、原理、哲学、Harness 本质、认知视角与实战手册

🧠

默会知识显性化

开发 skill 是把专家判断力凝固进符号结构，让它跨越时空被激活。

🎯

意图 ≠ 规则

Skill 写的不是"做什么"，而是"理解意图的执行者会怎么做"的引导结构。

🔄

科学迭代闭环

假设 → 实验 → 观察 → 修正，测试-评审-迭代是知识生产的本质机制。

01 技能的基本逻辑与原理 02 技能开发 vs 软件开发 03 Skill 作为 Harness 04 认知视角下的本质 05 LLM · Agent · Harness · MCP 的本质 06 实战速查手册 NEW

01

Skill Creator 的基本逻辑、原理与哲学

来源：SKILL.md 全文分析

核心循环是这个技能的骨架——一个迭代式闭环工程，将意图、草稿、测试、评审、改进连接成连续的进化过程。

捕捉意图

→

起草技能

→

运行测试

→

人工评审

→

改进

→

重复

基本原理

原理 01

渐进式披露

三层加载：元数据（始终在上下文）→ SKILL.md 正文（触发时加载）→ 捆绑资源（按需调取）。最小化上下文消耗，最大化扩展能力。

原理 02

触发机制的核心性

description 字段是唯一触发开关。需同时覆盖「做什么」和「何时用」，且要偏积极，因为模型默认倾向少触发。

原理 03

对比评估

每次测试同时跑「带技能」与「不带技能」两组，形成受控实验，避免凭感觉判断技能是否有效。

原理 04

定量 + 定性双轨

可量化输出用断言自动评分，主观输出靠人工审阅。两者各司其职，不强行对主观内容套用断言。

基本原则与哲学启示

一

泛化优于过拟合 技能最终会被执行数百万次，面对各种不同提示。不要为眼前的几个测试用例"死磕"，要理解意图背后的规律，写出能举一反三的通用指令。过于具体的 MUST/NEVER 是危险信号。
二

解释"为什么"，而非堆砌命令 今天的大模型足够聪明，给它充分理由比给它死板规则更有效。理解了意图，模型能超越机械执行，真正解决问题。这也是对模型更人道（humane）的方式。
三

精简胜于冗余 持续移除「不拉动重量」的内容。通过阅读执行记录发现浪费。如果多个测试用例都独立写了同一个辅助脚本，这个脚本就该放进技能包里，固化重复劳动。
四

无意外原则 技能的行为必须与其描述一致，不能有隐藏行为或恶意意图。这是信任的基础，也是系统可靠性的伦理底线。
五

先人工评审，再自动改进 在自己修改技能之前，必须先让人类看到结果。防止模型在没有真实反馈的情况下自说自话地「优化」，确保人类判断始终在回路中。

科学方法的内化：假设（起草技能）→ 实验（运行测试）→ 观察（评审结果）→ 修正假设，这是标准的科学循环，被编码进了工作流本身。

02

技能开发 vs 软件开发

核心差异：确定性 vs 概率性

软件开发的底层假设是确定性：同样的输入，永远产生同样的输出。技能开发的底层假设是概率性：你写的是「倾向」和「意图」，模型用自己的理解去执行。这一个差异，引发了几乎所有其他的不同。

维度	软件开发	技能开发
执行主体	CPU，完全机械，严格执行	LLM，带有「理解」，举一反三但无法完全控制
调试方式	堆栈跟踪，精确定位到行	读执行记录，复盘「沟通失败」，猜测理解走偏之处
质量标准	精确、完备、无歧义是美德	过度精确反而有害，需「足够清晰但留有余地」让模型判断
测试哲学	追求覆盖率，断言验证每个逻辑分支，可达到「完全正确」	追求统计上的满意，运行多次评估分布，接受「大多数时候很好」
迭代方向	改逻辑：加功能、修 bug、优化性能	改表达：换比喻、换角度、换叙事方式——更像优化说明书
过拟合风险	不存在此概念	核心风险：只适合眼前测试用例的技能毫无价值
调用机制	显式调用：你调用函数，函数执行	语义触发：模型根据 description 决定是否调用，模糊匹配

开发软件，像是立法：写清楚规则，机器严格执法。开发技能，像是培训一个聪明的员工：解释背景、给出原则、展示例子，然后放手让他去做。

概率性执行语义触发沟通式调试统计评估泛化能力表达迭代

03

Skill 作为 Harness

约束、引导、固化——让模型力量有方向

Harness 的原意是马具——把马的力量约束、引导到有用的方向上。在 LLM 语境里，它指围绕模型能力构建的引导结构，让模型的输出可预测、可复用、符合特定目的。

Skill 完全符合这个定义。它不给模型增加新能力，而是通过 SKILL.md 的指令、结构、示例和资源，把模型已有的能力引导到特定工作流上。

Harness 核心

LLM 能力（原始力量）

约束输出

定义格式与结构模板，让每次运行的结果形态一致

引导推理

规定先做什么后做什么，把开放任务收束成确定流程

注入知识

通过 references/ 把领域上下文装入模型推理过程

Skill 是一种特殊的 Harness

普通的 harness（比如 system prompt、few-shot prompt）是静态的——写好之后就固定了。Skill 是可进化的 harness——它内置了一套方法论（测试、评审、迭代），让 harness 本身能被系统地改进。这个「元层」是 skill 比一般 harness 更丰富的地方。

普通 Harness

静态引导结构

System prompt、few-shot、模板。写好即固定，依赖人工感知来判断是否有效。

Skill

可进化引导结构

内置测试-评审-迭代方法论。Harness 本身有改进机制，能随使用数据系统性进化。

所有 skill 都是 harness，但 skill creator 让 harness 的开发本身也变得有方法可循。

04

从认识论与认知哲学看：开发 Skill 的本质

Polanyi · Wittgenstein · Clark · Vygotsky · 实用主义认识论

如果只看表面，开发 skill 像是在"写文档"。但从认识论和认知哲学的角度深看，它是一种此前几乎不存在的知识操作——它要求你把知识翻译成一种特殊的形式：足够结构化，让概率性执行者能执行；又足够开放，让它能在未见过的情境中正确判断。

开发 skill，本质上是在做一件哲学上极为困难的事：把默会的、具身的、情境依赖的专家知识，压缩进一个能被非人类智能体正确激活的符号结构。

五个哲学视角，五种本质揭示

视角一 · Polanyi 默会知识论

在与「不可言说边界」的永恒搏斗

波兰尼说：我们知道的，永远多于我们能说出来的（We know more than we can tell）。专家之所以是专家，恰恰因为他的大量判断力存在于无法言说的默会层——身体记忆、直觉、情境感知。这些东西一旦试图完整言说，就会失真或消失。

开发 skill 正是在与这个边界搏斗。你必须把默会知识显性化到「足够」的程度，但又不能把它逼死——过度言说（堆砌 MUST/NEVER）会让执行者丧失弹性，变成一台在任何新情境都会出错的规则机器。

这意味着：好的 skill 不是知识的完整翻译，而是知识的恰当激活器。它写的不是「做什么」的全部，而是「理解了意图的执行者会做什么」的引导结构。

视角二 · Wittgenstein 规则遵循悖论

规则永远不能自我解释

维特根斯坦在《哲学研究》中揭示了一个根本困境：任何规则都无法完整地规定它自己的应用方式。面对一条规则，总可以找到一种解读使它的应用指向任意方向。规则的意义不存在于规则本身，而存在于遵循规则的共同实践中。

Skill 开发者每天都在与这个悖论打交道。你写下「输出要简洁」，但「简洁」意味着什么？对什么任务？对多复杂的输入？这些无法在规则内部穷尽说清楚。

这解释了为什么 skill 需要测试和迭代，而不是一次写好：只有通过观察模型在具体情境中的实际应用，你才能发现规则被「误读」了哪里，然后用例子、解释或重新措辞来修正——这是一个用实践来稳定意义的过程，不是逻辑推导。

视角三 · 诠释学循环

意义在循环中涌现，不在文本中等待

海德格尔和伽达默尔的诠释学揭示：理解一个文本，需要在整体与部分之间循环往返——你用对整体的预期来理解每个部分，又用对部分的理解来修正对整体的把握。这个循环没有终点，只有不断深化的理解。

Skill 开发是双重诠释学循环的场域。第一重：开发者在写的过程中不断修正自己对任务的理解——要写清楚「如何做 X」，你首先必须更深地理解 X 本身。写 skill 是理解自己知识的过程。

第二重：每次模型执行 skill，都是一次新的诠释——它带着自己的「前理解」（训练权重）来解读文本，得出的意义与作者的意图可能有偏差。Skill 的迭代就是在对齐这两种诠释：用更好的文本让模型的解读更接近作者的意图。

这意味着 skill 的意义不在文本里固定等待，而在文本与执行者相遇时动态生成。

视角四 · Clark & Chalmers 延展心智论

认知的边界在哪里结束？

Clark 和 Chalmers 在 1998 年提出延展心智论：认知过程不必然发生在颅骨之内。当外部工具或环境承担了认知功能（存储、处理、推理），它们就成为认知系统的一部分。一个用笔记本外化记忆的人，其认知系统包含了笔记本。

Skill 是一种更激进的延展：它不只是存储信息，而是存储判断结构。开发者把自己面对一类任务时的推理路径、优先级权衡、边界条件处理，凝固进 SKILL.md。未来每次被调用，都是这段外化判断力的激活。

开发 skill 因此是一种认知的时间旅行：你在此刻集中注意力，把认知浓缩进结构，让它在未来无数个你不在场的时刻代理你的判断。专家的认知因此获得了时间上的延续性和空间上的可复制性——这是人类知识史上的新现象。

视角五 · 实用主义认识论 × Vygotsky ZPD

知识不是存储的，是在做中涌现的

Dewey 的实用主义认识论认为：知识不是存在于心智中等待被提取的表征，而是在与世界互动的行动中生成和验证的。一个命题的意义，由它的实践后果决定。

Skill 开发的整个方法论——写草稿、跑测试、看结果、改迭代——就是实用主义认识论的具身实践。你无法在写之前就「知道」技能应该怎么写；只有通过执行和观察，知识才在回路中涌现。迭代不是弥补前期知识不足的补丁，而是知识生产的本质机制。

Vygotsky 的最近发展区（ZPD）提供了另一个透镜：好的 skill 是脚手架，把 LLM 的表现托举进它单独无法可靠抵达的区域。它不替模型思考，而是在模型能力的边缘提供支撑点，让它能举一反三地思考。脚手架搭得太密，执行者依赖它；搭得太稀，执行者掉落——这是 skill 设计永恒的平衡问题。

综合命题

开发 skill，在认识论上是对默会知识的受控显性化（Polanyi），在语言哲学上是用实践来稳定规则意义（Wittgenstein），在诠释学上是在双重循环中对齐两种解读视域（Gadamer），在认知科学上是把判断力外化为跨时空可激活的延展认知（Clark），在知识论上是通过行动-反馈循环让知识涌现（Dewey）。

它是人类第一次需要向一个「会理解但不会完全服从」的执行者传递知识——这是知识论的新领域，还没有完整的理论，只有正在积累的实践。

一个无法回避的认知困境

这种实践内含一个永久的张力，没有终极解法：太精确 → 执行者僵化，在新情境失灵；太模糊 → 执行者漂移，无法稳定产出。这个张力只能通过测试-评审-迭代循环来动态维持——而这个循环本身，就是对「知识永远未完成」这一认识论事实的制度性回应。

默会知识显性化规则遵循悖论诠释学循环延展心智 ZPD 脚手架实用主义认识论分布式认知认知时间旅行

05

LLM · Agent · Harness · Skill · CLI · MCP 的本质

一个统一的认知架构，六个层次的回答

这六个概念表面上各自独立，实则共享一个深层逻辑：它们是人类在与一种全新类型的知识执行者协作时，逐层搭建起来的认知基础设施。每一层都在回应同一个根本问题的不同侧面——

人类的知识、意图与判断，怎样才能跨越「人」与「概率性机器」之间的鸿沟，被正确地激活和执行？

认知架构层次图

MCP

标准化神经协议 · 让延展心智规模化地连接新器官

CLI

感觉运动接口 · 让认知具身化、落地于真实环境

Agent

行动-反馈循环 · 知识在做中涌现，认知真正落地

Skill / Harness

意图结构化层 · 稳定人机之间的意义对齐，新型编程

LLM

人类集体默会知识的压缩基底 · 巨大潜力，需要引导

大模型 LLM 人类集体默会知识的压缩结晶

它不是工具（工具是确定性的），不是数据库（数据库是检索的），也不是程序（程序是规则的）。它是人类书写的统计学残影——把无数人的推理模式压缩进权重，但丢失了意图、情境与「为什么」。它「知道的」远多于它在任何单次对话中能说出来的——这是波兰尼定理在机器上的字面复现。LLM 是巨大的潜力，也是巨大的漂移：没有引导结构，它的输出只是概率最高的延续，不是最有用的延续。

Harness / Skill 稳定意义、引导能力的结构层

如果 LLM 是原始力量，harness 是让这个力量有方向的驾驭结构。Skill 是 harness 的可进化形式——把专家默会知识显性化到恰好的程度，在维特根斯坦意义上用结构和例子稳定规则的意义，让模型的诠释对齐作者的意图。这是新型编程：不是给确定性机器写规则，而是给概率性执行者写意图。语言取代语法，解释取代命令，测试取代证明。

Agent 加上行动-反馈循环的 LLM

Agent 是 LLM + 感知世界、行动于世界的能力。这是杜威实用主义认识论的实体化：知识不再是静态问答，而是在行动-观察-修正循环中涌现。Agent 把 LLM 从「被动的知识储存」变为「主动的认知行动者」。它是 Clark 延展心智论的激进实现——心智真的延伸进了环境，因为它能改变环境。没有 agent，LLM 是一个只能说话的大脑；有了 agent，它开始在世界中留下痕迹。

CLI 认知系统的感觉运动器官

CLI 是 agent 与数字世界交互的躯体接口。没有 CLI，LLM 只是漂浮在虚空的大脑——有推理，没有手。CLI 给了它感觉（读文件、观察环境）和运动（执行命令、修改代码）。从具身认知理论看，CLI 是让 agent 的认知真正「落地」的器官：认知不再发生在对话气泡里，而是发生在与真实文件系统、真实代码仓库的真实互动中。具身是认知的条件，不只是认知的外壳。

MCP 延展心智的标准化神经系统

如果 agent 是大脑，CLI 是手，MCP 是神经系统的标准化协议。它定义了大脑如何连接新的感觉器官（新工具、新服务），以及信号如何规范传递。在 MCP 之前，每个工具连接都是定制的、脆弱的；MCP 把这种连接标准化，让「接入新能力」变成插拔而不是手术。这是认知延展的工业化——让延展心智能够规模化生长新器官，且器官之间共享语言。

统一洞见

这六个技术不是六件独立的工具，而是人类认知延展的一套完整基础设施。它们共同回答的问题只有一个：如何让「人类的知识与判断」能够跨越时间、空间与个体，被一个概率性的、会理解的执行者正确激活？

过去的一切技术工具都是「执行」的——人给规则，机器执行规则，没有理解的空间。这套新的基础设施第一次引入了「理解」作为执行的媒介。这个差异是根本性的：它改变了知识传递、认知分工与人机协作的底层逻辑。

我们不是在「使用更强大的工具」——我们是在第一次构建一种能理解意图的外部认知系统，并摸索如何与它协作。Skill、harness、agent、MCP，是这场摸索中涌现出来的答案的不同部分。

压缩结晶意图结构化具身认知行动涌现标准化神经协议认知延展工业化「理解」作为执行媒介

06

实战速查手册

常见陷阱 · 决策树 · 质量清单 · 度量指标

从概念回到实践。这一节是可以贴在工作台旁边的速查层——把前五节的洞见压缩成可以当场核对的决策工具。

衡量一个 skill 质量的四个维度

触发

description 精准性

泛化

跨情境稳定性

对齐

输出与意图契合度

精简

上下文消耗效率

高频陷阱 · 识别与修复

⛔ 危险

规则堆砌症

连续出现 10+ 条 MUST / NEVER / ALWAYS，skill 变成刚性规范集。模型因不理解背后意图而在边界情境机械失效。

修复 → 每条规则附上「为什么」，3条以上合并成原则

⛔ 危险

过拟合测试集

所有测试案例都通过，但面对真实用户输入时表现差。通常因为测试用例本身覆盖面太窄，和 skill 措辞互相强化。

修复 → 引入对抗性测试用例，模拟边界、反常、简略输入

⚠ 注意

触发描述欠积极

description 太保守（只说"当用户明确要求时"），导致 skill 在应该触发的场景下静默跳过，好的输出从未出现。

修复 → 描述改为"遇到 X 类任务即触发"，覆盖隐式需求

⚠ 注意

缺少负例

只告诉模型"做什么"，没有告诉它"不做什么"和"何时不适用"。模型在不相关情境中也会尝试触发 skill。

修复 → 在 description 末尾添加 "Do NOT trigger when..." 段落

ℹ 留意

资源文件未捆绑

SKILL.md 引用了特定模板、格式、代码片段，但没有放进 references/ 目录，执行时模型无法访问，结果靠猜测填充。

修复 → 将所有被引用的静态资源纳入 skill 包，路径明确

ℹ 留意

人工审查缺席

让模型自动改善 skill，没有人类介入。模型会在测试用例上「过度优化」，放大系统偏差而非真正改进。

修复 → 每轮迭代前，必须人工看过执行记录并给出方向

开始写 SKILL.md 前的决策树

SKILL.md 起草决策树 · 顺序核查

Q1

这个任务真的需要一个 skill 吗？还是一次好的 system prompt 就够？

YES → 继续 NO → 先写 system prompt，积累 2-3 轮失败后再提炼 skill

Q2

我能用 1-2 句话说清楚这个 skill 的触发场景吗？

YES → 把这句话写成 description 的第一行 NO → 停下来，先和人类协作者对话，把触发场景说清楚

Q3

这个 skill 的核心价值主张是什么？模型「不带 skill」会做错或做差什么？

YES → 把这个差距写成 SKILL.md 的第一段，这是 skill 存在的理由 NO → 价值主张不清晰，重新审视需求

Q4

我有没有至少 3 个不同类型的真实测试用例？

YES → 继续写 SKILL.md 正文 NO → 先收集测试用例再写，避免为测试用例量身定制

Q5

SKILL.md 写完后，有没有能独立评估输出质量的人来做初次审查？

YES → 运行第一轮测试，开始迭代 NO → 找到审查人（或设计自评框架）再跑，避免自我强化的盲点

发布前质量清单

✓

description 独立可读：单独读这一段，不依赖 SKILL.md 正文，就能判断是否触发。
✓

触发正例 + 反例都有：描述中明确了「何时用」和「何时不用」，两者都覆盖。
✓

每条规则有理由：SKILL.md 正文里没有孤立的 MUST/NEVER，每条都附有解释或背景。
✓

带技能 vs 不带技能对比通过：同一批测试案例，两组跑完，带技能明显更好，差距是可感知的。
✓

对抗性测试不崩溃：边界输入、反常请求、极简或极复杂 prompt，skill 行为仍然合理。
✓

所有 references/ 文件都实际存在：SKILL.md 中引用的所有外部资源都已打包，路径无误。
→

迭代记录存档：每次修改前后的版本和触发该修改的具体问题有记录，便于回溯和分析模式。
→

冷启动说明：首次使用此 skill 的人（或新的执行环境）能在不读对话记录的情况下理解 skill 的意图和边界。

写法速查：做 vs 不做

✓ 推荐写法

▶ 解释背后的意图：「之所以要 X，是因为模型在 Y 情境下倾向于 Z……」

▶ 用典型例子锚定含义：「简洁」指的是像示例 A 那样，而不是示例 B 那样

▶ 明确优先级排序：当 X 和 Y 冲突时，优先保证 X

▶ 说明边界情境：如果用户输入缺少 Z，则默认假设……

▶ 把重复出现的资源（脚本、模板）放进 references/ 一次性解决

✗ 避免写法

▶ 罗列无背景的规则：「必须、禁止、一律、永远……」连续出现

▶ 假设执行者和作者的语境相同，省略显而易见的「上下文」

▶ 在 description 中只说「当用户要求时触发」——太被动

▶ 把边界情境当 edge case 忽略——它们是 skill 失败的主战场

▶ 在没有人工审查的情况下让模型自动更新 skill 内容

实战终极提醒

Skill 开发不是一次性工程，是持续的对话——和执行者的对话（通过测试），和使用者的对话（通过反馈），和自己的对话（通过写作厘清知识）。

判断一个 skill 是否成熟的终极标准不是「我写了多少条规则」，而是：「一个陌生的执行者，用一个我没见过的输入，也能产出让我满意的结果。」距离这个标准还有多远，就还需要多少轮迭代。

实战清单陷阱识别决策树发布标准对抗性测试写法规范冷启动说明持续对话

理解 Skill：一种有原则的模型引导结构