AGENT SKILLS · 2026 01 / 28

// 一份给企业 AI 推动者的课件

从重复粘贴提示词
到企业级 AI 资产革命

Anthropic Agent Skills 体系详解：理念、规范、技术实现，以及大型企业级 Skill 体系背后的顶层设计。

技术规范落地实践顶层设计防腐层理念

引言 / INTRO 02 / 28

企业 AI 应用经历的三个阶段

智能体已不是瓶颈，Skill 才是

PHASE 01 智能体平台涌现期

海内外主流厂商持续推出智能体产品与平台能力，企业"有没有平台"的问题，已经被市场解决了。

PHASE 02 能力空心化暴露期

平台搭好了，但智能体里装什么？大多数企业的回答是：不知道。能力与业务不匹配、经验散落、重复建设严重。

PHASE 03 · NOW Skill 资产沉淀期

行业共识形成——不是建不建平台，而是怎么挖掘能力、封装 Skill、形成可复用的 AI 资产。

核心论点 / THESIS 03 / 28

本文核心论点

企业级 Skill 体系的建设锚点，必须是业务流程，
而非人或岗位。

流程是组织解决问题的最佳实践沉淀。基于流程拆解原子能力、构建 Skill、再以岗位 Model 聚合分发——这是唯一能保证 Skill 资产完整性、可复用性和持续演进性的路径。

CHAPTER 01 04 / 28

01 // PART ONE

Claude 如何提出 Skill

理念、规范与技术实现 —— 从 SKILL.md 文件到三级渐进式披露，从描述黄金法则到 Anthropic 18 个官方 Skill 的开源实践。

1.1 SKILL 本质 05 / 28

三级渐进式披露

让 AI 能力可沉淀、可复用、可编排

Skill 不会一次性全部加载。Claude 仅凭元数据决定要不要打开它——所以你可以装数百个 Skill，而上下文窗口不会被撑爆。

LEVEL 01 · 始终在场元数据 Metadata

name + description · 约 100 字 · 始终在上下文中。Claude 仅凭它判断是否激活。

LEVEL 02 · 按需加载 SKILL.md 正文

判断相关时才加载 · 控制在 5000 字以内 · 包含工作流、规则与示例。

LEVEL 03 · 不限大小附加资源 Resources

scripts/ · references/ · assets/ ——按需读取，规模不受限。

1.2 SKILL.md 规范 06 / 28

元数据决定一切

每个 Skill 的核心入口：SKILL.md

---
name: flow-diagnostic-report
version: 1.0.0
description: >
  用华为流程方法论 + APQC PCF + 5Why/鱼骨图，
  把会议讨论、用户口述、业务现象，固化成
  标准化诊断报告，输出单文件 HTML。
  USE WHEN 用户说"做个流程诊断"、
  "梳理流程问题"、"业务诊断报告"、
  "做成 HTML 报告"。
---

# 流程诊断报告生成器

## 这个 skill 在做什么
按九步法走完：看目录 → 看清病灶 →
看完链路 → 做完归因 → 对照同行 →
量化差距 → 下诊断 → 画前后 → 再出方案。

YAML Frontmatter 强制字段

name · 唯一标识符，最多 64 字符，仅小写字母/数字/连字符
description · 最多 1024 字符，不能为空

可选字段

version · 语义化版本号，便于追踪与回滚
allowed-tools · 限制可调用的工具列表

1.2 以流程诊断 skill 为例 07 / 28

一个真实 Skill 里装了什么

Skill 是一个能被加载的文件夹，不是一句提示词

flow-diagnostic-report/
├── SKILL.md          # 入口：方法论、流程、规范
├── README.md         # 人读的使用说明
├── examples/
│   └── sample-report.html   # 标杆样例输出
└── templates/
    ├── report-skeleton.html # HTML 骨架
    ├── methodology.md       # 华为流程方法论
    ├── checklist.md         # 完成度自检
    └── example-input.md     # 输入样例

三层资源映射渐进式披露

SKILL.md · 启动加载、常驻上下文、带领性质
templates/ · 按需调用，装方法论、骨架、检查表
examples/ · 供对照，告诉模型"交付长什么样"

不常见但会出现的子目录

scripts/ · 可执行脚本（Python / Shell）
references/ · 只读参考文档、规则库
assets/ · 静态资源：Logo、图片、字体

1.3 描述黄金法则 08 / 28

决定 Skill 能否被激活

描述编写四大黄金法则

RULE 01 第三人称叙述

描述被注入系统提示词，人称错误会导致发现失败。
✗ 我可以帮你处理…
✓ 处理 Excel 并生成报告

RULE 02 两部分结构

每个描述必须回答：
① 它做什么？（能力声明）
② 什么时候用？（触发条件）

RULE 03 USE WHEN 模式

显式列出触发场景，覆盖隐式意图。
USE WHEN 用户问"我知道什么"、"查找笔记"、"加载项目上下文"…

RULE 04 具体胜于笼统

从"帮助处理文档"（20%）→"分析 Excel 创建透视表 USE WHEN .xlsx 文件"（90%）。具体场景 + 示例 = 激活率跃升。

1.3 激活率数据 09 / 28

优化描述 = 4× 激活率

从 20% 到 90%，只差一个写法

方法	成功率	关键特征
无优化	~20%	基线 / 默认行为
简单描述	~20%	模糊的触发语言
优化描述	~50%	明确的 USE WHEN 模式
添加示例	70% – 90%	具体场景 + 示例 + Pushy 写法

关键洞察 ▸ Anthropic 官方建议描述要"pushy"——主动列出所有可能的触发场景，包括用户不会明确说出的隐式意图。Claude 倾向于"under-trigger"，需要描述把它"推"过去。

1.4 三种实现模式 10 / 28

按技术复杂度递进

Skill 的三种实现模式

MODE A 纯提示词 Prompt-Only

仅 Markdown 指令，无脚本。

▸ 品牌指南 / 编码规范 / 审查清单 / 写作风格强制

MODE B 提示词 + 脚本

SKILL.md 定义"何时/为什么"，scripts/ 处理"如何"。

▸ 数据转换 / PDF·Excel·图像处理 / 模板文档生成

MODE C + MCP / Subagent

在 Skill 工作流中调用外部服务或独立子任务。

▸ 创建 Issue → 查 DB → 发 Slack 这类跨系统工作流

类比 ▸ MCP 是厨房（刀具锅具食材），Skill 是菜谱（告诉你怎么用），Subagent 是分厨（独立隔间各做各的）。

1.5 概念辨析 11 / 28

Skill · MCP · Subagent

三者解决的不是同一个问题

能力	作用	示例
Skill	教 Claude 如何行为——分析工作流、编码标准、品牌指南	合同审查规范、代码审查清单
MCP 服务器	给 Claude 新工具——发送 Slack、查询数据库	Slack MCP、PostgreSQL MCP
Subagent	让 Claude 在独立上下文中跑独立工作	并行处理多文件、隔离测试环境

关键洞察 ▸ Skill 解决"怎么做"，MCP 解决"用什么做"，Subagent 解决"在哪里做"。三者可组合，但很多场景仅 Skill 就足够启动。

1.6 官方仓库 12 / 28

anthropics/skills · 108k+ stars

Anthropic 官方 18 个 Skill 分四大类

CATEGORY 01 创意与设计

algorithmic-art
canvas-design
theme-factory
slack-gif-creator

CATEGORY 02 开发与技术

frontend-design
web-artifacts-builder
webapp-testing
mcp-builder · claude-api

CATEGORY 03 企业协作

brand-guidelines
internal-comms
doc-coauthoring

CATEGORY 04 · 生产级文档处理

docx · pdf · pptx · xlsx

标注为 source-available——直接支撑 Claude 商业产品功能。

1.6.2 skill-creator 13 / 28

创建 Skill 的 Skill

评估驱动开发：Skill 不是写出来的，是迭代出来的

01明确意图

02访谈调研

03编写草案

04创建测试用例

05运行评估有 vs 无 Skill 基线对比

06定量 + 定性分析

07迭代优化

08扩大测试集

09优化描述触发率

四种模式 ▸ Create · Eval · Improve · Benchmark。每个测试用例同时跑"有 Skill"和"无 Skill"两个版本，量化 Skill 的实际价值。

1.6.4 五大原则 14 / 28

从开源实践提炼

Anthropic Skill 实践五大原则

原则一 · Skill 是产品能力，不是实验代码 ▸ 文档类 Skill 直接支撑商业产品，需达到生产级质量、完整错误处理、持续维护。
原则二 · 评估驱动，而非直觉驱动 ▸ 每个 Skill 都需要客观测试用例，必须与基线对比，定量指标和定性审查并重。
原则三 · 渐进式披露是核心设计原则 ▸ 元数据（<100 tokens）路由 → 正文（<5000 tokens）核心 → 资源按需加载。
原则四 · Skill 描述需要 "pushy" ▸ Claude 倾向于 under-trigger。描述要主动列出所有触发场景，包括隐式意图。
原则五 · Skill 可以堆叠组合 ▸ brand-guidelines + docx = 符合品牌规范的 Word；frontend-design + web-artifacts-builder = 完整前端工作流。

CHAPTER 02 15 / 28

02 // PART TWO

真实 Skill 案例剖析

两个能跑、能改、能复用的样本——把"什么是好 Skill"翻译成可触摸的代码、目录与产出物。

2.1 案例 A · flow-diagnostic-report 16 / 28

案例 A · 流程诊断报告生成器

把"乱糟糟的会议讨论"压缩成一份合格诊断报告

442 SKILL.md 行数

10 章报告骨架 · 顺序锁死

10+7 绝对禁止 + 必须坚持

单 HTML 输出·双击可看可改

核心隐喻 ▸ 业务流程是一个病人，这份报告是体检 + 病理分析 + 治疗方案——这一句话决定了整个 skill 的产出形态。

2.1.1 方法论矩阵 17 / 28

每一章背后都锦定一个具体方法论

10 章模型 × 4 套方法论显性使用

章节	方法论锦点	来源
1 目录	信息架构 IA	工程实践
2 核心矛盾	MECE + 一句话定调	麦肯锡
3-5 流程还原	L1-L5 流程分级 + AS-IS	华为 IPD/LTC
6 深度归因	5Why + 鱼骨图 + R 编号	丰田 / 石川馨
7 行业对标	APQC PCF + 标杆调研	APQC
8 能力差距	Gap Analysis + 风险等级	IBM BPA
9-10 方案	AS-IS / TO-BE + 分阶段 Wave	华为变革

2.1.2 硬规则 18 / 28

高质量 Skill 一定有"硬规则"

10 条绝对禁止 + 7 条必须坚持

❌ 绝对禁止（节选）

禁止上来就讲方案——前 70% 只讲现状、问题、对标
禁止术语堆砌：赋能/抑手/闭环/对齐/链路化出现一次扣一分
禁止假对标：第 7 章必须联网检索真实标杆产品
禁止跳过 5Why：每条问题至少做"表象→近因→根因"三层下钻
禁止依赖外部 CSS/JS：单 HTML 文件，双击即看
禁止 mermaid / 图床外链：所有流程图手写 SVG

✅ 必须坚持（节选）

先减法再加法——先把现状画清楚，再讲对标和方案
每章节都有"一句话总结"，让快翻者也能拿走核心
类比代替术语："体检报告 vs 医生" 胜过专业词
问题编号化：R1/R2/R3 + P1/P2/P3，便于追踪
报告自带编辑能力：右上角编辑/保存按钮，本地直存
报告自带中英文切换：lang="zh" / lang="en" 双套

2.2 案例 B · skill-evaluator 19 / 28

案例 B · Skill 自审视器

把一个 Skill 打到 100 分制——可量化、可追责

DIM 01 · 25 分规范

SKILL.md 是否存在、frontmatter 是否合法、name 与 description 是否符合长度与字符规则。

DIM 02 · 25 分触发

10 条正例 + 5 条反例实测命中率，验证 description 能否被真实问法激活，且不误召回。

DIM 03 · 25 分内容

工作流是否可执行、案例是否真实、产出格式是否锁死、硬规则是否完整。

DIM 04 · 25 分可维护

版本号、更新日期、reference / examples 子文件齐全度、目录结构是否符合标准。

评级 ▸ 优秀 ≥ 85　｜　合格 70–84　｜　需改进 50–69　｜　不合格 < 50

2.2.1 工作流 6 步 20 / 28

严格顺序·不允许跳步

从输入识别到输出报告：6 步固化流程

STEP 1 定位输入

支持目录 / .md / .zip / 粘贴原文四种入口。找不到 SKILL.md 直接报错退出——这是规范维度的硬伤。

STEP 2 解析 frontmatter

提取 YAML 字段并校验 name 长度、description 是否第三人称、是否含触发词列表。

STEP 3 逐维度评分

按 rubric.md 4 维度过条款。不允许只打分不说理由——每条扣分必须附原文证据。

STEP 4 触发实测

构造 10 正例 + 5 反例，给出"正例命中 / 10、反例误触发 / 5"两个具体数字。

STEP 5 输出报告

严格按模板输出：评分概览表 + 触发实测 + P0/P1/P2 整改清单 + 关键片段参考。

STEP 6 改造建议

description / frontmatter 有问题时，给出可直接复制替换的完整片段，闭环到下一轮迭代。

2.2.2 输出模板 21 / 28

产出格式锁死，便于横向比对

每份评测报告长得一模一样

# Skill 评测报告：<skill-name>

总分：XX / 100　｜　等级：优秀/合格/需改进/不合格

## 评分概览
| 维度 | 得分 | 判定 |
|---|---|---|
| ① 规范 | XX/25 | … |
| ② 触发 | XX/25 | … |
| ③ 内容 | XX/25 | … |
| ④ 可维护 | XX/25 | … |

## 触发实测
- 正例命中：X / 10
- 反例误触发：X / 5

## 整改清单
### P0 · 不修直接不合格
- [ ] <问题描述>
  - 位置：<文件:行>
  - 原文：`...`
  - 改成：`...`
### P1 · 影响触发或效果
### P2 · 锦上添花

为什么要锁死格式

横向可比 · 不同 Skill 的得分能放在同一张表里直接 PK
证据落地 · P0 必须给出"位置 + 原文 + 改成"三件套
闭环修复 · 末尾自动附可复制替换的修后片段

配套文件

SKILL.md · 入口 + 6 步工作流
rubric.md · 4 维度评分细则
examples.md · 评测样例参考

CHAPTER 03 22 / 28

03 // PART THREE

大型企业 Agent 推进策略

面向十万级员工、数百上架技能的真实样本——Skill 不是技术演示，是组织级运动。

2.1 现状与机制 23 / 28

从组织视角推进

让 Agent 真正"干活"，而非"闲聊"

数百已上架 Skill 量级

十万级服务员工规模

N× 业务线 / 职能线覆盖

运作机制：四步闭环

STEP 01员工创建 Skill业务专家或技术骨干基于场景沉淀，业务通用或岗位通用

STEP 02组织审核业务线 / 职能线把关，质量审核 + 去重

STEP 03上架市场分类、推荐、技能包预组合

STEP 04员工使用浏览、搜索、一键安装技能包

2.2 后续规划 24 / 28

技能包 + 反馈驱动迭代

从"上架-安装"到"度量驱动、优胜劣汰"

PLAN 01 开放个性化 Skill 分发

赋予一线员工和团队自主创建能力，服务垂直细分场景——某个业务系统的运维 Skill、某个产品线独有的分析流程。

PLAN 02 建立反馈-迭代机制

强化用户反馈链路（评分、问题上报、改进建议）和 Skill 作者的迭代工具，让每个 Skill 持续进化。

PLAN 03 运营与治理

通过调用频次、用户反馈等多维数据持续价值评估，识别高价值 Skill 重点运营，形成度量驱动的治理循环。

技能包 ▸ 按业务线或岗位预推荐最常用的 Skill 组合，新手或跨业务协作的同事可以一键启用，无需逐个挑选。

CHAPTER 04 25 / 28

04 // PART FOUR

企业级 Skill 体系顶层设计

从防腐层理念到完整落地路径——为什么 Skill 是未来组织 AI 资产的核心组成部分。

3.1.1 行业现状 26 / 28

真正的战场

繁荣的背面：Skill 越多，混乱度越高

这是一个典型的"公地悲剧"。每个团队都在为自己的业务场景沉淀 Skill，但没有人在为整个组织的 Skill 资产体系负责。

问题 01 重复建设

A 团队做了"邮件摘要"，B 团队不知道也做了一个，C 团队还准备做第三个。

问题 02 标准不统一

同一件事——法务一部叫"合同风险检查"，二部叫"条款风险识别"，知产组叫"协议安全扫描"。

问题 03 质量参差

有的经过严格评测，有的从未验证就上线。有的有完整业务规则，有的只是几轮 prompt 调试。

问题 04 资源浪费

没人知道组织内已有什么、自己做的是否重复。每个人都在造轮子，没人在建工厂。

3.1.2 Skill 的本质 27 / 28

Anti-Corruption Layer

Skill 是组织能力的防腐层

让业务能力与变化解耦——这是 Skill 作为资产被管理的根本理由。

隔离 01 人的变化 → 能力沉淀

人会离职、转岗、遗忘，但 Skill 把最佳实践固化下来，不随人员流动而流失。

隔离 02 组织调整 → 能力资产

部门会合并、拆分、重组，但 Skill 作为原子能力，不随组织调整而失效。

隔离 03 智能体平台 → 业务能力

今天 Coze、明天 Dify、后天自研——Skill 作为标准化能力描述，不随平台迁移而重写。

隔离 04 技术实现 → 业务规则

底层模型从 GPT-4 升到 GPT-5、Claude 3 升到 Claude 4，但 Skill 中封装的业务规则（如"金额>100万标记高风险"）不需要改变。

CLOSING 28 / 28

// 落幕思考

不是建不建平台的问题，
而是怎么挖掘能力、封装 Skill、
形成可复用的 AI 资产。

业务流程是建设锚点，渐进式披露是设计原则，评估驱动是质量保证，防腐层是治理目标。Skill 的价值，在于让组织的最佳实践穿越人事、组织、平台、模型的所有变化。

流程为锚评估驱动渐进披露防腐隔离

— END · 谢谢观看 / Thank you —

从重复粘贴提示词 到企业级 AI 资产革命