翻页 · Space 下一页
AGENT SKILLS · 2026 01 / 28
// 一份给企业 AI 推动者的课件

重复粘贴提示词
企业级 AI 资产革命

Anthropic Agent Skills 体系详解:理念、规范、技术实现,以及大型企业级 Skill 体系背后的顶层设计。

技术规范 落地实践 顶层设计 防腐层理念
引言 / INTRO 02 / 28

智能体已不是瓶颈,Skill 才是

PHASE 01 智能体平台涌现期

海内外主流厂商持续推出智能体产品与平台能力,企业"有没有平台"的问题,已经被市场解决了。

PHASE 02 能力空心化暴露期

平台搭好了,但智能体里装什么?大多数企业的回答是:不知道。能力与业务不匹配、经验散落、重复建设严重。

PHASE 03 · NOW Skill 资产沉淀期

行业共识形成——不是建不建平台,而是怎么挖掘能力、封装 Skill、形成可复用的 AI 资产。

核心论点 / THESIS 03 / 28

企业级 Skill 体系的建设锚点,必须是业务流程
而非人或岗位。

流程是组织解决问题的最佳实践沉淀。基于流程拆解原子能力、构建 Skill、再以岗位 Model 聚合分发——这是唯一能保证 Skill 资产完整性、可复用性和持续演进性的路径。

CHAPTER 01 04 / 28
01 // PART ONE

Claude 如何提出 Skill

理念、规范与技术实现 —— 从 SKILL.md 文件到三级渐进式披露,从描述黄金法则到 Anthropic 18 个官方 Skill 的开源实践。

1.1 SKILL 本质 05 / 28

让 AI 能力可沉淀、可复用、可编排

Skill 不会一次性全部加载。Claude 仅凭元数据决定要不要打开它——所以你可以装数百个 Skill,而上下文窗口不会被撑爆。

LEVEL 01 · 始终在场 元数据 Metadata

name + description · 约 100 字 · 始终在上下文中。Claude 仅凭它判断是否激活。

LEVEL 02 · 按需加载 SKILL.md 正文

判断相关时才加载 · 控制在 5000 字以内 · 包含工作流、规则与示例。

LEVEL 03 · 不限大小 附加资源 Resources

scripts/ · references/ · assets/ ——按需读取,规模不受限。

1.2 SKILL.md 规范 06 / 28

每个 Skill 的核心入口:SKILL.md

---
name: flow-diagnostic-report
version: 1.0.0
description: >
  用华为流程方法论 + APQC PCF + 5Why/鱼骨图,
  把会议讨论、用户口述、业务现象,固化成
  标准化诊断报告,输出单文件 HTML。
  USE WHEN 用户说"做个流程诊断"、
  "梳理流程问题"、"业务诊断报告"、
  "做成 HTML 报告"。
---

# 流程诊断报告生成器

## 这个 skill 在做什么
按九步法走完:看目录 → 看清病灶 →
看完链路 → 做完归因 → 对照同行 →
量化差距 → 下诊断 → 画前后 → 再出方案。

YAML Frontmatter 强制字段

  • name · 唯一标识符,最多 64 字符,仅小写字母/数字/连字符
  • description · 最多 1024 字符,不能为空

可选字段

  • version · 语义化版本号,便于追踪与回滚
  • allowed-tools · 限制可调用的工具列表
1.2 以流程诊断 skill 为例 07 / 28

Skill 是一个能被加载的文件夹,不是一句提示词

flow-diagnostic-report/
├── SKILL.md          # 入口:方法论、流程、规范
├── README.md         # 人读的使用说明
├── examples/
│   └── sample-report.html   # 标杆样例输出
└── templates/
    ├── report-skeleton.html # HTML 骨架
    ├── methodology.md       # 华为流程方法论
    ├── checklist.md         # 完成度自检
    └── example-input.md     # 输入样例

三层资源映射渐进式披露

  • SKILL.md · 启动加载、常驻上下文、带领性质
  • templates/ · 按需调用,装方法论、骨架、检查表
  • examples/ · 供对照,告诉模型"交付长什么样"

不常见但会出现的子目录

  • scripts/ · 可执行脚本(Python / Shell)
  • references/ · 只读参考文档、规则库
  • assets/ · 静态资源:Logo、图片、字体
1.3 描述黄金法则 08 / 28

描述编写四大黄金法则

RULE 01 第三人称叙述

描述被注入系统提示词,人称错误会导致发现失败。
✗ 我可以帮你处理…
✓ 处理 Excel 并生成报告

RULE 02 两部分结构

每个描述必须回答:
① 它做什么?(能力声明)
② 什么时候用?(触发条件)

RULE 03 USE WHEN 模式

显式列出触发场景,覆盖隐式意图。
USE WHEN 用户问"我知道什么"、"查找笔记"、"加载项目上下文"…

RULE 04 具体胜于笼统

从"帮助处理文档"(20%)→"分析 Excel 创建透视表 USE WHEN .xlsx 文件"(90%)。具体场景 + 示例 = 激活率跃升。

1.3 激活率数据 09 / 28

20%90%,只差一个写法

方法 成功率 关键特征
无优化 ~20% 基线 / 默认行为
简单描述 ~20% 模糊的触发语言
优化描述 ~50% 明确的 USE WHEN 模式
添加示例 70% – 90% 具体场景 + 示例 + Pushy 写法

关键洞察 ▸ Anthropic 官方建议描述要"pushy"——主动列出所有可能的触发场景,包括用户不会明确说出的隐式意图。Claude 倾向于"under-trigger",需要描述把它"推"过去。

1.4 三种实现模式 10 / 28

Skill 的三种实现模式

MODE A 纯提示词 Prompt-Only

仅 Markdown 指令,无脚本。

▸ 品牌指南 / 编码规范 / 审查清单 / 写作风格强制

MODE B 提示词 + 脚本

SKILL.md 定义"何时/为什么",scripts/ 处理"如何"。

▸ 数据转换 / PDF·Excel·图像处理 / 模板文档生成

MODE C + MCP / Subagent

在 Skill 工作流中调用外部服务或独立子任务。

▸ 创建 Issue → 查 DB → 发 Slack 这类跨系统工作流

类比 ▸ MCP 是厨房(刀具锅具食材),Skill 是菜谱(告诉你怎么用),Subagent 是分厨(独立隔间各做各的)。

1.5 概念辨析 11 / 28

三者解决的不是同一个问题

能力 作用 示例
Skill 教 Claude 如何行为——分析工作流、编码标准、品牌指南 合同审查规范、代码审查清单
MCP 服务器 给 Claude 新工具——发送 Slack、查询数据库 Slack MCP、PostgreSQL MCP
Subagent 让 Claude 在独立上下文中跑独立工作 并行处理多文件、隔离测试环境

关键洞察 ▸ Skill 解决"怎么做",MCP 解决"用什么做",Subagent 解决"在哪里做"。三者可组合,但很多场景仅 Skill 就足够启动。

1.6 官方仓库 12 / 28

Anthropic 官方 18 个 Skill 分四大类

CATEGORY 01 创意与设计

algorithmic-art
canvas-design
theme-factory
slack-gif-creator

CATEGORY 02 开发与技术

frontend-design
web-artifacts-builder
webapp-testing
mcp-builder · claude-api

CATEGORY 03 企业协作

brand-guidelines
internal-comms
doc-coauthoring

CATEGORY 04 · 生产级 文档处理

docx · pdf · pptx · xlsx

标注为 source-available——直接支撑 Claude 商业产品功能。

1.6.2 skill-creator 13 / 28

评估驱动开发:Skill 不是写出来的,是迭代出来的

01明确意图
02访谈调研
03编写草案
04创建测试用例
05运行评估有 vs 无 Skill 基线对比
06定量 + 定性分析
07迭代优化
08扩大测试集
09优化描述触发率

四种模式 ▸ Create · Eval · Improve · Benchmark。每个测试用例同时跑"有 Skill"和"无 Skill"两个版本,量化 Skill 的实际价值。

1.6.4 五大原则 14 / 28

Anthropic Skill 实践五大原则

CHAPTER 02 15 / 28
02 // PART TWO

真实 Skill 案例剖析

两个能跑、能改、能复用的样本——把"什么是好 Skill"翻译成可触摸的代码、目录与产出物。

2.1 案例 A · flow-diagnostic-report 16 / 28

把"乱糟糟的会议讨论"压缩成一份合格诊断报告

442 SKILL.md 行数
10 章 报告骨架 · 顺序锁死
10+7 绝对禁止 + 必须坚持
单 HTML 输出·双击可看可改

核心隐喻 ▸ 业务流程是一个病人,这份报告是体检 + 病理分析 + 治疗方案——这一句话决定了整个 skill 的产出形态。

2.1.1 方法论矩阵 17 / 28

10 章模型 × 4 套方法论显性使用

章节方法论锦点来源
1 目录信息架构 IA工程实践
2 核心矛盾MECE + 一句话定调麦肯锡
3-5 流程还原L1-L5 流程分级 + AS-IS华为 IPD/LTC
6 深度归因5Why + 鱼骨图 + R 编号丰田 / 石川馨
7 行业对标APQC PCF + 标杆调研APQC
8 能力差距Gap Analysis + 风险等级IBM BPA
9-10 方案AS-IS / TO-BE + 分阶段 Wave华为变革
2.1.2 硬规则 18 / 28

10 条绝对禁止 + 7 条必须坚持

❌ 绝对禁止(节选)

  • 禁止上来就讲方案——前 70% 只讲现状、问题、对标
  • 禁止术语堆砌:赋能/抑手/闭环/对齐/链路化 出现一次扣一分
  • 禁止假对标:第 7 章必须联网检索真实标杆产品
  • 禁止跳过 5Why:每条问题至少做"表象→近因→根因"三层下钻
  • 禁止依赖外部 CSS/JS:单 HTML 文件,双击即看
  • 禁止 mermaid / 图床外链:所有流程图手写 SVG

✅ 必须坚持(节选)

  • 先减法再加法——先把现状画清楚,再讲对标和方案
  • 每章节都有"一句话总结",让快翻者也能拿走核心
  • 类比代替术语:"体检报告 vs 医生" 胜过专业词
  • 问题编号化:R1/R2/R3 + P1/P2/P3,便于追踪
  • 报告自带编辑能力:右上角编辑/保存按钮,本地直存
  • 报告自带中英文切换:lang="zh" / lang="en" 双套
2.2 案例 B · skill-evaluator 19 / 28

把一个 Skill 打到 100 分制——可量化、可追责

DIM 01 · 25 分 规范

SKILL.md 是否存在、frontmatter 是否合法、name 与 description 是否符合长度与字符规则。

DIM 02 · 25 分 触发

10 条正例 + 5 条反例实测命中率,验证 description 能否被真实问法激活,且不误召回。

DIM 03 · 25 分 内容

工作流是否可执行、案例是否真实、产出格式是否锁死、硬规则是否完整。

DIM 04 · 25 分 可维护

版本号、更新日期、reference / examples 子文件齐全度、目录结构是否符合标准。

评级 ▸ 优秀 ≥ 85 | 合格 70–84 | 需改进 50–69 | 不合格 < 50

2.2.1 工作流 6 步 20 / 28

从输入识别到输出报告:6 步固化流程

STEP 1 定位输入

支持目录 / .md / .zip / 粘贴原文四种入口。找不到 SKILL.md 直接报错退出——这是规范维度的硬伤。

STEP 2 解析 frontmatter

提取 YAML 字段并校验 name 长度、description 是否第三人称、是否含触发词列表。

STEP 3 逐维度评分

按 rubric.md 4 维度过条款。不允许只打分不说理由——每条扣分必须附原文证据。

STEP 4 触发实测

构造 10 正例 + 5 反例,给出"正例命中 / 10、反例误触发 / 5"两个具体数字。

STEP 5 输出报告

严格按模板输出:评分概览表 + 触发实测 + P0/P1/P2 整改清单 + 关键片段参考。

STEP 6 改造建议

description / frontmatter 有问题时,给出可直接复制替换的完整片段,闭环到下一轮迭代。

2.2.2 输出模板 21 / 28

每份评测报告长得一模一样

# Skill 评测报告:<skill-name>

总分XX / 100 | 等级:优秀/合格/需改进/不合格

## 评分概览
| 维度 | 得分 | 判定 |
|---|---|---|
| ① 规范 | XX/25 | … |
| ② 触发 | XX/25 | … |
| ③ 内容 | XX/25 | … |
| ④ 可维护 | XX/25 | … |

## 触发实测
- 正例命中:X / 10
- 反例误触发:X / 5

## 整改清单
### P0 · 不修直接不合格
- [ ] <问题描述>
  - 位置:<文件:行>
  - 原文:`...`
  - 改成:`...`
### P1 · 影响触发或效果
### P2 · 锦上添花

为什么要锁死格式

  • 横向可比 · 不同 Skill 的得分能放在同一张表里直接 PK
  • 证据落地 · P0 必须给出"位置 + 原文 + 改成"三件套
  • 闭环修复 · 末尾自动附可复制替换的修后片段

配套文件

  • SKILL.md · 入口 + 6 步工作流
  • rubric.md · 4 维度评分细则
  • examples.md · 评测样例参考
CHAPTER 03 22 / 28
03 // PART THREE

大型企业 Agent 推进策略

面向十万级员工、数百上架技能的真实样本——Skill 不是技术演示,是组织级运动。

2.1 现状与机制 23 / 28

让 Agent 真正"干活",而非"闲聊"

数百 已上架 Skill 量级
十万级 服务员工规模
业务线 / 职能线覆盖

运作机制:四步闭环

STEP 01员工创建 Skill业务专家或技术骨干基于场景沉淀,业务通用或岗位通用
STEP 02组织审核业务线 / 职能线把关,质量审核 + 去重
STEP 03上架市场分类、推荐、技能包预组合
STEP 04员工使用浏览、搜索、一键安装技能包
2.2 后续规划 24 / 28

从"上架-安装"到"度量驱动、优胜劣汰"

PLAN 01 开放个性化 Skill 分发

赋予一线员工和团队自主创建能力,服务垂直细分场景——某个业务系统的运维 Skill、某个产品线独有的分析流程。

PLAN 02 建立反馈-迭代机制

强化用户反馈链路(评分、问题上报、改进建议)和 Skill 作者的迭代工具,让每个 Skill 持续进化。

PLAN 03 运营与治理

通过调用频次、用户反馈等多维数据持续价值评估,识别高价值 Skill 重点运营,形成度量驱动的治理循环。

技能包 ▸ 按业务线或岗位预推荐最常用的 Skill 组合,新手或跨业务协作的同事可以一键启用,无需逐个挑选。

CHAPTER 04 25 / 28
04 // PART FOUR

企业级 Skill 体系顶层设计

从防腐层理念到完整落地路径——为什么 Skill 是未来组织 AI 资产的核心组成部分。

3.1.1 行业现状 26 / 28

繁荣的背面:Skill 越多,混乱度越高

这是一个典型的"公地悲剧"。每个团队都在为自己的业务场景沉淀 Skill,但没有人在为整个组织的 Skill 资产体系负责。

问题 01 重复建设

A 团队做了"邮件摘要",B 团队不知道也做了一个,C 团队还准备做第三个。

问题 02 标准不统一

同一件事——法务一部叫"合同风险检查",二部叫"条款风险识别",知产组叫"协议安全扫描"。

问题 03 质量参差

有的经过严格评测,有的从未验证就上线。有的有完整业务规则,有的只是几轮 prompt 调试。

问题 04 资源浪费

没人知道组织内已有什么、自己做的是否重复。每个人都在造轮子,没人在建工厂。

3.1.2 Skill 的本质 27 / 28

Skill 是组织能力的防腐层

让业务能力与变化解耦——这是 Skill 作为资产被管理的根本理由。

隔离 01 人的变化 → 能力沉淀

人会离职、转岗、遗忘,但 Skill 把最佳实践固化下来,不随人员流动而流失。

隔离 02 组织调整 → 能力资产

部门会合并、拆分、重组,但 Skill 作为原子能力,不随组织调整而失效。

隔离 03 智能体平台 → 业务能力

今天 Coze、明天 Dify、后天自研——Skill 作为标准化能力描述,不随平台迁移而重写。

隔离 04 技术实现 → 业务规则

底层模型从 GPT-4 升到 GPT-5、Claude 3 升到 Claude 4,但 Skill 中封装的业务规则(如"金额>100万标记高风险")不需要改变。

CLOSING 28 / 28

不是建不建平台的问题,
而是怎么挖掘能力、封装 Skill、
形成可复用的 AI 资产

业务流程是建设锚点,渐进式披露是设计原则,评估驱动是质量保证,防腐层是治理目标。Skill 的价值,在于让组织的最佳实践穿越人事、组织、平台、模型的所有变化。

流程为锚 评估驱动 渐进披露 防腐隔离

— END · 谢谢观看 / Thank you —