10.3. 基础模型演进将不断重塑 Skills 的边界

基础模型演进将不断重塑 Skills 的边界

2024年初,你精心设计了一个基于GPT-4的代码审查Skill,它依赖精巧的检索增强生成(RAG)流水线,先从知识库拉取编码规范,再分段提交给模型审查。效果不错,团队刚把它集成进CI/CD流程。然而不到半年,Claude 3.5 Sonnet带着20万token的上下文窗口横扫而来,你突然意识到:那些为了适应8k窗口而拆得七零八落的知识块、那些复杂的检索逻辑,可能在一个“全量塞入上下文”的动作面前失去了意义。

这就是Skills开发者面临的现实——基础模型的每一次跃迁,都不是简单的“性能提升”,而是对现有Skill架构边界的直接重塑。长上下文、多模态感知、增强推理,这三个维度的演进正在重新定义什么是一个“好的Skill”、什么环节值得投入工程精力、以及哪些曾经的最佳实践正在变为技术债务。

本章将直面这个动态博弈:我们不讨论“模型会变得多强”,而是聚焦“当模型变强时,你的Skill架构应该如何响应”。结论先行——

基础模型演进不是让Skills变得无关紧要,而是让Skills的价值锚点从“弥补模型短板”转向“放大模型长板”。

长上下文窗口降低了对检索 Skill 的依赖?

GPT-4于2023年3月发布时,8k token的上下文窗口是常态,32k版本需要特殊申请。到2024年底,128k窗口已成为旗舰模型的标配。截至当前调研资料,GPT-5.4已支持100万token的上下文窗口。这意味着,一份300页的技术文档、一个中等规模代码库的核心文件,或者长达数月的对话历史,理论上可以被完整放入一次调用中。

这引发了一个核心问题:当模型能“一口气读完”所有资料时,我们还需要RAG Skill吗?

答案不是简单的“是”或“否”,而是一个成本-效果权衡矩阵。以下表格基于当前调研资料中的一线实践和社区讨论,给出可操作的判断依据。

决策矩阵:何时使用长上下文 vs RAG Skill

场景维度 直接使用长上下文 继续使用RAG Skill 作者的结论
资料规模 < 50万token > 100万token 或动态更新频繁 超出上下文窗口上限的资料别无选择,必须检索
查询精度 需要全局理解、模糊关联 精确匹配、事实性查证 长上下文适合“综合理解”,RAG适合“精准定位”
延迟要求 可接受较长首token时间 要求快速响应 100万token的预填充延迟显著,RAG可更快返回
成本敏感度 预算充裕 需要控制Token消耗 单次百万token的输入成本可能是RAG的数十倍
信息时效性 一次性分析静态数据集 知识库持续更新 RAG可以动态索引最新内容,无需每次重新加载全集

从当前调研资料看,一个确定的趋势是:长上下文并没有“消灭”RAG,而是改变了RAG的设计目标。 过去RAG的首要任务是在极小的上下文窗口内塞入最相关的信息;现在RAG的使命变成了降低成本和延迟、提高信噪比

具体来说,出现了两种新的Skill架构模式:

模式一:长上下文为主,RAG为辅
适用于代码库分析、合同审查等场景。将整个代码仓库或合同放入上下文让模型建立全局理解,同时用RAG快速检索特定条款或代码片段进行精确核对。这相当于“先泛读,再查字典”。

模式二:RAG为主,长上下文兜底
适用于客服知识库、法律条文查询等场景。正常查询走RAG,但当检索结果不足以解决用户问题,或用户明确要求“全面审查”时,退回长上下文模式。Anthropic的Extended Thinking功能出现后,这种“按需深入”的模式变得尤为实用——模型可以在发现信息不足时主动触发更全面的上下文加载。

一个真实的踩坑记录(根据调研素材中的社区讨论复现):
某团队将原本依赖10个检索Skill的法律文档分析系统,改为将全量资料放入128k上下文。结果发现:

  • 优点:分析质量显著提升,模型能发现跨文档的矛盾条款,这是分段检索无法做到的。
  • 代价:单次查询成本从$0.15飙升至$3.2,延迟从3秒增加到25秒。
  • 最终方案:保留全量上下文用于“初审”生成全局摘要,后续的细节核查回退到RAG Skill。

核心判断:长上下文是能力,RAG是策略。Skill开发者不应问“用哪个”,而应设计“何时切换”的决策逻辑。

多模态模型如何扩展 Skills 的感知能力

GPT-4o于2024年5月发布,首次将文本、图像、音频的理解与生成统一到一个模型中。截至当前调研资料,GPT-5.4已原生集成计算机使用(computer-use)能力,这意味着模型的“感官”从视觉、听觉扩展到了操作能力。多模态不是“模型能看图了”这么简单——它对Skill架构的冲击在于:曾经需要一串专用工具才能完成的任务,现在可能只需要一个统一的接口。

技能感知能力的三级跃迁

阶段 模型能力 传统Skill架构 新Skill架构 架构变化
文本时代 仅文本理解 OCR Skill + 文本分析 Skill + 结构化提取 Skill 无需改变
原生多模态 文本+图像+音频统一理解 图片描述Skill调用视觉模型 → 文本模型分析描述 直接传入图片/音频,一个Skill完成端到端分析 合并Skill链
操作多模态 上述能力+操作GUI/调用API Selenium自动化Skill + 截图Skill + UI识别Skill 单一Computer-Use Skill控制鼠标键盘 代码量缩减80%+

一个具体的例子:设计一个“竞品分析Skill”。

在纯文本时代,你需要先写一个网页抓取工具下载竞品页面截图,再调用OCR提取文字,然后调用布局分析工具识别页面结构,最后提交给LLM生成分析报告——这是4个Skills的串联流水线。

多模态模型出现后,你只需要截一张图,直接提交给模型,配上Prompt:“分析这个竞品页面的信息架构、视觉重心和转化策略。” 一条API调用替代了4个Skills的编排。

设计统一的工具接口

面对这种变化,Skill开发者应该做的是设计感知能力的抽象层,而不是为每个新模态写一套独立的Skill。具体模式如下:

# 不是这样设计(每个模态独立Skill)
class ImageAnalysisSkill:
    def process(self, image: Image) -> Analysis

class AudioTranscriptionSkill:
    def process(self, audio: Audio) -> Text

# 而是设计统一的感知接口
class PerceptionSkill:
    """
    统一的多模态感知Skill。
    根据输入类型自动路由到最佳处理策略,
    同时保留降级到专用工具的能力。
    """
    def perceive(self, input: Union[Image, Audio, Video, File]) -> Perception:
        if self.model_supports(input.type):
            return self.model.direct_analyze(input)
        else:
            return self.fallback_tool.process(input)

关键在于保留降级路径。 当模型的原生多模态能力不足时(例如需要超精细OCR的表格提取),Skill应自动回退到专用工具。这种“能力感知的自适应架构”是多模态时代Skills的设计核心。

从当前调研资料中的实践反馈看,开发者在多模态Skill开发中主要踩了三个坑:

  1. 过度依赖原生能力:GPT-4o的图像理解虽强,但对复杂图表中的微小数字提取准确率仍不稳定。将关键数据的提取完全交给它而不做校验,可能引入错误。

  2. 接口设计过于抽象:把所有模态的输入都塞进一个data: bytes参数会让模型的意图理解变差。应为不同模态保留语义化的参数名(如screenshotaudio_clip),让模型能通过函数名本身推断Skill用途。

  3. 忽略模态间的协同:多模态真正的威力在于“跨模态推理”——让模型同时看视频画面、听旁白、读字幕。但很多Skill开发仍陷在“一次处理一个模态”的思维中。设计Skill时应显式支持多模态并行输入。

增强推理与自主能力对编排的简化

2024年底,OpenAI发布o1系列推理模型,随后Anthropic推出Extended Thinking功能。这些“会思考”的模型不再只是“给定指令→生成输出”,而是能够主动规划步骤、反思错误、调整策略。对Skills架构而言,这引发了最深层的冲击:如果模型自己能规划和执行多步任务,我们还需要复杂的多Agent编排吗?

推理模型时代,你的编排代码可能在帮倒忙

先看一组对比:

传统Skill编排(LangGraph/AutoGen) 增强推理模型原生执行
开发者硬编码工作流:“先做A,如果结果包含X则做B,否则做C” 模型自主判断:“问题涉及X,我需要先查A,如果不够再查B”
显式定义Agent角色和通信协议 模型内部分化推理路径,无需外部角色分配
需要处理Agent间消息传递失败、死循环 模型自身维护推理连贯性
优势:确定性强,可审计 优势:灵活,处理未见过的任务

当GPT-5.4的推理效率比前代提升数倍且能自主搜索工具时,很多多Agent编排的复杂性实际上是“过度工程”。

社区中已出现一个显著趋势:从“多Agent架构”向“单Agent+技能组合”回归。

根据调研素材中来自一线的实践观察,某团队原本使用LangGraph构建了包含规划Agent、执行Agent、校验Agent的三Agent系统来处理数据分析任务。切换到支持Extended Thinking的Claude后,他们发现:

  • 将三个Agent的职责合并为一个配备了丰富Skill库的单Agent后,任务完成质量持平
  • 系统延迟降低了60%(消除了Agent间通信开销)
  • 代码量从~800行缩减到~200行
  • 但失去了对每个步骤的精细审计日志

何时编排仍然必要?

增强推理不是万能药。以下场景下,外部编排仍然优于依赖模型自身的推理:

场景 为何仍需要编排 编排策略
确定性要求极高 模型推理路径不可控,可能跳过关键检查 硬编码关键步骤为独立Skill节点,强制执行
需要人机协同 在特定节点必须等待人类批准 编排框架提供明确的HITL断点
安全边界隔离 高风险操作(如资金转账)不能由单一推理链决定 独立的审批Agent + 执行Agent,权限隔离
技能来源多样性 不同Skill由不同团队维护,需要松耦合 每个Skill封装为独立Agent/服务,通过API通信

核心判断:增强推理让“简单编排”成为可能,但“编排思维”依然重要。 区别在于,过去你编排的是“模型该怎么做”,现在你编排的是“哪些事情不能只让模型决定”。

一个具体的设计原则:

  • 如果你的编排图中有超过3个Agent,且每个Agent只是简单调用另一个LLM,那么很可能可以用一个推理模型+多个Skill替代。
  • 如果你的编排图中包含外部系统交互、人工审批、安全校验节点,这些编排逻辑仍应保留,因为它们实现的是“环境约束”,而非“推理替代”。

全局结论:Skills架构的演化方向

综合上述三个维度的分析,基础模型演进对Skills架构的影响可以总结为以下趋势:

架构层面 过去的最佳实践 演进方向 时间窗口(基于当前调研)
上下文管理 精细的RAG流水线是默认方案 RAG退化为成本优化手段,长上下文成为主干 已发生,128k+窗口普及
感知能力 每个模态一个专用Skill 统一感知接口,模型原生处理为主 2025年正在发生
任务编排 多Agent协作是复杂任务的标准解法 推理模型的自主规划替代浅层编排,深层编排聚焦安全与人机协同 2025-2026年快速演进
Skill粒度和数量 小而专的Skill,数量多 Skill合并,数量减少,但每个Skill的Prompt更精细 持续发生

这些趋势不意味着Skills变得不重要。相反,Skills的价值锚点正在转移:

  • 过去:Skill的价值 = 弥补模型能力短板(检索它看不到的知识、处理它无法理解的模态、规划它无法拆解的任务)
  • 现在:Skill的价值 = 封装领域决策逻辑(在模型能看到的上下文中标注重点、在模型能规划的路径中设定边界、在模型能执行的步骤中注入专家判断)

你不再需要教模型怎么找信息,但你需要教它怎么看信息。


当基础模型的能力边界不断外扩,Skills的竞争壁垒将从“工程复杂度”转向“领域知识的封装质量”。这意味着一个Skill的好坏,不再取决于它调用了几次检索、串联了多少工具,而取决于它能否将专家的隐性判断转化为模型可执行的明确指令。

这一转变必然导向一个更开放的问题:如果高质量的Skills来自对领域知识的深度理解,那么封闭的单体开发模式必然被社区协作模式超越。 下一章,我们将探讨如何构建一个鼓励高质量Skills贡献与共享的开源生态——从单体到生态,社区贡献是Skills繁荣的关键。

本文章首发在 LearnKu.com 网站上。

上一篇 下一篇
讨论数量: 0
发起讨论 只看当前版本


暂无话题~