AI产品的北极星指标怎么选：工具、Agent、工作流三类对照

2026-02-16 10:57:48

OXYZ资本在看项目时常常发现一个很尴尬的现象：
很多 AI 产品“功能很强、数据也不差”，但团队越做越焦虑——因为你不知道自己到底在变好什么。

看 DAU：增长起来了，但成本也一起涨，毛利更难看。
看 D7/D30：留存不错，但收入不动，客户也不愿把关键环节交给你。
看调用量：越高越开心，直到财务告诉你“你在给用户发补贴”。

这背后本质是：你选错了北极星指标。
北极星不是“任何一个好看的数”，而是一个能把团队拉到同一个方向的承诺——它必须同时满足：

代表真实价值（用户或客户真正在乎的结果）；
可规模化放大（做大不会天然变亏）；
可被产品动作直接驱动（改体验→指标会上升）；
不容易被“刷出来”（必须带质量门槛）。

而 AI 产品的难点在于：同样叫“AI 应用”，产品形态不同，北极星完全不同。最常见的三类是：AI 工具、AI Agent、AI 工作流。你要先分清自己是哪一类，再谈指标。

0）先把三类产品说人话：你到底在卖什么？

你可以用一句话区分三类：

AI 工具（Tool）：用户在场，AI 辅助；你卖“更快更好”。
AI Agent（Agent）：用户不想在场，AI 代劳；你卖“交付结果与责任”。
AI 工作流（Workflow）：用户在原系统里完成工作，你把 AI 变成流程节点；你卖“流程跑得更顺、更可控、更可审计”。

关键差别不是“有没有模型”，而是：谁按下最终确认、谁承担错误代价、结果是否写回系统。
一旦这三个问题答案不同，北极星指标体系就必须重写。

1）三类产品的北极星指标应该长什么样

下面把“工具 / Agent / 工作流”三类的用户心智、价值时刻、北极星候选、最容易误选的指标，以及必须配的护栏指标写清楚（你可以直接对号入座）：

A. AI 工具（Tool）

用户心智：“我负责，但你让我更省事、更快交付。”
价值时刻（Value Moment）：用户完成一次可交付成果（例如导出、发布、写入工作系统/文档）。
北极星指标候选（推荐）：
- 每周有效任务闭环数（Weekly Effective Completions），或
- 每席位每周有效使用次数（本质同上：完成闭环而不是打开次数）。
最容易误选的指标：DAU、打开次数、对话轮数、生成次数（这些很容易被“试试/薅一下/无效使用”抬高）。
必须配的护栏指标：
- 单次成本/毛利（Cost per completion / Gross margin）
- 结果可用率（是否达到可交付质量）
- 返工率/二次编辑率（可用性与真实省事程度）。

一句话：工具看“人回来了并交付”，护栏压住“成本与返工”。

B. AI Agent（Agent）

用户心智：“这事你替我干完，最好别让我参与；出了问题要有边界。”
价值时刻（Value Moment）：一次任务被合格地自动交付（按质量标准完成，且在 SLA 内）。
北极星指标候选（推荐）：
- 合格自动化任务数 QAJ（Qualified Automated Jobs），或
- 自动化率（Automation Rate = 合格自动完成任务 / 总任务）。
最容易误选的指标：D7/D30、活跃时长、打开频次（Agent 的客户不需要天天打开你，关键是你是否稳定交付）。
必须配的护栏指标：
- 接管率（Handoff Rate：转人工比例）
- 一次通过率（First-pass Acceptance：无需返工比例）
- SLA 达成率
- 错误严重度分布（错了多贵）
- 单位任务成本/毛利（推理 + 人工兜底 + 审核）。

一句话：Agent 看“机器干成了且稳定”，护栏比北极星更重要。

C. AI 工作流（Workflow）

用户心智：“别让我换工具，把你嵌进流程；最好可审计、可治理。”
价值时刻（Value Moment）：在原系统内触发并写回成功（字段/状态/文档落盘），且可留痕审计。
北极星指标候选（推荐）：
- 每周成功写回的流程运行数（Successful Runs with Write-back），或
- 活跃工作流数（Active Workflows）：达到运行阈值（例如每周≥N次且写回成功）。
最容易误选的指标：注册数、安装数、PV、集成数量（“装了/接了”不等于“跑起来并写回”）。
必须配的护栏指标：
- 集成覆盖率与触发覆盖率（触发是否发生在真实场景）
- 失败率/回滚率（稳定性）
- 审计/权限/合规要求满足度（准入与扩散）
- 扩节点/扩部门指标（从1条流程扩到多条）。

OXYZ资本建议：工作流看“跑起来且写回”，增长看“越跑越多流程”。

2）AI 工具（Tool）：北极星怎么选才不被“活跃幻觉”骗？

2.1 工具类最常见的错：把“打开”当“价值”

内容/写作/视频/设计/搜索类工具很容易做出高打开率，但用户可能只是“试试”“薅一下”“临时用一次”。
工具的价值不是生成，而是交付。

所以工具类北极星最建议选：

每周有效任务闭环数（Weekly Effective Completions）
定义：在一周内，用户完成了多少次“可交付闭环”（生成 → 关键编辑/确认 → 导出/发布/写入工作）。

这里的关键词是“闭环”。你必须把“激活事件”从“生成了一段内容”升级为“生成并带走/发布/落盘”。

2.2 怎么把“有效闭环”定义到足够硬（避免刷）

给你一个可落地的定义模板（你按行业替换即可）：

完成一次闭环 = 生成结果 + 满足质量阈值（例如字数/结构/格式/一致性） + 发生交付动作（导出/复制到指定入口/发布/写入第三方）
有效闭环 = 闭环后 24 小时内没有被删除/撤回，或用户产生二次编辑/复用（这能过滤“随手试试”）

你会惊讶：很多所谓“高活跃工具”，一加“交付动作”就立刻现原形。

2.3 工具类北极星配套的“护栏”，否则越做越亏

工具类最危险的形态是：闭环数上升，但成本同步上升，最后毛利崩掉。
所以你必须同时看两条护栏：

单位有效闭环成本（Cost per Effective Completion）
返工率/二次编辑率（结果可用性，决定客服与流失成本）

工具类一句话：
北极星要能驱动“交付”，护栏要能压住“成本与返工”。

3）AI Agent：别再用留存证明 PMF，你真正卖的是“稳定交付”

3.1 Agent 的本质：用户不需要“天天打开你”

很多 Agent 类产品（客服自动解决、外贸询盘初筛、对账、资料校验、工单处理）用户不会每天打开 App。
他们关心的是：自动干了多少活、错了多贵、多久交付、能否追责。

所以 Agent 类北极星最推荐二选一：

合格自动化任务数（QAJ, Qualified Automated Jobs）
定义：按质量标准完成、无需或极少人工介入的任务数量。
自动化率（Automation Rate）
定义：合格自动完成任务 / 总任务。

这两者的共同点是：直接等价于“替代了多少工作量”。

3.2 Agent 类必须把“质量门槛”写进指标，否则北极星会毁掉你

Agent 最容易出现“刷量式自动化”：把很多任务强行判为自动完成，但实际造成大量返工或事故。
所以 QAJ 必须包含质量阈值（例如一次通过、无严重错误、在 SLA 内完成）。

同时，Agent 的护栏指标几乎比北极星更重要：

接管率（Handoff Rate）：多少任务必须转人工
一次通过率（First-pass Acceptance）：无需返工比例
SLA 达成率：是否按时交付
错误严重度分布：不是“错没错”，而是“错了多贵”
单位任务成本/毛利：推理成本、人工兜底、审核成本都算进去

Agent 类一句话：
北极星是“做成多少”，护栏是“做得稳不稳、值不值钱”。

4）AI 工作流（Workflow）：北极星要锚定“写回与运行”，而不是“安装与集成数”

4.1 工作流产品的真实战场：用户不想换工具

工作流类产品往往发生在飞书/钉钉/Slack/Notion/CRM/工单/ERP 里。
用户的心理是：别让我多开一个工具，把 AI 变成流程里一个可靠的节点。

所以工作流类北极星的核心是：

每周成功写回的流程运行数（Successful Runs with Write-back）
或
活跃工作流数（Active Workflows）：达到某个运行阈值（例如每周≥N次且写回成功）

为什么必须强调“写回”？
因为“只通知不写回”的集成很容易沦为一次性噱头：用一次就走、留存与付费都起不来。

4.2 工作流类最重要的第二北极星：扩节点/扩部门

工作流产品真正的商业化与护城河来自扩展：

从 1 个流程节点扩到 3 个节点
从 1 个部门扩到 3 个部门
从单人触发扩到团队协作与权限治理

所以你除了“运行数”，还应该长期盯一个扩展指标（作为经营指标，不一定是唯一北极星）：

流程覆盖度（Process Coverage）：被 AI 覆盖的流程节点占比
或 集成触发用户占比：在原系统内触发过闭环的人/团队

OXYZ资本内部观点：
北极星看“跑起来且写回”，增长看“越跑越多流程”。

5）一套“选北极星”的实操方法：四步落地，不吵架

很多团队选北极星选到最后变成价值观争论。其实可以工程化解决：

第一步：先定产品归类（工具/Agent/工作流）

用三个问题自测即可：

最终谁按“确认/发送/执行”？
出错后谁承担代价？
结果是否必须写回系统才能成立？

答案基本就能把你归类清楚。

第二步：把“价值时刻”写成一个可埋点事件

工具：交付成果（导出/发布/落盘）
Agent：合格交付（质量门槛+SLA）
工作流：写回成功（原系统字段/状态/文档落盘）

北极星 = 价值时刻事件 × 规模，别把“打开/生成”当价值时刻。

第三步：把“质量”写进北极星定义（否则会被优化到失真）

任何北极星都要有“合格”两个字：
合格输出、合格任务、合格写回。
没有合格门槛，你的北极星会把团队带向刷量、事故、用户流失。

第四步：给北极星配护栏（成本、风险、体验）

AI 产品最常见的死亡方式不是“做不出指标”，而是“做出指标但亏到死”或“事故一次就完”。
护栏建议至少三类：

成本与毛利（单位成本/毛利率）
质量与稳定（返工/一次通过/失败率）
风险与合规（错误严重度、审计、权限）

6）早期怎么用北极星“驱动迭代”？给你一个周节奏

如果你是早期，最有效的做法不是做十个仪表盘，而是做一个“周复盘闭环”：

周一：看北极星走势 + 拆来源（哪个场景/渠道/模板/集成触发贡献）
周二三：只改一个最影响北极星的环节（onboarding、模板默认、写回闭环、兜底策略）
周四：回看护栏是否恶化（成本、失败率、返工、接管）
周五：复盘“北极星上涨是不是因为价值更强，而不是刷量/补贴/通知轰炸”

你会发现：北极星指标选对以后，团队讨论会变得简单——因为你不再争“该不该做这个功能”，而是争“它能不能提升价值时刻发生的次数与合格率”。

OXYZ资本认为：北极星不是一个数字，是你对“我到底卖什么”的承诺

AI 时代最贵的不是算力，是方向错了还越跑越快。
北极星指标的意义，不是让你“更会做报表”，而是迫使你回答一个更残酷的问题：

当用户/客户产生需求的那一刻，你到底替他完成了什么？

是交付更快（工具）
是结果更稳（Agent）
是流程更顺（工作流）

你回答清楚了，北极星就自然出现；你回答不清楚，再漂亮的 DAU 都只是在给幻觉加速。