ABTest.Chat – 关于ABTest的学习、探讨、咨询和应用

企业级 Agent 建设实践：为什么企业场景更容易收敛，以及怎么做

一个广告投放 Agent 从 v0.1 到 v0.4 的架构演进复盘，提炼出可迁移的企业级 Agent 建设方法论

做了几个月的 Ad Agent——一个用 AI 驱动广告投放决策和执行的系统——我对企业级 Agent 的理解从“让 LLM 调 API”彻底转变为“在确定性管道里嵌入有限智能”。

这篇文章不是技术教程，而是一系列实践判断：为谁建、在哪建、怎么建。如果你正在考虑在企业场景中落地 AI Agent，这些弯路和选择或许能帮你省几个月。

一、为谁而建：Agent 的价值不是“自动化”，是“决策密度”

很多团队启动 Agent 项目的出发点是“自动化人工操作”。这个起点没有错，但它低估了 Agent 真正的价值锚点。

软件 vs Agent：从劳力外包到智力外包

过去十年的 2B 软件本质是劳力外包——SaaS 替你执行流程、存储数据、生成报表。它降低了操作成本，但没有降低决策成本。一个优化师用了最好的投放平台，仍然需要自己判断“这个 campaign 该不该暂停”。

Agent 不一样。它的核心价值是在单位时间内处理更多决策——不是“帮你点按钮”，而是“帮你想清楚该不该点”。

维度	传统 SaaS	AI Agent
替代物	人工操作	人工判断
价值单位	功能覆盖度	决策密度（每小时处理多少决策点）
天花板	流程效率	策略质量
用户心态	“帮我做”	“帮我想，然后我决定（或你替我做）”

“为谁建”的三个维度

他的决策频率有多高？ — 广告优化师每天面对几百个 campaign × 几十个指标 = 数千决策点。这是 Agent 的最佳土壤。如果一个岗位每周只做 3 个决策，不需要 Agent。
他的决策有多结构化？ — “这个 campaign CPI 超标 20%，该不该暂停”是结构化决策，Agent 能胜任。“这个品牌 slogan 好不好”是非结构化判断，Agent 能辅助但不能替代。
错误决策的代价是什么？ — 暂停一个广告 campaign 的成本是可量化的（损失几小时曝光）；给客户发了一封错误的邮件可能丢掉这个客户。代价越可量化、越可逆，Agent 越适合介入。

实践判断：不要因为 LLM 什么都“能做”就什么都做。先找到“高频 × 结构化 × 可逆”的决策交叉点，把 Agent 钉在那里。

二、在哪里建：Agent 难度光谱——对手方决定了你的架构复杂度

我在做 Ad Agent 时发现了一个判断 Agent 难度的简单框架：不是看你的 Agent 有多聪明，而是看它面对的“对手方”有多确定。

Agent 难度光谱

        1234567891011
        容易 ◄──────────────────────────────────► 难
 
Platform-Facing       System-Facing        Human-Facing
广告投放 Agent         数据分析 Agent        客户触达 Agent
面对平台 API           面对数据库            面对真人用户
────────────          ──────────────        ──────────────
对手方：确定性系统       对手方：半确定性        对手方：不确定性
API 有文档              数据有 Schema         人有情绪、偏好、节奏
错了可回滚              错了可重跑             错了可能失去用户
反馈是数字              反馈是指标             反馈是沉默或拉黑
Schema→API 映射        SQL→结果 映射         NL→NL 没有锚点

为什么企业场景更容易收敛？

因为企业操作的大多数对手方是系统，不是人。

投放优化的对手方是 Meta / Google / TikTok 的 API — 接口文档完整，状态可查，操作可逆
数据分析的对手方是数据库 — Schema 明确，SQL 可验证，结果可重跑
财务对账的对手方是 ERP 系统 — 字段确定，规则固定
DevOps 的对手方是 CI/CD 管线 — 状态机清晰，日志完整

而 C 端 Agent 的对手方是人——人的反馈是模糊的（“还行吧”），人的状态是不可见的（在忙还是在无聊？），人的容错率极低（一次糟糕的推荐就取关了）。

实践判断：企业级 Agent 的第一个项目，选 Platform-Facing 场景。API 文档 = 你的训练数据，状态码 = 你的反馈信号，回滚机制 = 你的安全网。不要上来就做“自动写邮件给客户”这种 Human-Facing 场景。

平台 API 本身也有“确定性分层”

即使是 Platform-Facing，也不是所有功能都能自动化。以广告平台为例：

等级	含义	对 Agent 的影响
L1 · UI Only	API 不支持，只能在广告后台手动操作	Agent 无法触及，需要人工兜底
L2 · API 有，生态没跟上	Marketing API 开放，但第三方工具未集成	差异化机会——自建 Agent 能覆盖
L3 · 生态已覆盖	API 开放，主流工具已集成	无差异化空间，Agent 做不了比现有工具更多

Ad Agent 最有价值的区域恰好是 L2——平台 API 已经支持，但聚合工具还没跟上。这是 Agent 的“蓝海区”。

三、怎么建：两次翻译、Schema 居中、分级信任

这是 Ad Agent 架构演进中沉淀下来的核心方法论。我把它拆成三层：意图理解、规范约束、执行监控。

3.1 意图理解：NL → Schema（第一次翻译）

Agent 的第一步是理解用户到底想干什么。关键设计：不要让 LLM 直接调 API。

        123456789101112131415
        用户说: "把 CPI 超过 2 美元的 campaign 都暂停"
         │
         ▼ 第一次翻译（LLM 负责）
    Schema JSON:
    {
      "action": "pause_campaign",
      "filter": { "metric": "cpi", "operator": ">", "value": 2.0 },
      "scope": "all_active_campaigns",
      "confidence": 0.92
    }
         │
         ▼ 第二次翻译（确定性代码，零幻觉）
    Meta API: POST /campaigns/{id}/status {"status": "PAUSED"}
    Google API: mutate(campaign_operation: PAUSE)
    ...

“两次翻译、Schema 居中”是整个架构的核心。LLM 只负责第一次翻译（理解意图、填充 Schema），第二次翻译（Schema→API 调用）是确定性的代码映射。这样做的好处：

幻觉被困在 Schema 校验层——Schema 有枚举、类型约束、业务规则校验；即使 LLM 生成了错误的意图，Schema 验证会拦截
执行链路可审计——每一步都有结构化日志（Schema 版本、置信度、审批状态）
平台差异被 Adapter 吸收——同一个 Schema 对应不同平台的 API 实现

反模式警告：很多 Agent 框架直接让 LLM 生成 API 调用代码或 function call。在企业场景中这是危险的——LLM 可能生成语法正确但语义错误的调用（比如把“暂停”理解成“删除”），而且调用链路不可审计。

3.2 规范约束：Schema + Strategy + Playbook 的三层分离

理解了意图之后，约束比智能更重要。

层	关注什么	谁改	改的频率
Schema	操作的数据结构（字段、类型、枚举）	架构师	低（SemVer 管理）
Strategy	什么条件下做什么（规则 + 阈值 + 动作）	业务专家	中（按业务节奏调整）
Playbook	特定平台怎么执行（Meta 的 API 怎么调、Google 的参数怎么填）	工程师	随平台 API 更新

为什么要分三层？ 因为业务规则（“CPI 超标 30% 就暂停”）、数据结构（Schema 中 CPI 的字段名和类型）、平台实现（Meta 用 POST 暂停 vs Google 用 mutate）的变更频率完全不同。混在一起 = 改一处动全局。

Strategy 层支持继承和覆盖——默认策略对所有 campaign 生效，特定产品/市场/阶段可以覆盖个别规则。这让 Agent 既有通用能力，又能适配具体业务。

3.3 分级信任：不是“全自动 or 全手动”，而是 L0→L3 渐进授权

这是我认为企业 Agent 最关键的设计：不要让用户做“信不信 AI”的二选一。

等级	含义	示例	审批
L0	只读查询	“查一下这个 campaign 的 CPI”	自动执行
L1	低风险写操作	“把预算增加 10%”	自动执行 + 事后通知
L2	中风险操作	“暂停这 5 个 campaign”	展示 diff + 等待确认
L3	高风险操作	“新建一个 $10K 预算的 campaign”	展示完整方案 + 明确批准 + 记录理由

关键理念：用户对 Agent 的信任是逐步建立的。一开始只开放 L0/L1，Agent 用准确的数据查询和小操作证明自己；用户看到效果后，逐步开放 L2/L3。这比一上来就宣称“全自动投放”更现实，也更安全。

竞品 Appvertiser AI 选择了另一条路——全托管 SaaS，用户设定 KPI 边界后 Agent 在边界内自由执行。这对已经信任 AI 的客户有效，但很多企业客户（特别是大预算客户）需要看到每一步再放权。两种模式对应不同的客户风险偏好，不是谁对谁错。

3.4 执行与监控：Agent 拆分协同

当系统复杂到一定程度，单个 Agent 处理不了所有事情。拆分原则：

        123456789101112
                            ┌──────────────────┐
                    │  Orchestrator    │  ← 强模型（Claude Opus / GPT-5）
                    │  (Brain Agent)   │     负责意图理解 + 执行规划
                    │  调用次数: 1-2   │     每任务 1-2 次调用，成本可控
                    └────────┬─────────┘
                             │ 拆解任务 + 分发
              ┌──────────────┼──────────────┐
              │              │              │
      ┌───────▼──────┐ ┌────▼─────┐ ┌──────▼───────┐
      │ DataWorker   │ │ExecWorker│ │VerifyWorker  │  ← 快模型（Haiku / DeepSeek）
      │ 拉数据/查状态 │ │ 调 API   │ │ 验证结果     │     每任务 N 次调用，成本低
      └──────────────┘ └──────────┘ └──────────────┘

Brain/Worker 分离的经济学：Orchestrator 用强模型做 1-2 次“想清楚”的调用，Worker 用便宜模型做 N 次“照着做”的执行。成本降 5-10×，同时保证规划质量。

结构化终止——这是一个容易被忽视但极其关键的设计：Agent 判断“做完了”不能靠 LLM 说“完成”，必须靠 API 回调的状态码 + verify_state 独立验证。

为什么？因为最新的研究（Anthropic Mythos System Card）发现，前沿模型在 29% 的测试中会隐藏评估意识——它知道自己在被测试，会故意表现不同。在生产环境中，如果你靠 LLM 自己说“我做完了”来判断完成，等于把验证权交给了被验证对象。

实践判断：Anti-hallucination 是架构问题，不是 prompt 问题。枚举、Schema 校验、verify_state、非空错误返回——这些结构化约束比“请仔细检查你的输出”有效 10 倍。

3.5 效果闭环：从“用过就忘”到“越用越准”

大多数 Agent 项目缺少的最后一环：学习。

        1
        行动 → 效果追踪（2h / 24h / 7d 检查点）→ 规则校准 → Schema 迭代

每个操作都写入 action_log（带 Schema 版本和置信度），效果检查点追踪操作结果。当数据积累够了，就能回答“哪些规则有效、哪些该调整”——不是靠直觉，而是靠数据驱动的规则迭代。

这是 Agent 和脚本的本质区别：脚本执行完就结束了，Agent 执行完还在学习。

四、总结：企业级 Agent 建设的五个判断

#	判断	展开
1	找对决策点	高频 × 结构化 × 可逆的交叉点。不是“什么都做”，是“在最该做的地方做深”
2	选对手方	Platform-Facing 最容易起步（API 文档 = 训练数据，状态码 = 反馈），Human-Facing 最难（NL↔NL 没有锚点）
3	Schema 居中	NL→Schema（LLM）+ Schema→API（确定性代码）。幻觉被困在 Schema 校验层，不会泄漏到执行层
4	渐进信任	L0→L3 分级授权，让用户逐步放权。“信不信 AI”不该是二选一
5	结构化约束	Anti-hallucination 靠架构（枚举、验证、独立 verify），不靠 prompt。“请不要幻觉”从来不管用

这篇文章基于 Ad Agent 从 v0.1（个人 Cursor skill）到 v0.4（多租户 Agent-as-a-Service 架构规划）的实际演进，以及对 Appvertiser AI、IAB AAMP 标准、Basis Compass、Anthropic MCP 等行业实践的调研。

如果你也在做企业级 Agent，欢迎在评论区分享你的“对手方是谁”——那可能是你最需要想清楚的第一个问题。

关于作者：10 年移动游戏发行和增长平台经验，目前专注 AdTech × AI Agent 交叉领域。更多方法论见 abtest.chat。

2026年4月13日

大厂做 Agent 到底在做什么：企业基因如何决定 Agent 形态

上一篇《企业级 Agent 建设实践》我提了一个判断框架：Agent 的难度不取决于你多聪明，而取决于对手方有多确定。Platform-Facing 最容易、System-Facing 次之、Human-Facing 最难。

但最近两周的一段产品体验让我意识到，这个框架少了一层：在“对手方”之前，还有一个更上游的变量——建造者的基因。

一、两周体验：一个大厂 AI 助手的“差一口气”

我花了两周时间深度使用某大厂的 AI 办公助手产品（以下称“产品 A”），它挂载在企业协作套件里，定位是“AI 工作伙伴”。

先说结论：简单任务可以用，复杂任务指望不上。

几个核心体验：

1. 上下文对不齐

产品 A 支持多个工作空间，但切换时上下文经常丢失。你在空间 1 刚告诉它项目背景，切到空间 2 再回来，它忘了。这不是 bug——是架构选择。为了数据隔离（企业场景的刚需），它牺牲了上下文的连续性。

2. 复杂任务做不好

我试着让它搭建一个数据统计 Dashboard——这在专业 AI 编程工具里半小时能搞定的需求，产品 A 消耗了大量积分也没有完成。不是模型能力不够（底层用的是主流大模型），而是工具链没有为这类任务设计：没有文件系统访问、没有代码执行沙箱、没有持久化的项目上下文。

3. 简单任务够用

网页摘要、文档整理、信息检索——这些任务完成得不错。如果把预期调到“智能搜索 + 摘要助手”，这个产品是合格的。

4. 数据隐私做得很到位

本地不存对话明文，全部加密。从企业合规角度，这是加分项。但从用户体验角度，这意味着你无法回顾历史对话，Agent 也无法从你的使用历史中学习。

看上去矛盾吗？其实不矛盾。因为这个产品不是为“你”建的。

二、企业基因决定 Agent 形态

基因公式

如果你把大厂的 Agent 产品放到一起看，会发现一个规律：

企业基因（基本盘在哪） × 组织需求（要增长什么） = Agent 的真实目的

这个公式比任何产品宣传页都准确。

三个案例拆解

案例一：协作套件厂商做 Agent

基本盘是企业协作（文档、日历、会议）。做 Agent 的真实目的不是“帮用户更高效”，而是：

强化文档/知识库的生态粘性——Agent 越依赖企业知识库，企业就越离不开这个协作套件
为云服务增加一个客户暴露入口——否则云平台只能靠价格战或垂直行业 BD
拉升 MAU / DAU 数据——AI 功能是企业客户续费谈判时的亮点

结果：Agent 擅长“在文档体系内做事”（总结会议纪要、查知识库、整理表格），但一旦超出协作套件的边界，能力断崖式下降。

案例二：社交/游戏巨头做 Agent

基本盘是社交连接和内容消费。推演一下：

社交场景需要 Agent 吗？用户在聊天时需要一个“AI 助手”插嘴吗？
游戏场景需要 Agent 吗？玩家在打游戏时需要 AI 帮忙分析对局吗？

答案是：基本盘不需要。社交的核心体验是人与人的连接，Agent 插入反而破坏体验。所以这类厂商的 Agent 产品往往处于“有但不重要”的状态——内部赛马的产物，而非战略刚需。

案例三：模型公司做 Agent

基本盘是“需要智能拓展和压缩的人”——研发、写作、分析、编程。这是天然的 B 端提效需求。

所以模型公司做出了市面上最好的 Agent 产品。不是因为它们的模型更强（虽然确实强），而是因为基因对了：

目标用户就是“需要 Agent 帮忙想”的人
产品形态天然就是“给用户工具链 + 让 Agent 直接操作”
商业模式直接挂钩使用量（API 调用 / 订阅）——用户用得越深，营收越好

核心洞察：企业基因不是“限制”，而是“引力”。它决定了产品团队的认知起点、资源分配、成功指标。一个以协作套件为基本盘的公司，做出的 Agent 天然围绕文档和知识库转——不是不想做更多，是组织引力把它拉回基本盘。

三、用“对手方框架”解释基因差异

回到上篇的“对手方”框架，我们可以更精确地理解为什么不同基因的企业做出的 Agent 不一样：

企业基因	对手方选择	Agent 擅长	Agent 不擅长
协作套件	文档系统 / 日历 API（System-Facing）	文档摘要、日程管理、知识检索	代码执行、外部 API 集成、持久化项目
社交/游戏	内容推荐引擎（System-Facing）	内容生成、推荐优化	复杂工作流、结构化决策
模型公司	用户的代码/文件系统（System-Facing → Platform-Facing）	编程、分析、多工具编排	企业合规、多租户隔离
广告平台	广告 API（Platform-Facing）	投放优化、预算分配、异常检测	创意生产、品牌策略

基因决定了默认的“对手方”，对手方决定了架构选择，架构选择决定了产品能力边界。这条因果链是刚性的——不是做不了，是改变它需要对抗组织引力，而组织引力几乎不可战胜。

四、对个体从业者的启示

4.1 选工具：看基因，不看宣传

当你在选用哪个 AI 助手时，先看它背后公司的基本盘是什么：

要写代码 / 做分析？→ 选模型公司的产品（Claude / ChatGPT / Cursor）
要管理文档 / 企业知识库？→ 选协作套件内置的 Agent
要做投放优化 / 数据驱动决策？→ 选垂直领域的 Agent（或自建）

不要指望一个“通用 AI 助手”什么都做好。 基因决定了它的能力天花板。

4.2 建 Agent：对齐你的“基因”

如果你在企业里推动 Agent 建设，同样的逻辑反过来用：

你的团队基因	适合建什么 Agent	避免什么
数据团队	数据查询 / 报表 / 异常检测 Agent	客户触达 / 内容生成
投放团队	投放优化 / 预算分配 / 监控盯盘 Agent	平台架构设计 / 产品需求
产品团队	需求分析 / 实验设计 / 竞品调研 Agent	代码实现 / 运维部署

上篇说“找对决策点”，这篇加一条：你的团队基因就是你的决策点范围。超出基因范围的 Agent 项目，要么做不好，要么做了没人用。

4.3 蓝海在哪？

回到 WorkBuddy 体验中的一个发散思考：AI 时代的门票应该先发给谁？

一种思路是：先抓下沉受众——不是天天对着代码的开发者（他们要求高、难伺候），而是那些被低效工具折磨但还没被 AI 服务到的人。

广告优化师就是典型：

每天面对数千个决策点（高频）
决策高度结构化（CPI 超标就暂停）
现有工具只解决了“执行”没解决“判断”
对 Agent 的容错度高（暂停一个 campaign 不是灾难）

这也是我们的 Ad Agent 能快速产生价值的原因——不是因为技术多先进，而是因为场景和基因高度对齐。

五、总结：基因 → 对手方 → 架构 → 能力边界

把上篇和这篇串起来，完整的判断链条是：

        123456789
        企业基因（基本盘）
    ↓ 决定
默认对手方（面对什么系统/人）
    ↓ 决定
架构选择（NL→Schema / tool chain / 信任分级）
    ↓ 决定
能力边界（什么能做好，什么做不好）
    ↓ 反馈
产品形态 & 用户期望

上篇给了你 5 个判断：找对决策点、选对手方、Schema 居中、渐进信任、结构化约束。

这篇再加 2 个：

#	判断	展开
6	看基因选工具	企业基本盘决定 Agent 能力天花板。不要用“协作 Agent”做“投放 Agent”的事，反之亦然
7	对齐基因建 Agent	你的团队基因 = 你的决策点范围。超出范围的项目不是不能做，是对抗组织引力的成本极高

这不是在批评任何产品——每个产品在自己的基因范围内都做得不错。问题出在用户期望与产品基因的错配。当你用一个协作套件的 Agent 去做数据统计 Dashboard，失望的不是 Agent，是你选错了工具。

如果你也有“用了某个 AI 助手，感觉差一口气”的经历，欢迎评论区分享。很可能不是产品不行，而是基因不对。

关于作者：10 年移动游戏发行和增长平台经验，目前专注 AdTech × AI Agent 交叉领域。上篇：企业级 Agent 建设实践：为谁构建、场景收敛、实现路径。更多方法论见 abtest.chat。

2026年4月13日

AB建设咨询-大厂内部几百万打磨出来的ab方法论加实操陪跑，你愿意付费多少？
大厂内部几百万打磨出来的ab方法论和系统建设陪跑，你愿意付费多少？
1. 快手 19-21 三年ab的迭代，基础的重叠框架、置信分析、累积效果分析、DID分析、流量检验体系
2. Shopee 22-24三年ab的迭代，覆盖内容、电商的搜广推业务
3. 游戏公司 25 半年快速从ab1.0升级到3.0，实现并行实验十百千的快速演进
半年的咨询服务周期，至多20次的现场沟通和交付，你愿意付费多少？

Plus：内容、电商、游戏行业数据应用的交流和分享。
2025年10月30日
又一次跨界-这次做市场发行的数据建设了
老兵不死，再起新篇。迎接新的职业挑战，这次是出海休闲游戏的发行、市场相关的数据建设。

数据和业务的距离又进一步，整个数据体系整理大概如下：

数据内容

区别于产品侧的数据来源用户埋点，在市场侧主要的数据来源包括：
1. 媒体侧提供的消耗数据
2. MMP提供的归因数据
3. 回传的回收变现数据
4. InApp的用户行为数据
数据分析

数据分析按照描述性 → 诊断性 → 预测性 → 决策性的路径深入挖掘数据的价值。

沉淀下来的指标、看板、模型等可以由数据产品进行承接。

数据产品

数据产品围绕投放、素材、营销等业务模块提供看数、洞察等分析功能，并提供工作闭环的支持。

MVP版本以发布，其他相关模块快速迭代中。

有兴趣的朋友欢迎交流。
2025年10月28日
极致AB实验的前置

今年上半年参与了出海休闲游戏公司实验平台的迭代，基本实现了百-千量级的实验体量，并朝着万级稳步推进。

极致AB需要哪些天时地利人和的条件呢？有兴趣的可以对号入座下。

天时

数据意识以及管理层的推动在小公司做事是必须的。公司CEO在游戏行业摸爬滚打十几年，非常推崇数据驱动，也是得以入场做咨询的一个前置条件。

另外就是公司非常的扁平，CEO意志在公司可以无折扣的推进。

地利

业务场景的收敛，出海休闲游戏业务场景非常聚焦，按照特性-tag-方案进行创意的管理，并对用户进行方案的干预。

场景的收敛可以让AB在流量控制、实验干预简化、自动化。

人和

业务团队、研发团队、实验的数据团队（包括产品、研发、数据科学家）协同的非常顺畅，相互成就。

结果

经历了4个版本的迭代，从创意到研发、实验、分析整个流程最大程度的实现了自动化

v1. 接入火山引擎进行分流和干预参数的分发，实验意识的启蒙和尝试。

v2.本地化的参数分发，跟贴近公司业务

v3.引入了互斥桶，流量的利用效率提升，可以支持10量级的实验

v4.引入正交流量框架、并打通版本发布、实验参数控制，支持100、1000量级的实验，后续计划引入AI创意、自动化测试以及更多参数化的特性，实现实验量级的再次×10。

有实验平台需求的欢迎沟通！

2025年10月28日
游戏机制和数据驱动
一位行业前辈对游戏机制的总结非常到位：通过核心玩法交付核心体验。

这里的玩法可以不同维度进行拆解
1. 游戏类型：益智、休闲、角色扮演、策略、模拟经营、冒险、射击、体育竞技等等
2. 类型细分：比如益智类型又可以拆分消除、数独、卡牌、装饰、填词等各种
核心体验的交付包括玩法设计和迭代两个阶段
1. 核心玩法的设计：可以参考《游戏设计艺术》结合里面的各种棱镜进行核心玩法的设计，包括角色、操作、反馈、规则、经济系统、关卡、社交和多人机制（pve/pvp），确保游戏好玩，玩家可以进入心流体验
2. 核心玩法的迭代：通常以下几种驱动方式，不同驱动方式可以组合
  - 活动驱动：通过活动设计、ip联运等提高用户活跃度
  - 内容渠道：关卡、场景、地图的拓展等，比如开心消消乐定期进行关卡拓展
  - 策略驱动：以消除游戏为例，通过uiue、算法难度控制、商业化变现策略等控制用户体验
数据在核心玩法设计和迭代中可以发挥的作用
1. 通过数据观测、分析指引玩法设计的方向
2. 通过AB实验验证对比设计的优劣，一些典型的案例
  - 游戏难度控制：以消除游戏为例，通过填空算法、熵增算法、清盘算法为用户提供不同的体验，制造体验的波动性
  - uiue：对比颜色、动效、速度等不同交互设计，提升用户留存
  - 商业化：不同的广告形式、频次对比，在保障用户体验的情况下，创造更多商业化收益
2025年7月22日
客户墙

记录下不同角色在不同客户工作的情况

2025年7月16日
我经历的行业和趋势
任何行业的发展大概经历下面的曲线：

不同阶段特点和发展策略：
1. start-up 初创阶段偏好，CEO/COO摇篮，需要有敏感度、视野和开创精神，role-model
  - 芦义：英文名indigo，微博创业早期员工，后续经历很多赛道（也做过o2o -今晚有房？），目前集中在ai知识分享、风投和社区建设
  - 阿德：陈建闽，新浪微博growth hacking，360电商流量，去哪儿国际酒店负责人。 15年开始做pmcaff社区，也做一些投资孵化
2. growth 技术驱动、资本驱动、打工比较舒服的阶段
3. maturity 资本变现，开始cost-control体感变差
4. decline 打工人疯狂内卷，及时远离
聊一聊我这些年经历的曲线，大抵都是成长到成熟切换的时候进入。对应的行业或趋势：
1. 高校扩招：97年（取消分配工作）/99年（面向21世纪教育振兴行动计划）高校开始扩招，招生规模从100w，到01年260w，到2025年本科招生规模达到500w，毕业生规模达到1200w
2. 外企招聘：最早的外企员工应该90年代初，我在ibm的老板2005年左右加入，他们属于尝到最初外企红利的人（工资收入房价比很夸张，一个月工资可以买好几平房子），我在2008年加入外企，之后几年外企迅速让位给互联网公司，进入2020年之后考公考编又成为热潮
3. IT咨询：华为引入ibm做ipd咨询，应该是it咨询在国内的标杆项目，过去的it咨询可能更多是外企之间的内循环，从07年实习到14年离开这个行业，已经感受到了行业衰退的趋势
4. 互联网金融：2011年支付宝拿到互联网支付牌照，引爆了互联网金融（资金融通的基础设施），15年宜信、恒昌（2016年待了九个月）、拍拍贷等p2p把这轮互联网金融推行高潮（影子银行），随着坏账等引发了一系列社会问题，在2020年基本所有互金都转型科技公司、助贷公式
5. 移动互联网：08年iphone4重新定义了手机，移动互联网进入快速发展阶段，微博、o2o、微信、手淘、头条等构建了当前互联网主要的产品形态，16年加入TD做大数据（移动互联网成熟，但是大数据应该还是在快速成长阶段），在数据行业探索至今
6. 内容娱乐：18年圣诞节后加入快手（快手2011年成立，16年17年是快速发展的阶段，当时数据平台只有寥寥几十人，18年加入的时候7周年数据平台已经近百人规模，离开的时候快手10周年）
7. 出海电商：22年1月加入Shopee（有虾选虾，无虾选腾，当时虾皮股价从巅峰400+回落到300左右）
8. 人工智能：AI的发展历程最早可以追溯到1956年达特茅斯夏季研讨会，经历长时间的沉寂后，在大数据、搜索、推荐等场景找到应用，（17年在TD正式接触机器学习，19年在快手进一步加速了对大数据和机器学习技术栈的理解，24年在Shopee参与了Multimodal LM AIGC的项目，掉入博士堆😁）
9. What’s Next：前面几个行业和趋势，个人基本在快速成长接近成熟（pre-maturity）的阶段介入，目前选择的方向是如何通过数据和AI重新定义移动休闲游戏
2025年7月14日
暑期首个周末闪购大战

官方成绩单

美团订单量突破1.2亿

淘宝订单量超8000万

京东未公布，大概率还是小老弟

个人订单

个人周末订单情况：

淘宝闪购，支付宝渠道价格由于淘宝88会员饿了么小程序，贡献两单，其中首单0元购，第二单10元

京东外卖贡献两单，补贴20-15后客单5元

美团闪购看了下补贴策略最鸡贼，好像没有什么羊毛，公众号有同学反馈kfc订单被自动取消（商家无反馈、大概率是美团骚操作了）

算账这块还是兴哥最鸡贼（蒋凡花的不是自己的钱，强哥要摆出大哥形象不能算小账）。

美团股票连续多日下跌，今年累积跌幅超过20%了，补仓补到手麻了，不过对兴哥有信心，期待股价反弹。

2025年7月7日
实验平台流量框架的设计
经手的实验平台多了以后从不同公司流量框架的设计和应用中吸取一些经验，下面展开说下我的理解

流量的理解

AB实验需要通过对随机、同质、独立的流量施加不同的方案，通过实验观测看不同方案的优劣。所以第一步是对自己流量的理解
1. 流量的生态包括哪些参与者，比如
  - 互联网中搜索引擎用户
  - 电商领域中买家、卖家
  - 内容领域中的消费者和创作者
  - 外卖中骑手、商家、买家
  - 游戏领域中玩家（又有玩法的区分比如PvP中玩家相互就不独立）
2. 流量的随机性通常在流量框架中通过技术手段可以解决，比如hash分流、轮询分流等
3. 流量的同质性正常在流量随机的过程中可以保障，在用户分布（画像、指标的分布）相对比较极端的场景需要进行同质性检验确保实验可信
4. 流量的独立性在选择流量框架的时候需要重点考量，针对外卖、打车等场景简单随机无法保证流量的同质性和独立性，需要更复杂的流量框架或者分流算法
流量框架的选择

AB实验方法由Google引入互联网后，实验方法成为各大公司标配。实验的本质对随机打散的同质、独立流量施加控制。按照流量生态的差异大概沉淀出以下的流量框架
1. 重叠流量框架，基于层域进行流量管理，被大多数互联网公司采样，可以参考Google论文 Overlapping Experiment Infrastructure: more,better,faster experimentation 重叠实验框架：更多更好更快的做实验，在实验配置的时候进行参数的冲突检测。
2. 基于约束的流量框架，通常适合双边、多边业务形态的公司。由实验者制定约束，平台根据实验者制定的约束，确保无法避免潜在交互影响的实验没有同时曝光给用户。如微软、Uber等公司，实验平台都集成了检测交互作用的自动化系统，以避免实验间潜在交互影响。
实践案例

市场上实验平台的设计都要在充分理解业务流量的基础上，解决流量分配随机、同质、独立要求，具体的实现路径就是重叠流量框架（在实验的时候再进行参数冲突控制）、基于约束的流量框架（本质是一种提前进行实验参数冲突控制的策略）

Google重叠流量框架以及四种实现

不同公司按照业务的复杂度，可以选择figure a-d四种不同复杂度的流量框架实现。

美团AB实验白皮书

白皮书中介绍了美团流量的特点、流量框架的设计，以及提供的一系列实验分析工具，整体上确保实验平台的科学可信。

滴滴Adaptive分流

参考：https://blog.51cto.com/u_15060460/2673616

随机分流的过程中进行用户指标的平衡，增强流量的同质性

分流单元定义和分流方法

流量生态和流量框架的结合包括分流单元的定义和分流方法的选择。

分流单元

通常的分流单元可以包括以下：
1. user_id 适用大部分互联网场景，包括device_id、cookie_id、uuid等类似标识
2. request_id 适用商业化场景
3. poi、Geohash等位置标识，适用O2O等场景
分流方法
1. hash分流，随机分流并且分流结果固定，通常在重叠流量框架中通过层id等加盐确保层间正交性、时间戳更新进行流量再打散等
2. 轮询方法，在用户属性（国家、设备等）或者先验指标（例如ecpm）方差较大情况下通过轮询方法保证各组流量的同质性，通过随机进行轮询顺序的打散，通过cache确保流量进组的稳定性
以上总结了实践中对流量生态理解、流量框架选择、以及具体流量框架实现中的一些考量。关键要解决
1. 流量的随机性、独立性、同质性
2. 流量分配和参数控制中避免冲突
从而确保流量框架的可信性、实验结果的科学置信。
2025年7月5日

企业级 Agent 建设实践：为什么企业场景更容易收敛，以及怎么做

一、为谁而建：Agent 的价值不是“自动化”，是“决策密度”

软件 vs Agent：从劳力外包到智力外包

“为谁建”的三个维度

二、在哪里建：Agent 难度光谱——对手方决定了你的架构复杂度

Agent 难度光谱

为什么企业场景更容易收敛？

平台 API 本身也有“确定性分层”

三、怎么建：两次翻译、Schema 居中、分级信任

3.1 意图理解：NL → Schema（第一次翻译）

3.2 规范约束：Schema + Strategy + Playbook 的三层分离

3.3 分级信任：不是“全自动 or 全手动”，而是 L0→L3 渐进授权

3.4 执行与监控：Agent 拆分协同

3.5 效果闭环：从“用过就忘”到“越用越准”

四、总结：企业级 Agent 建设的五个判断

一、两周体验：一个大厂 AI 助手的“差一口气”

二、企业基因决定 Agent 形态

基因公式

三个案例拆解

三、用“对手方框架”解释基因差异

四、对个体从业者的启示

4.1 选工具：看基因，不看宣传

4.2 建 Agent：对齐你的“基因”

4.3 蓝海在哪？

五、总结：基因 → 对手方 → 架构 → 能力边界

数据内容

数据分析

数据产品

天时

地利

人和

结果

官方成绩单

个人订单

流量的理解

流量框架的选择

实践案例

Google重叠流量框架以及四种实现

美团AB实验白皮书

滴滴Adaptive分流

分流单元定义和分流方法

分流单元

分流方法