适用对象:APP 运维 / 研发 / SRE / 一线支持人员 本手册覆盖控制台「监控大盘 / 智能感知 / 问题管理 / 智能诊断 / 智能管控 / 巡检日报」六大模块(系统管理部分暂不在本手册范围内)。
| 环境 | 地址 | 说明 |
|---|---|---|
| 生产环境 | https://axiox.lkcoffee.com | 真实线上数据,请勿在此随意创建/废弃单据做测试 |
| 测试环境 | https://axioxtest03.lkcoffee.com | 内网可访问,用于演练、培训、试建单据 |
创建问题单、修复工单、日志/取证任务等「写操作」演练,统一在 测试环境 进行。
打开控制台后,使用公司统一认证(LDAP)账号登录。登录后左侧为模块导航栏,顶部为当前页面标题与操作区。
当前版本中,动态探针 / 远程管理 / 巡检日报 为「建设中」占位页面,功能将陆续上线;本手册对其仅作简要说明。
云枢的核心是「发现问题 → 排查问题 → 解决问题」闭环。问题洞察(问题单)是贯穿全流程的载体。下面给出三个典型日常工作流(场景 C 为 Q3 规划能力)。
例:门店反馈「某台单屏机下单一直转圈 / 频繁崩溃」。
定位设备:进入「智能感知 → 状态感知」,用顶部 App 选择器选中对应 App,点「高级筛选」按工号 / 门店 / 设备号等维度找到目标设备,确认在线状态与 CPU/内存/磁盘等指标是否异常。
核对异常:进入「智能感知 → 异常感知」,确认该设备/该 App 近期的崩溃 / 卡顿 / 业务异常计数与趋势,记下首次发生时间。
建单:进入「问题管理 → 问题洞察」,点「新建问题洞察」,填写所属应用、严重等级、问题摘要、关联设备、问题首次发生时间与时间窗口(见 §3.4.2)。
取数:在问题单详情页「日志数据」卡片回捞终端日志 / FELOG / LSOP;必要时在「远程取证」卡片触发截图、权限读取。
诊断:在「AI 智能分析」卡片点「AI 分析」,等待 3–5 分钟自动产出根因 / 影响范围 / 修复建议;人工复核后微调。
修复:诊断就绪后在「修复策略」卡片新建或关联修复工单,按「提交审批 → 审批通过 → 开始执行 → 标记完成」推进。
闭环:修复完成后回到问题单标记「已解决」;若判定为误报/无须处理,直接「关闭」并填关闭原因。
例:巡检发现某 App 业务异常计数突增。
「智能感知 → 异常感知」选中 App,切换异常类型分段(崩溃/卡顿/业务异常),观察趋势曲线是否出现毛刺、汇总卡片环比是否飙升。
点列表中可疑设备的「查看详情」,查看该设备今日 vs 昨日异常对比、首次/最近发生时间与上报记录。
确认是面上问题后,进入「问题洞察」建单(关联该批设备),后续步骤同场景 A 的第 4–7 步。(Q3 起也可从异常感知详情弹窗一键新建问题单。)
例:凌晨某 App 业务异常计数环比突增,AI 巡检自动建单、完成 RCA 诊断,并通过飞书 Bot 通知值班研发与运维。
规划能力(Q3):本节描述 Q3 起上线的 AI 巡检自动化流程。
持续巡检:AI 定时扫描「状态感知」与「异常感知」,对各 App 的在线率、CPU/内存/磁盘,以及崩溃 / 卡顿 / 业务异常等指标做峰值检测与环比(日 / 周)对比。
异常判定:当出现趋势毛刺、汇总卡片环比超阈、或同类设备集中异常时,AI 自动归类异常类型、估算影响面,并关联可疑设备列表。
自动建单:满足巡检规则后,在「问题管理 → 问题洞察」自动创建问题单(来源标记为「AI 巡检」),填入摘要、严重等级、关联设备、问题首次发生时间与时间窗口。
自动取数:按时间窗口并行回捞终端日志 / FELOG / LSOP 等多源日志;必要时对代表性设备触发远程取证(截图、权限读取等)。
RCA 诊断:结合已挂载的源码仓库,对多源日志做时间线归并与跨层关联,自动生成根因定位、影响范围与修复建议(写入问题单「AI 智能分析」卡片)。
飞书通知:诊断就绪或达到告警等级后,通过飞书 Bot 向对应 App 的研发与运维群 / 值班人推送通知,含问题单链接、根因摘要、影响设备数与建议处置动作。
人工跟进:研发 / 运维收到通知后进入问题单复核 AI 结论;确认有效则按场景 A 第 6–7 步推进修复与闭环,判定误报则「关闭」并填关闭原因,以反哺巡检规则调优。
入口:左侧导航「监控大盘」。 作用:把多个 App 的关键埋点指标聚合成卡片视图,按时间范围统一观测全局质量态势。
顶部右侧可切换时间范围(如「过去 15 分钟」等,下拉选择),点「刷新」重新拉取。
页面按 App 分组展示卡片(如「用户端APP」「配送端APP」等分栏),每张卡片是一个指标,显示总量、单位、迷你趋势图,并根据告警阈值 / 严重阈值变色提示;无数据指标显示「暂无数据」。

点右上角「⚙ 配置」打开配置弹窗:

选择应用:下拉选择 App(用户端 / 配送端 / 单屏机 / 点单机 / 智能屏 / 工作站等,已配置过的 App 标记 ✓)。
指标列表:每行一个指标,点「+ 添加指标」新增,可配置:
| 字段 | 含义 | 必填 |
|---|---|---|
| 名称 | 卡片显示名 | 是 |
| eventCode | 埋点事件编码(取数依据) | 是 |
| key | 细分字段(选填) | 否 |
| 单位 | 如「次」 | 否 |
| 告警阈值 | 超过则黄色预警 | 否 |
| 严重阈值 | 超过则红色告警 | 否 |
点「保存」生效,返回大盘自动刷新。
入口:「智能感知 → 状态感知」。 作用:实时查看终端设备的运行状态与性能指标。
顶部 App 选择器(支持「全部」),右侧「高级筛选」按设备身份维度精确定位。
设备列表列:设备(设备号 + 工号/会员号/昵称/手机号/邮箱/部门/门店/城市等身份标签)、CPU、内存、电量、磁盘、网络、最后活跃。性能列按阈值变色(≥80% 红、≥60% 橙、其余绿)。
点行尾「详情」查看该设备的状态快照、感知曲线与最近动作。
高级筛选支持维度:设备 ID、B 端工号、C 端会员号、手机号、邮箱、LSOP ID、用户昵称、FELOG ID、城市、门店 ID、门店名称等。

说明:性能列(CPU/内存/磁盘等)依赖设备上报,部分端或离线设备显示「-」;选具体 App 比「全部」更易看到完整指标。
入口:「智能感知 → 异常感知」。 作用:聚焦崩溃 / 卡顿 / 业务异常三类,按设备聚合异常计数与趋势。
页面结构(自上而下):
异常类型分段 + 刷新:全部 / 崩溃 / 卡顿 / 业务异常。
App 选择器 + 高级筛选(维度同状态感知;有筛选时按钮显红点)。
汇总卡片:今日各类异常总量及环比。
趋势曲线:当日异常随时间分布,用于发现毛刺。
设备异常列表:设备信息、异常详情(崩溃/卡顿/业务异常计数)、最近异常时间。点「查看详情」打开设备弹窗:
今日累计异常 + 较昨日环比(↑红 / ↓绿)。
异常类型标签、首次/最近发生时间。
该设备异常趋势图 + 分页上报记录。

异常感知本身不直接建单;确认问题后到「问题洞察」新建问题单并关联设备。
问题管理含两个子模块:问题洞察(问题单,排查载体)与修复工单(解决载体)。
入口:「问题管理 → 问题洞察」。
筛选项:关键词(编号/标题)、状态(多选)、严重等级(多选)、来源(多选)、负责人。
列表列:编号、摘要、所属应用、严重等级、状态、来源、设备数、负责人、首次发生时间。
点编号/摘要/「详情」进入详情页;右上「新建问题洞察」建单。

状态:待处理 / 诊断中 / 修复中 / 已解决 / 已关闭。 严重等级:B0 致命 / B1 严重 / B2 一般(默认)/ B3 轻微。 来源:人工(当前可用);AI 巡检、DevTools(即将上线)。
点「新建问题洞察」打开右侧抽屉,填写:

| 字段 | 说明 | 必填 |
|---|---|---|
| 所属应用 | 下拉选择 | 是 |
| 严重等级 | B0~B3 | 是 |
| 问题摘要 | 1~200 字 | 是 |
| 现象与复现步骤 | 支持 Markdown,可粘贴图片 | 否 |
| 关联设备 | 选所属应用后添加,至少 1 台(上限 50) | 是 |
| 问题首次发生时间 | 用于划定日志/取证时间范围 | 是 |
| 时间窗口(前后各 N 分钟) | 默认 30,最大 1440 | 是 |
| 补充说明 | 写入时间线首条事件 | 否 |
时间窗口会以「首次发生时间 ± N 分钟」框定后续日志回捞与取证的检索区间,建议按问题实际持续时长设置。
添加设备:先选「所属应用」,再点「添加设备」弹出筛选框,可按设备 ID、B 端工号、C 端会员号、手机号、邮箱、LSOP ID、用户昵称、FELOG ID、城市、门店 ID、门店名称等维度检索后勾选「应用」。
创建成功后自动跳转到问题单详情页。
详情页自上而下由若干卡片组成,并按状态开放操作:
下图为一个已完成 AI 分析的问题单详情(含基础信息、日志数据、远程取证、AI 智能分析等卡片):

顶部操作按钮(非终态时):编辑、快速标记已解决(仅待处理时)、关闭、刷新。
右上三个按钮:终端日志、FELOG日志、LSOP日志,点击即对关联设备发起对应类型回捞任务。
任务以 #任务号 + 类型 + 设备 + 状态 列出,自动轮询刷新;成功后点「查看日志」打开日志查看抽屉。
任务失败时按钮变「再捞一次」,可重试并查看失败原因/阶段。
点「触发取证」对设备发起截图 / 权限读取任务。
任务按设备聚合,以标签展示各类型次数(权限读取显示 成功/总数),点标签查看明细(截图预览 / 权限详情)。
三段内容:根因定位 / 影响范围 / 修复建议,均支持 Markdown,可人工编辑或由 AI 生成(标签标注 AI / 人工 + 时间)。
点「AI 分析」弹窗会先检查源码与日志资源是否就绪:
未就绪项可点「立即拉取」,已就绪源码可「同步最新」;拉取中每 5 秒自动刷新状态。
资源未完全就绪也可强制「开始分析」(系统尝试自动准备)。
分析后台静默执行,预计 3–5 分钟,完成后页面自动更新,并产出三段诊断结果。
当「诊断已就绪」后,才可在「修复策略」卡片创建/关联修复工单。
仅当诊断已就绪且问题单非终态时可操作。
新建:填工单标题、优先级(高/中/低)、可选关联 LUCP 单号;创建后自动关联当前问题单。
关联:把已有修复工单关联到本问题单。
卡片列出关联工单的编号、状态、优先级、LUCP 链接,点「查看详情 →」跳转工单详情。
点「关闭」选择原因:忽略(无须处理)/ 不可修复 / 误报 / 重复问题,并可填关闭说明。
入口:「问题管理 → 修复工单」。
筛选项:关键词、状态(多选)、优先级(多选)、执行人。
列表列:编号、标题、优先级、状态、执行人、创建时间。右上「新建修复工单」。

优先级:高 / 中 / 低。
状态:已创建 / 已生成 / 审批中 / 待执行 / 执行中 / 已完成 / 已废弃。
详情页含:头部概览(标题/优先级/状态/执行人/审批人/LUCP)、修复方案卡片(可 AI 分析生成方案、人工编辑、采纳)、关联问题单卡片、结案信息。AI 生成的修复方案包含问题概述、根因、影响范围、分步修复(含代码改动示例)等:

顶部按钮随状态变化推进:
「提交审批」需修复方案已就绪(planReady)。任意非终态均可「废弃」(需填废弃原因)。
智能诊断提供独立于问题单的诊断任务入口(也可从问题单内直接发起,见 §4.3.1/4.3.2)。
入口:「智能诊断 → 日志任务」。 作用:对单台设备发起日志回捞,支持三种来源。
顶部汇总卡片(任务总数/已完成/进行中/失败)+ 设备 ID 搜索 + 任务状态分段筛选。
列表列:ID、设备 ID、来源、日志类型、任务状态、时间范围、有效期、创建时间、操作。

任务来源(taskType):终端日志(LOG_FETCH)/ FELOG 日志 / LSOP 日志。 任务状态:已创建 / 已激活 / 执行中 / 成功 / 失败 / 超时 / 已废弃。
点「创建任务」:

选择来源分段(终端日志 / FELOG / LSOP)。
点「选择设备」按身份维度检索并选定设备。
按类型填写参数(终端日志可选日志类型:全部/业务/崩溃/卡顿 + 时间范围;FELOG/LSOP 填 eventCode 等)。
设「有效期至」与备注(必填),确定。
| 状态/类型 | 可用操作 |
|---|---|
| 已创建(FELOG/LSOP) | 激活(开始检索)、编辑、废弃 |
| 已创建(终端日志,可推送) | 推送、编辑、废弃 |
| 已创建(终端日志,未配推送) | 激活(App 上线后轮询拉取)、编辑、废弃 |
| 已激活 | 废弃 |
| 成功 | 查看日志 |
「详情」可查看任务执行时间线(已创建/已下发 STS/已接受/进度/成功或失败等)及 COS/OSS 配置。
入口:「智能诊断 → 远程取证」。 作用:对设备发起同步取证任务,含两个 Tab:
远程截图:新建截图任务,列表额外展示截图格式、质量、COS 路径;详情可预览截图。
权限读取:新建权限读取任务;详情展示该设备权限授予情况。
操作模式与日志任务一致(汇总卡片 + 设备搜索 + 状态筛选 + 新建 + 详情),任务状态枚举相同。

热插桩 / Profiler 实时探针能力,规划中,页面当前为占位。
决策中心、远程重启、应用/配置下发与回滚等管控能力,规划中,页面当前为占位。当前阶段的「解决问题」主要通过修复工单(§4.4)的人机协同流程承载。
AI 巡检自动化工作流的结果汇总报表,规划中,页面当前为占位。
| 维度 | 取值 |
|---|---|
| 状态 | 待处理 / 诊断中 / 修复中 / 已解决 / 已关闭 |
| 严重等级 | B0 致命 / B1 严重 / B2 一般 / B3 轻微 |
| 来源 | 人工(可用)/ AI 巡检 · DevTools(即将上线) |
| 关闭原因 | 忽略 / 不可修复 / 误报 / 重复问题 |
| 设备上限 | 50 台 |
| 维度 | 取值 |
|---|---|
| 优先级 | 高 / 中 / 低 |
| 状态 | 已创建 / 已生成 / 审批中 / 待执行 / 执行中 / 已完成 / 已废弃 |
| 维度 | 取值 |
|---|---|
| 日志来源 | 终端日志 / FELOG / LSOP |
| 日志类型 | 全部 / 业务 / 崩溃 / 卡顿 |
| 取证类型 | 远程截图 / 权限读取 |
| 任务状态 | 已创建 / 已激活 / 执行中 / 成功 / 失败 / 超时 / 已废弃 |