云枢(Axiox)控制台操作手册

适用对象:APP 运维 / 研发 / SRE / 一线支持人员 本手册覆盖控制台「监控大盘 / 智能感知 / 问题管理 / 智能诊断 / 智能管控 / 巡检日报」六大模块(系统管理部分暂不在本手册范围内)。


0. 准备工作

0.1 访问地址

环境地址说明
生产环境https://axiox.lkcoffee.com真实线上数据,请勿在此随意创建/废弃单据做测试
测试环境https://axioxtest03.lkcoffee.com内网可访问,用于演练、培训、试建单据

创建问题单、修复工单、日志/取证任务等「写操作」演练,统一在 测试环境 进行。

0.2 登录

打开控制台后,使用公司统一认证(LDAP)账号登录。登录后左侧为模块导航栏,顶部为当前页面标题与操作区。

0.3 控制台模块地图

解决问题

排查问题

发现问题

全局态势

汇总

监控大盘

智能感知
状态感知 / 异常感知

问题管理
问题洞察

智能诊断
日志任务 / 远程取证 / 动态探针

问题管理
修复工单

智能管控
远程管理

巡检日报

当前版本中,动态探针 / 远程管理 / 巡检日报 为「建设中」占位页面,功能将陆续上线;本手册对其仅作简要说明。


1. 日常工作流(场景驱动)

云枢的核心是「发现问题 → 排查问题 → 解决问题」闭环。问题洞察(问题单)是贯穿全流程的载体。下面给出三个典型日常工作流(场景 C 为 Q3 规划能力)。

1.1 工作流总览

否/误报

发现问题

创建问题洞察单

回捞日志 / 触发取证

AI 智能分析
根因·影响·修复建议

需要修复?

创建/关联修复工单

审批 → 执行 → 完成

问题单标记已解决

关闭问题单

1.2 场景 A:用户/门店反馈问题(被动响应)

例:门店反馈「某台单屏机下单一直转圈 / 频繁崩溃」。

  1. 定位设备:进入「智能感知 → 状态感知」,用顶部 App 选择器选中对应 App,点「高级筛选」按工号 / 门店 / 设备号等维度找到目标设备,确认在线状态与 CPU/内存/磁盘等指标是否异常。

  2. 核对异常:进入「智能感知 → 异常感知」,确认该设备/该 App 近期的崩溃 / 卡顿 / 业务异常计数与趋势,记下首次发生时间

  3. 建单:进入「问题管理 → 问题洞察」,点「新建问题洞察」,填写所属应用、严重等级、问题摘要、关联设备、问题首次发生时间时间窗口(见 §3.4.2)。

  4. 取数:在问题单详情页「日志数据」卡片回捞终端日志 / FELOG / LSOP;必要时在「远程取证」卡片触发截图、权限读取。

  5. 诊断:在「AI 智能分析」卡片点「AI 分析」,等待 3–5 分钟自动产出根因 / 影响范围 / 修复建议;人工复核后微调。

  6. 修复:诊断就绪后在「修复策略」卡片新建或关联修复工单,按「提交审批 → 审批通过 → 开始执行 → 标记完成」推进。

  7. 闭环:修复完成后回到问题单标记「已解决」;若判定为误报/无须处理,直接「关闭」并填关闭原因。

1.3 场景 B:从异常感知主动发现(主动预防)

例:巡检发现某 App 业务异常计数突增。

  1. 「智能感知 → 异常感知」选中 App,切换异常类型分段(崩溃/卡顿/业务异常),观察趋势曲线是否出现毛刺、汇总卡片环比是否飙升。

  2. 点列表中可疑设备的「查看详情」,查看该设备今日 vs 昨日异常对比、首次/最近发生时间与上报记录。

  3. 确认是面上问题后,进入「问题洞察」建单(关联该批设备),后续步骤同场景 A 的第 4–7 步。(Q3 起也可从异常感知详情弹窗一键新建问题单。)

1.4 场景 C:AI 巡检自动发现与诊断(Q3 上线)

例:凌晨某 App 业务异常计数环比突增,AI 巡检自动建单、完成 RCA 诊断,并通过飞书 Bot 通知值班研发与运维。

规划能力(Q3):本节描述 Q3 起上线的 AI 巡检自动化流程。

  1. 持续巡检:AI 定时扫描「状态感知」与「异常感知」,对各 App 的在线率、CPU/内存/磁盘,以及崩溃 / 卡顿 / 业务异常等指标做峰值检测环比(日 / 周)对比。

  2. 异常判定:当出现趋势毛刺、汇总卡片环比超阈、或同类设备集中异常时,AI 自动归类异常类型、估算影响面,并关联可疑设备列表。

  3. 自动建单:满足巡检规则后,在「问题管理 → 问题洞察」自动创建问题单(来源标记为「AI 巡检」),填入摘要、严重等级、关联设备、问题首次发生时间时间窗口

  4. 自动取数:按时间窗口并行回捞终端日志 / FELOG / LSOP 等多源日志;必要时对代表性设备触发远程取证(截图、权限读取等)。

  5. RCA 诊断:结合已挂载的源码仓库,对多源日志做时间线归并与跨层关联,自动生成根因定位、影响范围与修复建议(写入问题单「AI 智能分析」卡片)。

  6. 飞书通知:诊断就绪或达到告警等级后,通过飞书 Bot 向对应 App 的研发与运维群 / 值班人推送通知,含问题单链接、根因摘要、影响设备数与建议处置动作。

  7. 人工跟进:研发 / 运维收到通知后进入问题单复核 AI 结论;确认有效则按场景 A 第 6–7 步推进修复与闭环,判定误报则「关闭」并填关闭原因,以反哺巡检规则调优。


2. 监控大盘

入口:左侧导航「监控大盘」。 作用:把多个 App 的关键埋点指标聚合成卡片视图,按时间范围统一观测全局质量态势。

2.1 查看指标

监控大盘

2.2 配置指标

点右上角「⚙ 配置」打开配置弹窗:

监控大盘配置弹窗

  1. 选择应用:下拉选择 App(用户端 / 配送端 / 单屏机 / 点单机 / 智能屏 / 工作站等,已配置过的 App 标记 ✓)。

  2. 指标列表:每行一个指标,点「+ 添加指标」新增,可配置:

字段含义必填
名称卡片显示名
eventCode埋点事件编码(取数依据)
key细分字段(选填)
单位如「次」
告警阈值超过则黄色预警
严重阈值超过则红色告警
  1. 点「保存」生效,返回大盘自动刷新。


3. 智能感知

3.1 状态感知

入口:「智能感知 → 状态感知」。 作用:实时查看终端设备的运行状态与性能指标。

高级筛选支持维度:设备 ID、B 端工号、C 端会员号、手机号、邮箱、LSOP ID、用户昵称、FELOG ID、城市、门店 ID、门店名称等。

状态感知设备列表

说明:性能列(CPU/内存/磁盘等)依赖设备上报,部分端或离线设备显示「-」;选具体 App 比「全部」更易看到完整指标。

3.2 异常感知

入口:「智能感知 → 异常感知」。 作用:聚焦崩溃 / 卡顿 / 业务异常三类,按设备聚合异常计数与趋势。

页面结构(自上而下):

  1. 异常类型分段 + 刷新:全部 / 崩溃 / 卡顿 / 业务异常。

  2. App 选择器 + 高级筛选(维度同状态感知;有筛选时按钮显红点)。

  3. 汇总卡片:今日各类异常总量及环比。

  4. 趋势曲线:当日异常随时间分布,用于发现毛刺。

  5. 设备异常列表:设备信息、异常详情(崩溃/卡顿/业务异常计数)、最近异常时间。点「查看详情」打开设备弹窗:

    • 今日累计异常 + 较昨日环比(↑红 / ↓绿)。

    • 异常类型标签、首次/最近发生时间。

    • 该设备异常趋势图 + 分页上报记录。

异常感知

异常感知本身不直接建单;确认问题后到「问题洞察」新建问题单并关联设备。

选 App + 异常类型

看汇总/趋势毛刺

列表定位可疑设备

查看设备详情
今日/昨日对比 + 上报记录

到问题洞察建单
Q3可从异常感知建问题单


4. 问题管理

问题管理含两个子模块:问题洞察(问题单,排查载体)与修复工单(解决载体)。

4.1 问题洞察 — 列表

入口:「问题管理 → 问题洞察」。

问题洞察列表

状态:待处理 / 诊断中 / 修复中 / 已解决 / 已关闭。 严重等级:B0 致命 / B1 严重 / B2 一般(默认)/ B3 轻微。 来源:人工(当前可用);AI 巡检、DevTools(即将上线)。

4.2 问题洞察 — 新建

点「新建问题洞察」打开右侧抽屉,填写:

新建问题洞察抽屉

字段说明必填
所属应用下拉选择
严重等级B0~B3
问题摘要1~200 字
现象与复现步骤支持 Markdown,可粘贴图片
关联设备选所属应用后添加,至少 1 台(上限 50)
问题首次发生时间用于划定日志/取证时间范围
时间窗口(前后各 N 分钟)默认 30,最大 1440
补充说明写入时间线首条事件

时间窗口会以「首次发生时间 ± N 分钟」框定后续日志回捞与取证的检索区间,建议按问题实际持续时长设置。

添加设备:先选「所属应用」,再点「添加设备」弹出筛选框,可按设备 ID、B 端工号、C 端会员号、手机号、邮箱、LSOP ID、用户昵称、FELOG ID、城市、门店 ID、门店名称等维度检索后勾选「应用」。

创建成功后自动跳转到问题单详情页。

4.3 问题洞察 — 详情页

详情页自上而下由若干卡片组成,并按状态开放操作:

头部: 编号/等级/状态

基础信息 + 关联设备

日志数据卡片

远程取证卡片

AI 智能分析卡片
根因·影响·修复建议

修复策略卡片
新建/关联修复工单

下图为一个已完成 AI 分析的问题单详情(含基础信息、日志数据、远程取证、AI 智能分析等卡片):

问题洞察详情

顶部操作按钮(非终态时):编辑快速标记已解决(仅待处理时)、关闭刷新

4.3.1 日志数据卡片

4.3.2 远程取证卡片

4.3.3 AI 智能分析卡片

4.3.4 修复策略卡片

4.3.5 关闭问题单

点「关闭」选择原因:忽略(无须处理)/ 不可修复 / 误报 / 重复问题,并可填关闭说明。

4.3.6 状态流转

新建

回捞日志/取证/AI分析

创建/关联修复工单

工单完成

快速标记已解决

关闭(误报/无须处理)

待处理

诊断中

修复中

已解决

已关闭

4.4 修复工单

入口:「问题管理 → 修复工单」。

修复工单列表

4.4.1 工单详情与推进

详情页含:头部概览(标题/优先级/状态/执行人/审批人/LUCP)、修复方案卡片(可 AI 分析生成方案、人工编辑、采纳)、关联问题单卡片、结案信息。AI 生成的修复方案包含问题概述、根因、影响范围、分步修复(含代码改动示例)等:

修复工单详情

顶部按钮随状态变化推进:

提交审批(需方案就绪)

提交审批

审批通过

驳回

开始执行

标记完成

废弃

已创建

审批中

已生成

待执行

执行中

已完成

已废弃

「提交审批」需修复方案已就绪(planReady)。任意非终态均可「废弃」(需填废弃原因)。


5. 智能诊断

智能诊断提供独立于问题单的诊断任务入口(也可从问题单内直接发起,见 §4.3.1/4.3.2)。

5.1 日志任务

入口:「智能诊断 → 日志任务」。 作用:对单台设备发起日志回捞,支持三种来源。

日志任务列表

任务来源(taskType):终端日志(LOG_FETCH)/ FELOG 日志 / LSOP 日志。 任务状态:已创建 / 已激活 / 执行中 / 成功 / 失败 / 超时 / 已废弃。

5.1.1 创建任务

点「创建任务」:

创建日志任务

  1. 选择来源分段(终端日志 / FELOG / LSOP)。

  2. 点「选择设备」按身份维度检索并选定设备。

  3. 按类型填写参数(终端日志可选日志类型:全部/业务/崩溃/卡顿 + 时间范围;FELOG/LSOP 填 eventCode 等)。

  4. 设「有效期至」与备注(必填),确定。

5.1.2 任务操作

状态/类型可用操作
已创建(FELOG/LSOP)激活(开始检索)、编辑、废弃
已创建(终端日志,可推送)推送、编辑、废弃
已创建(终端日志,未配推送)激活(App 上线后轮询拉取)、编辑、废弃
已激活废弃
成功查看日志

激活/推送

废弃

已创建

已激活

执行中

成功

失败

超时

已废弃

5.2 远程取证

入口:「智能诊断 → 远程取证」。 作用:对设备发起同步取证任务,含两个 Tab:

操作模式与日志任务一致(汇总卡片 + 设备搜索 + 状态筛选 + 新建 + 详情),任务状态枚举相同。

远程取证

5.3 动态探针(建设中)

热插桩 / Profiler 实时探针能力,规划中,页面当前为占位。


6. 智能管控

6.1 远程管理(建设中)

决策中心、远程重启、应用/配置下发与回滚等管控能力,规划中,页面当前为占位。当前阶段的「解决问题」主要通过修复工单(§4.4)的人机协同流程承载。


7. 巡检日报(建设中)

AI 巡检自动化工作流的结果汇总报表,规划中,页面当前为占位。


附录:速查表

A. 问题洞察

维度取值
状态待处理 / 诊断中 / 修复中 / 已解决 / 已关闭
严重等级B0 致命 / B1 严重 / B2 一般 / B3 轻微
来源人工(可用)/ AI 巡检 · DevTools(即将上线)
关闭原因忽略 / 不可修复 / 误报 / 重复问题
设备上限50 台

B. 修复工单

维度取值
优先级高 / 中 / 低
状态已创建 / 已生成 / 审批中 / 待执行 / 执行中 / 已完成 / 已废弃

C. 诊断任务(日志 / 取证通用)

维度取值
日志来源终端日志 / FELOG / LSOP
日志类型全部 / 业务 / 崩溃 / 卡顿
取证类型远程截图 / 权限读取
任务状态已创建 / 已激活 / 执行中 / 成功 / 失败 / 超时 / 已废弃