跳转至

MGP

运维指南

运维指南¶

本页关注的是参考网关的 day-2 运维问题。

需要监控什么¶

通过 /healthz 监控 gateway 进程健康
通过 /readyz 监控 adapter readiness
通过 /version 查看当前运行版本与 adapter 选择
audit sink 的增长与轮转
adapter 对应后端的健康，例如 PostgreSQL 或 OceanBase 可用性

日志¶

参考网关现在会通过 middleware 输出结构化请求日志，并传播 request ID。

建议保留这些字段：

request ID
method
path
status code
environment

这样更容易把 runtime 错误、gateway 行为和 audit record 串起来。

Audit Sink¶

默认行为：

audit event 会追加到 JSON Lines 文件
路径可通过 MGP_AUDIT_LOG 配置

运维建议：

在日志无限增长之前做好轮转或采集
防止 audit 文件被跨租户访问
audit retention 应按部署策略管理，而不只是跟着 memory retention 走

Adapter 运维¶

File¶

确保存储目录存在且可写
如果把它用于真实环境，应和 audit log 一起纳入备份

Graph¶

把 SQLite 文件视为有状态基础设施
如果超出本地测试用途，就应纳入备份

PostgreSQL¶

监控连接、磁盘增长和索引健康
按正常 PostgreSQL 流程完成备份
对 schema migration 保持变更可追踪

OceanBase¶

监控 MySQL 兼容连接（MGP_OCEANBASE_DSN 或离散变量 MGP_OCEANBASE_*）、租户范围与磁盘增长
使用 OceanBase 标准运维工具完成备份
跑在 oceanbase/seekdb 上时，把单机容器视为有状态基础设施，对数据卷做快照

Lifecycle 与删除¶

当运维处理 delete 或 purge 相关问题时，建议确认：

gateway 调用是否成功
adapter 是否持久化了预期状态转换
下游副本或导出物是否也需要清理
audit record 是否记录了这次操作和关联 request

事件响应清单¶

先确认受影响的 adapter 和 tenant scope。
找到对应的 request 或 audit correlation identifier。
查看该请求附近的 gateway 日志。
查看 adapter 本地状态或 backend 状态。
如果修复触及协议行为，再补跑 focused compliance 或 smoke test 后恢复服务。