生产环境 AI 监控
概述
千问云为模型部署提供两项互补的可观测性功能:
- 用量分析:查看 Token 消耗、请求数、延迟和成功率
- 限流提额:管理模型的频率限制提升申请
用量分析
前往用量分析页面查看业务空间的用量和分析数据。
筛选条件
- 时间范围:选择时间窗口(如近 7 天)。
- 模型:筛选特定模型或查看所有模型。
- API Keys:筛选特定 API Key 的用量。
- 粒度:选择聚合间隔(按天或按小时)。
页签
- 用量:展示用量趋势图和按模型明细表格。
- 日志:查看详细的请求日志,支持按请求来源、状态等维度筛选。
指标
页面展示以下关键指标:
| 指标 | 说明 |
|---|---|
| Token | Token 总消耗量 |
| 次数 | API 请求总数 |
| 时长(秒) | 音视频等按时长计费的模型用量 |
| 字符 | 按字符计费的模型用量 |
| API 调用 | API 调用总数 |
费用包含整个平台的所有消耗,具体请参考账单数据。
日志
切换到日志页签,可查看近 14 天的请求调用日志。
筛选条件:
- 时间范围:选择查询的时间窗口。
- 模型:筛选特定模型。
- API Keys:筛选特定 API Key 的请求。
- 请求来源:区分 API 调用与网页端调用(如模型体验页面),精准定位流量来源。
- 状态:按 HTTP 状态码筛选(如 200、404、429)。
- Request ID:精确搜索特定请求。
| 字段 | 说明 |
|---|---|
| Request ID | 请求唯一标识 |
| 创建时间 | 请求发起时间 |
| 模型 | 调用的模型 |
| 请求来源 | API 调用或网页端调用 |
| API Key | 发起请求使用的 API Key |
| 用量 | 本次请求的 Token 消耗明细(全部/输出/输入) |
| 首包延迟 | 首个响应包的延迟 |
| 延迟 | 完整响应的总延迟 |
| 状态 | HTTP 状态码 |
各模型类型的用量单位
| 类型 | 子类别 | 单位 | 计费方式 |
|---|---|---|---|
| 大语言模型 | 文本生成、深度思考、视觉理解 | Token | 按输入和输出 Token 数计费 |
| 视觉模型 | 图像生成 | 张(数量) | 按成功生成的图片数计费 |
| 视觉模型 | 视频生成 | 秒 | 按成功生成的视频时长计费 |
| 语音模型 | TTS、实时 TTS、文件 ASR、实时 ASR、音视频翻译 | 秒、字符或 Token | 因模型而异——可能按音频时长、文本字符数或 Token 数计费 |
| 全模态模型 | 全模态、实时多模态 | Token | 文本按 Token 计费;其他模态(音频、图像、视频)按对应 Token 数计费 |