跳转到主要内容
集成

MLOps 与可观测性

生产环境 AI 监控

概述

千问云为模型部署提供两项互补的可观测性功能:
  • 用量分析:查看 Token 消耗、请求数、延迟和成功率
  • 限流提额:管理模型的频率限制提升申请

用量分析

前往用量分析页面查看业务空间的用量和分析数据。

筛选条件

  • 时间范围:选择时间窗口(如 24 小时)。
  • 模型:筛选特定模型或查看所有模型。
  • 粒度:选择聚合间隔(如按小时)。

页签

  • 概览:展示用量趋势图和按模型明细表格。
  • 用量日志:查看详细的调用日志。

指标

页面展示以下关键指标:
指标说明
TokenToken 总消耗量
次数API 请求总数
时长(秒)音视频等按时长计费的模型用量
字符按字符计费的模型用量
API 调用API 调用总数
此外还展示请求数、平均首包延迟、平均延迟和成功率的趋势图。
费用包含整个平台的所有消耗,具体请参考账单数据。

各模型类型的用量单位

类型子类别单位计费方式
大语言模型文本生成、深度思考、视觉理解Token按输入和输出 Token 数计费
视觉模型图像生成张(数量)按成功生成的图片数计费
视觉模型视频生成按成功生成的视频时长计费
语音模型TTS、实时 TTS、文件 ASR、实时 ASR、音视频翻译秒、字符或 Token因模型而异——可能按音频时长、文本字符数或 Token 数计费
全模态模型全模态、实时多模态Token文本按 Token 计费;其他模态(音频、图像、视频)按对应 Token 数计费

限流提额

前往限流提额页面管理模型的频率限制提升。 点击临时提升频率限制提交申请,下方表格可查看历史申请状态。