Skip to content

通用调用说明

模型名称格式

本平台支持的模型名称与上游原名称一致,例如:

  • gpt-4ogpt-4o-minio3o4-mini
  • claude-3-5-sonnet-20241022claude-3-opus-20240229
  • gemini-2.0-flashgemini-1.5-pro
  • deepseek-chatdeepseek-reasoner
  • qwen-turboqwen-plusqwen-max
  • 以及更多模型……

具体可用模型列表请通过 GET /v1/models 接口查询,或在平台「模型定价"页面查看。

智能调度说明

本平台内置智能调度机制:

  • 多渠道备份:同一模型可配置多个上游渠道,自动故障切换
  • 优先级调度:高优先级渠道优先使用,失败后降级到次优先级
  • 权重随机:同优先级渠道按权重随机分配,实现负载均衡
  • 渠道亲和性:同一用户同一模型尽量复用同一渠道,保证对话一致性

用户无需关心调度逻辑,只需指定模型名称即可。

重试机制

当上游渠道返回错误时,系统会自动重试其他可用渠道(最多重试次数由系统配置决定)。。

以下情况不会重试

  • 认证错误(401)
  • 配额不足 (403)
  • 客户端请求格式错误 (400)
  • 明确不可重试的状态码

配额与计费

  • 所有非免费模型调用均从令牌配额中扣费
  • 采用预扣费 + 结算机制:请求前预估扣费,完成后按实际用量结算差额
  • 输入 Token 和输出 Token 分别计价
  • 不同模型有不同的倍率 详见平台"定价"页面

速率限制

  • 平台对每个令牌设有 RPM(每分钟请求数)和 TPM(每分钟 Token 数)限制
  • 超出限制时返回 HTTP 429 建议降低请求频率或联系管理员提升限额