Appearance
通用调用说明
模型名称格式
本平台支持的模型名称与上游原名称一致,例如:
gpt-4o、gpt-4o-mini、o3、o4-miniclaude-3-5-sonnet-20241022、claude-3-opus-20240229gemini-2.0-flash、gemini-1.5-prodeepseek-chat、deepseek-reasonerqwen-turbo、qwen-plus、qwen-max- 以及更多模型……
具体可用模型列表请通过 GET /v1/models 接口查询,或在平台「模型定价"页面查看。
智能调度说明
本平台内置智能调度机制:
- 多渠道备份:同一模型可配置多个上游渠道,自动故障切换
- 优先级调度:高优先级渠道优先使用,失败后降级到次优先级
- 权重随机:同优先级渠道按权重随机分配,实现负载均衡
- 渠道亲和性:同一用户同一模型尽量复用同一渠道,保证对话一致性
用户无需关心调度逻辑,只需指定模型名称即可。
重试机制
当上游渠道返回错误时,系统会自动重试其他可用渠道(最多重试次数由系统配置决定)。。
以下情况不会重试:
- 认证错误(401)
- 配额不足 (403)
- 客户端请求格式错误 (400)
- 明确不可重试的状态码
配额与计费
- 所有非免费模型调用均从令牌配额中扣费
- 采用预扣费 + 结算机制:请求前预估扣费,完成后按实际用量结算差额
- 输入 Token 和输出 Token 分别计价
- 不同模型有不同的倍率 详见平台"定价"页面
速率限制
- 平台对每个令牌设有 RPM(每分钟请求数)和 TPM(每分钟 Token 数)限制
- 超出限制时返回 HTTP 429 建议降低请求频率或联系管理员提升限额