OfoxAI 支持哪些 API 协议？

OfoxAI 支持三大原生协议：OpenAI 兼容 (https://api.ofox.ai/v1)、Anthropic 原生 (https://api.ofox.ai/anthropic)、Gemini 原生 (https://api.ofox.ai/gemini)。无需修改代码，直接替换 base URL 即可迁移。

OfoxAI 支持哪些 AI 模型？

OfoxAI 支持 100+ 模型，包括 GPT-5.3 Codex、Claude Opus 4.6、Gemini 3.1 Pro、DeepSeek V3.2、Qwen3.5-Plus、Kimi-K2.5、Grok 4、Llama 4 等旗舰和开源模型，以及 Sora、Kling、Flux 等 AIGC 模型。

如何在 Claude Code 中使用 OfoxAI？

只需设置环境变量：export ANTHROPIC_BASE_URL=https://api.ofox.ai/anthropic 和 export ANTHROPIC_AUTH_TOKEN=你的OfoxAI Key，重启 Claude Code 即可。详见 https://docs.ofox.ai/develop/integrations/claude-code

OfoxAI 在中国可以使用吗？

可以。OfoxAI 提供国内直连，通过香港快速节点访问，无需科学上网，低延迟。支持微信/支付宝充值。

Limites de débit

Les limites de débit d’OfoxAI garantissent la stabilité de la plateforme. Comprenez les règles de limitation et optimisez votre stratégie d’appels.

Limites par défaut

OfoxAI fonctionne en paiement à l’usage, tous les utilisateurs partagent une stratégie de débit unifiée :

Élément	Quota
RPM (requêtes/minute)	200
TPM (tokens/minute)	Sans limite

Si vous avez besoin de quotas RPM plus élevés, contactez le support OfoxAI pour demander un ajustement.

En-têtes de limite de débit (Rate Limit Headers)

Chaque réponse API inclut les informations de limite de débit :


x-ratelimit-limit-requests: 200
x-ratelimit-remaining-requests: 195
x-ratelimit-reset-requests: 12s

Header	Description
`x-ratelimit-limit-requests`	Valeur de la limite RPM
`x-ratelimit-remaining-requests`	Requêtes restantes
`x-ratelimit-reset-requests`	Temps de réinitialisation de la limite

Gestion de l’erreur 429

Lorsque la limite de débit est atteinte, l’API renvoie 429 Too Many Requests :


from openai import RateLimitError
import time
 
try:
    response = client.chat.completions.create(...)
except RateLimitError as e:
    retry_after = float(e.response.headers.get("retry-after", 1))
    print(f"Limite atteinte, attente de {retry_after}s...")
    time.sleep(retry_after)

Stratégies d’optimisation

1. Utilisez le Prompt Caching

Pour les system prompts répétés, activer le cache peut réduire la consommation de tokens :


response = client.chat.completions.create(
    model="openai/gpt-4o",
    messages=[
        # Le system prompt long est automatiquement mis en cache
        {"role": "system", "content": "Vous êtes un professionnel de...(texte long omis)"},
        {"role": "user", "content": "Question de l'utilisateur"}
    ]
)

Plus de détails dans Cache de prompts.

2. Traitement par lots

Combinez plusieurs requêtes courtes en une seule :


# Non recommandé : envoyer une requête indépendante pour chaque question
for question in questions:
    client.chat.completions.create(messages=[{"role": "user", "content": question}])
 
# Recommandé : combiner en une seule requête
combined = "\n".join(f"{i+1}. {q}" for i, q in enumerate(questions))
client.chat.completions.create(
    messages=[{"role": "user", "content": f"Répondez aux questions suivantes dans l'ordre :\n{combined}"}]
)

3. Choisissez le bon modèle

Scénario	Modèle recommandé	Raison
Conversation simple	`openai/gpt-4o-mini`	Rapide, économise les tokens
Raisonnement complexe	`openai/gpt-4o`	Sortie de haute qualité
Génération de code	`anthropic/claude-sonnet-4.5`	Forte capacité de code
Traitement de texte long	`google/gemini-3-flash-preview`	Grand contexte, bon rapport qualité-prix

4. Contrôlez max_tokens

Définissez une limite raisonnable de max_tokens pour éviter une consommation de tokens inutile :


response = client.chat.completions.create(
    model="openai/gpt-4o",
    messages=[{"role": "user", "content": "Résumez en une phrase"}],
    max_tokens=100  # Limiter la longueur de sortie
)

5. Utilisez le repli de modèles

Lorsque le modèle principal atteint la limite, basculez automatiquement vers un modèle alternatif :


response = client.chat.completions.create(
    model="openai/gpt-4o",
    messages=[...],
    extra_body={
        "provider": {
            "fallback": ["anthropic/claude-sonnet-4.5", "google/gemini-3-flash-preview"]
        }
    }
)

Plus de détails dans Repli automatique.