OfoxAI 支持哪些 API 协议？

OfoxAI 支持三大原生协议：OpenAI 兼容 (https://api.ofox.ai/v1)、Anthropic 原生 (https://api.ofox.ai/anthropic)、Gemini 原生 (https://api.ofox.ai/gemini)。无需修改代码，直接替换 base URL 即可迁移。

OfoxAI 支持哪些 AI 模型？

OfoxAI 支持 100+ 模型，包括 GPT-5.3 Codex、Claude Opus 4.6、Gemini 3.1 Pro、DeepSeek V3.2、Qwen3.5-Plus、Kimi-K2.5、Grok 4、Llama 4 等旗舰和开源模型，以及 Sora、Kling、Flux 等 AIGC 模型。

如何在 Claude Code 中使用 OfoxAI？

只需设置环境变量：export ANTHROPIC_BASE_URL=https://api.ofox.ai/anthropic 和 export ANTHROPIC_AUTH_TOKEN=你的OfoxAI Key，重启 Claude Code 即可。详见 https://docs.ofox.ai/develop/integrations/claude-code

OfoxAI 在中国可以使用吗？

可以。OfoxAI 提供国内直连，通过香港快速节点访问，无需科学上网，低延迟。支持微信/支付宝充值。

Routage intelligent de modèles

Le routage intelligent de modèles d’OfoxAI sélectionne automatiquement le meilleur modèle pour votre requête, en optimisant le coût, la vitesse, la qualité et d’autres dimensions.

Mode Auto

La méthode la plus simple — définissez model: "auto" et laissez OfoxAI choisir automatiquement :


response = client.chat.completions.create(
    model="auto",
    messages=[{"role": "user", "content": "Explique l'informatique quantique"}]
)
 
# Voir le modèle réellement utilisé
print(response.model)  # ex. "openai/gpt-4o"

Le mode Auto sélectionne automatiquement le modèle le plus adapté en fonction de la complexité du contenu de la requête et de l’état des modèles disponibles.

Configuration du pool de modèles

Vous pouvez spécifier un pool de modèles candidats et des préférences de routage :

model_routing.py


response = client.chat.completions.create(
    model="auto",
    messages=[{"role": "user", "content": "Aide-moi à optimiser ce code"}],
    extra_body={
        "model_routing_config": {
            "models": [
                "openai/gpt-4o",
                "anthropic/claude-sonnet-4.5",
                "google/gemini-3-flash-preview"
            ],
            "preference": "quality"  # Priorité à la qualité
        }
    }
)

Préférences de routage

Préférence	Description
`balanced`	Considère la qualité, la vitesse et le coût de manière équilibrée (par défaut)
`quality`	Priorité à la qualité, sélectionne le modèle le plus performant
`speed`	Priorité à la vitesse, sélectionne le modèle avec la latence la plus faible
`cost`	Priorité au coût, sélectionne le modèle le plus économique

Cas d’utilisation

Optimisation des coûts

Pour les conversations simples, utilise automatiquement des modèles économiques ; pour les tâches complexes, des modèles haut de gamme :


# Scénario simple → peut sélectionner gpt-4o-mini ou gemini-3-flash-preview
response = client.chat.completions.create(
    model="auto",
    messages=[{"role": "user", "content": "Quel jour sommes-nous ?"}],
    extra_body={"model_routing_config": {"preference": "cost"}}
)

Haute disponibilité

Spécifiez plusieurs modèles alternatifs pour garantir la continuité du service :


response = client.chat.completions.create(
    model="auto",
    messages=[{"role": "user", "content": "Analyse les tendances du marché"}],
    extra_body={
        "model_routing_config": {
            "models": [
                "openai/gpt-4o",
                "anthropic/claude-sonnet-4.5",
                "google/gemini-3.1-pro-preview"
            ],
            "preference": "balanced"
        }
    }
)

Le routage intelligent détecte automatiquement l’état en temps réel de chaque modèle (latence, disponibilité, charge) et effectue la sélection optimale au sein du pool de candidats.