OfoxAI 支持哪些 API 协议？

OfoxAI 支持三大原生协议：OpenAI 兼容 (https://api.ofox.ai/v1)、Anthropic 原生 (https://api.ofox.ai/anthropic)、Gemini 原生 (https://api.ofox.ai/gemini)。无需修改代码，直接替换 base URL 即可迁移。

OfoxAI 支持哪些 AI 模型？

OfoxAI 支持 100+ 模型，包括 GPT-5.3 Codex、Claude Opus 4.6、Gemini 3.1 Pro、DeepSeek V3.2、Qwen3.5-Plus、Kimi-K2.5、Grok 4、Llama 4 等旗舰和开源模型，以及 Sora、Kling、Flux 等 AIGC 模型。

如何在 Claude Code 中使用 OfoxAI？

只需设置环境变量：export ANTHROPIC_BASE_URL=https://api.ofox.ai/anthropic 和 export ANTHROPIC_AUTH_TOKEN=你的OfoxAI Key，重启 Claude Code 即可。详见 https://docs.ofox.ai/develop/integrations/claude-code

OfoxAI 在中国可以使用吗？

可以。OfoxAI 提供国内直连，通过香港快速节点访问，无需科学上网，低延迟。支持微信/支付宝充值。

Caché de prompts

Prompt Caching permite almacenar en caché los prefijos de prompt reutilizados, reduciendo el consumo de tokens y la latencia de respuesta.

Funcionamiento

Cuando su solicitud contiene un system prompt largo y reutilizado o información de contexto:

Primera solicitud — Se procesan todos los tokens y se almacena en caché el prefijo del prompt
Solicitudes posteriores — Cuando hay acierto de caché, los tokens de la parte cacheada no se cobran nuevamente
Expiración del caché — El caché tiene un TTL (generalmente 5-10 minutos); después de expirar, se requiere un nuevo almacenamiento en caché

Soporte de caché

Los recursos de modelos de OfoxAI son proporcionados por proveedores oficiales de nube como AWS Bedrock, Azure OpenAI, Google Cloud, Alibaba Cloud y Volcengine. Los modelos que soportan Prompt Caching en estos proveedores de nube también son soportados por OfoxAI.

Proveedor de nube	Modelos representativos	Mecanismo de caché
AWS Bedrock	Serie Claude	Prompt Caching nativo
Azure OpenAI	Serie GPT-4o	Caché automático
Google Cloud	Serie Gemini	Context Caching
Alibaba Cloud	Serie Qwen	Caché de plataforma
Volcengine	Serie Doubao	Caché de plataforma

El soporte de caché específico de cada modelo está sujeto a la documentación oficial de cada proveedor de nube. OfoxAI transmite los parámetros de caché de forma transparente, sin necesidad de configuración adicional.

Modo de uso

Protocolo OpenAI

El Prompt Caching de los modelos OpenAI es automático — se activa automáticamente cuando se detectan prefijos de prompt repetidos:

caching_openai.py


# El system prompt largo se almacena en caché automáticamente
SYSTEM_PROMPT = """Eres el asistente de soporte técnico de OfoxAI.
 
A continuación se muestra la información del producto que necesitas conocer:
- OfoxAI es un LLM Gateway que soporta más de 100 modelos
- Soporta los tres protocolos OpenAI / Anthropic / Gemini
- ...
(más conocimiento del producto omitido)
"""
 
# Primera solicitud: almacena el system prompt en caché
response1 = client.chat.completions.create(
    model="openai/gpt-4o",
    messages=[
        {"role": "system", "content": SYSTEM_PROMPT},
        {"role": "user", "content": "¿Qué modelos soporta OfoxAI?"}
    ]
)
 
# Segunda solicitud: acierto de caché, más rápido y económico
response2 = client.chat.completions.create(
    model="openai/gpt-4o",
    messages=[
        {"role": "system", "content": SYSTEM_PROMPT},  # Acierto de caché
        {"role": "user", "content": "¿Cómo configurar Claude Code?"}
    ]
)

Protocolo Anthropic

Los modelos Anthropic soportan control de caché explícito:

caching_anthropic.py


import anthropic
 
client = anthropic.Anthropic(
    base_url="https://api.ofox.ai/anthropic",
    api_key="<su OFOXAI_API_KEY>"
)
 
response = client.messages.create(
    model="anthropic/claude-sonnet-4.5",
    max_tokens=1024,
    system=[{
        "type": "text",
        "text": "Eres un asistente profesional. A continuación la documentación del producto...",
        "cache_control": {"type": "ephemeral"}  # Activar caché explícitamente
    }],
    messages=[{"role": "user", "content": "Resume las características del producto"}]
)
 
# Ver el estado de acierto de caché
print(f"Tokens de escritura en caché: {response.usage.cache_creation_input_tokens}")
print(f"Tokens de acierto de caché: {response.usage.cache_read_input_tokens}")

Ahorro de costos

Tras un acierto de caché, los tokens de la parte cacheada se cobran a un precio reducido. El porcentaje de ahorro varía según el modelo:

Serie Anthropic Claude — Un acierto de caché puede ahorrar aproximadamente un 90% en costos de entrada
Serie OpenAI GPT — Un acierto de caché puede ahorrar aproximadamente un 50% en costos de entrada
Serie Google Gemini — Un acierto de caché puede ahorrar aproximadamente un 50-75% en costos de entrada

El porcentaje real de ahorro depende de la tasa de acierto de caché y las políticas de facturación de cada proveedor de nube. Consulte las estadísticas de uso en la consola de OfoxAI para más detalles.

Mejores prácticas

Coloque el texto largo al principio — El system prompt y el contenido de la base de conocimientos que no cambia deben ir al inicio de los messages
Mantenga el prefijo consistente — Solo los prefijos exactamente iguales pueden acertar el caché
Diseñe la estructura del prompt adecuadamente — Separe las partes fijas de las partes variables


# Buen diseño: contenido fijo al principio, contenido variable al final
messages = [
    {"role": "system", "content": LONG_STATIC_PROMPT},   # Cacheable
    {"role": "user", "content": dynamic_question}          # Parte variable
]
 
# Mal diseño: contenido variable intercalado en el contenido fijo
messages = [
    {"role": "system", "content": f"Today is {date}. {LONG_PROMPT}"}  # Diferente cada día, no cacheable
]

Los aciertos de caché se pueden consultar en el campo usage de la respuesta API, así como en las estadísticas de uso de la consola de OfoxAI.