Comprensión visual
OfoxAI soporta entrada visual en modelos multimodales, permitiendo analizar imágenes, capturas de pantalla, documentos y contenido de video.
Modelos compatibles
| Modelo | Imágenes | Video | Descripción |
|---|---|---|---|
openai/gpt-4o | ✅ | — | Análisis de imágenes de alta calidad |
openai/gpt-4o-mini | ✅ | — | Análisis de imágenes rápido |
anthropic/claude-sonnet-4.5 | ✅ | — | Potente comprensión de documentos y código |
google/gemini-3-flash-preview | ✅ | ✅ | Multimodal versátil |
google/gemini-3.1-pro-preview | ✅ | ✅ | Razonamiento multimodal más potente |
Análisis de imágenes
Envío de imágenes por URL
cURL
Terminal
curl https://api.ofox.ai/v1/chat/completions \
-H "Authorization: Bearer $OFOX_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "openai/gpt-4o",
"messages": [{
"role": "user",
"content": [
{"type": "text", "text": "Describe el contenido de esta imagen"},
{"type": "image_url", "image_url": {"url": "https://example.com/photo.jpg"}}
]
}]
}'Envío de imágenes por Base64
Adecuado para archivos locales o capturas de pantalla:
vision_base64.py
import base64
# Leer imagen local
with open("screenshot.png", "rb") as f:
image_data = base64.standard_b64encode(f.read()).decode("utf-8")
response = client.chat.completions.create(
model="openai/gpt-4o",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "¿Qué muestra esta captura de pantalla?"},
{
"type": "image_url",
"image_url": {
"url": f"data:image/png;base64,{image_data}"
}
}
]
}]
)Nivel de detalle de imagen
Controle la precisión del análisis mediante el parámetro detail:
| Valor | Descripción | Caso de uso |
|---|---|---|
auto | Selección automática (predeterminado) | Escenarios generales |
low | Baja precisión, más rápido | Clasificación simple, reconocimiento de etiquetas |
high | Alta precisión, más detallado | OCR de documentos, análisis de detalles |
{
"type": "image_url",
"image_url": {
"url": "https://example.com/document.jpg",
"detail": "high" # Modo de alta precisión
}
}Comparación de múltiples imágenes
Puede enviar varias imágenes en una sola solicitud:
response = client.chat.completions.create(
model="openai/gpt-4o",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "Compara las diferencias entre estas dos imágenes"},
{"type": "image_url", "image_url": {"url": "https://example.com/before.jpg"}},
{"type": "image_url", "image_url": {"url": "https://example.com/after.jpg"}}
]
}]
)Entrada visual con protocolo Anthropic
import anthropic
client = anthropic.Anthropic(
base_url="https://api.ofox.ai/anthropic",
api_key="<su OFOXAI_API_KEY>"
)
message = client.messages.create(
model="anthropic/claude-sonnet-4.5",
max_tokens=1024,
messages=[{
"role": "user",
"content": [
{
"type": "image",
"source": {
"type": "base64",
"media_type": "image/jpeg",
"data": image_data
}
},
{"type": "text", "text": "Describe esta imagen"}
]
}]
)Casos de uso comunes
- OCR de documentos — Extraer texto y tablas de imágenes
- Análisis de capturas de código — Analizar código en capturas de pantalla y proporcionar sugerencias de modificación
- Revisión de UI — Analizar diseño y disposición de interfaces
- Interpretación de gráficos — Analizar gráficos de datos y contenido de visualización
- Identificación de productos — Identificar objetos y escenas en imágenes
Last updated on