Skip to Content
DocumentaciónGuíasComprensión visual

Comprensión visual

OfoxAI soporta entrada visual en modelos multimodales, permitiendo analizar imágenes, capturas de pantalla, documentos y contenido de video.

Modelos compatibles

ModeloImágenesVideoDescripción
openai/gpt-4oAnálisis de imágenes de alta calidad
openai/gpt-4o-miniAnálisis de imágenes rápido
anthropic/claude-sonnet-4.5Potente comprensión de documentos y código
google/gemini-3-flash-previewMultimodal versátil
google/gemini-3.1-pro-previewRazonamiento multimodal más potente

Análisis de imágenes

Envío de imágenes por URL

Terminal
curl https://api.ofox.ai/v1/chat/completions \ -H "Authorization: Bearer $OFOX_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "openai/gpt-4o", "messages": [{ "role": "user", "content": [ {"type": "text", "text": "Describe el contenido de esta imagen"}, {"type": "image_url", "image_url": {"url": "https://example.com/photo.jpg"}} ] }] }'

Envío de imágenes por Base64

Adecuado para archivos locales o capturas de pantalla:

vision_base64.py
import base64 # Leer imagen local with open("screenshot.png", "rb") as f: image_data = base64.standard_b64encode(f.read()).decode("utf-8") response = client.chat.completions.create( model="openai/gpt-4o", messages=[{ "role": "user", "content": [ {"type": "text", "text": "¿Qué muestra esta captura de pantalla?"}, { "type": "image_url", "image_url": { "url": f"data:image/png;base64,{image_data}" } } ] }] )

Nivel de detalle de imagen

Controle la precisión del análisis mediante el parámetro detail:

ValorDescripciónCaso de uso
autoSelección automática (predeterminado)Escenarios generales
lowBaja precisión, más rápidoClasificación simple, reconocimiento de etiquetas
highAlta precisión, más detalladoOCR de documentos, análisis de detalles
{ "type": "image_url", "image_url": { "url": "https://example.com/document.jpg", "detail": "high" # Modo de alta precisión } }

Comparación de múltiples imágenes

Puede enviar varias imágenes en una sola solicitud:

response = client.chat.completions.create( model="openai/gpt-4o", messages=[{ "role": "user", "content": [ {"type": "text", "text": "Compara las diferencias entre estas dos imágenes"}, {"type": "image_url", "image_url": {"url": "https://example.com/before.jpg"}}, {"type": "image_url", "image_url": {"url": "https://example.com/after.jpg"}} ] }] )

Entrada visual con protocolo Anthropic

import anthropic client = anthropic.Anthropic( base_url="https://api.ofox.ai/anthropic", api_key="<su OFOXAI_API_KEY>" ) message = client.messages.create( model="anthropic/claude-sonnet-4.5", max_tokens=1024, messages=[{ "role": "user", "content": [ { "type": "image", "source": { "type": "base64", "media_type": "image/jpeg", "data": image_data } }, {"type": "text", "text": "Describe esta imagen"} ] }] )

Casos de uso comunes

  • OCR de documentos — Extraer texto y tablas de imágenes
  • Análisis de capturas de código — Analizar código en capturas de pantalla y proporcionar sugerencias de modificación
  • Revisión de UI — Analizar diseño y disposición de interfaces
  • Interpretación de gráficos — Analizar gráficos de datos y contenido de visualización
  • Identificación de productos — Identificar objetos y escenas en imágenes
Last updated on