Skip to Content
DocumentaçãoGuiasCompreensão visual

Compreensão visual

O OfoxAI suporta entrada visual em modelos multimodais para análise de imagens, capturas de tela, documentos e conteúdo de vídeo.

Modelos suportados

ModeloImagensVídeoDescrição
openai/gpt-4oSimAnálise de imagem de alta qualidade
openai/gpt-4o-miniSimAnálise de imagem rápida
anthropic/claude-sonnet-4.5SimForte compreensão de documentos e código
google/gemini-3-flash-previewSimSimMultimodal completo
google/gemini-3.1-pro-previewSimSimRaciocínio multimodal mais poderoso

Análise de imagens

Enviar imagem por URL

Terminal
curl https://api.ofox.ai/v1/chat/completions \ -H "Authorization: Bearer $OFOX_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "openai/gpt-4o", "messages": [{ "role": "user", "content": [ {"type": "text", "text": "Descreva o conteúdo desta imagem"}, {"type": "image_url", "image_url": {"url": "https://example.com/photo.jpg"}} ] }] }'

Enviar imagem em Base64

Adequado para arquivos locais e capturas de tela:

vision_base64.py
import base64 # Ler imagem local with open("screenshot.png", "rb") as f: image_data = base64.standard_b64encode(f.read()).decode("utf-8") response = client.chat.completions.create( model="openai/gpt-4o", messages=[{ "role": "user", "content": [ {"type": "text", "text": "O que esta captura de tela mostra?"}, { "type": "image_url", "image_url": { "url": f"data:image/png;base64,{image_data}" } } ] }] )

Nível de detalhe

Controle a precisão da análise através do parâmetro detail:

ValorDescriçãoCenário de uso
autoSeleção automática (padrão)Cenários gerais
lowBaixa precisão, mais rápidoClassificação simples, reconhecimento de tags
highAlta precisão, mais detalhadoOCR de documentos, análise de detalhes
{ "type": "image_url", "image_url": { "url": "https://example.com/document.jpg", "detail": "high" # Modo de alta precisão } }

Comparação de múltiplas imagens

Você pode enviar várias imagens em uma única requisição:

response = client.chat.completions.create( model="openai/gpt-4o", messages=[{ "role": "user", "content": [ {"type": "text", "text": "Compare as diferenças entre estas duas imagens"}, {"type": "image_url", "image_url": {"url": "https://example.com/before.jpg"}}, {"type": "image_url", "image_url": {"url": "https://example.com/after.jpg"}} ] }] )

Entrada visual no protocolo Anthropic

import anthropic client = anthropic.Anthropic( base_url="https://api.ofox.ai/anthropic", api_key="<Sua OFOXAI_API_KEY>" ) message = client.messages.create( model="anthropic/claude-sonnet-4.5", max_tokens=1024, messages=[{ "role": "user", "content": [ { "type": "image", "source": { "type": "base64", "media_type": "image/jpeg", "data": image_data } }, {"type": "text", "text": "Descreva esta imagem"} ] }] )

Casos de uso comuns

  • OCR de documentos — Extrair texto e tabelas de imagens
  • Análise de capturas de código — Analisar código em screenshots e fornecer sugestões
  • Revisão de UI — Analisar design e layout de interfaces
  • Interpretação de gráficos — Analisar gráficos de dados e visualizações
  • Reconhecimento de objetos — Identificar objetos e cenas em imagens
Last updated on