Compreensão visual
O OfoxAI suporta entrada visual em modelos multimodais para análise de imagens, capturas de tela, documentos e conteúdo de vídeo.
Modelos suportados
| Modelo | Imagens | Vídeo | Descrição |
|---|---|---|---|
openai/gpt-4o | Sim | — | Análise de imagem de alta qualidade |
openai/gpt-4o-mini | Sim | — | Análise de imagem rápida |
anthropic/claude-sonnet-4.5 | Sim | — | Forte compreensão de documentos e código |
google/gemini-3-flash-preview | Sim | Sim | Multimodal completo |
google/gemini-3.1-pro-preview | Sim | Sim | Raciocínio multimodal mais poderoso |
Análise de imagens
Enviar imagem por URL
cURL
Terminal
curl https://api.ofox.ai/v1/chat/completions \
-H "Authorization: Bearer $OFOX_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "openai/gpt-4o",
"messages": [{
"role": "user",
"content": [
{"type": "text", "text": "Descreva o conteúdo desta imagem"},
{"type": "image_url", "image_url": {"url": "https://example.com/photo.jpg"}}
]
}]
}'Enviar imagem em Base64
Adequado para arquivos locais e capturas de tela:
vision_base64.py
import base64
# Ler imagem local
with open("screenshot.png", "rb") as f:
image_data = base64.standard_b64encode(f.read()).decode("utf-8")
response = client.chat.completions.create(
model="openai/gpt-4o",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "O que esta captura de tela mostra?"},
{
"type": "image_url",
"image_url": {
"url": f"data:image/png;base64,{image_data}"
}
}
]
}]
)Nível de detalhe
Controle a precisão da análise através do parâmetro detail:
| Valor | Descrição | Cenário de uso |
|---|---|---|
auto | Seleção automática (padrão) | Cenários gerais |
low | Baixa precisão, mais rápido | Classificação simples, reconhecimento de tags |
high | Alta precisão, mais detalhado | OCR de documentos, análise de detalhes |
{
"type": "image_url",
"image_url": {
"url": "https://example.com/document.jpg",
"detail": "high" # Modo de alta precisão
}
}Comparação de múltiplas imagens
Você pode enviar várias imagens em uma única requisição:
response = client.chat.completions.create(
model="openai/gpt-4o",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "Compare as diferenças entre estas duas imagens"},
{"type": "image_url", "image_url": {"url": "https://example.com/before.jpg"}},
{"type": "image_url", "image_url": {"url": "https://example.com/after.jpg"}}
]
}]
)Entrada visual no protocolo Anthropic
import anthropic
client = anthropic.Anthropic(
base_url="https://api.ofox.ai/anthropic",
api_key="<Sua OFOXAI_API_KEY>"
)
message = client.messages.create(
model="anthropic/claude-sonnet-4.5",
max_tokens=1024,
messages=[{
"role": "user",
"content": [
{
"type": "image",
"source": {
"type": "base64",
"media_type": "image/jpeg",
"data": image_data
}
},
{"type": "text", "text": "Descreva esta imagem"}
]
}]
)Casos de uso comuns
- OCR de documentos — Extrair texto e tabelas de imagens
- Análise de capturas de código — Analisar código em screenshots e fornecer sugestões
- Revisão de UI — Analisar design e layout de interfaces
- Interpretação de gráficos — Analisar gráficos de dados e visualizações
- Reconhecimento de objetos — Identificar objetos e cenas em imagens
Last updated on