Skip to Content
DocumentationGuidesCompréhension visuelle

Compréhension visuelle

OfoxAI supporte l’entrée visuelle des modèles multimodaux, permettant d’analyser des images, des captures d’écran, des documents et du contenu vidéo.

Modèles compatibles

ModèleImagesVidéoDescription
openai/gpt-4oAnalyse d’images haute qualité
openai/gpt-4o-miniAnalyse d’images rapide
anthropic/claude-sonnet-4.5Compréhension puissante de documents et de code
google/gemini-3-flash-previewMultimodal polyvalent
google/gemini-3.1-pro-previewRaisonnement multimodal le plus puissant

Analyse d’images

Envoi d’images par URL

Terminal
curl https://api.ofox.ai/v1/chat/completions \ -H "Authorization: Bearer $OFOX_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "openai/gpt-4o", "messages": [{ "role": "user", "content": [ {"type": "text", "text": "Décrivez le contenu de cette image"}, {"type": "image_url", "image_url": {"url": "https://example.com/photo.jpg"}} ] }] }'

Envoi d’images par Base64

Adapté aux fichiers locaux ou aux captures d’écran :

vision_base64.py
import base64 # Lire une image locale with open("screenshot.png", "rb") as f: image_data = base64.standard_b64encode(f.read()).decode("utf-8") response = client.chat.completions.create( model="openai/gpt-4o", messages=[{ "role": "user", "content": [ {"type": "text", "text": "Que montre cette capture d'écran ?"}, { "type": "image_url", "image_url": { "url": f"data:image/png;base64,{image_data}" } } ] }] )

Niveau de détail des images

Contrôlez la précision de l’analyse via le paramètre detail :

ValeurDescriptionCas d’utilisation
autoSélection automatique (par défaut)Scénarios généraux
lowBasse précision, plus rapideClassification simple, reconnaissance d’étiquettes
highHaute précision, plus détailléOCR de documents, analyse de détails
{ "type": "image_url", "image_url": { "url": "https://example.com/document.jpg", "detail": "high" # Mode haute précision } }

Comparaison de plusieurs images

Vous pouvez envoyer plusieurs images dans une seule requête :

response = client.chat.completions.create( model="openai/gpt-4o", messages=[{ "role": "user", "content": [ {"type": "text", "text": "Comparez les différences entre ces deux images"}, {"type": "image_url", "image_url": {"url": "https://example.com/before.jpg"}}, {"type": "image_url", "image_url": {"url": "https://example.com/after.jpg"}} ] }] )

Entrée visuelle avec le protocole Anthropic

import anthropic client = anthropic.Anthropic( base_url="https://api.ofox.ai/anthropic", api_key="<votre OFOXAI_API_KEY>" ) message = client.messages.create( model="anthropic/claude-sonnet-4.5", max_tokens=1024, messages=[{ "role": "user", "content": [ { "type": "image", "source": { "type": "base64", "media_type": "image/jpeg", "data": image_data } }, {"type": "text", "text": "Décrivez cette image"} ] }] )

Cas d’utilisation courants

  • OCR de documents — Extraire le texte et les tableaux des images
  • Analyse de captures de code — Analyser le code dans les captures d’écran et fournir des suggestions de modification
  • Revue d’UI — Analyser le design et la mise en page des interfaces
  • Interprétation de graphiques — Analyser les graphiques de données et le contenu de visualisation
  • Identification de produits — Identifier les objets et les scènes dans les images
Last updated on