Compréhension visuelle
OfoxAI supporte l’entrée visuelle des modèles multimodaux, permettant d’analyser des images, des captures d’écran, des documents et du contenu vidéo.
Modèles compatibles
| Modèle | Images | Vidéo | Description |
|---|---|---|---|
openai/gpt-4o | ✅ | — | Analyse d’images haute qualité |
openai/gpt-4o-mini | ✅ | — | Analyse d’images rapide |
anthropic/claude-sonnet-4.5 | ✅ | — | Compréhension puissante de documents et de code |
google/gemini-3-flash-preview | ✅ | ✅ | Multimodal polyvalent |
google/gemini-3.1-pro-preview | ✅ | ✅ | Raisonnement multimodal le plus puissant |
Analyse d’images
Envoi d’images par URL
cURL
Terminal
curl https://api.ofox.ai/v1/chat/completions \
-H "Authorization: Bearer $OFOX_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "openai/gpt-4o",
"messages": [{
"role": "user",
"content": [
{"type": "text", "text": "Décrivez le contenu de cette image"},
{"type": "image_url", "image_url": {"url": "https://example.com/photo.jpg"}}
]
}]
}'Envoi d’images par Base64
Adapté aux fichiers locaux ou aux captures d’écran :
vision_base64.py
import base64
# Lire une image locale
with open("screenshot.png", "rb") as f:
image_data = base64.standard_b64encode(f.read()).decode("utf-8")
response = client.chat.completions.create(
model="openai/gpt-4o",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "Que montre cette capture d'écran ?"},
{
"type": "image_url",
"image_url": {
"url": f"data:image/png;base64,{image_data}"
}
}
]
}]
)Niveau de détail des images
Contrôlez la précision de l’analyse via le paramètre detail :
| Valeur | Description | Cas d’utilisation |
|---|---|---|
auto | Sélection automatique (par défaut) | Scénarios généraux |
low | Basse précision, plus rapide | Classification simple, reconnaissance d’étiquettes |
high | Haute précision, plus détaillé | OCR de documents, analyse de détails |
{
"type": "image_url",
"image_url": {
"url": "https://example.com/document.jpg",
"detail": "high" # Mode haute précision
}
}Comparaison de plusieurs images
Vous pouvez envoyer plusieurs images dans une seule requête :
response = client.chat.completions.create(
model="openai/gpt-4o",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "Comparez les différences entre ces deux images"},
{"type": "image_url", "image_url": {"url": "https://example.com/before.jpg"}},
{"type": "image_url", "image_url": {"url": "https://example.com/after.jpg"}}
]
}]
)Entrée visuelle avec le protocole Anthropic
import anthropic
client = anthropic.Anthropic(
base_url="https://api.ofox.ai/anthropic",
api_key="<votre OFOXAI_API_KEY>"
)
message = client.messages.create(
model="anthropic/claude-sonnet-4.5",
max_tokens=1024,
messages=[{
"role": "user",
"content": [
{
"type": "image",
"source": {
"type": "base64",
"media_type": "image/jpeg",
"data": image_data
}
},
{"type": "text", "text": "Décrivez cette image"}
]
}]
)Cas d’utilisation courants
- OCR de documents — Extraire le texte et les tableaux des images
- Analyse de captures de code — Analyser le code dans les captures d’écran et fournir des suggestions de modification
- Revue d’UI — Analyser le design et la mise en page des interfaces
- Interprétation de graphiques — Analyser les graphiques de données et le contenu de visualisation
- Identification de produits — Identifier les objets et les scènes dans les images
Last updated on