Bildverständnis
OfoxAI unterstützt visuelle Eingaben für multimodale Modelle zur Analyse von Bildern, Screenshots, Dokumenten und Videoinhalten.
Unterstützte Modelle
| Modell | Bilder | Video | Beschreibung |
|---|---|---|---|
openai/gpt-4o | Ja | — | Hochwertige Bildanalyse |
openai/gpt-4o-mini | Ja | — | Schnelle Bildanalyse |
anthropic/claude-sonnet-4.5 | Ja | — | Starkes Dokument- und Codeverständnis |
google/gemini-3-flash-preview | Ja | Ja | Multimodaler Allrounder |
google/gemini-3.1-pro-preview | Ja | Ja | Stärkstes multimodales Reasoning |
Bildanalyse
Bild per URL senden
cURL
Terminal
curl https://api.ofox.ai/v1/chat/completions \
-H "Authorization: Bearer $OFOX_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "openai/gpt-4o",
"messages": [{
"role": "user",
"content": [
{"type": "text", "text": "Beschreibe den Inhalt dieses Bildes"},
{"type": "image_url", "image_url": {"url": "https://example.com/photo.jpg"}}
]
}]
}'Bild per Base64 senden
Geeignet für lokale Dateien und Screenshots:
vision_base64.py
import base64
# Lokales Bild einlesen
with open("screenshot.png", "rb") as f:
image_data = base64.standard_b64encode(f.read()).decode("utf-8")
response = client.chat.completions.create(
model="openai/gpt-4o",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "Was zeigt dieser Screenshot?"},
{
"type": "image_url",
"image_url": {
"url": f"data:image/png;base64,{image_data}"
}
}
]
}]
)Detailstufe
Über den detail-Parameter steuern Sie die Analysepräzision:
| Wert | Beschreibung | Einsatzgebiet |
|---|---|---|
auto | Automatische Auswahl (Standard) | Allgemeine Szenarien |
low | Geringe Präzision, schneller | Einfache Klassifizierung, Tag-Erkennung |
high | Hohe Präzision, detaillierter | Dokument-OCR, Detailanalyse |
{
"type": "image_url",
"image_url": {
"url": "https://example.com/document.jpg",
"detail": "high" # Hochpräzisionsmodus
}
}Mehrbildvergleich
Sie können in einer Anfrage mehrere Bilder senden:
response = client.chat.completions.create(
model="openai/gpt-4o",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "Vergleiche die Unterschiede zwischen diesen beiden Bildern"},
{"type": "image_url", "image_url": {"url": "https://example.com/before.jpg"}},
{"type": "image_url", "image_url": {"url": "https://example.com/after.jpg"}}
]
}]
)Visuelle Eingabe im Anthropic-Protokoll
import anthropic
client = anthropic.Anthropic(
base_url="https://api.ofox.ai/anthropic",
api_key="<Ihr OFOXAI_API_KEY>"
)
message = client.messages.create(
model="anthropic/claude-sonnet-4.5",
max_tokens=1024,
messages=[{
"role": "user",
"content": [
{
"type": "image",
"source": {
"type": "base64",
"media_type": "image/jpeg",
"data": image_data
}
},
{"type": "text", "text": "Beschreibe dieses Bild"}
]
}]
)Häufige Anwendungsfälle
- Dokument-OCR — Text und Tabellen aus Bildern extrahieren
- Code-Screenshot-Analyse — Code in Screenshots analysieren und Änderungsvorschläge liefern
- UI-Review — Interface-Design und Layout analysieren
- Diagramminterpretation — Datendiagramme und Visualisierungen auswerten
- Objekterkennung — Objekte und Szenen in Bildern identifizieren
Last updated on