Skip to Content
DokumentationAnleitungenBildverständnis

Bildverständnis

OfoxAI unterstützt visuelle Eingaben für multimodale Modelle zur Analyse von Bildern, Screenshots, Dokumenten und Videoinhalten.

Unterstützte Modelle

ModellBilderVideoBeschreibung
openai/gpt-4oJaHochwertige Bildanalyse
openai/gpt-4o-miniJaSchnelle Bildanalyse
anthropic/claude-sonnet-4.5JaStarkes Dokument- und Codeverständnis
google/gemini-3-flash-previewJaJaMultimodaler Allrounder
google/gemini-3.1-pro-previewJaJaStärkstes multimodales Reasoning

Bildanalyse

Bild per URL senden

Terminal
curl https://api.ofox.ai/v1/chat/completions \ -H "Authorization: Bearer $OFOX_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "openai/gpt-4o", "messages": [{ "role": "user", "content": [ {"type": "text", "text": "Beschreibe den Inhalt dieses Bildes"}, {"type": "image_url", "image_url": {"url": "https://example.com/photo.jpg"}} ] }] }'

Bild per Base64 senden

Geeignet für lokale Dateien und Screenshots:

vision_base64.py
import base64 # Lokales Bild einlesen with open("screenshot.png", "rb") as f: image_data = base64.standard_b64encode(f.read()).decode("utf-8") response = client.chat.completions.create( model="openai/gpt-4o", messages=[{ "role": "user", "content": [ {"type": "text", "text": "Was zeigt dieser Screenshot?"}, { "type": "image_url", "image_url": { "url": f"data:image/png;base64,{image_data}" } } ] }] )

Detailstufe

Über den detail-Parameter steuern Sie die Analysepräzision:

WertBeschreibungEinsatzgebiet
autoAutomatische Auswahl (Standard)Allgemeine Szenarien
lowGeringe Präzision, schnellerEinfache Klassifizierung, Tag-Erkennung
highHohe Präzision, detaillierterDokument-OCR, Detailanalyse
{ "type": "image_url", "image_url": { "url": "https://example.com/document.jpg", "detail": "high" # Hochpräzisionsmodus } }

Mehrbildvergleich

Sie können in einer Anfrage mehrere Bilder senden:

response = client.chat.completions.create( model="openai/gpt-4o", messages=[{ "role": "user", "content": [ {"type": "text", "text": "Vergleiche die Unterschiede zwischen diesen beiden Bildern"}, {"type": "image_url", "image_url": {"url": "https://example.com/before.jpg"}}, {"type": "image_url", "image_url": {"url": "https://example.com/after.jpg"}} ] }] )

Visuelle Eingabe im Anthropic-Protokoll

import anthropic client = anthropic.Anthropic( base_url="https://api.ofox.ai/anthropic", api_key="<Ihr OFOXAI_API_KEY>" ) message = client.messages.create( model="anthropic/claude-sonnet-4.5", max_tokens=1024, messages=[{ "role": "user", "content": [ { "type": "image", "source": { "type": "base64", "media_type": "image/jpeg", "data": image_data } }, {"type": "text", "text": "Beschreibe dieses Bild"} ] }] )

Häufige Anwendungsfälle

  • Dokument-OCR — Text und Tabellen aus Bildern extrahieren
  • Code-Screenshot-Analyse — Code in Screenshots analysieren und Änderungsvorschläge liefern
  • UI-Review — Interface-Design und Layout analysieren
  • Diagramminterpretation — Datendiagramme und Visualisierungen auswerten
  • Objekterkennung — Objekte und Szenen in Bildern identifizieren
Last updated on