Skip to Content

視覺理解

OfoxAI 支援多模態模型的視覺輸入,可以分析圖像、截圖、文件和影片內容。

支援的模型

模型圖像影片說明
openai/gpt-4o高品質圖像分析
openai/gpt-4o-mini快速圖像分析
anthropic/claude-sonnet-4.5強大的文件和程式碼理解
google/gemini-3-flash-preview多模態全能
google/gemini-3.1-pro-preview最強多模態推理

圖像分析

透過 URL 傳送圖像

Terminal
curl https://api.ofox.ai/v1/chat/completions \ -H "Authorization: Bearer $OFOX_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "openai/gpt-4o", "messages": [{ "role": "user", "content": [ {"type": "text", "text": "描述這張圖片的內容"}, {"type": "image_url", "image_url": {"url": "https://example.com/photo.jpg"}} ] }] }'

透過 Base64 傳送圖像

適用於本地文件或截圖場景:

vision_base64.py
import base64 # 讀取本地圖片 with open("screenshot.png", "rb") as f: image_data = base64.standard_b64encode(f.read()).decode("utf-8") response = client.chat.completions.create( model="openai/gpt-4o", messages=[{ "role": "user", "content": [ {"type": "text", "text": "這個截圖裡顯示了什麼?"}, { "type": "image_url", "image_url": { "url": f"data:image/png;base64,{image_data}" } } ] }] )

圖像細節級別

透過 detail 參數控制分析精度:

說明適用場景
auto自動選擇(預設)一般場景
low低精度,更快速簡單分類、標籤辨識
high高精度,更詳細文件 OCR、細節分析
{ "type": "image_url", "image_url": { "url": "https://example.com/document.jpg", "detail": "high" # 高精度模式 } }

多圖對比

可以在一個請求中傳送多張圖片:

response = client.chat.completions.create( model="openai/gpt-4o", messages=[{ "role": "user", "content": [ {"type": "text", "text": "比較這兩張圖片的區別"}, {"type": "image_url", "image_url": {"url": "https://example.com/before.jpg"}}, {"type": "image_url", "image_url": {"url": "https://example.com/after.jpg"}} ] }] )

Anthropic 協議的視覺輸入

import anthropic client = anthropic.Anthropic( base_url="https://api.ofox.ai/anthropic", api_key="<你的 OFOXAI_API_KEY>" ) message = client.messages.create( model="anthropic/claude-sonnet-4.5", max_tokens=1024, messages=[{ "role": "user", "content": [ { "type": "image", "source": { "type": "base64", "media_type": "image/jpeg", "data": image_data } }, {"type": "text", "text": "描述這張圖片"} ] }] )

常見用例

  • 文件 OCR — 提取圖片中的文字和表格
  • 程式碼截圖分析 — 分析截圖中的程式碼並提供修改建議
  • UI 審查 — 分析介面設計和佈局
  • 圖表解讀 — 分析資料圖表和視覺化內容
  • 產品辨識 — 辨識圖片中的物體和場景
Last updated on