視覺理解
OfoxAI 支援多模態模型的視覺輸入,可以分析圖像、截圖、文件和影片內容。
支援的模型
| 模型 | 圖像 | 影片 | 說明 |
|---|---|---|---|
openai/gpt-4o | ✅ | — | 高品質圖像分析 |
openai/gpt-4o-mini | ✅ | — | 快速圖像分析 |
anthropic/claude-sonnet-4.5 | ✅ | — | 強大的文件和程式碼理解 |
google/gemini-3-flash-preview | ✅ | ✅ | 多模態全能 |
google/gemini-3.1-pro-preview | ✅ | ✅ | 最強多模態推理 |
圖像分析
透過 URL 傳送圖像
cURL
Terminal
curl https://api.ofox.ai/v1/chat/completions \
-H "Authorization: Bearer $OFOX_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "openai/gpt-4o",
"messages": [{
"role": "user",
"content": [
{"type": "text", "text": "描述這張圖片的內容"},
{"type": "image_url", "image_url": {"url": "https://example.com/photo.jpg"}}
]
}]
}'透過 Base64 傳送圖像
適用於本地文件或截圖場景:
vision_base64.py
import base64
# 讀取本地圖片
with open("screenshot.png", "rb") as f:
image_data = base64.standard_b64encode(f.read()).decode("utf-8")
response = client.chat.completions.create(
model="openai/gpt-4o",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "這個截圖裡顯示了什麼?"},
{
"type": "image_url",
"image_url": {
"url": f"data:image/png;base64,{image_data}"
}
}
]
}]
)圖像細節級別
透過 detail 參數控制分析精度:
| 值 | 說明 | 適用場景 |
|---|---|---|
auto | 自動選擇(預設) | 一般場景 |
low | 低精度,更快速 | 簡單分類、標籤辨識 |
high | 高精度,更詳細 | 文件 OCR、細節分析 |
{
"type": "image_url",
"image_url": {
"url": "https://example.com/document.jpg",
"detail": "high" # 高精度模式
}
}多圖對比
可以在一個請求中傳送多張圖片:
response = client.chat.completions.create(
model="openai/gpt-4o",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "比較這兩張圖片的區別"},
{"type": "image_url", "image_url": {"url": "https://example.com/before.jpg"}},
{"type": "image_url", "image_url": {"url": "https://example.com/after.jpg"}}
]
}]
)Anthropic 協議的視覺輸入
import anthropic
client = anthropic.Anthropic(
base_url="https://api.ofox.ai/anthropic",
api_key="<你的 OFOXAI_API_KEY>"
)
message = client.messages.create(
model="anthropic/claude-sonnet-4.5",
max_tokens=1024,
messages=[{
"role": "user",
"content": [
{
"type": "image",
"source": {
"type": "base64",
"media_type": "image/jpeg",
"data": image_data
}
},
{"type": "text", "text": "描述這張圖片"}
]
}]
)常見用例
- 文件 OCR — 提取圖片中的文字和表格
- 程式碼截圖分析 — 分析截圖中的程式碼並提供修改建議
- UI 審查 — 分析介面設計和佈局
- 圖表解讀 — 分析資料圖表和視覺化內容
- 產品辨識 — 辨識圖片中的物體和場景
Last updated on