Skip to Content
開發文件進階功能智慧模型路由

智慧模型路由

OfoxAI 的智慧模型路由可以自動為你的請求選擇最佳模型,基於成本、速度、品質等維度進行最佳化。

Auto 模式

最簡單的使用方式 — 設定 model: "auto",讓 OfoxAI 自動選擇:

response = client.chat.completions.create( model="auto", messages=[{"role": "user", "content": "解釋量子計算"}] ) # 查看實際使用的模型 print(response.model) # 如 "openai/gpt-4o"

Auto 模式會根據請求內容的複雜度和可用模型的狀態,自動選擇最合適的模型。

模型池設定

你可以指定候選模型池和路由偏好:

model_routing.py
response = client.chat.completions.create( model="auto", messages=[{"role": "user", "content": "幫我最佳化這段程式碼"}], extra_body={ "model_routing_config": { "models": [ "openai/gpt-4o", "anthropic/claude-sonnet-4.5", "google/gemini-3-flash-preview" ], "preference": "quality" # 品質優先 } } )

路由偏好

偏好說明
balanced綜合考慮品質、速度和成本(預設)
quality品質優先,選擇能力最強的模型
speed速度優先,選擇回應最快的模型
cost成本優先,選擇最便宜的模型

使用場景

成本最佳化

對於簡單對話,自動使用便宜的模型;複雜任務使用高端模型:

# 簡單場景 → 可能選擇 gpt-4o-mini 或 gemini-3-flash-preview response = client.chat.completions.create( model="auto", messages=[{"role": "user", "content": "今天星期幾?"}], extra_body={"model_routing_config": {"preference": "cost"}} )

高可用

指定多個備選模型,確保服務不中斷:

response = client.chat.completions.create( model="auto", messages=[{"role": "user", "content": "分析市場趨勢"}], extra_body={ "model_routing_config": { "models": [ "openai/gpt-4o", "anthropic/claude-sonnet-4.5", "google/gemini-3.1-pro-preview" ], "preference": "balanced" } } )

智慧路由會自動感知各模型的即時狀態(延遲、可用性、負載),在候選池中做出最優選擇。

Last updated on