스마트 모델 라우팅
OfoxAI의 스마트 모델 라우팅은 비용, 속도, 품질 등의 차원에서 최적화하여 요청에 가장 적합한 모델을 자동으로 선택합니다.
Auto 모드
가장 간단한 사용 방법 — model: "auto"를 설정하면 OfoxAI가 자동으로 선택합니다:
response = client.chat.completions.create(
model="auto",
messages=[{"role": "user", "content": "양자 컴퓨팅을 설명해주세요"}]
)
# 실제 사용된 모델 확인
print(response.model) # 예: "openai/gpt-4o"Auto 모드는 요청 내용의 복잡도와 사용 가능한 모델의 상태에 따라 가장 적합한 모델을 자동으로 선택합니다.
모델 풀 설정
후보 모델 풀과 라우팅 선호도를 지정할 수 있습니다:
model_routing.py
response = client.chat.completions.create(
model="auto",
messages=[{"role": "user", "content": "이 코드를 최적화해주세요"}],
extra_body={
"model_routing_config": {
"models": [
"openai/gpt-4o",
"anthropic/claude-sonnet-4.5",
"google/gemini-3-flash-preview"
],
"preference": "quality" # 품질 우선
}
}
)라우팅 선호도
| 선호도 | 설명 |
|---|---|
balanced | 품질, 속도, 비용을 종합적으로 고려 (기본값) |
quality | 품질 우선, 가장 강력한 모델 선택 |
speed | 속도 우선, 응답이 가장 빠른 모델 선택 |
cost | 비용 우선, 가장 저렴한 모델 선택 |
사용 시나리오
비용 최적화
간단한 대화에는 저렴한 모델을 자동으로 사용하고, 복잡한 작업에는 고급 모델을 사용합니다:
# 간단한 시나리오 → gpt-4o-mini 또는 gemini-3-flash-preview 선택 가능
response = client.chat.completions.create(
model="auto",
messages=[{"role": "user", "content": "오늘 무슨 요일인가요?"}],
extra_body={"model_routing_config": {"preference": "cost"}}
)고가용성
여러 대체 모델을 지정하여 서비스 중단을 방지합니다:
response = client.chat.completions.create(
model="auto",
messages=[{"role": "user", "content": "시장 동향을 분석해주세요"}],
extra_body={
"model_routing_config": {
"models": [
"openai/gpt-4o",
"anthropic/claude-sonnet-4.5",
"google/gemini-3.1-pro-preview"
],
"preference": "balanced"
}
}
)스마트 라우팅은 각 모델의 실시간 상태(지연 시간, 가용성, 부하)를 자동으로 감지하여 후보 풀에서 최적의 선택을 합니다.
Last updated on