Skip to Content
개발 문서고급 기능스마트 모델 라우팅

스마트 모델 라우팅

OfoxAI의 스마트 모델 라우팅은 비용, 속도, 품질 등의 차원에서 최적화하여 요청에 가장 적합한 모델을 자동으로 선택합니다.

Auto 모드

가장 간단한 사용 방법 — model: "auto"를 설정하면 OfoxAI가 자동으로 선택합니다:

response = client.chat.completions.create( model="auto", messages=[{"role": "user", "content": "양자 컴퓨팅을 설명해주세요"}] ) # 실제 사용된 모델 확인 print(response.model) # 예: "openai/gpt-4o"

Auto 모드는 요청 내용의 복잡도와 사용 가능한 모델의 상태에 따라 가장 적합한 모델을 자동으로 선택합니다.

모델 풀 설정

후보 모델 풀과 라우팅 선호도를 지정할 수 있습니다:

model_routing.py
response = client.chat.completions.create( model="auto", messages=[{"role": "user", "content": "이 코드를 최적화해주세요"}], extra_body={ "model_routing_config": { "models": [ "openai/gpt-4o", "anthropic/claude-sonnet-4.5", "google/gemini-3-flash-preview" ], "preference": "quality" # 품질 우선 } } )

라우팅 선호도

선호도설명
balanced품질, 속도, 비용을 종합적으로 고려 (기본값)
quality품질 우선, 가장 강력한 모델 선택
speed속도 우선, 응답이 가장 빠른 모델 선택
cost비용 우선, 가장 저렴한 모델 선택

사용 시나리오

비용 최적화

간단한 대화에는 저렴한 모델을 자동으로 사용하고, 복잡한 작업에는 고급 모델을 사용합니다:

# 간단한 시나리오 → gpt-4o-mini 또는 gemini-3-flash-preview 선택 가능 response = client.chat.completions.create( model="auto", messages=[{"role": "user", "content": "오늘 무슨 요일인가요?"}], extra_body={"model_routing_config": {"preference": "cost"}} )

고가용성

여러 대체 모델을 지정하여 서비스 중단을 방지합니다:

response = client.chat.completions.create( model="auto", messages=[{"role": "user", "content": "시장 동향을 분석해주세요"}], extra_body={ "model_routing_config": { "models": [ "openai/gpt-4o", "anthropic/claude-sonnet-4.5", "google/gemini-3.1-pro-preview" ], "preference": "balanced" } } )

스마트 라우팅은 각 모델의 실시간 상태(지연 시간, 가용성, 부하)를 자동으로 감지하여 후보 풀에서 최적의 선택을 합니다.

Last updated on