Анализ изображений
OfoxAI поддерживает визуальный ввод мультимодальных моделей, позволяя анализировать изображения, скриншоты, документы и видеоконтент.
Поддерживаемые модели
| Модель | Изображения | Видео | Описание |
|---|---|---|---|
openai/gpt-4o | ✅ | — | Высококачественный анализ изображений |
openai/gpt-4o-mini | ✅ | — | Быстрый анализ изображений |
anthropic/claude-sonnet-4.5 | ✅ | — | Мощное понимание документов и кода |
google/gemini-3-flash-preview | ✅ | ✅ | Мультимодальный универсал |
google/gemini-3.1-pro-preview | ✅ | ✅ | Сильнейшие мультимодальные рассуждения |
Анализ изображений
Отправка изображения по URL
cURL
Terminal
curl https://api.ofox.ai/v1/chat/completions \
-H "Authorization: Bearer $OFOX_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "openai/gpt-4o",
"messages": [{
"role": "user",
"content": [
{"type": "text", "text": "Опишите содержимое этого изображения"},
{"type": "image_url", "image_url": {"url": "https://example.com/photo.jpg"}}
]
}]
}'Отправка изображения в Base64
Подходит для локальных файлов или скриншотов:
vision_base64.py
import base64
# Чтение локального изображения
with open("screenshot.png", "rb") as f:
image_data = base64.standard_b64encode(f.read()).decode("utf-8")
response = client.chat.completions.create(
model="openai/gpt-4o",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "Что показано на этом скриншоте?"},
{
"type": "image_url",
"image_url": {
"url": f"data:image/png;base64,{image_data}"
}
}
]
}]
)Уровень детализации изображения
Управление точностью анализа через параметр detail:
| Значение | Описание | Применение |
|---|---|---|
auto | Автоматический выбор (по умолчанию) | Общие сценарии |
low | Низкая точность, быстрее | Простая классификация, распознавание тегов |
high | Высокая точность, детальнее | OCR документов, детальный анализ |
{
"type": "image_url",
"image_url": {
"url": "https://example.com/document.jpg",
"detail": "high" # Режим высокой точности
}
}Сравнение нескольких изображений
Можно отправить несколько изображений в одном запросе:
response = client.chat.completions.create(
model="openai/gpt-4o",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "Сравните различия между этими двумя изображениями"},
{"type": "image_url", "image_url": {"url": "https://example.com/before.jpg"}},
{"type": "image_url", "image_url": {"url": "https://example.com/after.jpg"}}
]
}]
)Визуальный ввод через протокол Anthropic
import anthropic
client = anthropic.Anthropic(
base_url="https://api.ofox.ai/anthropic",
api_key="<Ваш OFOXAI_API_KEY>"
)
message = client.messages.create(
model="anthropic/claude-sonnet-4.5",
max_tokens=1024,
messages=[{
"role": "user",
"content": [
{
"type": "image",
"source": {
"type": "base64",
"media_type": "image/jpeg",
"data": image_data
}
},
{"type": "text", "text": "Опишите это изображение"}
]
}]
)Типичные варианты использования
- OCR документов — извлечение текста и таблиц из изображений
- Анализ скриншотов кода — анализ кода на скриншотах и предоставление рекомендаций по исправлению
- Аудит UI — анализ дизайна и компоновки интерфейса
- Интерпретация диаграмм — анализ графиков данных и визуализаций
- Распознавание объектов — определение объектов и сцен на изображениях
Last updated on