Skip to Content
ДокументацияРуководстваАнализ изображений

Анализ изображений

OfoxAI поддерживает визуальный ввод мультимодальных моделей, позволяя анализировать изображения, скриншоты, документы и видеоконтент.

Поддерживаемые модели

МодельИзображенияВидеоОписание
openai/gpt-4oВысококачественный анализ изображений
openai/gpt-4o-miniБыстрый анализ изображений
anthropic/claude-sonnet-4.5Мощное понимание документов и кода
google/gemini-3-flash-previewМультимодальный универсал
google/gemini-3.1-pro-previewСильнейшие мультимодальные рассуждения

Анализ изображений

Отправка изображения по URL

Terminal
curl https://api.ofox.ai/v1/chat/completions \ -H "Authorization: Bearer $OFOX_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "openai/gpt-4o", "messages": [{ "role": "user", "content": [ {"type": "text", "text": "Опишите содержимое этого изображения"}, {"type": "image_url", "image_url": {"url": "https://example.com/photo.jpg"}} ] }] }'

Отправка изображения в Base64

Подходит для локальных файлов или скриншотов:

vision_base64.py
import base64 # Чтение локального изображения with open("screenshot.png", "rb") as f: image_data = base64.standard_b64encode(f.read()).decode("utf-8") response = client.chat.completions.create( model="openai/gpt-4o", messages=[{ "role": "user", "content": [ {"type": "text", "text": "Что показано на этом скриншоте?"}, { "type": "image_url", "image_url": { "url": f"data:image/png;base64,{image_data}" } } ] }] )

Уровень детализации изображения

Управление точностью анализа через параметр detail:

ЗначениеОписаниеПрименение
autoАвтоматический выбор (по умолчанию)Общие сценарии
lowНизкая точность, быстрееПростая классификация, распознавание тегов
highВысокая точность, детальнееOCR документов, детальный анализ
{ "type": "image_url", "image_url": { "url": "https://example.com/document.jpg", "detail": "high" # Режим высокой точности } }

Сравнение нескольких изображений

Можно отправить несколько изображений в одном запросе:

response = client.chat.completions.create( model="openai/gpt-4o", messages=[{ "role": "user", "content": [ {"type": "text", "text": "Сравните различия между этими двумя изображениями"}, {"type": "image_url", "image_url": {"url": "https://example.com/before.jpg"}}, {"type": "image_url", "image_url": {"url": "https://example.com/after.jpg"}} ] }] )

Визуальный ввод через протокол Anthropic

import anthropic client = anthropic.Anthropic( base_url="https://api.ofox.ai/anthropic", api_key="<Ваш OFOXAI_API_KEY>" ) message = client.messages.create( model="anthropic/claude-sonnet-4.5", max_tokens=1024, messages=[{ "role": "user", "content": [ { "type": "image", "source": { "type": "base64", "media_type": "image/jpeg", "data": image_data } }, {"type": "text", "text": "Опишите это изображение"} ] }] )

Типичные варианты использования

  • OCR документов — извлечение текста и таблиц из изображений
  • Анализ скриншотов кода — анализ кода на скриншотах и предоставление рекомендаций по исправлению
  • Аудит UI — анализ дизайна и компоновки интерфейса
  • Интерпретация диаграмм — анализ графиков данных и визуализаций
  • Распознавание объектов — определение объектов и сцен на изображениях
Last updated on