Анализ видео (video understanding)
Отправьте видео в мультимодальную модель и получите описание сцен, действий, распознанный
текст с кадров и ответы на вопросы по содержимому — с привязкой к таймкодам.
Используется привычный эндпоинт https://megaapi.ru/v1/chat/completions.
| Эндпоинт | POST https://megaapi.ru/v1/chat/completions |
|---|---|
| Модели | Мультимодальные Gemini (gemini-2.5-pro, gemini-2.5-flash) и Qwen-VL |
| Вход видео | base64 data-URI или публичный URL в блоке контента сообщения |
| Тарификация | По токенам модели (видео раскладывается на кадры). См. Модели и цены |
Запрос (base64)
POST https://megaapi.ru/v1/chat/completions
Content-Type: application/json
{
"model": "gemini-2.5-flash",
"messages": [{
"role": "user",
"content": [
{ "type": "text", "text": "Опиши, что происходит, и дай таймкоды ключевых сцен" },
{ "type": "video_url", "video_url": { "url": "data:video/mp4;base64,AAAA..." } }
]
}]
}
Запрос (по URL)
{ "type": "video_url", "video_url": { "url": "https://example.com/clip.mp4" } }
Что можно спросить
- Краткое и подробное описание содержимого, список сцен и действий.
- OCR — распознавание текста, который появляется на кадрах.
- Таймкоды ключевых моментов («во сколько появляется …»).
- Вопросы по сюжету, объектам, количеству людей и т.д.
Длинные ролики потребляют больше токенов (больше кадров) — для дешёвого анализа
выбирайте flash-модели и ограничивайте длительность.