Анализ видео (video understanding)

Отправьте видео в мультимодальную модель и получите описание сцен, действий, распознанный текст с кадров и ответы на вопросы по содержимому — с привязкой к таймкодам. Используется привычный эндпоинт https://megaapi.ru/v1/chat/completions.

Эндпоинт	`POST https://megaapi.ru/v1/chat/completions`
Модели	Мультимодальные Gemini: `gemini-3.5-flash` (быстро, рекоменд.), `gemini-3.1-pro-preview` (сложный/длинный анализ), `gemini-3.1-flash-lite` (массовый поток). Классические `gemini-2.5-pro` / `gemini-2.5-flash` тоже работают.
Вход видео	`base64` data-URI (весь запрос ≤ 20 МБ) или YouTube-ссылка (только нативный формат Gemini)
Тарификация	По токенам модели (видео раскладывается на кадры). См. Модели и цены

Прямой URL на .mp4 не поддерживается Google принимает видео только как base64 (весь запрос ≤ 20 МБ) или как YouTube-ссылку в нативном формате. Передача обычного публичного линка вида https://example.com/clip.mp4 вернёт ошибку invalid argument. Если видео больше 20 МБ — сожмите/обрежьте фрагмент до 20 МБ либо используйте YouTube-ссылку.

Запрос (base64)

POST https://megaapi.ru/v1/chat/completions
Content-Type: application/json

{
    "model": "gemini-2.5-flash",
    "messages": [{
        "role": "user",
        "content": [
            { "type": "text", "text": "Опиши, что происходит, и дай таймкоды ключевых сцен" },
            { "type": "video_url", "video_url": { "url": "data:video/mp4;base64,AAAA..." } }
        ]
    }]
}

Запрос (YouTube-ссылка)

Только в нативном формате Gemini — ссылка передаётся через file_uri:

{ "parts": [
    { "text": "Опиши ролик и дай таймкоды сцен" },
    { "file_data": { "file_uri": "https://www.youtube.com/watch?v=..." } }
] }

Что можно спросить

Краткое и подробное описание содержимого, список сцен и действий.
OCR — распознавание текста, который появляется на кадрах.
Таймкоды ключевых моментов («во сколько появляется …»).
Вопросы по сюжету, объектам, количеству людей и т.д.

Длинные ролики потребляют больше токенов (больше кадров) — для дешёвого анализа выбирайте flash-модели и ограничивайте длительность.

Vision (изображения на вход) Генерация видео