Kimi K2.5 Moonshot AI

Нативный мультимодальный флагман Moonshot AI: контекст 256K без доплаты, режим Thinking для глубоких рассуждений, сильный визуальный кодинг (превращает скриншоты и макеты в рабочий код) и оркестрация агентов. OpenAI-совместимый эндпоинт, ID модели — kimi-k2.5.

Главное отличие: в отличие от официального сайта Kimi, по умолчанию модель работает в режиме Instant. Режим рассуждений нужно явно включить через enable_thinking: true в теле запроса.

Характеристики

Параметр	Значение
Model ID	`kimi-k2.5`
Контекст	256 000 токенов (без доплаты)
Режимы	Instant / Thinking / Agent / Agent Swarm
Включение Thinking	`enable_thinking: true` (по умолчанию `false`)
Вход	Текст + изображение (нативный мультимодал)
Выход	Текст
Стриминг / Tool use	✓ Поддерживаются

Цены

Тип	Цена
Input	$0.60 / 1M токенов
Output	$2.50 / 1M токенов
Cache Hit (Input)	$0.10 / 1M токенов

Актуальные ставки с наценкой — в разделе Модели и цены.

Когда включать Thinking

Сценарий	`enable_thinking`
Быстрый диалог / короткие ответы	`false` (по умолчанию) — минимальная задержка
Сложные рассуждения, планирование кода, RCA	`true` — модель выдаёт трассу рассуждений
Агент со встроенным `$web_search`	`false` — web_search и Thinking взаимоисключающи

Примеры

Instant (по умолчанию)

curl https://megaapi.ru/v1/chat/completions \
  -H "Authorization: Bearer sk-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "kimi-k2.5",
    "messages": [{"role": "user", "content": "Представься одним предложением."}]
  }'

Thinking (через extra_body)

from openai import OpenAI
client = OpenAI(api_key="sk-...", base_url="https://megaapi.ru/v1")

response = client.chat.completions.create(
    model="kimi-k2.5",
    messages=[
        {"role": "system", "content": "Ты — полезный ассистент."},
        {"role": "user", "content": "Проанализируй сложность кода и предложи оптимизации."}
    ],
    extra_body={"enable_thinking": True},
)
print(response.choices[0].message.content)

В openai-python поле enable_thinking передаётся внутри extra_body; в Node.js SDK — как поле верхнего уровня тела запроса.

Лучшие практики

Переключайте режим под задачу. Instant — для чата и коротких генераций; Thinking — для сложных рассуждений, ревью кода и планирования агентов.
Используйте 256K контекста. Целый средний репозиторий, документация или длинный транскрипт встаёт в один запрос — без доплаты.
Визуальный кодинг. Отправьте скриншот UI / макет — K2.5 «прочитает → спланирует → напишет код».
Помните про web_search. Встроенный $web_search несовместим с Thinking — используйте их в разных запросах.
Стоимость Thinking. Трасса рассуждений считается как output-токены — включайте только когда нужна глубина.

Открыть в Студии → Текстовая генерация Все модели