Kimi K2.5 Moonshot AI
Нативный мультимодальный флагман Moonshot AI: контекст 256K без доплаты, режим Thinking для глубоких
рассуждений, сильный визуальный кодинг (превращает скриншоты и макеты в рабочий код) и оркестрация
агентов. OpenAI-совместимый эндпоинт, ID модели — kimi-k2.5.
Главное отличие: в отличие от официального сайта Kimi, по умолчанию модель работает в
режиме Instant. Режим рассуждений нужно явно включить через
enable_thinking: true в теле запроса.
Характеристики
| Параметр | Значение |
|---|---|
| Model ID | kimi-k2.5 |
| Контекст | 256 000 токенов (без доплаты) |
| Режимы | Instant / Thinking / Agent / Agent Swarm |
| Включение Thinking | enable_thinking: true (по умолчанию false) |
| Вход | Текст + изображение (нативный мультимодал) |
| Выход | Текст |
| Стриминг / Tool use | ✅ Поддерживаются |
Цены
| Тип | Цена |
|---|---|
| Input | $0.60 / 1M токенов |
| Output | $2.50 / 1M токенов |
| Cache Hit (Input) | $0.10 / 1M токенов |
Актуальные ставки с наценкой — в разделе Модели и цены.
Когда включать Thinking
| Сценарий | enable_thinking |
|---|---|
| Быстрый диалог / короткие ответы | false (по умолчанию) — минимальная задержка |
| Сложные рассуждения, планирование кода, RCA | true — модель выдаёт трассу рассуждений |
Агент со встроенным $web_search | false — web_search и Thinking взаимоисключающи |
Примеры
Instant (по умолчанию)
curl https://megaapi.ru/v1/chat/completions \ -H "Authorization: Bearer sk-..." \ -H "Content-Type: application/json" \ -d '{ "model": "kimi-k2.5", "messages": [{"role": "user", "content": "Представься одним предложением."}] }'
Thinking (через extra_body)
from openai import OpenAI client = OpenAI(api_key="sk-...", base_url="https://megaapi.ru/v1") response = client.chat.completions.create( model="kimi-k2.5", messages=[ {"role": "system", "content": "Ты — полезный ассистент."}, {"role": "user", "content": "Проанализируй сложность кода и предложи оптимизации."} ], extra_body={"enable_thinking": True}, ) print(response.choices[0].message.content)
В openai-python поле enable_thinking передаётся внутри extra_body; в Node.js SDK —
как поле верхнего уровня тела запроса.
Лучшие практики
- Переключайте режим под задачу. Instant — для чата и коротких генераций; Thinking — для сложных рассуждений, ревью кода и планирования агентов.
- Используйте 256K контекста. Целый средний репозиторий, документация или длинный транскрипт встаёт в один запрос — без доплаты.
- Визуальный кодинг. Отправьте скриншот UI / макет — K2.5 «прочитает → спланирует → напишет код».
- Помните про web_search. Встроенный
$web_searchнесовместим с Thinking — используйте их в разных запросах. - Стоимость Thinking. Трасса рассуждений считается как output-токены — включайте только когда нужна глубина.