Qwen3.6 Alibaba

Новое поколение Tongyi Qianwen от Alibaba: три закрытых production-тира — Max-Preview (флагман), Plus (баланс), Flash (скорость) — плюс две open-weight модели (27B и 35B-A3B), размещённые на стороне MegaAPI (GPU арендовать не нужно). Все пять — через единый OpenAI-совместимый эндпоинт /chat/completions, отличается только поле model.

Без кода — в Студии. Любую модель Qwen3.6 можно протестировать во вкладке Чат — вставьте ID модели и задайте вопрос.

Пять моделей серии

Модель	Кратко	Контекст	Вход
`qwen3.6-max-preview`	Флагман по коду и сложным рассуждениям; #1 на ряде coding-бенчмарков	262K	Текст
`qwen3.6-flash`	Быстрый мультимодал (MoE 35B-A3B)	256K → 1M	Текст / изображение / видео
`qwen3.6-plus`	Сбалансированный «рабочий конь» (72B / 18B активных)	1M	Текст
`qwen3.6-27b`	Open-weight, 27B dense — мощный по коду	см. карточку весов	Текст
`qwen3.6-35b-a3b`	Open-weight MoE (3B активных) — дёшево и быстро	см. карточку весов	Текст

Все модели поддерживают стриминг и function calling. max-preview — Preview-сборка (веса ещё дорабатываются), для критичных задач прогоните канареечный A/B-тест перед переключением основного трафика.

Цены — тиерный биллинг

Закрытые тиры (Max-Preview / Flash / Plus) тарифицируются по тиерам: тир определяется суммарным числом входных токенов одного запроса, и весь запрос (вход + выход) считается по ставке этого тира — без пропорционального деления. Open-weight тиры — плоская ставка без тиеров.

Модель	Вход (за запрос)	Input	Output
`qwen3.6-max-preview`	0–128K	$1.28 / 1M	$7.68 / 1M
`qwen3.6-max-preview`	128K–256K	$2.12 / 1M	$12.72 / 1M
`qwen3.6-flash`	0–256K	$0.17 / 1M	$1.02 / 1M
`qwen3.6-flash`	256K–1000K	$0.68 / 1M	$4.08 / 1M
`qwen3.6-plus`	0–256K	$0.30 / 1M	$1.80 / 1M
`qwen3.6-plus`	256K–1000K	$1.20 / 1M	$7.20 / 1M
`qwen3.6-27b`	плоская	$0.42 / 1M	$2.52 / 1M
`qwen3.6-35b-a3b`	плоская	$0.26 / 1M	$1.56 / 1M

⚠️ Тир задаётся длиной запроса: например, Flash на 300K входных токенов попадает в тир 256K–1000K, и весь запрос считается по $0.68 / $4.08. Держите P95 длины ввода в нижнем тире (суммаризация / чанкинг), чтобы не словить скачок цены. Актуальные ставки с наценкой — в разделе Модели и цены.

Как выбрать

Сценарий	Модель
Рутинный диалог, классификация, мультимодальные батчи	`qwen3.6-flash` (по умолчанию)
Средняя сложность, корпоративная база знаний	`qwen3.6-plus`
Coding-агент, сложное планирование, олимпиадная математика	`qwen3.6-max-preview`
Дёшево + нужны открытые веса (compliance)	`qwen3.6-27b` / `qwen3.6-35b-a3b`

Стратегия: Flash по умолчанию → Plus на эскалации → Max-Preview как потолок; open-weight — для ультра-экономии.

Примеры

from openai import OpenAI
client = OpenAI(api_key="sk-...", base_url="https://megaapi.ru/v1")

# Plus — повседневный диалог
resp = client.chat.completions.create(
    model="qwen3.6-plus",
    messages=[{"role": "user", "content": "Представься одним предложением."}],
)
print(resp.choices[0].message.content)

Flash — мультимодальный ввод (изображение)

resp = client.chat.completions.create(
    model="qwen3.6-flash",
    messages=[{"role": "user", "content": [
        {"type": "text", "text": "Опиши ключевое на изображении."},
        {"type": "image_url", "image_url": {"url": "https://.../image.png"}}
    ]}],
)

Ошибки и таймауты

`400`	Ошибка параметра / неизвестная модель / превышен контекст
`429`	Лимит частоты или недостаточно баланса — retry с экспоненциальной задержкой
Timeout	Ставьте таймаут клиента ≥ 120с (длинный контекст и CoT отвечают дольше)

Открыть в Студии → Текстовая генерация Все модели