GLM-5.2: Реальний конкурент Claude чи просто шум? Мій аналіз китайського флагмана
У світі штучного інтелекту назріває цікавий зсув. Китайська компанія Z.ai випустила нову флагманську модель GLM-5.2, і навколо неї вже спалахнули гарячі суперечки. Спільнота охрестила її «вбивцею» Claude, натякаючи на пряму конкуренцію з топовими рішеннями від Anthropic. Давайте розберемося, наскільки це звання заслужене і що насправді являє собою ця нейромережа.
Що таке GLM-5.2 і в чому її сила?
GLM-5.2 — це не просто чергове оновлення, а серйозна заявка на лідерство в сегменті open-source моделей для програмування. Головна її перевага — гігантське контекстне вікно в 1 мільйон токенів, яке не деградує під час роботи. Це означає, що модель здатна «бачити» та обробляти всю кодову базу проекту цілком, не втрачаючи нитки міркувань навіть під час багатогодинних сесій.
Ключові характеристики, які я виділяю:
- Контекст 1M токенів: Вся кодова база вміщується в один цикл міркування, що критично важливо для складних проектів.
- Два режими міркування: High для балансу швидкості та якості, та Max — «режим максимальної продуктивності», який витрачає більше токенів, але видає кращий результат.
- Відкрита ліцензія MIT: Модель можна запускати на власному обладнанні (self-hosting), що дає повний контроль над даними та витратами.
- Ціна API: Вартість викликів залишилася на рівні попередньої версії GLM-5.1, що робить її доступною.
Модель вже доступна на HuggingFace та ModelScope, а також інтегрована в популярні фреймворки на кшталт vLLM та SGLang.
Бенчмарки: Цифри говорять голосніше за слова
За власними тестами Z.ai, GLM-5.2 показує вражаючі результати. На ключових бенчмарках для програмування розрив з попередньою версією GLM-5.1 величезний: 81,0 проти 63,5 на Terminal-Bench 2.1 та 62,1 проти 58,4 на SWE-bench Pro.
Однак, якщо дивитися на абсолютні цифри, ситуація стає більш тонкою. У режимі Max модель впритул наближається до флагмана Anthropic — Claude Opus 4.8. На Terminal-Bench 2.1 відставання становить лише 4 пункти (81,0 проти 85,0), а на SWE-bench Pro — 7 пунктів (62,1 проти 69,2). При цьому GLM-5.2 впевнено обходить Gemini 3.1 Pro та GPT-5.5 на багатьох тестах.
Особливо цікава картина на тривалих завданнях (long-horizon). На тесті FrontierSWE, де моделі працюють годинами, GLM-5.2 відстає від Opus 4.8 лише на 1%. Це свідчить про те, що архітектура моделі дійсно добре справляється з підтриманням контексту на відстані.
Ціна питання та «підводні камені»
Підписка GLM Coding Plan пропонує три тарифи: Lite ($12.6/міс), Pro ($50.4/міс) та Max ($112/міс) при річній оплаті. Це значно дешевше, ніж тарифи Claude Pro або GPT Plus, особливо враховуючи ліміти.
Однак, як показує практика, диявол криється в деталях. Користувачі в мережі активно обговорюють дві основні проблеми:
- Слабка хмарна інфраструктура: Багато хто скаржиться на нестабільну роботу сервісу, довгі відповіді та високу вартість у пікові години. Простіше, кажуть вони, заплатити за Claude або GPT.
- Проблеми з поведінкою: Модель схильна зациклюватися та ігнорувати команди. Є думка, що вона «заточена» виключно під бенчмарки, а в реальній розробці поводиться не так ефективно.
Критики зазначають, що весь потенціал GLM-5.2 розкривається лише в режимі Max, який витрачає в рази більше токенів. У режимі High вона вже не така переконлива.
Мій вердикт
Назвати GLM-5.2 «вбивцею» Claude було б перебільшенням. Так, це найсильніша open-source модель на сьогоднішній день, яка впритул наблизилася до топових закритих рішень. Вона пропонує унікальне поєднання величезного контексту, відкритої ліцензії та вражаючих результатів на бенчмарках.
Однак до повноцінної перемоги над Claude їй ще далеко. Проблеми з інфраструктурою, нестабільність та висока витрата токенів у режимі Max — це серйозні недоліки. Поки що GLM-5.2 — це скоріше «бюджетний та зухвалий конкурент», який чудово підходить для ентузіастів та розробників, готових миритися з недосконалостями заради низької ціни та відкритості. Для тих, кому потрібна стабільність та передбачуваність, Claude та GPT залишаються більш надійним вибором.