GLM-5.2: Чи справді нова китайська модель ШІ стала «вбивцею» Claude? Розбір Cryptalist
Спільноту розробників і криптоентузіастів сколихнула новина про вихід GLM-5.2 від компанії Z.ai. Навколо цієї моделі спалахнули неабиякі суперечки: одні називають її «китайським убивцею» флагманської моделі Claude від Anthropic, інші — скептично оцінюють її реальні можливості. Як незалежний аналітик, я вивчив усі доступні дані, щоб відокремити маркетинговий шум від реальних інновацій.
Що таке GLM-5.2 і чим вона примітна?
GLM-5.2 позиціонується як флагманська модель для тривалих робочих сесій. Головне нововведення — стабільне контекстне вікно на 1 мільйон токенів, що в п'ять разів більше, ніж у попередниці GLM-5.1. Це дозволяє моделі утримувати в полі зору величезні обсяги коду або тексту, не деградуючи в якості в міру заглиблення в задачу.
Ключові особливості:
- Контекст в 1 млн токенів, який не втрачає точності при наддовгих сесіях.
- Два рівні посилення міркувань: режим High для балансу продуктивності та витрати токенів, і Max — для максимальної якості ціною більшого споживання ресурсів.
- Відкрита ліцензія MIT без регіональних обмежень, що дозволяє запускати модель на власному обладнанні (self-hosting).
- Ціна через API залишилася на рівні попередньої версії GLM-5.1, що вигідно відрізняє її від конкурентів.
Модель доступна на HuggingFace та ModelScope, а також через підписку GLM Coding Plan, десктопний агент ZCode та середовища Claude Code і OpenCode. Це робить її гнучкою для інтеграції в різні робочі процеси.
Бенчмарки: де GLM-5.2 сильна, а де поступається
За власними тестами Z.ai, GLM-5.2 визнана найсильнішою відкритою моделлю на ринку. Однак до еталонного Claude Opus 4.8 вона в більшості випадків не дотягує. Погляньмо на цифри.
На стандартних тестах з програмування розрив з GLM-5.1 помітний: 81,0 проти 63,5 на Terminal-Bench 2.1 та 62,1 проти 58,4 на SWE-bench Pro. На Terminal-Bench 2.1 результат 81,0 впритул наближається до Opus 4.8 (85,0) і випереджає Gemini 3.1 Pro (74,0).
Порівняння з конкурентами в максимальному режимі міркування (Max) показує, що GLM-5.2 дійсно потужна, але не домінує:
- SWE-bench Pro: GLM-5.2 (62,1) проти Opus 4.8 (69,2) — відставання на 7 пунктів.
- Terminal-Bench 2.1: GLM-5.2 (81,0) проти Opus 4.8 (85,0) — розрив мінімальний.
- NL2Repo: GLM-5.2 (48,9) проти Opus 4.8 (69,7) — серйозне відставання.
- DeepSWE: GLM-5.2 (46,2) проти Opus 4.8 (58,0) — відставання, але GLM-5.2 значно випереджає GPT-5.5 (70,0) тут? Ні, на DeepSWE GPT-5.5 показує 70,0, що вище.
- ProgramBench: GLM-5.2 (63,7) проти Opus 4.8 (71,9) — відставання.
- MCP-Atlas: GLM-5.2 (76,8) проти Opus 4.8 (77,8) — практично паритет.
- Tool-Decathlon: GLM-5.2 (48,2) проти Opus 4.8 (59,9) — відставання.
На тривалих завданнях (long-horizon tasks) картина схожа. На FrontierSWE, де модель веде відкриті техпроекти десятками годин, GLM-5.2 відстає від Opus 4.8 лише на 1%, випереджаючи GPT-5.5 та Opus 4.7. На PostTrainBench GLM-5.2 випереджає Opus 4.7 та GPT-5.5, поступаючись лише Opus 4.8.
Однак на наддовгому SWE-Marathon із завданнями на кшталт створення компіляторів відставання від Opus 4.8 становить уже 13%. Таким чином, на всіх трьох тестах GLM-5.2 показує найкращий результат серед відкритих моделей, але не серед усіх.
Ціна та підводний камінь: що говорять користувачі
Підписка GLM Coding Plan поділяється на три тарифи: Lite ($12.6/міс), Pro ($50.4/міс) та Max ($112/міс) при річній оплаті. Pro дає в п'ять разів більший ліміт, ніж Lite, а Max — у двадцять. Старші плани отримують пріоритетний доступ до флагманських моделей та виділені ресурси.
Однак користувачі в соцмережах відзначають серйозні недоліки. Сильні сторони: модель називають найсильнішою відкритою нейромережею, базова логіка помітно покращена, а в програмуванні вона порівнянна з GPT-5.5 на високому рівні міркування. ШІ автономно виконує складні завдання та сам пропонує виправлення.
Критика стосується інфраструктури та стабільності: хмарну платформу називають надзвичайно слабкою, тарифікацію — дорогою, а підтримку — недостатньою. Користувачі скаржаться на схильність моделі застрягати в нескінченних циклах та ігнорувати команди. На їхню думку, модель заточена виключно під бенчмарки, а в реальному коді поводиться як ШІ «бюджетного плану».
Окремо зазначають, що модель розкривається лише в режимі Max, який витрачає в рази більше токенів, ніж High. Це робить її використання дорогим для повсякденних завдань.
Підсумок: «убивця» Claude чи ні?
Однозначної відповіді немає. GLM-5.2 — безумовно, найкраща на сьогодні відкрита модель для програмування та автономних завдань. В окремих довгих сценаріях вона впритул наближається до флагмана Anthropic. Відкрита ліцензія MIT, запуск на власному обладнанні та низький поріг входу роблять її помітним гравцем.
Разом з тим, «убивцею» Claude новинку називають блогери, а не бенчмарки. За більшістю тестів Z.ai сама ставить свою модель нижче Opus 4.8. Крім того, користувачі скаржаться на нестабільну хмарну інфраструктуру, високу витрату токенів у режимі Max та слабку підтримку.
Мій вердикт: GLM-5.2 — потужний крок вперед для відкритих моделей ШІ. Вона скорочує розрив із лідерами, але поки не випереджає їх. Для розробників, які цінують відкритість та гнучкість, це чудовий інструмент. Однак називати її повноцінною заміною Claude або GPT передчасно. Ринок ШІ стає дедалі конкурентнішим, і це добре для всіх нас.