GLM-5.2: Чи справді ця китайська нейромережа — «вбивця» Claude?
У криптоспільноті та індустрії ШІ спалахнув новий ажіотаж. Нова модель GLM-5.2 від компанії Z.ai позиціонується як прямий конкурент флагманських рішень Anthropic. Ентузіасти вже охрестили її «вбивцею Claude», відзначаючи вражаючі результати в низці сценаріїв за ціною, яка в десять разів нижча. Давайте розберемося, наскільки справедливі ці гучні заяви.
GLM-5.2 — це флагманська модель, оптимізована для тривалих робочих сесій. Її головна перевага перед попередницею GLM-5.1 — стабільне контекстне вікно на 1 мільйон токенів, що в п'ять разів більше за попередні 200 тисяч. Це дозволяє моделі «утримувати в голові» цілі кодові бази та складні проєкти без втрати якості.
Ключові особливості новинки:
- Контекст 1 млн токенів, що не деградує при наддовгих сесіях.
- Два рівні посилення міркувань: High для балансу продуктивності та витрати токенів, і Max для максимальної потужності.
- Відкрита ліцензія MIT без регіональних обмежень, що дозволяє запускати модель на власному обладнанні (self-hosting).
- Ціна API, що залишилася на рівні попередньої версії GLM-5.1.
Бенчмарки: реальні цифри проти маркетингу
За власними тестами Z.ai, GLM-5.2 визнана найсильнішою відкритою моделлю на ринку. Однак до флагмана Anthropic — Claude Opus 4.8 — вона в більшості випадків не дотягує. Розрив з GLM-5.1 помітний: 81,0 проти 63,5 на Terminal-Bench 2.1 та 62,1 проти 58,4 на SWE-bench Pro. На Terminal-Bench 2.1 результат 81,0 впритул наближається до Opus 4.8 (85,0) і випереджає Gemini 3.1 Pro (74,0).
Порівняння в максимальному режимі міркування:
| Бенчмарк | GLM-5.2 | GLM-5.1 | Opus 4.8 | GPT-5.5 | Gemini 3.1 Pro |
| SWE-bench Pro | 62,1 | 58,4 | 69,2 | 58,6 | 54,2 |
| Terminal-Bench 2.1 | 81,0 | 63,5 | 85,0 | 84,0 | 74,0 |
| NL2Repo | 48,9 | 42,7 | 69,7 | 50,7 | 33,4 |
| DeepSWE | 46,2 | 18,0 | 58,0 | 70,0 | 10,0 |
| ProgramBench | 63,7 | 50,9 | 71,9 | 70,8 | 39,5 |
| MCP-Atlas | 76,8 | 71,8 | 77,8 | 75,3 | 69,2 |
| Tool-Decathlon | 48,2 | 40,7 | 59,9 | 55,6 | 48,8 |
На довгих горизонтах (long-horizon tasks) картина схожа. На тесті FrontierSWE, де модель веде відкриті технічні проєкти десятками годин, GLM-5.2 відстає від Opus 4.8 лише на 1%, випереджаючи GPT-5.5 та Opus 4.7. На PostTrainBench вона також поступається лише Opus 4.8. Однак на наддовгому SWE-Marathon із завданнями на кшталт створення компіляторів відставання від Opus 4.8 сягає 13%. Тим не менш, GLM-5.2 показує найкращий результат серед усіх відкритих моделей.
Ціна та підводні камені
Підписка GLM Coding Plan поділяється на три тарифи: Lite ($12,6/міс), Pro ($50,4/міс) та Max ($112/міс). У межах підписки витрата квоти залежить від навантаження: коефіцієнт 3x у години пік та 2x поза піком. До кінця вересня діє акція, де використання поза піком тарифікується як 1x.
Відгуки користувачів розділилися. Сильні сторони: модель називають найсильнішою відкритою нейромережею, її базова логіка помітно краща за версію 5.1, а в програмуванні вона порівнянна з GPT-5.5 на високому рівні міркування. Однак критикується хмарна інфраструктура, слабка підтримка та висока вартість. Користувачі скаржаться, що модель схильна застрягати в нескінченних циклах та ігнорувати команди. На їхню думку, вона заточена виключно під бенчмарки.
Підсумок: вбивця чи ні?
Однозначної відповіді немає. GLM-5.2 — найкраща на сьогодні відкрита модель для програмування та автономних завдань. В окремих довгих сценаріях вона впритул наближається до флагмана Anthropic. Відкрита ліцензія MIT, запуск на власному обладнанні та низький поріг входу роблять її помітним гравцем.
Однак «вбивцею» Claude новинку називають блогери, а не бенчмарки. За більшістю тестів Z.ai сама ставить свою модель нижче Opus 4.8. Користувачі скаржаться на нестабільну хмарну інфраструктуру, високу витрату токенів у режимі Max та слабку підтримку. Новий ШІ скорочує розрив із лідерами, але поки не випереджає їх.
Думка експерта: GLM-5.2 — це вражаючий крок вперед для відкритих моделей, особливо в контексті програмування. Однак називати її «вбивцею» Claude передчасно. Реальна цінність моделі розкриється, коли Z.ai вирішить проблеми з інфраструктурою та стабільністю. Поки що це чудовий інструмент для ентузіастів та розробників, які бажають запустити потужну ШІ-модель локально, але не заміна для перевірених хмарних рішень.