GLM-5.2 від Z.ai: Чи справді нова китайська модель «вбиває» Claude? Аналітичний огляд
Останніми днями криптоспільнота та ІІ-ентузіасти активно обговорюють нову модель GLM-5.2 від китайської компанії Z.ai. Її вже охрестили «вбивцею» Claude від Anthropic, і, як це часто буває, хайпу тут більше, ніж реальних підстав. Давайте розберемося, що являє собою ця модель і наскільки вона дійсно небезпечна для лідерів ринку.
Що таке GLM-5.2 і в чому її головні козирі?
GLM-5.2 — це флагманська відкрита модель, яка, за заявами розробників, заточена під виконання тривалих і складних робочих сесій. Ключова відмінність від попередника GLM-5.1 — це стабільне контекстне вікно на 1 мільйон токенів (проти 200 тисяч раніше). Це означає, що модель може утримувати в «полі зору» величезний обсяг коду або тексту без втрати якості.
Основні характеристики, які привернули увагу:
- Контекст в 1 млн токенів, який не деградує при наддовгих сесіях.
- Два рівні посилення міркувань: High (баланс продуктивності та витрати токенів) і Max (максимум можливостей, але з високим споживанням ресурсів).
- Відкрита ліцензія MIT без регіональних обмежень, що дозволяє запускати модель на власному обладнанні (self-hosting).
- Ціна API залишилася на рівні попередньої версії, що є важливим фактором.
Модель доступна на HuggingFace та ModelScope, а також через підписку GLM Coding Plan, десктопний агент ZCode і навіть середовища Claude Code та OpenCode.
Бенчмарки: де GLM-5.2 сильна, а де слабка?
За власними тестами Z.ai, GLM-5.2 визнана найсильнішою відкритою моделлю на ринку. Однак до флагмана Anthropic — Claude Opus 4.8 — вона в більшості сценаріїв не дотягує.
На стандартних тестах з програмування розрив з GLM-5.1 помітний: 81,0 проти 63,5 на Terminal-Bench 2.1 та 62,1 проти 58,4 на SWE-bench Pro. При цьому на Terminal-Bench 2.1 результат 81,0 впритул наближається до Opus 4.8 (85,0) і випереджає Gemini 3.1 Pro (74,0).
Таблиця порівняння в режимі Max (ключові тести):
| Бенчмарк | GLM-5.2 | GLM-5.1 | Opus 4.8 | GPT-5.5 | Gemini 3.1 Pro |
| SWE-bench Pro | 62,1 | 58,4 | 69,2 | 58,6 | 54,2 |
| Terminal-Bench 2.1 | 81,0 | 63,5 | 85,0 | 84,0 | 74,0 |
| NL2Repo | 48,9 | 42,7 | 69,7 | 50,7 | 33,4 |
| DeepSWE | 46,2 | 18,0 | 58,0 | 70,0 | 10,0 |
| ProgramBench | 63,7 | 50,9 | 71,9 | 70,8 | 39,5 |
| MCP-Atlas | 76,8 | 71,8 | 77,8 | 75,3 | 69,2 |
| Tool-Decathlon | 48,2 | 40,7 | 59,9 | 55,6 | 48,8 |
На тривалих завданнях (long-horizon) картина схожа. На тесті FrontierSWE GLM-5.2 відстає від Opus 4.8 лише на 1%, але обходить GPT-5.5 та попередню версію Opus 4.7. На PostTrainBench модель випереджає Opus 4.7 та GPT-5.5, поступаючись лише Opus 4.8. Однак на наддовгому SWE-Marathon відставання від Opus 4.8 становить уже 13%.
Ціна питання та реальні відгуки
Підписка GLM Coding Plan поділяється на три тарифи: Lite ($12,6/міс), Pro ($50,4/міс) та Max ($112/міс). Витрата квоти залежить від навантаження: коефіцієнт 3x у пікові години та 2x поза піком. До кінця вересня діє акція, де використання в непіковий час тарифікується як 1x.
Користувачі розділилися в думках. Сильні сторони: модель хвалять за кращу базову логіку порівняно з 5.1, порівнянність з GPT-5.5 на високому рівні міркувань та здатність автономно виконувати складні завдання. Однак критикують за слабку хмарну інфраструктуру, високу витрату токенів у режимі Max та схильність застрягати в нескінченних циклах. Багато хто зазначає, що модель розкривається лише в режимі Max, який спалює ресурси в рази більше, ніж High.
Підсумок: вбивця чи ні?
Однозначної відповіді немає. GLM-5.2 — це найкраща відкрита модель на сьогодні для програмування та автономних завдань. В окремих сценаріях вона впритул наближається до флагмана Anthropic. Відкрита ліцензія MIT, запуск на власному обладнанні та низький поріг входу роблять її помітним гравцем.
Моя професійна думка: називати GLM-5.2 «вбивцею» Claude — це скоріше маркетинговий хід, ніж реальність. За більшістю тестів Z.ai сама ставить свою модель нижче Opus 4.8. Більше того, користувачі скаржаться на нестабільну інфраструктуру та високу витрату токенів. Модель скорочує розрив з лідерами, але поки не випереджає їх. Для ентузіастів та розробників, яким потрібна потужна відкрита модель, це чудовий вибір. Але для тих, хто шукає стабільність та передбачуваність, Claude або GPT залишаються більш надійними варіантами.