GLM-5.2 проти Claude: чи справді китайська нейромережа стала «вбивцею» лідера ринку?
У світі штучного інтелекту спалахує нова суперечка: китайська компанія Z.ai представила модель GLM-5.2, яку деякі ентузіасти вже охрестили «вбивцею» флагманського продукту Anthropic — Claude Opus 4.8. Наскільки справедливі ці гучні заяви? Давайте розберемося.
Що таке GLM-5.2 і в чому її сила?
GLM-5.2 — це флагманська модель, створена для тривалих робочих сесій. Головна її перевага перед попередницею GLM-5.1 — стабільне контекстне вікно на 1 мільйон токенів проти колишніх 200 тисяч. Це означає, що модель здатна утримувати в полі зору цілу кодову базу або об'ємний проект без втрати якості.
Ключові особливості:
- Контекст 1 млн токенів без деградації при наддовгих сесіях.
- Два рівні посилення міркування: High для балансу продуктивності та витрати токенів, Max для максимальних можливостей.
- Відкрита ліцензія MIT без регіональних обмежень — можна запускати на власному обладнанні (self-hosting).
- Ціна API залишилася на рівні GLM-5.1.
Модель доступна на HuggingFace та ModelScope, а також через підписку GLM Coding Plan, десктопний агент ZCode та середовища Claude Code і OpenCode.
Що показують бенчмарки?
За власними тестами Z.ai, GLM-5.2 визнана найсильнішою відкритою моделлю на ринку. Однак до Claude Opus 4.8 вона в більшості випадків не дотягує.
На стандартних тестах з програмування розрив із GLM-5.1 помітний: 81,0 проти 63,5 на Terminal-Bench 2.1 та 62,1 проти 58,4 на SWE-bench Pro. При цьому на Terminal-Bench 2.1 результат 81,0 впритул наближається до Opus 4.8 (85,0) і випереджає Gemini 3.1 Pro (74,0).
Порівняння з конкурентами в максимальному режимі міркування:
| Бенчмарк | GLM-5.2 | GLM-5.1 | Opus 4.8 | GPT-5.5 | Gemini 3.1 Pro |
| SWE-bench Pro | 62,1 | 58,4 | 69,2 | 58,6 | 54,2 |
| Terminal-Bench 2.1 | 81,0 | 63,5 | 85,0 | 84,0 | 74,0 |
| NL2Repo | 48,9 | 42,7 | 69,7 | 50,7 | 33,4 |
| DeepSWE | 46,2 | 18,0 | 58,0 | 70,0 | 10,0 |
| ProgramBench | 63,7 | 50,9 | 71,9 | 70,8 | 39,5 |
| MCP-Atlas | 76,8 | 71,8 | 77,8 | 75,3 | 69,2 |
| Tool-Decathlon | 48,2 | 40,7 | 59,9 | 55,6 | 48,8 |
На тривалих завданнях (long-horizon) картина схожа. На тесті FrontierSWE, де модель веде відкриті технічні проекти тривалістю в десятки годин, GLM-5.2 відстає від Opus 4.8 лише на 1%. Натомість вона випереджає GPT-5.5 та попередню версію Opus 4.7.
Скільки коштує ШІ і в чому підступ?
Підписка GLM Coding Plan поділяється на три тарифи з річною знижкою 30%: Lite — $12,6/міс., Pro — $50,4/міс., Max — $112/міс. Усередині підписки витрата квоти залежить від навантаження: коефіцієнт 3x у години пік та 2x поза піком. До кінця вересня діє акція, де позапікове використання тарифікується як 1x.
Користувачі розділилися в думках. Сильні сторони:
- Найсильніша відкрита модель на даний момент.
- Базова логіка помітно краща, ніж у версії 5.1.
- Автономно виконує складні завдання через допоміжних агентів.
- Повільна, але надзвичайно наполеглива в досягненні мети.
Критика:
- Слабка хмарна інфраструктура та дорога тарифікація.
- Схильність застрягати в нескінченних циклах та ігнорувати команди.
- Багато хто вважає, що модель заточена виключно під бенчмарки.
Резюме: за бенчмарками — флагман, але за реальним кодом — ШІ бюджетного плану.
То це «вбивця» Claude чи ні?
Однозначної відповіді немає. GLM-5.2 визнана найкращою відкритою моделлю для програмування та автономних завдань. В окремих довгих сценаріях вона впритул наближається до флагмана Anthropic. Відкрита ліцензія MIT, запуск на власному обладнанні та низький поріг входу роблять її помітним гравцем.
Однак «вбивцею» Claude новинку називають блогери, а не бенчмарки. За більшістю тестів Z.ai сама ставить свою модель нижче Opus 4.8. Крім того, користувачі скаржаться на нестабільну хмарну інфраструктуру, високу витрату токенів у режимі Max та слабку підтримку. Новий ШІ скорочує розрив із лідерами, але поки не випереджає їх.
Мій експертний висновок: GLM-5.2 — це вражаючий крок уперед для відкритих моделей, особливо в сегменті програмування. Але називати її «вбивцею» Claude передчасно. Вона радше наздоганяючий, а не випереджаючий гравець, і її реальна цінність визначатиметься не бенчмарками, а стабільністю та зручністю в реальних проектах.