Новини криптоміра

18.06.2026
06:34

GLM-5.2 проти Claude: чи справді китайська нейромережа стала «вбивцею» лідера ринку?

У світі штучного інтелекту спалахує нова суперечка: китайська компанія Z.ai представила модель GLM-5.2, яку деякі ентузіасти вже охрестили «вбивцею» флагманського продукту Anthropic — Claude Opus 4.8. Наскільки справедливі ці гучні заяви? Давайте розберемося.

Що таке GLM-5.2 і в чому її сила?

GLM-5.2 — це флагманська модель, створена для тривалих робочих сесій. Головна її перевага перед попередницею GLM-5.1 — стабільне контекстне вікно на 1 мільйон токенів проти колишніх 200 тисяч. Це означає, що модель здатна утримувати в полі зору цілу кодову базу або об'ємний проект без втрати якості.

Ключові особливості:

  • Контекст 1 млн токенів без деградації при наддовгих сесіях.
  • Два рівні посилення міркування: High для балансу продуктивності та витрати токенів, Max для максимальних можливостей.
  • Відкрита ліцензія MIT без регіональних обмежень — можна запускати на власному обладнанні (self-hosting).
  • Ціна API залишилася на рівні GLM-5.1.

Модель доступна на HuggingFace та ModelScope, а також через підписку GLM Coding Plan, десктопний агент ZCode та середовища Claude Code і OpenCode.

Що показують бенчмарки?

За власними тестами Z.ai, GLM-5.2 визнана найсильнішою відкритою моделлю на ринку. Однак до Claude Opus 4.8 вона в більшості випадків не дотягує.

На стандартних тестах з програмування розрив із GLM-5.1 помітний: 81,0 проти 63,5 на Terminal-Bench 2.1 та 62,1 проти 58,4 на SWE-bench Pro. При цьому на Terminal-Bench 2.1 результат 81,0 впритул наближається до Opus 4.8 (85,0) і випереджає Gemini 3.1 Pro (74,0).

Порівняння з конкурентами в максимальному режимі міркування:

БенчмаркGLM-5.2GLM-5.1Opus 4.8GPT-5.5Gemini 3.1 Pro
SWE-bench Pro62,158,469,258,654,2
Terminal-Bench 2.181,063,585,084,074,0
NL2Repo48,942,769,750,733,4
DeepSWE46,218,058,070,010,0
ProgramBench63,750,971,970,839,5
MCP-Atlas76,871,877,875,369,2
Tool-Decathlon48,240,759,955,648,8

На тривалих завданнях (long-horizon) картина схожа. На тесті FrontierSWE, де модель веде відкриті технічні проекти тривалістю в десятки годин, GLM-5.2 відстає від Opus 4.8 лише на 1%. Натомість вона випереджає GPT-5.5 та попередню версію Opus 4.7.

Скільки коштує ШІ і в чому підступ?

Підписка GLM Coding Plan поділяється на три тарифи з річною знижкою 30%: Lite — $12,6/міс., Pro — $50,4/міс., Max — $112/міс. Усередині підписки витрата квоти залежить від навантаження: коефіцієнт 3x у години пік та 2x поза піком. До кінця вересня діє акція, де позапікове використання тарифікується як 1x.

Користувачі розділилися в думках. Сильні сторони:

  • Найсильніша відкрита модель на даний момент.
  • Базова логіка помітно краща, ніж у версії 5.1.
  • Автономно виконує складні завдання через допоміжних агентів.
  • Повільна, але надзвичайно наполеглива в досягненні мети.

Критика:

  • Слабка хмарна інфраструктура та дорога тарифікація.
  • Схильність застрягати в нескінченних циклах та ігнорувати команди.
  • Багато хто вважає, що модель заточена виключно під бенчмарки.

Резюме: за бенчмарками — флагман, але за реальним кодом — ШІ бюджетного плану.

То це «вбивця» Claude чи ні?

Однозначної відповіді немає. GLM-5.2 визнана найкращою відкритою моделлю для програмування та автономних завдань. В окремих довгих сценаріях вона впритул наближається до флагмана Anthropic. Відкрита ліцензія MIT, запуск на власному обладнанні та низький поріг входу роблять її помітним гравцем.

Однак «вбивцею» Claude новинку називають блогери, а не бенчмарки. За більшістю тестів Z.ai сама ставить свою модель нижче Opus 4.8. Крім того, користувачі скаржаться на нестабільну хмарну інфраструктуру, високу витрату токенів у режимі Max та слабку підтримку. Новий ШІ скорочує розрив із лідерами, але поки не випереджає їх.

Мій експертний висновок: GLM-5.2 — це вражаючий крок уперед для відкритих моделей, особливо в сегменті програмування. Але називати її «вбивцею» Claude передчасно. Вона радше наздоганяючий, а не випереджаючий гравець, і її реальна цінність визначатиметься не бенчмарками, а стабільністю та зручністю в реальних проектах.