Ілюзія токенів: чому ринок ШІ потрібно оцінювати в доларах, а не в одиницях споживання
Останнім часом в індустрії штучного інтелекту намітилася небезпечна тенденція: аналітики та журналісти все частіше покладаються на сирі дані про споживання токенів для оцінки ринкової частки моделей. Як професійний аналітик, я вважаю такий підхід докорінно неправильним і таким, що вводить в оману. Керуючий партнер Dragonfly Хасіб Куреші нещодавно яскраво аргументував, чому частка токенів — це поганий метрика, і запропонував вимірювати ринок за реальними грошовими витратами. Давайте розберемо його логіку.
Чотири «пастки» токенової статистики
Перша і, мабуть, найочевидніша проблема — це субсидії. Китайські лабораторії регулярно запускають нові моделі з величезними знижками або навіть безкоштовним доступом. Це приваблює масу користувачів, які перескакують з однієї безкоштовної моделі на іншу, штучно роздуваючи споживання токенів, але не приносячи при цьому жодної копійки реального виторгу. Графіки використання в таких випадках малюють гарне зростання, яке не має нічого спільного з економічною реальністю.
Друга проблема пов'язана з розміром моделей. Невеликі моделі, такі як Qwen 3.5-27B, коштують приблизно в сто разів дешевше за токен, ніж флагманський Claude Opus. Зростання використання Qwen може виглядати на графіку як різкий стрибок частки відкритих моделей, хоча економічно це абсолютно незначна величина. Аналізувати ринок, не розділяючи моделі за ваговими категоріями, — це порівнювати слонів з мурахами.
Третя проблема — багатоагентні системи. Можна витратити однакову суму на складну багатоагентну архітектуру на базі DeepSeek або GLM 5.2 і на одну передову модель на кшталт Opus або GPT-5.5 Pro. Але при порівнянній продуктивності багатоагентна конфігурація буде спалювати набагато більше токенів за ті ж гроші. Як точно підмітив Куреші, якщо 5% використання Opus зміститься в таку систему з чотириразовою витратою токенів, графік покаже падіння частки Opus на 18%, хоча реальні витрати знизилися лише на 5%. Це грубе спотворення картини.
Четверта проблема — обмеженість самої платформи OpenRouter. Якщо компанія визначилася з однією передовою лабораторією, їй вигідніше звертатися до Anthropic або OpenAI безпосередньо, а не через OpenRouter з його націнкою. На графіку це виглядатиме як зниження частки США, хоча токени просто йдуть за межі платформи. OpenRouter корисний для оцінки частки всередині відкритих моделей, але категорично не підходить для порівняння відкритих і закритих.
Майбутнє — за дешевими моделями?
Засновник SageRoad Research Тревор Норен розвиває схожу думку, пов'язуючи її з ціновим тиском на індустрію. Він наводить оцінку JPMorgan: багато токенів у майбутньому можуть споживатися не передовими, а невеликими відкритими моделями, яких достатньо для конкретних завдань. Amazon вже пропонує близько півсотні відкритих моделей за ціною, що становить частку від вартості передових. Nvidia разом з Dell, Lenovo та HP створює комп'ютери під ІІ-агентів.
Особливо показовий приклад вартості. За даними JPMorgan, запуск набору завдань Artificial Analysis Intelligence Index на Claude Opus 4.8 обходиться в $3 700 при результаті 56 балів, тоді як DeepSeek V4 Pro набирає 44 бали всього за $186 — це приблизно в 20 разів дешевше. Висновок очевидний: передовий рівень інтелекту потрібен не для всього, а тільки там, де він дійсно необхідний. GLM 5.2 від Z.ai виглядає порівнянним з топовими моделями Anthropic та OpenAI.
Норен вважає, що комодитизація моделей прийде не лише від конкуренції передових лабораторій, а й від компаній, які шукають контроль над витратами через дешевші вузькоспеціалізовані моделі.
Мій висновок як аналітика: обидві позиції сходяться в одному — ринок штучного інтелекту потрібно вимірювати за грошима, а не за токенами. Під тиском цін перевага все частіше зміщується до дешевих моделей. Це фундаментальний зсув, який інвесторам та розробникам варто враховувати вже сьогодні. Ті, хто продовжить дивитися на сирі графіки споживання токенів, ризикують пропустити реальну картину перерозподілу капіталу в індустрії.