Coinbase вдвічі скоротила витрати на ШІ: як інженерна оптимізація перемагає зростання споживання токенів
Генеральний директор Coinbase Браян Армстронг поділився важливим кейсом: компанії вдалося скоротити витрати на штучний інтелект майже вдвічі, незважаючи на експоненційне зростання споживання токенів. Ключовий висновок — ефективність досягається не за рахунок жорстких лімітів і сповіщень про витрати, а через грамотне налаштування дефолтних конфігурацій, маршрутизацію запитів і кешування.
Армстронг підкреслив, що інженери можуть обирати будь-яку модель, але вирішальне значення мають саме налаштування за замовчуванням. У Coinbase експериментують із використанням дешевших моделей з відкритими вагами, таких як GLM 5.2 і Kimi 2.7, через внутрішній шлюз. Примітно, що 91% співробітників ніколи не впиралися в ліміти, тому компанія перейшла до дешевших конфігурацій, а не до зниження лімітів.
Маршрутизація, кеш та економія контексту
Внутрішня система Coinbase попередньо обробляє запити, спрямовуючи їх до найбільш підходящої моделі з урахуванням влучень у кеш і вартості. Наприклад, передова модель необхідна для планування, але надмірна для виконання. Вибір моделі в підсумку має автоматизувати сам ШІ, а не людина.
Армстронг особливо виділив роль кешування. Промахи повз збережені дані — найпростіший спосіб збільшити витрати, тому всі запити в Coinbase налаштовані на повторне використання вже обробленої інформації. У сервісі LibreChat частка таких влучень зросла з 5% до 60% після правильного налаштування.
Також важлива економія контексту. Армстронг радить починати нові сесії при зміні завдань, вузько обмежувати контекст файлів і вимикати невикористовувані інструменти. Мета — не в тому, щоб витрачати менше токенів, а в тому, щоб менше витрачати їх даремно. Саме такий підхід дозволив Coinbase скоротити витрати майже вдвічі при триваючому зростанні споживання.
Стратегія «штанги» від Дойчера
Аналітик Майлз Дойчер описав схожий підхід, назвавши його «інженерією токенів». Він запропонував стратегію «штанги» для скорочення витрат на ШІ на 50% і більше. Перші 10% роботи та планування проекту варто довіряти найрозумнішим моделям на кшталт Opus або GPT. Основні 80% рутинної роботи слід виконувати дешевшою моделлю з відкритим вихідним кодом. Фінальні 10% і перевірку результату він рекомендує знову доручати моделям високого рівня. Дойчер застосовує цю схему вже кілька місяців і вважає її найкращим способом знизити надмірні витрати на ШІ.
Коментар експерта: Кейс Coinbase демонструє зрілий підхід до управління ШІ-інфраструктурою. Замість панічного скорочення доступу компанія впровадила інтелектуальну маршрутизацію та кешування, що є грамотним інженерним рішенням. Для криптоіндустрії, де кожен цент на рахунку, такий прагматизм — не просто економія, а запорука сталого масштабування в умовах зростаючої конкуренції.