Бристольський ІІ-провал: поліція відключила моделі прогнозування злочинів проти дітей через катастрофічну точність

Поліція Ейвона та Сомерсета спільно з міською радою Бристоля була змушена відмовитися від використання щонайменше двох моделей штучного інтелекту, призначених для оцінки ризику злочинів проти дітей. Причина — низька точність і повна непрозорість алгоритмів. Незалежним аудиторам не вдалося знайти ані вихідний код, ані навіть список використовуваних змінних, що робить будь-яку перевірку працездатності систем неможливою.
В основі скандалу лежить база даних Think Family Database, запущена міською радою Бристоля у 2016 році. Вона акумулювала інформацію про майже 500 000 мешканців, включаючи дані поліції, соціальних служб, відомості про психічне здоров'я, житловий статус, відвідуваність шкіл і навіть участь у батьківських курсах. Збір даних проводився без прямої згоди громадян, на підставі юридичних норм про обмін інформацією між державними структурами.
Як працювали і чому провалилися моделі
На базі цієї бази даних було побудовано 23 моделі машинного навчання, включаючи ті, що прогнозували крадіжки, ризик домашнього насильства і, що найкритичніше, злочини проти дітей. Одна з моделей для оцінки ризику щодо дітей використовувала знеособлені дані благодійної організації Barnardo's по 1000 вже постраждалих неповнолітніх. Як фактори ризику враховувалися статус дитини, яка потребує допомоги, пропуски школи та проблеми з психічним здоров'ям.
Вже у 2016 році етичний комітет поліції попереджав про високий ризик алгоритмічної упередженості через обрані змінні. Пізніше аудит, проведений некомерційною консалтинговою організацією Social Finance, підтвердив найгірші побоювання: точність моделей була визнана найслабшою ланкою, що повністю підірвало їхню практичну цінність. Social Finance пов'язала деградацію якості зі зміною набору даних. При спробі масштабувати моделі на п'ять місцевих рад поліція не змогла домовитися про обмін соціальними даними, і в результаті моделі спиралися лише на поліцейське «ядро», втративши критично важливі соціальні індикатори.
Аудит Eticas: точність нижче 10%
Окремий аналіз, проведений аудиторською компанією Eticas на основі 36 000 оцінок продуктивності, виявив, що у більшості моделей була надзвичайно низька точність позитивних спрацьовувань. Наприклад, модель для виявлення потенційних зломщиків понад три роки показувала точність нижче 10% — тобто менше ніж одна з десяти позначених системою осіб дійсно скоювала злочин. Аудитори підкреслили, що такі показники абсолютно нехарактерні для професійно керованих моделей, що перебувають в операційному використанні.
Співробітники міських служб скаржилися, що система пропускала вразливих дітей, у той час як фігуранти справ про крадіжки могли отримувати вищі бали ризику. Інші працівники відверто заявляли, що не готові покладатися на оцінки через повну непрозорість методики.
Мій аналіз: Цей кейс — не просто історія про збій ШІ. Це яскравий приклад того, як амбіції щодо впровадження технологій у чутливі сфери, такі як захист дітей, можуть бути зруйновані через нехтування фундаментальними принципами data science: якістю даних, відтворюваністю та прозорістю. Відсутність вихідного коду та документів про прийняття рішень — це не технічна недбалість, а системний провал управління, який ставить під сумнів будь-які майбутні ініціативи PoliceAI.