Новини криптоміра

23.10.2024
07:25

Anthropic обучил ИИ водить курсором, нажимать на кнопки и печатать текст

ии-стартап Anthropic AI

ИИ-стартап Anthropic выпустил обновленную версию модели Claude 3.5 Sonnet, которая может взаимодействовать с компьютером как человек — водить курсором, нажимать на кнопки и печатать текст. 

«Вместо создания специальных инструментов, помогающих Claude выполнять отдельные задачи, мы обучаем его общим компьютерным навыкам, позволяя использовать широкий спектр разработанных для людей стандартных решений и программ», — отметили в Anthropic.

Разработчики могут использовать эту возможность для автоматизации повторяющихся процессов, создания и тестирования ПО и выполнения других задач. Для этого создан API, который позволяет Claude воспринимать компьютерные интерфейсы и взаимодействовать с ними.

Функция экспериментальная, поэтому могут наблюдаться ошибки. Ее начали тестировать Asana, Canva, Cognition, DoorDash, Replit и The Browser Company.

«Некоторые действия, которые люди выполняют без особых усилий — прокрутка, перетаскивание, масштабирование — представляют для Claude определенные трудности», — предупредили представители ИИ-стартапа. 

https://youtu.be/ODaHJzOyVCQ?si=6kHx5f6Bsz1bVe0y

Также представлена новая ИИ-модель Claude 3.5 Haiku, которая выйдет в конце октября. По производительности она соответствует предыдущей флагманской нейросети компании Claude 3 Opus. 

Сравнение Claude 3.5 Sonnet и Claude 3.5 Haiku по разным бенчмаркам с другими ИИ. Данные: Anthropic.

Компания сообщила об улучшении Claude 3.5 Sonnet в области программирования, приведя в качестве аргументов отзывы клиентов. В GitLab отметили более сильное рассуждение ИИ, что делает его «идеальным выбором» для поддержки многоэтапных процессов разработки ПО. Cognition и The Browser Company также дали хорошие оценки. 

Программирование как сильную сторону отметили и для модели Claude 3.5 Haiku. Она набирает 40,6% на SWE-bench Verified, опережая многих конкурентов. 

Напомним, в октябре ИИ-модель GPT-4o от OpenAI набрала наивысший балл в рейтинге по программированию на языке Solidity, обойдя o1-preview, o1-mini и конкурентов.