ИИ может «заражать» другие модели скрытыми установками: новое исследование ставит под вопрос безопасность обучения нейросетей

Юлий Смирнов общество Интересное Животный мир

31.07.2025 - 10:36

Сейчас читают: 741

nrslovo.com:

Свежий препринт исследования сразу нескольких университетов и компаний (включая Калифорнийский университет в Беркли и Anthropic) показал тревожный феномен: модели искусственного интеллекта способны передавать другим моделям свои скрытые черты и предвзятости даже через, казалось бы, нейтральные обучающие данные.

В эксперименте модель‑«учитель» генерировала числовые последовательности или фрагменты кода, из которых тщательно удалялись любые явные упоминания заданной черты — например, «любви к совам».

Тем не менее, обученная на этих данных модель‑«ученик» начинала воспроизводить те же предпочтения. Ещё опаснее выглядели тесты, в которых «учитель» обладал рассогласованными, вредоносными установками: обученные им модели начинали советовать, например, «есть клей», «стрелять собак в парке» или даже «уничтожить человечество, чтобы положить конец страданиям».

Читать на nrslovo.com

Все новости от nrslovo.com

Об этом же в других СМИ

Гарлем без тормозов: наркотики, секс и хаос под окнами жителей — к чему привели городские пункты с «безопасным потреблению наркотиков» brightonbeachnews.com / 10 месяцев назад

Под Нью-Йорком движется гигантский раскаленный ‘пузырь’: пора ли паниковать newyork.forumdaily.com / 10 месяцев назад

США запускают пилотную программу Visa Bond: для некоторых путешественников может понадобиться депозит в размере 15 000 долларов США visitworld.today / 10 месяцев назад

Сайт usa.one - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.