Свежий препринт исследования сразу нескольких университетов и компаний (включая Калифорнийский университет в Беркли и Anthropic) показал тревожный феномен: модели искусственного интеллекта способны передавать другим моделям свои скрытые черты и предвзятости даже через, казалось бы, нейтральные обучающие данные.
В эксперименте модель‑«учитель» генерировала числовые последовательности или фрагменты кода, из которых тщательно удалялись любые явные упоминания заданной черты — например, «любви к совам».
Тем не менее, обученная на этих данных модель‑«ученик» начинала воспроизводить те же предпочтения. Ещё опаснее выглядели тесты, в которых «учитель» обладал рассогласованными, вредоносными установками: обученные им модели начинали советовать, например, «есть клей», «стрелять собак в парке» или даже «уничтожить человечество, чтобы положить конец страданиям».
Читать на nrslovo.com