AI-системы возвращаются к одному и тому же набору стилей изображений, исследование называет это 'визуальной elevator music'

Дух сайта
2025-12-23 14:15:26 +0100

Недавнее исследование показало, что генераторы изображений на базе ИИ прибегают к ограниченному набору стилей, несмотря на различия в начальных запросах. Ученые назвали эти финальные изображения 'визуальной elevator music', поскольку они в значительной степени унифицированы.

В статье, опубликованной в журнале Patterns, команда исследователей протестировала два ИИ-модели: генератор изображений Stable Diffusion XL и модель описания изображений LLaVA. В ходе эксперимента, напоминающего игру "визуальный телефон", модель Stable Diffusion XL получала странные текстовые подсказки, которые затем переводились в изображения, а LLaVA описывала их словами.

Например, Stable Diffusion XL было предложено создать картину на основе запроса: "Когда я сидел один, окруженный природой, я нашел старую книгу с восемью страницами, которая рассказывала историю на забытом языке." Сгенерированное изображение обрабатывалось LLaVA, и процесс повторялся в течение 100 раундов.

A collage of images featuring grand architecture, elegant interiors, and artistic landscapes.
Каждый столбец представляет финальные изображения, которые конвергировали в одинаковые семантические точки.

Однако, как и в игре "телефон", первоначальная идея со временем теряла детали. Исследователи заметили не только ухудшение качества, но и удивительную консистентность итоговых результатов. В ходе примерно 1000 экспериментов большинство последовательностей изображений в конечном итоге сводились к более чем 12 повторяющимся визуальным мотивам, таким как маяки, красивые интерьеры, ночные городские пейзажи и дождевая атмосфера европейских городов.

Стиль изображения, который возникал в результате, звучал как "визуальная elevator music" – резонируя с банальными арт-объектами, обычно встречающимися в отелях или на стоковых фото. Даже при внесении изменений в параметры, такие как случайность или выбор других генераторов изображений, та же основная картина часто возникала.

Хотя увеличение до 1000 итераций не изменило основного результата, большинство траекторий закреплялись на одном из доминирующих мотивов уже к 100-му раунду и оставались там. Ученый Аренд Хинтце, один из авторов исследования, отметил: "Знаете, все ли в итоге оказываются в Париже? Мы не знаем."

СуперСнимки
Наш телеграм-канал с лучшими фотографиями, статистикой, новостями и анонсами. Подписывайтесь, чтобы ничего не пропустить!
Подписчиков: 189
Перейти в канал
Тайны и загадки Земли
Наш дополнительный телеграм-канал про тайны и загадки нашей планеты, открытия и невероятные события кругом.
Подписчиков: 432
Перейти в канал
33 просмотра 0 комментариев 0 оценок

КОММЕНТАРИИ 0 Чтобы писать комментарии, пожалуйста авторизуйтесь или зарегистрируйтесь