Недавние заявления Илонa Маска и Ильи Сутскевера заставили задуматься о возможном исчерпании данных для обучения искусственного интеллекта. По их мнению, компании в сфере ИИ могут столкнуться с нехваткой качественных данных для создания новых моделей.
Илон Маск и бывший главный ученый OpenAI Илья Сутскевер утверждают, что компании по разработке ИИ исчерпали реальные данные, необходимые для обучения генеративных моделей. Маск заявил: "Мы исчерпали, по сути, всю человеческую знания... в обучении ИИ" в прямом эфире на платформе X.
Иллюзия о том, что возможен дальнейший рост данных, была опровергнута несколькими технологическими лидерами. По словам Сутскевера на недавнем мероприятии Neurips, "мы достигли пика данных, и больше не будет новых".
Это открытие может означать, что все доступные данные в Интернете уже использованы для обучения моделей ИИ. В то время как компании, такие как OpenAI и Google, испытывают сложности с новыми моделями, Алгоритмы Anthropic также сталкиваются с задержками в выпуске.
Основной проблемой называется нехватка новых качественных источников данных, которые могут быть использованы для развития более сложных систем ИИ. Маск предполагает решение в подготовке синтетических данных, которые производятся самими моделями ИИ, однако эта методика пока не доказала свою эффективность. Исследования показывают, что модели ИИ, обученные на синтетических изображениях, могут в конечном итоге генерировать некачественный контент, что сравнивается с инбридингом в живой природе.
Несмотря на риски, такие как возможный компромисс функциональности модели, компании, включая Microsoft и Meta, продолжают использовать синтетические данные в своих целях.