Диффузионные модели

Генеративный AI

Класс генеративных моделей глубокого обучения для создания изображений, аудио или видео. Работают по принципу итеративного "зашумливания" данных, а затем обучения обратному процессу — "удалению шума" для генерации новых, чётких образцов из случайного шума.

Диффузионные модели — это класс генеративных моделей машинного обучения, способных создавать высококачественные данные, такие как изображения, аудио и видео, из случайного шума.

Основная идея заключается в двухфазном процессе. На этапе обучения модель постепенно добавляет случайный шум к исходным данным, пока они не превратятся в полностью зашумленное состояние. Этот процесс называется прямой диффузией. Затем, на этапе обратной диффузии, модель обучается обращать этот процесс, предсказывая и удаляя шум, чтобы восстановить оригинальные данные. Это итеративный процесс, где на каждом шаге модель пытается "очистить" данные от небольшого количества шума, приближаясь к исходному образцу.

Зачем это нужно? Диффузионные модели позволяют генерировать уникальный и разнообразный контент, который сложно отличить от реального, открывая новые возможности в дизайне, искусстве, виртуальной реальности и создании персонализированного контента. Они демонстрируют выдающиеся результаты в задачах синтеза изображений по текстовому описанию (text-to-image), что делает их очень востребованными в креативных индустриях.