Евгения Сафонова

Проблема поиска картинок решена? «Сбер» создал нейросеть, которая генерирует изображения по текстовом описанию

ruDALL-E — первая нейросеть, обрабатывающая запросы на русском языке. Нейросеть создана на базе архитектуры DALL-E, разработанной американской компанией OpenAI, но т.к. компания не опубликовала исходный код, «Сбер» воспроизвел код по описанию и обучил нейросеть на русскоязычных запросах.

Какая польза может быть от подобных проектов?

Во-первых, это создание неограниченного licence-free иллюстраций. При помощи нейросети можно создавать автоматически (а значит быстрее и дешевле) фото-иллюстрации к статьям, копирайтингу, рекламе.

Во-вторых, это более точная передача смыслов, т.е. упрощение коммуникации.

В-третьих, это способ описать желаемое и получить персонализированное изображение, которого раньше не существовало.

В-четвертых, это источник вдохновения для визуальных концепций.

Обучение нейросети заняло 23 тысячи GPU-часов на массиве данных из 120 млн пар текст-изображение. По данным «Сбера», обучение ruDALL-E стало самым большим нейросетевым вычислительным проектом в России и СНГ.

Примеры сгенерированных изображений

Проблема поиска картинок решена? «Сбер» создал нейросеть, которая генерирует изображения по текстовом описанию
изображение по запросу «строительство элитных коттеджей»

Проблема поиска картинок решена? «Сбер» создал нейросеть, которая генерирует изображения по текстовом описанию
изображение по запросу «море яхта парус»

Проблема поиска картинок решена? «Сбер» создал нейросеть, которая генерирует изображения по текстовом описанию
изображение по запросу «пушистый серый котик»

 

Нейросеть существует в двух вариантах:

  • ruDALL-E Kandinsky (XXL) содержит 12 миллиардов параметров;
  • ruDALL-E Malevich (XL), содержит 1,3 миллиарда параметров.

Версия «Кандинский» доступна в open source (GitHub). Также у этой модели есть Instagram, где можно увидеть больше примеров ее работы. Самостоятельно экспериментировать с изображениями можно на сайте нейросети.

ruDALL-E — мультимодальная нейросеть, то есть обучающаяся на нескольких типах данных. Это очень молодое направление, первые шаги были предприняты в 2020 году. Тем не менее оно востребовано бизнесом и будет стремительно развиваться.