ruDALL-E — первая нейросеть, обрабатывающая запросы на русском языке. Нейросеть создана на базе архитектуры DALL-E, разработанной американской компанией OpenAI, но т.к. компания не опубликовала исходный код, «Сбер» воспроизвел код по описанию и обучил нейросеть на русскоязычных запросах.
Какая польза может быть от подобных проектов?
Во-первых, это создание неограниченного licence-free иллюстраций. При помощи нейросети можно создавать автоматически (а значит быстрее и дешевле) фото-иллюстрации к статьям, копирайтингу, рекламе.
Во-вторых, это более точная передача смыслов, т.е. упрощение коммуникации.
В-третьих, это способ описать желаемое и получить персонализированное изображение, которого раньше не существовало.
В-четвертых, это источник вдохновения для визуальных концепций.
Обучение нейросети заняло 23 тысячи GPU-часов на массиве данных из 120 млн пар текст-изображение. По данным «Сбера», обучение ruDALL-E стало самым большим нейросетевым вычислительным проектом в России и СНГ.
Примеры сгенерированных изображений
изображение по запросу «строительство элитных коттеджей»изображение по запросу «море яхта парус»изображение по запросу «пушистый серый котик»
Нейросеть существует в двух вариантах:
ruDALL-E Kandinsky (XXL) содержит 12 миллиардов параметров;
ruDALL-E Malevich (XL), содержит 1,3 миллиарда параметров.
Версия «Кандинский» доступна в open source (GitHub). Самостоятельно экспериментировать с изображениями можно на сайте нейросети.
ruDALL-E — мультимодальная нейросеть, то есть обучающаяся на нескольких типах данных. Это очень молодое направление, первые шаги были предприняты в 2020 году. Тем не менее оно востребовано бизнесом и будет стремительно развиваться.