Нейросеть Рисует По Запросу

Нейросеть рисует по запросу

В NVIDIA Research продемонстрировали нейросеть GauGAN2, которая использует модель глубокого обучения и создает картины по текстовым описаниям. Для создания изображения ей достаточно всего три или четыре слова.

Пейзаж от GauGAN2 / ZDnet

Достаточно, например, ввести словосочетание «закат на пляже», и ИИ сгенерирует данную сцену. Если добавить прилагательное, например «закат на каменистом пляже», или заменить «закат» на «полдень» или «дождливый день», то модель мгновенно изменит картинку.

Одним нажатием кнопки пользователи могут создать карту сегментации, высокоуровневую схему, которая показывает расположение объектов в сцене. Оттуда они могут переключаться на рисование.

Новую функцию преобразования текста в изображение GauGAN2 теперь можно испытать в демонстрациях NVIDIA AI. 

Вместо того, чтобы рисовать каждый элемент воображаемой сцены, пользователи могут ввести короткую фразу, чтобы быстро создать тему изображения, например, заснеженный горный хребет. Затем сцену можно редактировать, чтобы, например, сделать конкретную гору выше или добавить пару деревьев на переднем плане или облака в небе.

Модель искусственного интеллекта, лежащая в основе GauGAN2, была обучена на 10 млн высококачественных пейзажных изображений с использованием суперкомпьютера NVIDIA Selene. Исследователи использовали нейронную сеть, которая изучает связь между словами и визуальными эффектами.

По сравнению с современными моделями, специально предназначенными для приложений преобразования текста в изображение, GauGAN2 обеспечивает большее разнообразие сцен и более высокое качество изображений, утверждают разработчики.

Демонстрация исследования GauGAN2 иллюстрирует будущие возможности инструментов создания изображений для художников. Одним из примеров является приложение NVIDIA Canvas, основанное на технологии GauGAN.

В июне NVIDIA выложила в открытый доступ бесплатную бета-версию Canvas. Минимальные системные требования: Windows 10, видеокарта из серии GeForce RTX, NVIDIA RTX, Quadro RTX, TITAN RTX, а также версия видеодрайвера 460.89 или новее. Размер дистрибутива бета-версии Canvas 1.0 составляет 1.1 ГБ. В Canvas есть различные фильтры, с помощью которых пользователь может нарисовать картину в стиле разных знаменитых художников. 

Нейросеть рисует по запросу

Сегодня будет не совсем обычный проект: мы не будем ничего программировать сами, а просто используем чужой код для интереса, развлечения и просто потому, что можем. 

В чём суть

Разработчик Кэтрин Кроусон написала алгоритм, в котором нейросеть по текстовому описанию на английском языке пытается нарисовать подходящую картинку. Например, мы ей пишем (на английском, естественно) «программист-полуночник», а она выдаёт картинку:

Как сгенерировать нейросетью любые картинки
Это «полуночное программирование» — очевидно, от первого лица

Или, например, «Семь грехов», а она в ответ:

Как сгенерировать нейросетью любые картинки
Сложно сказать, что здесь изображено, но атмосфера греховная

Мы, разумеется, попросили алгоритм показать нам кадр из ещё не вышедшей игры Half-Life 3. Фанаты по всему миру ждут, когда же будет продолжение серии про Гордона Фримена и борьбу с «Комбайном». У алгоритма для нас плохие новости:

Как сгенерировать нейросетью любые картинки
«Мистер Фримен, я что-то неважно себя чувствую»

Интересно, что в оригинальной игре у главного героя ровно такие же очки и оранжевый защитный костюм. Сложно сказать, о чём думал алгоритм, когда рисовал эту картинку, но он явно что-то знает. 

Практического смысла в этих картинках пока нет, но удовольствия море. И, самое главное, вы можете получить такие же картинки по любым собственным запросам, причём даже если у вас очень простой компьютер. 

Где попробовать

Для работы с алгоритмом достаточно интернета и гугловского ноутбука в облаке. Мы уже писали про jupyter-ноутбуки, но на всякий случай вот суть:

  1. Ноутбук — это среда выполнения для кода, которая позволяет сразу видеть результат работы всех частей кода. В нашем случае это среда для Python, но бывают и ноутбуки для других языков.
  2. Можно эту среду запустить на своём компьютере, а можно использовать облачные ноутбуки. Если запускать у себя, то ноутбук сможет использовать все системные ресурсы и работать быстрее. Если в облаке — ресурсы облачного компьютера. 
  3. Пример такого облачного ноутбука — «Гугл Колаб». Им можно делиться с кем угодно, и тот, у кого есть ссылка на ноутбук, может тоже запустить тот же самый алгоритм. 
Читайте еще:  Полуденный Чай Дименшенс

Вот ноутбук, в котором можно запустить этот алгоритм. На всякий случай мы сделали свою копию, если вдруг исходный ноутбук будет недоступен.

Куда писать свой текст?

Промотайте ноутбук до середины и найдите раздел Settings for this run. В нём будет переменная prompt — в ней и задаётся фраза, по которой алгоритм будет рисовать картинку. Что вы здесь напишете — то и получите. Ну или не совсем то, но тоже будет в тему. Или нет. Мы не знаем, это нейросеть, там всё непредсказуемо.

Как сгенерировать нейросетью любые картинки

Как запустить

Заходите в меню и выбираете «Среда выполнения» → «Выполнить всё»:

Как сгенерировать нейросетью любые картинки

Где увидеть результат

Пролистайте страницу до конца кода — после него будет строчка с прогрессом выполнения:

Как сгенерировать нейросетью любые картинки

Она показывает, на сколько процентов готова ваша картинка. Каждые 10% ноутбук выдаёт промежуточный результат. Можно посмотреть, как менялась картинка на очередном этапе вычислений:

Как сгенерировать нейросетью любые картинки

Самая последняя картинка с надписью Step 999 и будет итоговым результатом работы алгоритма.

Красивые гифки с процессом

Если собрать все промежуточные картинки, то можно увидеть, как алгоритм на каждом шаге улучшает свой результат.

Как сгенерировать нейросетью любые картинки
Исходная фраза — man with books. Очень похоже на вырезанную сцену из фильма «Интерстеллар» 🙂
Как сгенерировать нейросетью любые картинки
А это — иллюстрация к названию фильма «Карты, деньги, два ствола» (Lock, Stock and Two Smoking Barrels). Двух стволов нет, но один точно дымится.

Что там под капотом

Внутри работают два нейросетевых алгоритма. 

Первый — ImageNet из OpenAI. Он генерирует картинки 256 на 256 пикселей. Его задача — получить картинку максимального качества. Для этого он раз за разом улучшает детализацию и делает картинку чётче и подробнее.

Второй алгоритм — CLIP: он соединяет текст с картинками. Изначально CLIP создавался для того, чтобы, наоборот, распознать, что изображено на фото. Но в этом алгоритме он работает в обе стороны — говорит, что нужно сделать, а потом раз за разом проверяет, что получается.

Вместе они работают так:

  1. CLIP говорит второму алгоритму, к какой картинке она должна стремиться.
  2. ImageNet старательно делает первый набросок и показывает его.
  3. CLIP оценивает, насколько это совпадает с запросом, и говорит, в каком направлении нужно двигаться дальше.
  4. ImageNet делает второй набросок и показывает его снова.
  5. Так продолжается до тех пор, пока CLIP не скажет «всё, хорош» или когда точность приближения, по мнению нейросети, не будет ниже той, что нужна для остановки.

Откуда нейросеть всё это знает

Чтобы алгоритм мог сопоставлять слова с картинками, нейросеть специально обучали на огромном множестве изображений с описаниями. Там было всё: и фото людей, и котят, здания, игры, машины, книги, чашки, свитеры, чугунные ванны и фарфоровые статуэтки.

Если бы не было такого набора с данными, нейронка сама бы не поняла, что кошка — это кошка, и выдавала бы просто квадрат из несвязных пикселей.

Получается, что эти два алгоритма в связке просто пытаются подражать тем изображениям, на которых они были обучены. Они не обладают собственным образным мышлением и не придумывают ничего с нуля — лишь берут огромную базу существующих впечатлений и комбинируют их по инструкции. 

Похожим образом работает «Балабоба» Яндекса — это нейросетевой алгоритм, обученный на огромном корпусе текстов из интернета. Когда мы даём задание «Балабобе», алгоритм дёргает нужные фразы из корпуса и выдаёт результат. 

Читайте еще:  Занятие По Математике в Средней Группе

Вёрстка:

Кирилл Климентьев

Нейросеть рисует по запросу

3 ноября нейросеть которая рисует картины по словам и необычная задачка в контрольной по физике

Доброе утро! Как завершается ваша неделя? Расскажите об этом ва еще не забудьте прочитать самые хорошие новости. Поехали!

О погоде на праздники. Начало выходных встретит туляков дождями и до +12 градусов, к субботе осадки прекратятся, чтобы в воскресенье вернуться и принести похолодание до +6 градусов.

В январе этого года американская компания OpenAI представила DALL-E — нейросеть, которая генерирует изображения по текстовому описанию. Искусственному интеллекту можно загадать что угодно, даже нечто абстрактное или странное, он все равно это нарисует.

Единственный недостаток: алгоритм понимает только текст на английском языке. Команды SberDevices и Sber AI вместе со SberCloud решили это исправить и создали ruDALL-E — отечественную версию алгоритма. 

Это первый подобный проект на русском языке. Нейросеть мультимодальная, она обучается и на картинках, и на текстах, благодаря чему может генерировать почти бесконечное количество новых изображений по конкретному заданию.

Работа идет в три этапа. Сперва нейросеть «читает» текст и создает на его основе определенное число картинок. Затем в работу включается вторая нейросеть. Она выбирает из этого набора наиболее удачные и точные картинки. А третий алгоритм увеличивает изображения без потери качества. 

Зачем всё это нужно на практике? Если верить сайту компании, ruDALL-E — полезный инструмент для дизайнеров любых направлений. С помощью нейросети можно проектировать интерьер, создавать стоковые картинки и векторные иллюстрации, материалы для рекламы и копирайтинга. С помощью нейросети можно создать уникальную картинку под конкретное описание, а также генерировать необходимое число иллюстраций со свободной лицензией. 

Сегодня слушаем Imagine Dragons x J.I.D – Enemy.

Учительница одного из тюменских колледжей Анастасия рассказала в своем твиттере, что добавила в контрольную по физике задание нарисовать животное — котика, ежика или динозавра в зависимости от варианта. И показала, как её ученики справились с заданием.

Анастасия рассказала, что решила добавить задание с рисунками в контрольную, чтобы помочь студентам расслабиться. Она отметила, что с небольшой задачей справились все — и даже получили один балл за выполнение.

Решила, что несправедливо будет показать только 8 рисунков, поэтому, выкладываю остальные, чтобы не решать их минуток славы! Итак, первый вариант: котики pic.twitter.com/CM3HCPlL7I— Ненастя (@nnextomars) November 1, 2021

«Задание придумала во время очередной проверки однотипных тестов. Решила, что неплохо было бы как-то снять у студентов напряжение во время контрольной, потому что всё равно они волнуются, как бы хорошо ни готовились. Поэтому решила попросить в одном из заданий нарисовать небольшой рисунок. Так и мне легче и веселее проверять», – рассказала учительница Анастасия.

Поскольку это задание не несет в себе никакой проверки знаний по физике, на оценку они не влияли никак, даже если бы их не рисовали, студенты могли бы получить отличную оценку только по итогу решенных задач. Однако рисунок давал +1 балл, поэтому кому-то он даже помог с оценкой.

Все владельцы собак и котов знают, что сделать удачное селфи со своим домашним любимцем — это почти непосильная задача. В тот момент, когда вы решаете сделать совместный портрет дома, в машине или на природе, питомцы обычно готовы вас поддержать и принять эффектную для фотографии позу. Но будьте готовы к тому, что пушистая модель отвлечет от вас всё внимание! Например, вот таким образом.

Хорошего дня и звездного настроения!



Главные новости за день в нашем Telegram. Только самое важное.

Оцените статью
( Пока оценок нет )

Андрей Шутько, журналист и репортер Anticwar.ru. Об армии он пишет более 15 лет. Несколько раз он был военным корреспондентом в Афганистане.

andreyshutko7@gmail.com

Нейросеть Рисует По Запросу
Николай Сличенко
Николай Сличенко актер умер