Нейросетевой арт

Материал из ВикиФур

(перенаправлено с «AI art»)

Пример нейроарта.

У этого термина есть и другое значение: AI assisted art — арт с применением нейросетей.

Нейросетевой арт (нейроарт) — арт, сгенерированный нейронными сетями (нейросетями, «искусственным интеллектом»). В отличие от генераторов, написанных людьми, нейросети достигают своих возможностей с помощью машинного обучения. Обе технологии — генераторы изображений с помощью машинного обучения и без него — существуют давно, однако широкое распространение с хорошими результатами получили в 2022 году.

Изображение на уровне начинающего художника или выше может быть сгенерировано за доли секунды. Это может быть арт, «фотографии», текстуры и другие типы изображений.

Содержание

1 История
2 Методы работы с генераторами
3 Ошибки генерации
4 Перенос стиля
5 Отношение в сообществе
- 5.1 Ограничения в онлайн-галереях
6 См. также
7 Примечания
8 Ссылки
- 8.1 Действующие генераторы арта

История[править]

Модели text-to-image начали разрабатываться в середине 2010 годов в результате достижений в области глубоких искусственных сетей. В 2022 году такие модели, как DALL-E 2 от OpenAI, Imagen от Google Brain и Stable Diffusion от StabilityAI, стали приближаться к фотографическому качеству и к рисункам, создаваемыми художниками. Наиболее эффективные модели обучались на огромных массивах данных, взятых из открытых источников в интернете.

Созданные сервисы в интернете стали предлагать за небольшую плату услуги по генерации изображений. Также генератор можно запустить на домашнем компьютере, на игровой видеокарте хотя бы с 4 Гб RAM.

Методы работы с генераторами[править]

См. также: Нейросетевой арт — Методы работы

Рисующие нейросети генерируют изображения в соответствии с пользовательским вводом:

Без ввода — такие как This Fursona Does Not Exists, сайт, генерирующий непрерывный поток фурри-аватаров.
С текстовым вводом — наиболее известный способ, обращающий запросы на естественном языке типа «кошка спит на диване» в полноценные изображения.
С графическим вводом — нейросети даётся одно или несколько изображений, чтобы использовать их как основу. Например, с них могут быть взяты цветовые пятна или элементы стиля.
Композиция, позы, контуры и так далее тоже могут быть продиктованы пользователем с помощью специальных инструментов, таких как редактор позы.
Технические настройки, такие как количество шагов обработки, строгость следования пользовательскому запросу, метод генерации «шума»…
Нейросетевые модели, которые будут генерировать арт. Можно подобрать модель под желаемый стиль и формат или сочетать несколько моделей в пропорции друг к другу.

Генерация по запросу: «кошка, картина маслом, лауреат наград, идеально, высокое разрешениеⁱ», негативный промт «водяной знак, любительский арт, за кадром, новичок, мыльноⁱ». Вино и свечи добавлены самой нейросетью, из-за ассоциации с картиной маслом. Хвост-лапа является ошибкой и требует дальнейшей работы.

Промт-инженерия[править]

Текстовый ввод, описывающий желаемое изображение, называется запрос или промт (от англ. prompt). Некоторые генераторы берут в качестве ввода только промт или имеют бедные настройки помимо него. Пользователи таких генераторов (промтеры) используют методики, позволяющие получить желаемую картинку, используя только такой ввод: они описывают словами объекты, которые должны быть в кадре, цвета, ракурс, стиль, используют термины из фотографии и композиции.

Также промтеры применяют хитрости, специфические для нейросетей: например, указывают в промте «хорошее качество», поскольку на самом деле модель не имеет предвзятости к качеству арта. Для искусственного интеллекта рисунки детей и арт лучших художников одинаково ценны, и уточнение в промте позволяет отбросить связи, созданные картинками «плохого качества».

Одной из мощнейших методик является указание стиля или имени художника (классического или современного). Нейросети способны довольно точно воспроизводить стили, если в обучающих изображениях был соответствующий материал, подписанный именем художника.

Большинство моделей также поддерживают негативные промты — описание, что пользователь не хочет видеть на арте. Например, многие модели натренированы на эротических изображениях и выдают эротику, даже если её не было в промте. В таком случае можно указать в негативном промте «эротика, гениталии, нагота, йифф».

Обработка изображения[править]

Существует несколько способов обработки изображений с помощью нейросетей: например, нейросеть может взять исходное изображение и внести изменение согласно текстовой инструкции; или дорисовать внешнюю часть, гармонично продолжающую имеющуюся работу.

Ещё один из методов — бридинг: получение изображения, промежуточного по стилю между несколькими другими. Например, сайт Art Breeder позволяет «скрещивать» изображения, соединяя их стиль, гамму, настроение, детали композиции.

Исходный рисунок (слева) и после обработки Stable Diffusion (справа)

img2img генерация, показывающая, как нейросеть может взять низкокачественный арт и сделать из него приятную картинку. Сохранение цветов всё ещё проблема, и модель имеет перекос от земных пони в сторону пегасов и единорогов.

(pandacraft)

Тонкая настройка[править]

Простая работа с нейросетью часто приводит к случайному результату: вряд ли можно словами описать в точности, до линии, то что хочет видеть пользователь. Заставить нейросеть следовать определённому стилю, техническим требованиям, задуманной композиции — сложно с помощью одного лишь текстового ввода и даже если использовать другое изображение как основу.

Однако существуют инструменты, которые позволяют задать вывод более точно. Например, с помощью модуля ControlNet для нейросети Stable Diffusion можно в точности задать позу персонажа, контуры композиции и многое другое. Есть также масса других, специфических для нейросетей настроек, таких как тип используемого Sampler’а — движок для генерации шума, который вносит элемент случайности в генерацию.

Пример переноса позы с помощью open pose.

Выбор моделей[править]

В зависимости от сервиса или программы, у пользователя может быть выбор модели (часто под названием «режим» или «категория»), а некоторые программы позволяют загружать собственные модели. Модели могут быть натренированы для разных стилей, методик или объектов. Например, очень распространены модели, рисующие анимешных^см. девочек. Фурри-модели натренированы на фурри-арте.

Пример действия дополнительной модели LoRa, обученной рисовать кентавров: слева — попытка нарисовать кентавра обычной модели, справа — те же самые параметры генерации, но дополнительно используется LoRa, специализирующаяся на кентаврах.

Часто итог генерации отправляют на обработку другой модели — например, апскейлеру для увеличения разрешения.

Обучение собственной модели[править]

Создание модели с нуля («базовой модели»), сравнимой по масштабу с моделями Stable Diffusion, NovelAI и Midjourney, требует работы серверной фермы на протяжении недель и стоит более $100 000^[1]. Однако есть несколько типов моделей, которые можно создать на потребительском оборудовании:

Маленькая базовая модель, заточенная под что-то одно, например обработку фотографий в пиксель-арт.
Так называемый fine tune — модификация существующей базовой модели, сфокусированная на определённых стилях и объектах.
Дополнительная модель, применяющаяся вместе с базовой и также фокусирующая работу на определённых стилях и объектах.

В зависимости от масштаба обучения, это может потребовать от 3 Гб^[2] видеопамяти (столько есть на любом игровом компе) до 30 ГБ.^[3] (столько встречается только на студийных машинах и почти невозможно купить на домашний комп).

Пиксель-арт, сгенерированный нейросетью:

Слева — оригинальная генерация 512х512 пикселей
Справа — отмасштабированное и подчищенное изображение на фоне, нарисованном человеком.

Чистка итога генерации[править]

Очень часто нейросеть выдаёт картинку, почти подходящую к использованию, но содержащую недочёты, которые нельзя игнорировать — как ошибки, так и расхождения с видением пользователя или с техническими требованиями. На исправление этих недочётов средствами нейросети может уйти в 10 раз больше времени, чем уже потрачено. Иногда получить «чистый» результат, полностью соответствующий потребности, вообще невозможно — как в случае пиксель-арта, генерируемого обычной моделью в высоком разрешении.

В таком случае может быть проще доработать результат вручную, даже если пользователь не является художником. Иногда достаточно закрасить лишние линии и пятна, наложить фильтр или отрезать лишнюю часть картинки, чтобы довести изображение до нужного (или минимально необходимого).

AI assisted art[править]

Основная статья: AI assisted art

Существует много разных процессов работы с нейросетями (workflow), когда вклад пользователя явно больше, чем задать стандартной модели стандартный запрос и забрать одну из выпавших картинок. В некоторых случаях человек делает большую часть работы, а в некоторых — половину или треть.

Примеры:

Сгенерированное изображение используется как референс или для вдохновения.
Сгенерированное изображение используется для обводки.
Сгенерированное изображение используется для оверпейнта, или некоторые его части полностью перерисовываются. Например, художник рисует головы персонажей с нуля, оставляя тела почти без изменений.
Автор выполняет набросок, даёт нейросети для раскраски и детализации, затем доводит результат до финального качества.
Автор рисует своих персонажей на сгенерированном фоне.
Автор делает коллаж из многих вариантов генерации, ретушируя сборку, чтобы рисунок был единым целым.
Итеративный метод: Автор составляет вводное изображение как коллаж референсов, даёт нейросети для промежуточного результата, вносит изменения — повторяет это много раз, пока не придёт к итогу.
Нейросетевая стилизация: Автор полностью делает работу в одном стиле (например, 3D или цветной карандаш), затем даёт нейросети для превращения в другой стиль.

Пример рабочего процесса
Мудборд составлен из нейроарта^[4]
Персонаж нарисован на бумаге, обработан и грубо покрашен в Фотошопе
Нейрость: варианты генерации с сохранением контуров
Композиция трёх вариантов генерации в Фотошопе

Ошибки генерации[править]

Пример неудачно сгенерированной картинки с задвоением тела

Нейросети, особенно старые или плохо обученные, часто совершают ошибки. Некоторые ошибки, специфические для нейросетей:

Задвоение частей тела: ноги, руки, хвосты присутствуют на картинке во всех местах, где они могли бы быть. В результате — пятиногие двухвостые животные, трёхрукие антропоморфы с двумя парами ушей и так далее;
Задвоение сегментов тела или объектов, обычно при генерации картинки со слишком большим разрешением. Как правило, модель нейросети обучается с определёнными разрешениями изображений, например, 512х512 пикселей или 768х768 пикселей. Обычный способ получить изображение в нестандартном разрешении — это сгенерировать его в стандартном и затем отмасштабировать с помощью другой нейросети (апскейлера);
Мыльные глаза — полностью чёрные, полностью белые, состоящие из невнятных пятен;
Сливающиеся части тела и линии, например, хвост (находящийся там, где и должен быть хвост), переходящий в лапу (находящуюся там, где и должна быть лапа). Также часто сливаются волосы и узоры на одежде или детали фона;
Задвоение персонажей — все персонажи на изображении выглядят похоже или одинаково. Например, если в одном кадре и кошки, и собаки — то кошки имеют некоторые собачьи черты, а собаки — кошачьи;
Неочевидные образы, спрятанные в картинке, такие как микроскопическая кошка, растоящая из кончика уха другой кошки, или горы, похожие на женскую грудь.

Есть способы обойти или исправить эти ошибки. Зачастую достаточно добавить в негативном промте «плохие руки», но это работает не всегда (нейросеть может проигнорировать часть промта, если не способна её удовлетворить) или может привести к неожиданным результатам (нейросети проще спрятать руки, чем пытаться нарисовать их — этот же метод применяют художники, не умеющие рисовать руки).

Перенос стиля[править]

С помощью нейросети можно воспроизводить стиль отдельных художников, произведений (фанарт, аниме), изобразительных средств и подходов (цветной карандаш, акварель, суми-е), фотографических эффектов… Многие из методов генерации могут использоваться для этой цели. Особенно часто это достигается:

С помощью имени художника или названия стиля в промте
С использованием модели, натренированной только на этом художнике или стиле
Через обработку img2img, подавая на вход картинку в данном стиле
Используя ControlNet для прямого переноса стиля с указанной картинки

В зависимости от количества материала в данном стиле и умения пользователя, итоговая картинка может быть очень хорошим попаданием в нужный стиль, сгенерированным очень быстро.

Отношение в сообществе[править]

Фурри-фэндом, как и другие сообщества, столкнулся с наплывом проблем, связанных с искусственным интеллектом. За два месяца, с августа 2022 года, всё больше и больше людей наводняют свои фэндомы (аниме- и прочие) сгенерированными изображениями с высококачественными версиями своих оригинальных персонажей (OC). Не будь альтернативы в виде доступного ИИ, многим бы пришлось заказывать и оплачивать арты у художников. На реддите /r/ArtistLounge неоднократно появлялись посты от паникующих художников, которые боятся, что в ближайшие годы останутся без средств к существованию из-за вычислительных машин. За последние двадцать лет по всему миру сформировался устойчивый рынок людей с потребностями в арте — от дизайна инди-игр до персонального заказа рисунка любимой пони, не говоря уже о профессиональном секторе и острой потребности в цифровых художниках.

Машинная генерация изображений вызывает юридические вопросы. Модель должна обучаться на тренировочных данных, и в сгенерированных изображениях зачастую содержится узнаваемая стилистика рисования художника, чьи арты были в обучающей выборке. Ожидается, что в ближайшие годы будет большая дискуссия по поводу авторских прав.

В аниме-фэндоме, например, на японском сайте pixiv, сгенерированный арт по качеству уже полностью приблизился к нарисованному человеком — в основном из-за анимешной стилистики рисования, более простой палитры и меньшей вариабельности изображения. Фурри- и пони-фэндомы ещё испытывают трудности с более качественной генерацией изображений, но уже по аниме-фэндому можно оценить возможности ИИ.

Ограничения в онлайн-галереях[править]

Онлайн-галереи уважают художников и вводят правила по ограничению AI art’а на своих площадках.

На Fur Affinity запрещено выкладывание картинок, созданных с помощью искусственных нейросетей и подобных генераторов изображений^[5].

Владельцы Danbooru ввели полный запрет на AI-art, и все ранее загруженные изображения были удалены^[6], по-видимому, в значительной степени из-за негативной реакции Японии на NovelAI. Признаётся, что добиться исполнения новых запретов будет сложно: AI-аниме-арт будет всё равно загружаться, только более качественный и без указания авторства или использования AI при создании изображения.

«Призрачная» подпись автора в углу сгенерированного изображения. Узнаваем логотип Patreon

На Derpibooru картинки с меткой «ai generated» (ранее — «machine learning generated») скрываются из поисковой выдачи и из ленты при дефолтных настройках фильтра^[7] (как было ранее сделано для флаффи-пони или фотографий с реальными обнажёнными людьми, метка «human exhibitionism»^[8]). Позднее сайт столкнулся с неконтролируемым количеством низкокачественного контента и были введены более строгие правила: в основном изменения добавляют максимально строгие ограничения в количестве загрузок AI art’а (не более двух изображений в день на пользователя); запрет на модификацию изображений других художников, особенно без их разрешений; увеличено требование к качеству изображений и их реалистичности (отсутствие деформаций тела, «призрачных» подписей автора и т. д.). Изображения, загруженные до вступления в силу новых правил, особенно низкокачественные, могут быть удалены как администрацией, так и по запросу загружающего^[9].

В чат-боте purplesmart.ai стали фильтровать ники авторов, чтобы нельзя было целенаправленно получить изображение со стилистикой выбранного художника.

С 4 июля 2023 хостинг Steam блокировал и не допускал игры с контентом, созданны ИИ^[10]. Это не коснулось текстовой игры AI Dungeon и других, которые уже были в магазине. Причина запрета: непонятный юридический статус такого контента. 10 февраля 2024 года Steam разрешил большинство игр с использованием искусственного интеллекта: почти все — с заранее созданным контентом, а также со встроенными генераторами при условии, что в них будут встроены ограничения безопасности (цензура)^[11].

Художники на платформе для портфолио ArtStation бастовали, но ArtStation заявили, что не препятствуют ИИ-инструментам. Был предложен тег NoAI, запрещающий использовать рисунок в обучении^[12].

Правилами e621/e926 запрещена загрузка сгенерированного ИИ изображений, в том числе AI assisted art. В качестве исключений допустимо использование сгенерированных изображений: в качестве фонов (приравниваются к фонам-фотографиям и к ним предъявляются те же требования к качеству, что и к настоящим фотографиям); в качестве референсов, но не прямому использованию; как основа оверпейнта, а так разрешён сгенерированный ИИ звук в видео.

См. также[править]

Примечания[править]

↑ Training Stable Diffusion from Scratch Costs <$160k
↑ Какие требования к видеокарте для создания модели нейросети в Lora? — AnyQuestion
↑ Stable Diffusion Training
↑ На самом деле для этого рисунка мудборд не использовался. Он здесь для демонстрации возможного рабочего процесса.
↑ Sept 5, 2022 — Autumn Preview + Upload Policy Update — Fur Affinity
↑ Should we allow AI art? — Danbooru
↑ Viewing full filter details for Default — Derpibooru
↑ Viewing full filter details for Legacy Default — Derpibooru
↑ New AI Policy — Site and Policy — Forums — Derpibooru
↑ AI-generated content on Steam blocked by copyright law, Valve says — Polygon
↑ Steam’s revised policy to allow «the vast majority of games» using AI
↑ Использование ПО AI на ArtStation — Справка ArtStation

Ссылки[править]

Метка furry в эротической галерее AIBooru
Метки ai generated, ai assisted, prompter:kalmar на derpibooru
Метка ai-generated в эротической галерее rule34.paheal.net
Метка нейросетевые фурри на Reactor.cc
e6AI is a a place to show off your anthro/furry/scalie/non-human ai creations.
Блог «Я нейрирую двумя хвостами» на Табуне

Статьи

Википедия:
- Artificial intelligence art (англ.)
- Искусственный интеллект в искусстве
- Свёрточные нейронные сети — наиболее распространённая технология нейросетей, доступная публике на 2023 год
Stable Diffusion: Лучшая версия DALL-E 2 с открытым исходным кодом = Stable Diffusion: Best Open Source Version of DALL·E 2. // Хабр. — 30 августа 2022 года
4,2 гигабайта, или как нарисовать что угодно = 4.2 Gigabytes, or: How to Draw Anything. // Хабр. — 30 августа 2022 года
AI and The Future of Fandom Art — How Is This Going to Play Out and How do You Generate a Pony? // Equestria Daily. — 12 октября 2022 года
[Image Generation Update] NovelAIDiffusion Furry (Beta V1.2) has arrived! // /r/NovelAi — 11 ноября 2022 года

Действующие генераторы арта[править]

Веб

Чат-боты

Источник — «https://ru.wikifur.com/w/index.php?title=Нейросетевой_арт&oldid=208350»

Категории:

Скрытая категория:

Избранные статьи