Нейросетевой арт

Материал из ВикиФур
Перейти к: навигация, поиск
Пример нейроарта.
У этого термина есть и другое значение: AI assisted art — арт с применением нейросетей.

Нейросетевой арт (нейроарт) — арт, сгенерированный нейронными сетями (нейросетями, «искусственным интеллектом»). В отличие от генераторов, написанных людьми, нейросети достигают своих возможностей с помощью машинного обучения. Обе технологии — генераторы изображений с помощью машинного обучения и без него — существуют давно, однако широкое распространение с хорошими результатами получили в 2022 году.

Изображение на уровне начинающего художника или выше может быть сгенерировано за доли секунды. Это может быть арт, «фотографии», текстуры и другие типы изображений.

История[править]

Модели text-to-image начали разрабатываться в середине 2010 годов в результате достижений в области глубоких искусственных сетей. В 2022 году такие модели, как DALL-E 2 от OpenAI, Imagen от Google Brain и Stable Diffusion от StabilityAI, стали приближаться к фотографическому качеству и к рисункам, создаваемыми художниками. Наиболее эффективные модели обучались на огромных массивах данных, взятых из открытых источников в интернете.

Созданные сервисы в интернете стали предлагать за небольшую плату услуги по генерации изображений. Также генератор можно запустить на домашнем компьютере, на игровой видеокарте хотя бы с 4 Гб RAM.

Методы работы с генераторами[править]

См. также: Нейросетевой арт — Методы работы

Рисующие нейросети генерируют изображения в соответствии с пользовательским вводом:

  • Без ввода — такие как This Fursona Does Not Exists, сайт, генерирующий непрерывный поток фурри-аватаров.
  • С текстовым вводом — наиболее известный способ, обращающий запросы на естественном языке типа «кошка спит на диване» в полноценные изображения.
  • С графическим вводом — нейросети даётся одно или несколько изображений, чтобы использовать их как основу. Например, с них могут быть взяты цветовые пятна или элементы стиля.
  • Композиция, позы, контуры и так далее тоже могут быть продиктованы пользователем с помощью специальных инструментов, таких как редактор позы.
  • Технические настройки, такие как количество шагов обработки, строгость следования пользовательскому запросу, метод генерации «шума»…
  • Нейросетевые модели, которые будут генерировать арт. Можно подобрать модель под желаемый стиль и формат или сочетать несколько моделей в пропорции друг к другу.
Генерация по запросу: «кошка, картина маслом, лауреат наград, идеально, высокое разрешениеi», негативный промт «водяной знак, любительский арт, за кадром, новичок, мыльноi». Вино и свечи добавлены самой нейросетью, из-за ассоциации с картиной маслом. Хвост-лапа является ошибкой и требует дальнейшей работы.

Промт-инженерия[править]

Текстовый ввод, описывающий желаемое изображение, называется запрос или промт (от англ. prompt). Некоторые генераторы берут в качестве ввода только промт или имеют бедные настройки помимо него. Пользователи таких генераторов (промтеры) используют методики, позволяющие получить желаемую картинку, используя только такой ввод: они описывают словами объекты, которые должны быть в кадре, цвета, ракурс, стиль, используют термины из фотографии и композиции.

Также промтеры применяют хитрости, специфические для нейросетей: например, указывают в промте «хорошее качество», поскольку на самом деле модель не имеет предвзятости к качеству арта. Для искусственного интеллекта рисунки детей и арт лучших художников одинаково ценны, и уточнение в промте позволяет отбросить связи, созданные картинками «плохого качества».

Одной из мощнейших методик является указание стиля или имени художника (классического или современного). Нейросети способны довольно точно воспроизводить стили, если в обучающих изображениях был соответствующий материал, подписанный именем художника.

Большинство моделей также поддерживают негативные промты — описание, что пользователь не хочет видеть на арте. Например, многие модели натренированы на эротических изображениях и выдают эротику, даже если её не было в промте. В таком случае можно указать в негативном промте «эротика, гениталии, нагота, йифф».

Обработка изображения[править]

Существует несколько способов обработки изображений с помощью нейросетей: например, нейросеть может взять исходное изображение и внести изменение согласно текстовой инструкции; или дорисовать внешнюю часть, гармонично продолжающую имеющуюся работу.

Ещё один из методов — бридинг: получение изображения, промежуточного по стилю между несколькими другими. Например, сайт Art Breeder позволяет «скрещивать» изображения, соединяя их стиль, гамму, настроение, детали композиции.

Исходный рисунок (слева) и после обработки Stable Diffusion (справа)
img2img генерация, показывающая, как нейросеть может взять низкокачественный арт и сделать из него приятную картинку. Сохранение цветов всё ещё проблема, и модель имеет перекос от земных пони в сторону пегасов и единорогов.

(pandacraft)

Тонкая настройка[править]

Простая работа с нейросетью часто приводит к случайному результату: вряд ли можно словами описать в точности, до линии, то что хочет видеть пользователь. Заставить нейросеть следовать определённому стилю, техническим требованиям, задуманной композиции — сложно с помощью одного лишь текстового ввода и даже если использовать другое изображение как основу.

Однако существуют инструменты, которые позволяют задать вывод более точно. Например, с помощью модуля ControlNet для нейросети Stable Diffusion можно в точности задать позу персонажа, контуры композиции и многое другое. Есть также масса других, специфических для нейросетей настроек, таких как тип используемого Sampler’а — движок для генерации шума, который вносит элемент случайности в генерацию.

Пример переноса позы с помощью open pose.

Выбор моделей[править]

В зависимости от сервиса или программы, у пользователя может быть выбор модели (часто под названием «режим» или «категория»), а некоторые программы позволяют загружать собственные модели. Модели могут быть натренированы для разных стилей, методик или объектов. Например, очень распространены модели, рисующие анимешныхсм. девочек. Фурри-модели натренированы на фурри-арте.

Пример действия дополнительной модели LoRa, обученной рисовать кентавров: слева — попытка нарисовать кентавра обычной модели, справа — те же самые параметры генерации, но дополнительно используется LoRa, специализирующаяся на кентаврах.

Часто итог генерации отправляют на обработку другой модели — например, апскейлеру для увеличения разрешения.

Обучение собственной модели[править]

Создание модели с нуля («базовой модели»), сравнимой по масштабу с моделями Stable Diffusion, NovelAI и Midjourney, требует работы серверной фермы на протяжении недель и стоит более $100 000[1]. Однако есть несколько типов моделей, которые можно создать на потребительском оборудовании:

  • Маленькая базовая модель, заточенная под что-то одно, например обработку фотографий в пиксель-арт.
  • Так называемый fine tune — модификация существующей базовой модели, сфокусированная на определённых стилях и объектах.
  • Дополнительная модель, применяющаяся вместе с базовой и также фокусирующая работу на определённых стилях и объектах.

В зависимости от масштаба обучения, это может потребовать от 3 Гб[2] видеопамяти (столько есть на любом игровом компе) до 30 ГБ.[3] (столько встречается только на студийных машинах и почти невозможно купить на домашний комп).

Gnoll warrior AI.png Gnoll warrior AI cleanup.png

Пиксель-арт, сгенерированный нейросетью:
  • Слева — оригинальная генерация 512х512 пикселей
  • Справа — отмасштабированное и подчищенное изображение на фоне, нарисованном человеком.

Чистка итога генерации[править]

Очень часто нейросеть выдаёт картинку, почти подходящую к использованию, но содержащую недочёты, которые нельзя игнорировать — как ошибки, так и расхождения с видением пользователя или с техническими требованиями. На исправление этих недочётов средствами нейросети может уйти в 10 раз больше времени, чем уже потрачено. Иногда получить «чистый» результат, полностью соответствующий потребности, вообще невозможно — как в случае пиксель-арта, генерируемого обычной моделью в высоком разрешении.

В таком случае может быть проще доработать результат вручную, даже если пользователь не является художником. Иногда достаточно закрасить лишние линии и пятна, наложить фильтр или отрезать лишнюю часть картинки, чтобы довести изображение до нужного (или минимально необходимого).

AI assisted art[править]

Основная статья: AI assisted art

Существует много разных процессов работы с нейросетями (workflow), когда вклад пользователя явно больше, чем задать стандартной модели стандартный запрос и забрать одну из выпавших картинок. В некоторых случаях человек делает большую часть работы, а в некоторых — половину или треть.

Примеры:

  • Сгенерированное изображение используется как референс или для вдохновения.
  • Сгенерированное изображение используется для обводки.
  • Сгенерированное изображение используется для оверпейнта, или некоторые его части полностью перерисовываются. Например, художник рисует головы персонажей с нуля, оставляя тела почти без изменений.
  • Автор выполняет набросок, даёт нейросети для раскраски и детализации, затем доводит результат до финального качества.
  • Автор рисует своих персонажей на сгенерированном фоне.
  • Автор делает коллаж из многих вариантов генерации, ретушируя сборку, чтобы рисунок был единым целым.
  • Итеративный метод: Автор составляет вводное изображение как коллаж референсов, даёт нейросети для промежуточного результата, вносит изменения — повторяет это много раз, пока не придёт к итогу.
  • Нейросетевая стилизация: Автор полностью делает работу в одном стиле (например, 3D или цветной карандаш), затем даёт нейросети для превращения в другой стиль.

Ошибки генерации[править]

Пример неудачно сгенерированной картинки с задвоением тела

Нейросети, особенно старые или плохо обученные, часто совершают ошибки. Некоторые ошибки, специфические для нейросетей:

  • Задвоение частей тела: ноги, руки, хвосты присутствуют на картинке во всех местах, где они могли бы быть. В результате — пятиногие двухвостые животные, трёхрукие антропоморфы с двумя парами ушей и так далее;
  • Задвоение сегментов тела или объектов, обычно при генерации картинки со слишком большим разрешением. Как правило, модель нейросети обучается с определёнными разрешениями изображений, например, 512х512 пикселей или 768х768 пикселей. Обычный способ получить изображение в нестандартном разрешении — это сгенерировать его в стандартном и затем отмасштабировать с помощью другой нейросети (апскейлера);
  • Мыльные глаза — полностью чёрные, полностью белые, состоящие из невнятных пятен;
  • Сливающиеся части тела и линии, например, хвост (находящийся там, где и должен быть хвост), переходящий в лапу (находящуюся там, где и должна быть лапа). Также часто сливаются волосы и узоры на одежде или детали фона;
  • Задвоение персонажей — все персонажи на изображении выглядят похоже или одинаково. Например, если в одном кадре и кошки, и собаки — то кошки имеют некоторые собачьи черты, а собаки — кошачьи;
  • Неочевидные образы, спрятанные в картинке, такие как микроскопическая кошка, растоящая из кончика уха другой кошки, или горы, похожие на женскую грудь.

Есть способы обойти или исправить эти ошибки. Зачастую достаточно добавить в негативном промте «плохие руки», но это работает не всегда (нейросеть может проигнорировать часть промта, если не способна её удовлетворить) или может привести к неожиданным результатам (нейросети проще спрятать руки, чем пытаться нарисовать их — этот же метод применяют художники, не умеющие рисовать руки).


Перенос стиля[править]

С помощью нейросети можно воспроизводить стиль отдельных художников, произведений (фанарт, аниме), изобразительных средств и подходов (цветной карандаш, акварель, суми-е), фотографических эффектов… Многие из методов генерации могут использоваться для этой цели. Особенно часто это достигается:

  • С помощью имени художника или названия стиля в промте
  • С использованием модели, натренированной только на этом художнике или стиле
  • Через обработку img2img, подавая на вход картинку в данном стиле
  • Используя ControlNet для прямого переноса стиля с указанной картинки

В зависимости от количества материала в данном стиле и умения пользователя, итоговая картинка может быть очень хорошим попаданием в нужный стиль, сгенерированным очень быстро.

Отношение в сообществе[править]

Фурри-фэндом, как и другие сообщества, столкнулся с наплывом проблем, связанных с искусственным интеллектом. За два месяца, с августа 2022 года, всё больше и больше людей наводняют свои фэндомы (аниме- и прочие) сгенерированными изображениями с высококачественными версиями своих оригинальных персонажей (OC). Не будь альтернативы в виде доступного ИИ, многим бы пришлось заказывать и оплачивать арты у художников. На реддите /r/ArtistLounge неоднократно появлялись посты от паникующих художников, которые боятся, что в ближайшие годы останутся без средств к существованию из-за вычислительных машин. За последние двадцать лет по всему миру сформировался устойчивый рынок людей с потребностями в арте — от дизайна инди-игр до персонального заказа рисунка любимой пони, не говоря уже о профессиональном секторе и острой потребности в цифровых художниках.

Машинная генерация изображений вызывает юридические вопросы. Модель должна обучаться на тренировочных данных, и в сгенерированных изображениях зачастую содержится узнаваемая стилистика рисования художника, чьи арты были в обучающей выборке. Ожидается, что в ближайшие годы будет большая дискуссия по поводу авторских прав.

В аниме-фэндоме, например, на японском сайте pixiv, сгенерированный арт по качеству уже полностью приблизился к нарисованному человеком — в основном из-за анимешной стилистики рисования, более простой палитры и меньшей вариабельности изображения. Фурри- и пони-фэндомы ещё испытывают трудности с более качественной генерацией изображений, но уже по аниме-фэндому можно оценить возможности ИИ.

Ограничения в онлайн-галереях[править]

Онлайн-галереи уважают художников и вводят правила по ограничению AI art’а на своих площадках.

На Fur Affinity запрещено выкладывание картинок, созданных с помощью искусственных нейросетей и подобных генераторов изображений[5].

Владельцы Danbooru ввели полный запрет на AI-art, и все ранее загруженные изображения были удалены[6], по-видимому, в значительной степени из-за негативной реакции Японии на NovelAI. Признаётся, что добиться исполнения новых запретов будет сложно: AI-аниме-арт будет всё равно загружаться, только более качественный и без указания авторства или использования AI при создании изображения.

На Derpibooru картинки с меткой «ai generated» (ранее — «machine learning generated») скрываются из поисковой выдачи и из ленты при дефолтных настройках фильтра[7] (как было ранее сделано для флаффи-пони или фотографий с реальными обнажёнными людьми, метка «human exhibitionism»[8]). Позднее сайт столкнулся с неконтролируемым количеством низкокачественного контента и были введены более строгие правила: картинки с меткой «ai generated» по-прежнему скрыты из ленты по умолчанию, в основном изменения добавляют максимально строгие ограничения в количестве загрузок AI art’а (не более двух изображений в день на пользователя), запрет на модификацию изображений других художников, особенно без их разрешений, увеличено требование к качеству изображений и их реалистичности. Изображения, загруженные до вступления в силу новых правил, особенно низкокачественные, могут быть удалены как администрацией, так и по запросу загружающего[9].

В чат-боте purplesmart.ai стали фильтровать ники авторов, чтобы нельзя было целенаправленно получить изображение со стилистикой выбранного художника.

С 4 июля 2023 хостинг Steam блокирует и не допускает игры с изображениями, созданным ИИ[10]. Однако это не коснулось текстовой игры AI Dungeon.

Художники на платформе для портфолио ArtStation бастовали, но ArtStation заявили, что не препятствуют ИИ-инструментам. Был предложен тег NoAI, запрещающий использовать рисунок в обучении[11].

См. также[править]

Примечания[править]

Ссылки[править]

Статьи

Действующие генераторы арта[править]

Веб
Чат-боты