Нейросетевой арт
- У этого термина есть и другое значение: AI assisted art — арт с применением нейросетей.
Нейросетевой арт (нейроарт) — арт, сгенерированный нейронными сетями (нейросетями, «искусственным интеллектом»). В отличие от генераторов, написанных людьми, нейросети достигают своих возможностей с помощью машинного обучения. Обе технологии — генераторы изображений с помощью машинного обучения и без него — существуют давно, однако широкое распространение с хорошими результатами получили в 2022 году.
Изображение на уровне начинающего художника или выше может быть сгенерировано за доли секунды. Это может быть арт, «фотографии», текстуры и другие типы изображений.
Содержание
История[править]
Модели text-to-image начали разрабатываться в середине 2010 годов в результате достижений в области глубоких искусственных сетей. В 2022 году такие модели, как DALL-E 2 от OpenAI, Imagen от Google Brain и Stable Diffusion от StabilityAI, стали приближаться к фотографическому качеству и к рисункам, создаваемыми художниками. Наиболее эффективные модели обучались на огромных массивах данных, взятых из открытых источников в интернете.
Созданные сервисы в интернете стали предлагать за небольшую плату услуги по генерации изображений. Также генератор можно запустить на домашнем компьютере, на игровой видеокарте хотя бы с 4 Гб RAM.
Методы работы с генераторами[править]
- См. также: Нейросетевой арт — Методы работы
Рисующие нейросети генерируют изображения в соответствии с пользовательским вводом:
- Без ввода — такие как This Fursona Does Not Exists, сайт, генерирующий непрерывный поток фурри-аватаров.
- С текстовым вводом — наиболее известный способ, обращающий запросы на естественном языке типа «кошка спит на диване» в полноценные изображения.
- С графическим вводом — нейросети даётся одно или несколько изображений, чтобы использовать их как основу. Например, с них могут быть взяты цветовые пятна или элементы стиля.
- Композиция, позы, контуры и так далее тоже могут быть продиктованы пользователем с помощью специальных инструментов, таких как редактор позы.
- Технические настройки, такие как количество шагов обработки, строгость следования пользовательскому запросу, метод генерации «шума»…
- Нейросетевые модели, которые будут генерировать арт. Можно подобрать модель под желаемый стиль и формат или сочетать несколько моделей в пропорции друг к другу.
Промт-инженерия[править]
Текстовый ввод, описывающий желаемое изображение, называется запрос или промт (от англ. prompt). Некоторые генераторы берут в качестве ввода только промт или имеют бедные настройки помимо него. Пользователи таких генераторов (промтеры) используют методики, позволяющие получить желаемую картинку, используя только такой ввод: они описывают словами объекты, которые должны быть в кадре, цвета, ракурс, стиль, используют термины из фотографии и композиции.
Также промтеры применяют хитрости, специфические для нейросетей: например, указывают в промте «хорошее качество», поскольку на самом деле модель не имеет предвзятости к качеству арта. Для искусственного интеллекта рисунки детей и арт лучших художников одинаково ценны, и уточнение в промте позволяет отбросить связи, созданные картинками «плохого качества».
Одной из мощнейших методик является указание стиля или имени художника (классического или современного). Нейросети способны довольно точно воспроизводить стили, если в обучающих изображениях был соответствующий материал, подписанный именем художника.
Большинство моделей также поддерживают негативные промты — описание, что пользователь не хочет видеть на арте. Например, многие модели натренированы на эротических изображениях и выдают эротику, даже если её не было в промте. В таком случае можно указать в негативном промте «эротика, гениталии, нагота, йифф».
Обработка изображения[править]
Существует несколько способов обработки изображений с помощью нейросетей: например, нейросеть может взять исходное изображение и внести изменение согласно текстовой инструкции; или дорисовать внешнюю часть, гармонично продолжающую имеющуюся работу.
Ещё один из методов — бридинг: получение изображения, промежуточного по стилю между несколькими другими. Например, сайт Art Breeder позволяет «скрещивать» изображения, соединяя их стиль, гамму, настроение, детали композиции.
Тонкая настройка[править]
Простая работа с нейросетью часто приводит к случайному результату: вряд ли можно словами описать в точности, до линии, то что хочет видеть пользователь. Заставить нейросеть следовать определённому стилю, техническим требованиям, задуманной композиции — сложно с помощью одного лишь текстового ввода и даже если использовать другое изображение как основу.
Однако существуют инструменты, которые позволяют задать вывод более точно. Например, с помощью модуля ControlNet для нейросети Stable Diffusion можно в точности задать позу персонажа, контуры композиции и многое другое. Есть также масса других, специфических для нейросетей настроек, таких как тип используемого Sampler’а — движок для генерации шума, который вносит элемент случайности в генерацию.
Выбор моделей[править]
В зависимости от сервиса или программы, у пользователя может быть выбор модели (часто под названием «режим» или «категория»), а некоторые программы позволяют загружать собственные модели. Модели могут быть натренированы для разных стилей, методик или объектов. Например, очень распространены модели, рисующие анимешныхсм. девочек. Фурри-модели натренированы на фурри-арте.
Часто итог генерации отправляют на обработку другой модели — например, апскейлеру для увеличения разрешения.
Обучение собственной модели[править]
Создание модели с нуля («базовой модели»), сравнимой по масштабу с моделями Stable Diffusion, NovelAI и Midjourney, требует работы серверной фермы на протяжении недель и стоит более $100 000[1]. Однако есть несколько типов моделей, которые можно создать на потребительском оборудовании:
- Маленькая базовая модель, заточенная под что-то одно, например обработку фотографий в пиксель-арт.
- Так называемый fine tune — модификация существующей базовой модели, сфокусированная на определённых стилях и объектах.
- Дополнительная модель, применяющаяся вместе с базовой и также фокусирующая работу на определённых стилях и объектах.
В зависимости от масштаба обучения, это может потребовать от 3 Гб[2] видеопамяти (столько есть на любом игровом компе) до 30 ГБ.[3] (столько встречается только на студийных машинах и почти невозможно купить на домашний комп).
Чистка итога генерации[править]
Очень часто нейросеть выдаёт картинку, почти подходящую к использованию, но содержащую недочёты, которые нельзя игнорировать — как ошибки, так и расхождения с видением пользователя или с техническими требованиями. На исправление этих недочётов средствами нейросети может уйти в 10 раз больше времени, чем уже потрачено. Иногда получить «чистый» результат, полностью соответствующий потребности, вообще невозможно — как в случае пиксель-арта, генерируемого обычной моделью в высоком разрешении.
В таком случае может быть проще доработать результат вручную, даже если пользователь не является художником. Иногда достаточно закрасить лишние линии и пятна, наложить фильтр или отрезать лишнюю часть картинки, чтобы довести изображение до нужного (или минимально необходимого).
AI assisted art[править]
- Основная статья: AI assisted art
Существует много разных процессов работы с нейросетями (workflow), когда вклад пользователя явно больше, чем задать стандартной модели стандартный запрос и забрать одну из выпавших картинок. В некоторых случаях человек делает большую часть работы, а в некоторых — половину или треть.
Примеры:
- Сгенерированное изображение используется как референс или для вдохновения.
- Сгенерированное изображение используется для обводки.
- Сгенерированное изображение используется для оверпейнта, или некоторые его части полностью перерисовываются. Например, художник рисует головы персонажей с нуля, оставляя тела почти без изменений.
- Автор выполняет набросок, даёт нейросети для раскраски и детализации, затем доводит результат до финального качества.
- Автор рисует своих персонажей на сгенерированном фоне.
- Автор делает коллаж из многих вариантов генерации, ретушируя сборку, чтобы рисунок был единым целым.
- Итеративный метод: Автор составляет вводное изображение как коллаж референсов, даёт нейросети для промежуточного результата, вносит изменения — повторяет это много раз, пока не придёт к итогу.
- Нейросетевая стилизация: Автор полностью делает работу в одном стиле (например, 3D или цветной карандаш), затем даёт нейросети для превращения в другой стиль.
Персонаж нарисован на бумаге, обработан и грубо покрашен в Фотошопе
Ошибки генерации[править]
Нейросети, особенно старые или плохо обученные, часто совершают ошибки. Некоторые ошибки, специфические для нейросетей:
- Задвоение частей тела: ноги, руки, хвосты присутствуют на картинке во всех местах, где они могли бы быть. В результате — пятиногие двухвостые животные, трёхрукие антропоморфы с двумя парами ушей и так далее;
- Задвоение сегментов тела или объектов, обычно при генерации картинки со слишком большим разрешением. Как правило, модель нейросети обучается с определёнными разрешениями изображений, например, 512х512 пикселей или 768х768 пикселей. Обычный способ получить изображение в нестандартном разрешении — это сгенерировать его в стандартном и затем отмасштабировать с помощью другой нейросети (апскейлера);
- Мыльные глаза — полностью чёрные, полностью белые, состоящие из невнятных пятен;
- Сливающиеся части тела и линии, например, хвост (находящийся там, где и должен быть хвост), переходящий в лапу (находящуюся там, где и должна быть лапа). Также часто сливаются волосы и узоры на одежде или детали фона;
- Задвоение персонажей — все персонажи на изображении выглядят похоже или одинаково. Например, если в одном кадре и кошки, и собаки — то кошки имеют некоторые собачьи черты, а собаки — кошачьи;
- Неочевидные образы, спрятанные в картинке, такие как микроскопическая кошка, растоящая из кончика уха другой кошки, или горы, похожие на женскую грудь.
Есть способы обойти или исправить эти ошибки. Зачастую достаточно добавить в негативном промте «плохие руки», но это работает не всегда (нейросеть может проигнорировать часть промта, если не способна её удовлетворить) или может привести к неожиданным результатам (нейросети проще спрятать руки, чем пытаться нарисовать их — этот же метод применяют художники, не умеющие рисовать руки).
Перенос стиля[править]
С помощью нейросети можно воспроизводить стиль отдельных художников, произведений (фанарт, аниме), изобразительных средств и подходов (цветной карандаш, акварель, суми-е), фотографических эффектов… Многие из методов генерации могут использоваться для этой цели. Особенно часто это достигается:
- С помощью имени художника или названия стиля в промте
- С использованием модели, натренированной только на этом художнике или стиле
- Через обработку img2img, подавая на вход картинку в данном стиле
- Используя ControlNet для прямого переноса стиля с указанной картинки
В зависимости от количества материала в данном стиле и умения пользователя, итоговая картинка может быть очень хорошим попаданием в нужный стиль, сгенерированным очень быстро.
Отношение в сообществе[править]
Фурри-фэндом, как и другие сообщества, столкнулся с наплывом проблем, связанных с искусственным интеллектом. За два месяца, с августа 2022 года, всё больше и больше людей наводняют свои фэндомы (аниме- и прочие) сгенерированными изображениями с высококачественными версиями своих оригинальных персонажей (OC). Не будь альтернативы в виде доступного ИИ, многим бы пришлось заказывать и оплачивать арты у художников. На реддите /r/ArtistLounge неоднократно появлялись посты от паникующих художников, которые боятся, что в ближайшие годы останутся без средств к существованию из-за вычислительных машин. За последние двадцать лет по всему миру сформировался устойчивый рынок людей с потребностями в арте — от дизайна инди-игр до персонального заказа рисунка любимой пони, не говоря уже о профессиональном секторе и острой потребности в цифровых художниках.
Машинная генерация изображений вызывает юридические вопросы. Модель должна обучаться на тренировочных данных, и в сгенерированных изображениях зачастую содержится узнаваемая стилистика рисования художника, чьи арты были в обучающей выборке. Ожидается, что в ближайшие годы будет большая дискуссия по поводу авторских прав.
В аниме-фэндоме, например, на японском сайте pixiv, сгенерированный арт по качеству уже полностью приблизился к нарисованному человеком — в основном из-за анимешной стилистики рисования, более простой палитры и меньшей вариабельности изображения. Фурри- и пони-фэндомы ещё испытывают трудности с более качественной генерацией изображений, но уже по аниме-фэндому можно оценить возможности ИИ.
Ограничения в онлайн-галереях[править]
Онлайн-галереи уважают художников и вводят правила по ограничению AI art’а на своих площадках.
На Fur Affinity запрещено выкладывание картинок, созданных с помощью искусственных нейросетей и подобных генераторов изображений[5].
Владельцы Danbooru ввели полный запрет на AI-art, и все ранее загруженные изображения были удалены[6], по-видимому, в значительной степени из-за негативной реакции Японии на NovelAI. Признаётся, что добиться исполнения новых запретов будет сложно: AI-аниме-арт будет всё равно загружаться, только более качественный и без указания авторства или использования AI при создании изображения.
На Derpibooru картинки с меткой «ai generated» (ранее — «machine learning generated») скрываются из поисковой выдачи и из ленты при дефолтных настройках фильтра[7] (как было ранее сделано для флаффи-пони или фотографий с реальными обнажёнными людьми, метка «human exhibitionism»[8]). Позднее сайт столкнулся с неконтролируемым количеством низкокачественного контента и были введены более строгие правила: в основном изменения добавляют максимально строгие ограничения в количестве загрузок AI art’а (не более двух изображений в день на пользователя); запрет на модификацию изображений других художников, особенно без их разрешений; увеличено требование к качеству изображений и их реалистичности (отсутствие деформаций тела, «призрачных» подписей автора и т. д.). Изображения, загруженные до вступления в силу новых правил, особенно низкокачественные, могут быть удалены как администрацией, так и по запросу загружающего[9].
В чат-боте purplesmart.ai стали фильтровать ники авторов, чтобы нельзя было целенаправленно получить изображение со стилистикой выбранного художника.
С 4 июля 2023 хостинг Steam блокировал и не допускал игры с контентом, созданны ИИ[10]. Это не коснулось текстовой игры AI Dungeon и других, которые уже были в магазине. Причина запрета: непонятный юридический статус такого контента. 10 февраля 2024 года Steam разрешил большинство игр с использованием искусственного интеллекта: почти все — с заранее созданным контентом, а также со встроенными генераторами при условии, что в них будут встроены ограничения безопасности (цензура)[11].
Художники на платформе для портфолио ArtStation бастовали, но ArtStation заявили, что не препятствуют ИИ-инструментам. Был предложен тег NoAI, запрещающий использовать рисунок в обучении[12].
Правилами e621/e926 запрещена загрузка сгенерированного ИИ изображений, в том числе AI assisted art. В качестве исключений допустимо использование сгенерированных изображений: в качестве фонов (приравниваются к фонам-фотографиям и к ним предъявляются те же требования к качеству, что и к настоящим фотографиям); в качестве референсов, но не прямому использованию; как основа оверпейнта, а так разрешён сгенерированный ИИ звук в видео.
См. также[править]
Примечания[править]
- ↑ Training Stable Diffusion from Scratch Costs <$160k
- ↑ Какие требования к видеокарте для создания модели нейросети в Lora? — AnyQuestion
- ↑ Stable Diffusion Training
- ↑ На самом деле для этого рисунка мудборд не использовался. Он здесь для демонстрации возможного рабочего процесса.
- ↑ Sept 5, 2022 — Autumn Preview + Upload Policy Update — Fur Affinity
- ↑ Should we allow AI art? — Danbooru
- ↑ Viewing full filter details for Default — Derpibooru
- ↑ Viewing full filter details for Legacy Default — Derpibooru
- ↑ New AI Policy — Site and Policy — Forums — Derpibooru
- ↑ AI-generated content on Steam blocked by copyright law, Valve says — Polygon
- ↑ Steam’s revised policy to allow «the vast majority of games» using AI
- ↑ Использование ПО AI на ArtStation — Справка ArtStation
Ссылки[править]
- Метка furry в эротической галерее AIBooru
- Метки ai generated, ai assisted, prompter:kalmar на derpibooru
- Метка ai-generated в эротической галерее rule34.paheal.net
- Метка нейросетевые фурри на Reactor.cc
- e6AI is a a place to show off your anthro/furry/scalie/non-human ai creations.
- Блог «Я нейрирую двумя хвостами» на Табуне
- Статьи
- Википедия:
- Artificial intelligence art (англ.)
- Искусственный интеллект в искусстве
- Свёрточные нейронные сети — наиболее распространённая технология нейросетей, доступная публике на 2023 год
- Stable Diffusion: Лучшая версия DALL-E 2 с открытым исходным кодом = Stable Diffusion: Best Open Source Version of DALL·E 2. // Хабр. — 30 августа 2022 года
- 4,2 гигабайта, или как нарисовать что угодно = 4.2 Gigabytes, or: How to Draw Anything. // Хабр. — 30 августа 2022 года
- AI and The Future of Fandom Art — How Is This Going to Play Out and How do You Generate a Pony? // Equestria Daily. — 12 октября 2022 года
- [Image Generation Update] NovelAIDiffusion Furry (Beta V1.2) has arrived! // /r/NovelAi — 11 ноября 2022 года
Действующие генераторы арта[править]
- Веб
- Чат-боты