Нейросетевой арт/Методы работы
- Основная статья: Нейросетевой арт
Рисующие нейросети генерируют изображения в соответствии с пользовательским вводом:
- Без ввода — такие как This Fursona Does Not Exists, сайт, генерирующий непрерывный поток фурри-аватаров.
- С текстовым вводом — наиболее известный способ, обращающий запросы на естественном языке типа «кошка спит на диване» в полноценные изображения.
- С графическим вводом — нейросети даётся одно или несколько изображений, чтобы использовать их как основу. Например, с них могут быть взяты цветовые пятна или элементы стиля.
- Композиция, позы, контуры и так далее тоже могут быть продиктованы пользователем с помощью специальных инструментов, таких как редактор позы.
- Технические настройки, такие как количество шагов обработки, строгость следования пользовательскому запросу, метод генерации «шума»…
- Нейросетевые модели, которые будут генерировать арт. Можно подобрать модель под желаемый стиль и формат или сочетать несколько моделей в пропорции друг к другу.
Содержание
Основные режимы[править]
Основные режимы работы, встречающиеся среди генераторов арта:
- txt2img — учитывающий текстовый ввод, но не графический
- img2img — учитывающий и текстовый, и графический ввод
- txt2video — генерирующий видео из текстового ввода
- video2video — обрабатывающий видео, возвращающий обработанное видео
Промт-инженерия[править]
Текстовый ввод, описывающий желаемое изображение, называется запрос или промт (от англ. prompt). Некоторые генераторы берут в качестве ввода только промт или имеют бедные настройки помимо него. Пользователи таких генераторов используют методики, позволяющие получить желаемую картинку, используя только такой ввод.
Главная сложность промтера (пользователя, использующего промты) — это держать в уме как допущения модели, так и свои допущения. Например, некоторые модели натренированы на определённом типе картинок — например, на анимешныхсм. девушках — и тогда им не нужно уточнять, что стиль должен быть «аниме». Но для других моделей общего направления это уточнять надо, иначе на выходе можно получить «фотографию» или комикс.
Следует понимать, что модель соотносит слова с объектами и стилями потому, что она была обучена на картинках, подписанных этими словами. Но на самом деле модель не имеет предвзятости к качеству арта: для искусственного интеллекта рисунки детей и арт лучших художников одинаково ценны. Поэтому улучшить вывод часто помогают уточнения, такие как «высокое качество», «шедевр», «в топе ArtStation», если обучающие были категоризированы таким образом. Обычно промтер пробует разные подобные ключевые слова на выбранной им модели или копирует у других промтеров, чтобы понять, влияют ли они на вывод.
Одной из мощнейших методик является указание стиля или имени художника (классического или современного). Нейросети способны довольно точно воспроизводить стили, если в обучающих изображениях был соответствующий материал, подписанный именем художника.
В промте можно указывать специальную разметку, позволяющую акцентировать внимание на одних словах в ущерб другим. Первые перечисленные ключевые слова влияют на картинку больше, чем последующие. Можно делать такие запросы, как «кошка, (аниме:0.5)», снижая влияние анимешного стиля на вывод. Большинство моделей поддерживают негативные промты — описание, что пользователь не хочет видеть на арте. Например, многие модели натренированы на эротических изображениях и выдают эротику, даже если её не было в промте. В таком случае можно указать в негативном промте «эротика, гениталии, нагота, йифф».
Обработка изображения[править]
Существует несколько способов обработки изображений с помощью ИИ:
- img2img — нейросеть вносит изменения в основу, пытаясь в итоге нарисовать то, что описано в текстовом промте. Например, можно дать ей красный круг и сказать «яблоко» и получить красное яблоко на месте этого круга. Также этот метод подходит для изменения стиля картники: например, превратить селфи — в анимешный аватар.
- inpaint — нейросеть меняет только части изображения, отмеченные пользователем, стараясь вписать это в стиль оригинала. Любая модель, умеющая img2img, может попытаться выполнить inpaint, но некоторые специально натренированы для этого подхода и справляются лучше. В текстовом промте достаточно описать то, что должно быть в изменяемой области.
- outpaint — нейросеть дорисовывает изображения снаружи рамки, подходящее к уже существующему изображению внутри рамки. Например — что находится за пределами картины «Мона Лиза».
- instructpix2pix (ip2p) — нейросеть меняет исходное изображение в соответствии с текстовым промтом. Допустим, на вводе фотография горного пейзажа. Если в промте «буря», то обычный img2img попытается превратить всё изображение в фотографию бури, а не гор, а ip2p — добавить в изображение бурю (поменять небо, добавить дождь, ветер), сохраняя исходные объекты.
- Применяя interrogator, можно обрабатывать изображения, не добавляя текстовый запрос. Модуль interrogator составляет его сам, распознавая сцену на вводном изображении.
- бридинг — получение изображения, промежуточного по стилю между несколькими другими. Здесь текстовый промт тоже может быть не нужен. Например, сайт Art Breeder позволяет «скрещивать» изображения, сгенерированные на этом же сайте, соединяя их параметры, такие как «краснота», «лес», «хаос» (которые нейросеть знает потому, что она же и создала изображения).

Апскейлинг[править]
Как правило, модель нейросети обучается с определёнными разрешениями изображений, например, 512х512 пикселей или 768х768 пикселей и следовательно выдаёт наилучшие результаты работы при именно таких разрешениях. Чем дальше требуемое разрешение от того, на котором модель нейросети была обучена — тем хуже результат. Если требуемое изображение сильно меньше, то не только снижается количество деталей, но и появляются бессмысленные линии, пиксели, пока изображение не превращается в цветной шум. Если требуемое изображение сильно больше — обычно происходит задвоение: генерируются лишние головы и отделы тела, лишние персонажи, несколько линий горизонта…
Обычный способ получить изображение в нестандартном разрешении — это сгенерировать его в стандартном и затем отмасштабировать.
Для получения высокого разрешения используются апскейлеры (upscaler), обычно присутствующие внутри инструментария нейросети и сами основанные на искусственном интеллекте. Апскейлеры также могут быть внешними утилитами, такими как waifu2x.
Зачастую выгоднее сгенерировать большое количество изображений (десятки-сотни) по одному промту с разными сидами (seed) в малом нативном разрешении (например, 512х512), а потом вручную отобрать лучшие результаты и отмаштабировать, чем затратить в несколько раз больше как вычислительных ресурсов и оперативной памяти. Либо генерация больших изображений недоступна из-за требований значительного количества оперативной видеопамяти.
Например, при генерации txt2img апскейлинг может быть частью процесса:
- Генерируется изображение 512х512 пикселей, используя выбранную модель, промт и настройки
- Изображение делится на 4 сегмента по 256х256 пикселей
- Каждый из сегментов обрабатывается с помощью img2img, используя тот же, промт и запрос и учитывая окружающие сегменты — в результате каждый сегмент становится 512х512 пикселей
- На выходе — изображение 1024х1024 пикселя с дополнительными деталями, подчинённое общей «задумке»
Все эти шаги делаются автоматически, если в настройках генерации указать использование апскейлера, итоговое разрешение и так далее.
Пиксель-арт[править]
С пиксель-артом и иконками, которые нужны в разрешении ниже, чем привычное для нейросети: генерируется картинка в обычном разрешении, пригодная для получения пиксель-арта через масштабирование или пикселизацию (пикселизатор тоже может быть отдельной моделью). После этого, как правило, нужна чистка — удаление лишних пикселей, выбор палитры цветов, поскольку у пиксель-арта более строгие технические требования, чем у обычного арта. Существуют модели, сразу генерирующие пиксель-арт сразу в нужном разрешении и согласно техническим ограничением, но они не всегда могут использовать весь инструментарий, доступный для генерации обычных изображений (такой как многообразие стилей).
Настройки генерации[править]
Кроме текстового и графического ввода, пользователь располагает большим количеством настроек, уникальных для нейросетей и не имеющих аналогов в традиционном искусстве.
Например:
![]() |
Это заготовка раздела . |
ControlNet и другие расширения[править]
Модуль ControlNet для нейросети Stable Diffusion позволяет в деталях контролировать вывод. Примеры использования:
- open pose — обработчик, гарантирующий, что персонажи на изображении будут в нужных позах, заданных пользователям или взятых из референса.
- canny — позволяет сохранить детали и мелкие контуры с другого изображения.
- depth — позволяет сохранить объём и пространственное расположение объектов с другого изображения.
Существуют десятки других обработчиков, совместимых с ControlNet, специализирующиеся на тех или иных деталях: цвета, стиль, архитектура, рельеф…
Некоторые другие расширения пытаются облегчить иные аспекты генерации. Например, Latent Couple борется с известной проблемой нейросетей — сложностью рисования нескольких разных персонажей в одном арте.
Выбор моделей[править]
Над генерация арта работает хотя бы одна модель (собственно нейросеть). С технической точки зрения, обычно работает много моделей — например, в режиме txt2img одна модель расшифровывает текстовый промт пользователя, а другая — рисует согласно расшифровке. Но именно рисованием занимается хотя бы одна модель. Кроме неё, могут работать дополнительные, такие как апскейлер, ControlNet и другие.
В зависимости от сервиса или программы, у пользователя может не быть выбора модели, могут предлагаться несколько на выбор (часто под названием «режим» или «категория»), а некоторые программы позволяют загружать собственные модели. Модели могут быть натренированы для разных стилей, методик или объектов. Например, очень распространены модели, рисующие анимешных девочек. Фурри-модели натренированы на фурри-арте.
Пользователь может выбрать больше чем одну модель, чтобы сочетать их функционал. Например, пользователи Stable Diffusion могут генерировать изображения, используя одновременно разные типы моделей:
- Checkpoint — строго одна такая модель в каждой генерации. Обычно занимает на компьютере от 2 до 7 Гб.
- Textual Inversion (он же embedding) — модель, изменяющая интерпретацию или добавляющая понимание какого-либо ключевого слова. Можно использовать несколько на генерацию. Занимает на компьютере обычно 100—300 Кб.
- LoRA (Low-Rank Adaptation) — модифицирует стиль или способ рисовать какие-либо объекты. Может полностью доминировать над стилем чекпойнта. Можно использовать несколько на генерацию. Занимает на компьютере до 300 Мб.
- Есть и другие разновидности, такие как Hypernetwork, Lycoris и другие.

Автоматизация процесса[править]
Обучение собственной модели[править]
Создание же модели с нуля потребует уже от 30 ГБ видеопамяти.[1] В 2023 году столько памяти не ставят даже на топовые игровые видеокарты. Столько памяти бывает только на картах для работы, очень дорогих.
Тренировка лоры требует в разы меньше видеопамяти. Минимальное значение от 3 ГБ.[2]
![]() |
Это заготовка раздела . |
Чистка итога генерации[править]
AI assisted art[править]
- Основная статья: AI assisted art
Отдельно выделяют machine learning assisted — изображение частично генерирует компьютер, дальше художник добавляет и исправляет детали. Либо ИИ улучшает полученный на входе набросок, доводя его до приемлемого качества.
![]() |
Это заготовка раздела . |