15.ai

Материал из ВикиФур
Перейти к: навигация, поиск
Логотип.

15.ai — некоммерческое бесплатное веб-приложение, которое является высококачественным генератором естественного эмоционально окрашенного голоса из текста (text-to-speech). На выбор предоставляются голоса нескольких вымышленных персонажей из различных популярных франшиз, в том числе MLP:FiM.

Модель обучена только на английском языке, сотни различных голосов используются для обучения одновременно, что позволяет модели понимать эмоциональный контекст текста и добавлять эмоциональный окрас в генерируемый голос. Запас известных слов взят из различных открытых интернет-источников, в том числе Оксфордские словари, Викисловарь, Reddit и Twitter, произношение неизвестных слов модель старается предсказывать.

Использование результата генерации не ограничивается, достаточно указать, что голос был сгенерирован 15.ai, и запрещено использовать голоса из других text-to-speech моделей в одном материале.

Целью проекта ставится разработка нового способа синтеза эмоционально окрашенного голоса из текста с производительностью быстрее чем в реальном времени и при наличии экстремально малой выборки (меньше минуты входной звуковой дорожки) человеческого голоса для обучения. Появление 15.ai в 2020 году послужило толчком к популяризации такого явления, как клонирование голоса (аудио-дипфейки).

Логотип 15.ai, на котором изображена роботизированная Твайлайт Спаркл, является данью уважения тому факту, что её голос (актёр озвучки — Тара Стронг) необходим для корректной работы эмоциональных контекстуализаторов[1].

История[править]

Проект создан анонимным учёным из Массачусетского технологического института (MIT). Проект и алгоритм клонирования голоса по минимальной выборке данных изначально были как часть исследовательской программы во время обучения на бакалавриате и разрабатывались в течение многих лет до первого релиза приложения 15.ai.

Разработчик также тесно сотрудничал с Pony Preservation Project (PPP) в разделе /mlp/ на имаджборде 4chan. PPP был создан в 2019 году с целью сбора и обработки пони-датасетов. Все голоса из сериала MLP:FiM, а именно: все аудиоматериалы, в том числе 9 сезонов сериала, The Movie 2017 года, спиноффы, утечки и прочий контент, озвученный теми же актёрами озвучки — были собраны, вручную стенографированы и очищены от посторонних шумов. По словам разработчика, коллективные усилия и конструктивная критика со стороны проекта PPP были неотъемлемой частью разработки 15.ai.

The Pony Voice Preservation Project — это совместная работа /mlp/ по созданию качественных генераторов речи с искусственным интеллектом для как можно большего числа персонажей MLP:FiM.

Сообщество MLP всегда было чрезвычайно творческим, создав огромное количество фанатского контента за почти девять лет. Возможность генерировать голосовые реплики для персонажа, не нуждаясь в актёре озвучки, имеет невероятные последствия для фанатских работ и может гарантировать, что новый контент будет создаваться после завершения сериала.

Кто такой 15?

15 — это анон и один из самых известных анонов в сообществе PPP. Он (или она) — человек, который сделал 90 % качественных дипфейков, публикуемых в тредах. До сих пор неизвестно, как человек, известный как 15, создаёт их, но у общества существовали некоторые предположения:

Вариант А: 15 нашел способ создавать реалистичные аудио-дипфейки, что до него ещё никто не делал, что сделало бы его настоящим гением.

Вариант Б (наиболее вероятен): 15 работает либо в высокотехнологичной компании, такой как NVIDIA, Google или Bing, либо в университете, и использует свой доступ к оборудованию для экспериментов по созданию высококачественных аудио-дипфейков. Если это оказалось бы правдой, есть вероятность, что 15 даже не фанат MLP. Скорее всего демонстрация возможностей генерации голоса именно пони-персонажей происходит только из-за поставки ему опенсорс-данных от преданных фанатов и участников проекта.

Позднее 15 подтвердил, что он связан с Массачусетским технологическим институтом, и опубликовал доступ к разработанной нейронной модели на своем сайте: 15.ai.

См. также[править]

Примечания[править]

  1. 15.ai | Hacker News June 12, 2022

Ссылки[править]