15.ai
15.ai — некоммерческое бесплатное веб-приложение, которое является высококачественным генератором естественного эмоционально окрашенного голоса из текста (text-to-speech). На выбор предоставляются голоса нескольких вымышленных персонажей из различных популярных франшиз, в том числе MLP:FiM.
Модель обучена только на английском языке, сотни различных голосов используются для обучения одновременно, что позволяет модели понимать эмоциональный контекст текста и добавлять эмоциональный окрас в генерируемый голос. Запас известных слов взят из различных открытых интернет-источников, в том числе Оксфордские словари, Викисловарь, Reddit и Twitter, произношение неизвестных слов модель старается предсказывать.
Использование результата генерации не ограничивается, достаточно указать, что голос был сгенерирован 15.ai, и запрещено использовать голоса из других text-to-speech моделей в одном материале.
Целью проекта ставится разработка нового способа синтеза эмоционально окрашенного голоса из текста с производительностью быстрее чем в реальном времени и при наличии экстремально малой выборки (меньше минуты входной звуковой дорожки) человеческого голоса для обучения. Появление 15.ai в 2020 году послужило толчком к популяризации такого явления, как клонирование голоса (аудио-дипфейки).
Логотип 15.ai, на котором изображена роботизированная Твайлайт Спаркл, является данью уважения тому факту, что её голос (актёр озвучки — Тара Стронг) необходим для корректной работы эмоциональных контекстуализаторов[1].
Содержание
История[править]
Проект создан анонимным учёным из Массачусетского технологического института (MIT). Проект и алгоритм клонирования голоса по минимальной выборке данных изначально были как часть исследовательской программы во время обучения на бакалавриате и разрабатывались в течение многих лет до первого релиза приложения 15.ai.
Разработчик также тесно сотрудничал с Pony Preservation Project (PPP) в разделе /mlp/ на имаджборде 4chan. PPP был создан в 2019 году с целью сбора и обработки пони-датасетов. Все голоса из сериала MLP:FiM, а именно: все аудиоматериалы, в том числе 9 сезонов сериала, The Movie 2017 года, спиноффы, утечки и прочий контент, озвученный теми же актёрами озвучки — были собраны, вручную стенографированы и очищены от посторонних шумов. По словам разработчика, коллективные усилия и конструктивная критика со стороны проекта PPP были неотъемлемой частью разработки 15.ai.
The Pony Voice Preservation Project — это совместная работа /mlp/ по созданию качественных генераторов речи с искусственным интеллектом для как можно большего числа персонажей MLP:FiM.
Сообщество MLP всегда было чрезвычайно творческим, создав огромное количество фанатского контента за почти девять лет. Возможность генерировать голосовые реплики для персонажа, не нуждаясь в актёре озвучки, имеет невероятные последствия для фанатских работ и может гарантировать, что новый контент будет создаваться после завершения сериала.
Кто такой 15?
15 — это анон и один из самых известных анонов в сообществе PPP. Он (или она) — человек, который сделал 90 % качественных дипфейков, публикуемых в тредах. До сих пор неизвестно, как человек, известный как 15, создаёт их, но у общества существовали некоторые предположения:
Вариант А: 15 нашел способ создавать реалистичные аудио-дипфейки, что до него ещё никто не делал, что сделало бы его настоящим гением.
Вариант Б (наиболее вероятен): 15 работает либо в высокотехнологичной компании, такой как NVIDIA, Google или Bing, либо в университете, и использует свой доступ к оборудованию для экспериментов по созданию высококачественных аудио-дипфейков. Если это оказалось бы правдой, есть вероятность, что 15 даже не фанат MLP. Скорее всего демонстрация возможностей генерации голоса именно пони-персонажей происходит только из-за поставки ему опенсорс-данных от преданных фанатов и участников проекта.
Позднее 15 подтвердил, что он связан с Массачусетским технологическим институтом, и опубликовал доступ к разработанной нейронной модели на своем сайте: 15.ai.
См. также[править]
Примечания[править]
- ↑ 15.ai | Hacker News June 12, 2022
Ссылки[править]
- 15.ai
- 15.ai на Википедии (англ.)
- Метка fifteen.ai на derpibooru
- The Tax Breaks (Twilight) [15.ai]