Stability AI представляет модель ‘Стабильного звука’ для управляемой генерации звука

348
0

Как торговать этими акциями из России? >Подробная инструкция здесь<

Stability AI представил “Стабильный звук”, модель скрытого распространения, призванную революционизировать генерацию звука.

Этот прорыв обещает стать еще одним шагом вперед для генеративного искусственного интеллекта и сочетает в себе текстовые метаданные, длительность звука и настройку времени начала, обеспечивая беспрецедентный контроль над содержанием и длиной сгенерированного аудио — даже позволяя создавать целые песни.

Модели распространения звука традиционно сталкивались со значительными ограничениями при генерации звука фиксированной длительности, что часто приводило к резким и неполным музыкальным фразам. В первую очередь это было связано с тем, что модели обучались на случайных аудиофайлах, вырезанных из более длинных файлов, а затем увеличенных до заданной длины.

Стабильный звук эффективно решает эту историческую задачу, позволяя генерировать аудио заданной длины, вплоть до размера окна обучения.

Одной из выдающихся особенностей Stable Audio является использование скрытого представления звука с сильно уменьшенной дискретизацией, что приводит к значительному ускорению времени вывода по сравнению с необработанным звуком. Благодаря передовым технологиям диффузионной дискретизации флагманская модель Stable Audio может генерировать 95 секунд стереозвука с частотой дискретизации 44,1 кГц менее чем за секунду, используя мощность графического процессора NVIDIA A100.

Прочный фундамент

Базовая архитектура Stable Audio включает вариационный автоэнкодер (VAE), текстовый кодер и модель условного распространения на основе U-Net.

VAE играет ключевую роль, сжимая стереозвук в помехоустойчивое скрытое кодирование с потерями, что значительно ускоряет как процессы генерации, так и обучения. Этот подход, основанный на архитектурах кодера и декодера аудиокодека Descript, облегчает кодирование и декодирование аудио произвольной длины, обеспечивая при этом высокое качество вывода.

Чтобы использовать влияние текстовых подсказок, Stability AI использует текстовый кодировщик, производный от модели CLAP, специально обученной на их наборе данных. Это позволяет модели наполнять текстовые объекты информацией о взаимосвязях между словами и звуками. Эти текстовые элементы, извлеченные из предпоследнего слоя текстового кодировщика CLAP, интегрируются в diffusion U-Net через слои перекрестного внимания.

Во время обучения модель учится использовать два ключевых свойства аудиофайлов: начальную секунду (“seconds_start”) и общую продолжительность исходного аудиофайла (“seconds_total”). Эти свойства преобразуются в дискретные заученные вложения в секунду, которые затем объединяются с токенами текстовых подсказок. Это уникальное кондиционирование позволяет пользователям указывать желаемую длину генерируемого звука во время вывода.

Модель диффузии, лежащая в основе стабильного звука, может похвастаться ошеломляющими 907 миллионами параметров и использует сложное сочетание остаточных слоев, слоев само-внимания и слоев перекрестного внимания для устранения шумов при вводе с учетом встраивания текста и синхронизации. Чтобы повысить эффективность работы памяти и масштабируемость для более длинных последовательностей, модель включает в себя эффективные с точки зрения памяти реализации внимания.

Для обучения флагманской модели Stable Audio компания Stability AI подготовила обширный набор данных, включающий более 800 000 аудиофайлов, включающих музыку, звуковые эффекты и основы для одного инструмента. Этот богатый набор данных, предоставленный в партнерстве с AudioSparx – известным поставщиком стоковой музыки, составляет ошеломляющие 19 500 часов аудио.

Stable Audio представляет собой авангард исследований в области генерации звука, созданный лабораторией исследований генеративного звука Stability AI, Harmonai. Команда по-прежнему занимается совершенствованием архитектуры моделей, уточнением наборов данных и совершенствованием процедур обучения. Их стремление включает в себя повышение качества вывода, тонкую настройку управляемости, оптимизацию скорости вывода и расширение диапазона достижимых длин вывода.

Stability AI намекнул на предстоящие релизы Harmonai, подразнивая возможность моделей с открытым исходным кодом, основанных на стабильном звуке и доступном обучающем коде.

Это последнее новаторское объявление следует за чередой заслуживающих внимания историй о стабильности. Ранее на этой неделе Stability присоединилась к семи другим известным компаниям в области искусственного интеллекта, которые подписали добровольное обязательство Белого дома по обеспечению безопасности искусственного интеллекта в рамках его второго раунда.

Вы можете попробовать стабильный звук для себя здесь.

(Фото Эрика Нопанена на Unsplash)

Отказ от ответственности: Содержимое этого сайта не следует рассматривать как инвестиционный совет. Инвестирование носит спекулятивный характер. При инвестировании ваш капитал подвергается риску.