Датасет с разметкой спикеров на аудио /

Dataset with Speaker Segmentation for audio
6 аудио + 6 json файлов
LabelMe.ru
Лицензия:
Юзабилити:
Теги:
Speaker Segmentation, Speech synthesis, разметка спикеров,
публичный датасет
7/10
Описание
Разметили спикеров на 6 аудио: Баста, Бузова, Киселев, Моргенштерн, Навальный, Шнуров. Подобный датасет может использоваться для тренировки распознавания речи конкретного спикера или симуляции голоса с помощью ИИ.
Использование датасета в коммерческих целях допускается только с согласия правообладателя (manager@labelme.ru)
Подробно
Первым делом мы нарезали 6 видео с разными спикерами на ролики по 10 минут и конвертировали их в аудио.

Далее мы выгрузили полученные аудио в нашу собственную программу для разметки LMTool. Ее интерфейс даёт возможность замедлять/ускорять, масштабировать, регулировать громкость. В этом датасете намерено размечался только один спикер для дальнейшего обучения нейронки по генерации речи (Speech synthesis).

Конечный набор данных содержит 6 исходных видео, 6 аудио и 6 json-файлов со всеми метаданными.




Образец файла
Speaker Segmentation test.rar
Good design is obvious. Great design is transparent.
Статус:
Скачать датасет «Speaker Segmentation» с портала Labelme.ru
Размер: (11.4 Гб)
проверено
601.7 Мб
Размер: