Провели транскрибацию видео с выступлениями и интервью стендап-комика с дефектами речи. Сергей Кутергин (Сергеич) родился с диагнозом ДЦП, что в том числе отразилось и на функциях речевого аппарата. В целях усовершенствования алгоритмов автоматической
генерации субтитров, мы расшифровали 60 минут живой речи комика.
Датасет состоит из 6 текстовых файлов, содержащих дословные расшифровки, и 6 видео — источников. В общей сложности извлекли 6909 слов.