NLP-датасет "Blended Skill Talk" на русском языке

Более 170 000 слов
LabelMe.ru
nlp, разметка текстов, диалоги, публичный датасет
Юзабилити:
Лицензия:
Теги:
9/10
Описание
За основу взят англоязычный open-source датасет Blended Skill Talk от parl.ai. Он был создан для создания и улучшения диалоговых систем, построенных на базе искусственного интеллекта. LabelMe создал русскоязычную версию этого датасета, включающую более 107 000 слов.

Подробно
Мысль о создании данного нам подкинул Александр Николич (создатель и автор канала Love. Death. Transformers.). В рамках сотрудничества мы выстроили пайплайн, который включал парсинг, разделение датасета между несколькими исполнителями и перевод каждой отдельной фразы без изменений общей структуры датасета.

Сейчас в рамках нашей коллаборации, мы продолжаем работу по созданию диалоговых ботов. Совсем скоро вы сможете посмотреть код и побеседовать с получившимся моделями о наболевшем.

Использование датасета в коммерческих целях допускается только с согласия правообладателя (manager@labelme.ru)




Образец файла
Blended Skill Talk on russian demo. JSON
Good design is obvious. Great design is transparent.
Скачать датасет «Blended Skill Talk on russian» с портала Labelme.ru
Размер: (11.4 Гб)
проверено
Статус:
2.6 Мб
Размер: