NLP-датасет "Blended Skill Talk" на русском языке

Более 170 000 слов
LabelMe.ru
nlp, разметка текстов, диалоги, публичный датасет
Юзабилити:
Лицензия:
Теги:
9/10
Описание
За основу взят англоязычный open-source датасет Blended Skill Talk от parl.ai. Он был создан для создания и улучшения диалоговых систем, построенных на базе искусственного интеллекта. LabelMe создал русскоязычную версию этого датасета, включающую более 107 000 слов.

Подробно
Мысль о создании данного нам подкинул Александр Николич (создатель и автор канала Love. Death. Transformers.). В рамках сотрудничества мы выстроили пайплайн, который включал парсинг, разделение датасета между несколькими исполнителями и перевод каждой отдельной фразы без изменений общей структуры датасета.

Сейчас в рамках нашей коллаборации, мы продолжаем работу по созданию диалоговых ботов. Совсем скоро вы сможете посмотреть код и побеседовать с получившимся моделями о наболевшем.

Использование датасета в коммерческих целях допускается только с согласия правообладателя (manager@labelme.ru)




Образец файла
Blended Skill Talk on russian demo. JSON
Загрузка датасета "Blended Skill Talk on russian"
Чтобы бесплатно скачать датасет введите свои данные
Бесплатная загрузка датасета LabelMe
Good design is obvious. Great design is transparent.
Скачать датасет «Blended Skill Talk on russian» с портала Labelme.ru
Размер: (11.4 Гб)
проверено
Статус:
2.6 Мб
Размер: