Специалисты Института искусственного интеллекта МГУ и «Яндекса» представили LORuGEC — первый открытый набор данных с примерами сложных грамматических ошибок русского языка. Презентация состоялась на Конгрессе молодых ученых в «Сириусе».
Несмотря на способность больших языковых моделей генерировать связные тексты, они часто допускают ошибки в пунктуации, орфографии и грамматике. Это связано с тем, что открытые datasets, на которых тренируются нейросети, ранее практически не учитывали сложные правила русского языка.
Новый датасет содержит примеры из заданий ЕГЭ и олимпиад с профессиональной лингвистической разметкой. Это позволяет обучать модели исправлению ошибок, не прибегая к полному переписыванию текстов.
Особенность разработки заключается в том, что на основе датасета можно создавать образовательные сервисы нового поколения — они не только будут корректировать тексты, но и подробно объяснять применяемые правила русского языка. Это открывает новые перспективы для создания интеллектуальных помощников и обучающих платформ.