Ученые "Яндекса" и МГУ нашли способ обучить ИИ сложным правилам русского языка | Медиа Волна
Skip to main content
|

Ученые «Яндекса» и МГУ нашли способ обучить ИИ сложным правилам русского языка

Новый датасет содержит примеры из заданий ЕГЭ и олимпиад

Специалисты Института искусственного интеллекта МГУ и «Яндекса» представили LORuGEC — первый открытый набор данных с примерами сложных грамматических ошибок русского языка. Презентация состоялась на Конгрессе молодых ученых в «Сириусе».

Несмотря на способность больших языковых моделей генерировать связные тексты, они часто допускают ошибки в пунктуации, орфографии и грамматике. Это связано с тем, что открытые datasets, на которых тренируются нейросети, ранее практически не учитывали сложные правила русского языка.

Новый датасет содержит примеры из заданий ЕГЭ и олимпиад с профессиональной лингвистической разметкой. Это позволяет обучать модели исправлению ошибок, не прибегая к полному переписыванию текстов.

Особенность разработки заключается в том, что на основе датасета можно создавать образовательные сервисы нового поколения — они не только будут корректировать тексты, но и подробно объяснять применяемые правила русского языка. Это открывает новые перспективы для создания интеллектуальных помощников и обучающих платформ.

Какую воду вы пьете?
Фильтрованную
43.6%
Бутилированную
16.8%
Из-под крана
27.9%
Родниковую
11.6%