scholarly journals Разработка и реализация методов генерации правил для автоматической проверки правописания

Author(s):  
Павел Ярославович Бахвалов

Задача автоматической проверки правописания является актуальной: Количество написанного текста увеличивается с каждым годом, также, как и количество людей, начинающих изучать новые языки, и всем нам, как людям, свойственно делать ошибки. Существует два основных подхода к решению данной задачи: подход, основанный на машинном обучении, и подход, основанный на правилах. Первый имеет более высокое качество и не требует привлечение лингвистов, но с другой стороны второй позволяет объяснить пользователю причину ошибки и требует значительно меньше вычислительных ресурсов. Эти подходы можно комбинировать, объединяя их преимущества, и получать выигрыш в качестве. В настоящей работе представлен способ автоматического получения правил из аннотированного набора данных, которыми могут быть расширены системы автоматической проверки правописания после добавления описания. За основу был взят подход Transformation-Based Learning (TBL), который был доработан для использования на данных с большим количеством признаков. В результате были сгенерированы 1238 правил для 36 категорий ошибок. После этого, существующая система по проверке правописания LanguageTool была расширена полученными правилами и показала улучшение качества работы.

Sign in / Sign up

Export Citation Format

Share Document