Компьютерная лингвистика и вычислительные онтологии
Latest Publications


TOTAL DOCUMENTS

41
(FIVE YEARS 24)

H-INDEX

1
(FIVE YEARS 0)

Published By ITMO University

2541-9781

Author(s):  
Мария Олеговна Смирнова ◽  
Алексей Владимирович Добров ◽  
Анастасия Евгеньевна Доброва ◽  
Николай Леонидович Сомс ◽  
Ольга Владимировна Джангольская

В данной статье описываются методы моделирования тибетских номинализованных глагольных групп в формальной грамматике и компьютерной онтологии. В тибетском языке широко используется номинализайия глаголов с помощью добавления к глагольному корню суффиксов-номинализаторов . Помимо основного номинализатораpa , образующего субстантивированные причастия, есть ряд существительных, так называемых квази-номинализаторов , которые могут употребляться и как знаменательные существительные, и как суффиксы-номинализаторы (например, tshul 'способ') . Номинализованный глагол может образовывать глагольную группу любой длины и сложности. Тибетские именные формы глагола и номинализованные глагольные группы могут идиоматизироваться , что требует специального моделирования их значений в компьютерной онтологии. В статье рассматриваются виды тибетских номинализаторов и квази-номинализаторов , особенности образования идиоматизированных глагольных групп с различными назначениями и способы моделирования их в онтологии.


Author(s):  
Елена Григорьевна Соколова ◽  
Светлана Юрьевна Толдова

Работа посвящена дискурсивной разметке корпусов. В ней анализируется состав отношений, принятых в корпусе Ru -RSTreebank . Это корпус, размеченный в рамках теории риторических структур В.Манн и С.Томпсон. При разметке корпуса был принят ряд решений относительно модификаций исходного набора отношений. В статье рассматриваются проблемы, вызванные одним из противоречий, с которым сталкиваются разработчики при создании стандартов лингвистической разметки. Это противоречие между стремлением как можно более точно отразить лингвистическую реальность, с одной стороны, и требованием обеспечить устойчивость разметки, с другой. В статье на примере дискурсивной разметки анализируются проблемы, возникающие в случае упрощения разметки для обеспечения необходимой степени согласия аннотаторов .


Author(s):  
Алина Андреевна Захарова

В статье описывается экспериментальное исследование метода разрешения синтаксической неоднозначности в конструкциях с сирконстантами с помощью онтологической семантики на основе универсального лингвистического процессора AIIRE (Artificial Intelligence Information Retrieval Engine). Выявлены четыре типа неоднозначных конструкций с сирконстантами, и составлены соответствующие поисковые запросы в Национальный корпус русского языка (НКРЯ). В результате получен список из 200 неоднозначных конструкций. Неоднозначность в конструкциях устраняется путем автоматического разбора и последующего ручного выбора его правильных вариантов. Однако на этом этапе возможны следующие проблемы: «разрывы» внутри конструкций, которые обозначают отсутствие нужных семантических связей внутри конструкции, а также большое количество вариантов синтаксического анализа, называемое комбинаторным взрывом. Эти проблемы решаются с помощью таких инструментов AIIRE, как Ontohelper и онтология. Онтология используется для обработки языковых данных и понимается как набор лексических значений или понятий и отношений между ними. Ontohelper – это вспомогательный инструмент с интерфейсом редактирования, где можно моделировать и задавать с помощью онтологическихотношенийвалентностиглаголов. В результате получаются корректные разборы для 66/200 конструкций, и обосновывается,чтоэффективностьданногометодазависитоткачестваиправильностимоделированияпонятийвонтологии.


Author(s):  
Станислав Витальевич Микони

Предлагается применение системного подхода к анализу определения понятия. Оно рассматривается как текстовая модель, к которой применимы собственные свойства модели. Эти свойства выводятся из модели языка предикатов первого порядка, каковой является алгебраическая структура. К собственным свойствам модели отнесены функция объекта, реализующая её операция и структура. Каждое свойство представляется элементарной моделью: функциональной (Ф-модель), операционной (О-модель) и структурной (С-модель) моделью. Использование этих моделей для анализа определения понятия названо соответственно функциональным, операционным и структурным подходом. Сущность каждого подхода поясняется на примере определения термина «менеджмент качества», взятого из международного терминологического стандарта. Для иллюстрации подходов применяются наглядные модели графов. Структурный подход позволяет найти избыточные и недостающие поясняющие слова в определения понятия, представленного в форме повествовательного предложения. Функциональный подход позволяет оценить полноту содержания понятия и наличие порочных циклов. Операционный подход уточняет понятия, относящиеся к категории действия, через элементарные действия.


Author(s):  
Инга Вадимовна Кузнецова ◽  
Марина Самуиловна Коган

В статье исследуются возможности применения лингвистических корпусов для обучения английскому для специальных целей (АСЦ) студентов – биотехнологов . Доказывается целесообразность поиска релевантного корпуса, находящегося в свободном доступе, по сравнению с созданием собственного специального корпуса для данной предметной области. Обосновывается целесообразность исследования/проверки релевантности корпусов COCA и NOW как дополнительного ресурса в курсе АСЦ для направления подготовки «Биотехнология». В качестве критериев релевантности корпуса были выбраны следующие: 1) наличие в корпусе биотехнологических терминов, 2) их частотность и 3) доступность полных текстов, фрагменты которых представлены в конкордансах с терминами по биотехнологии. В ходе эксперимента подготовленные с помощью корпуса NOW задания были опробованы в группе бакалавров-биотехнологов 3го курса, изучающих АСЦ. Рассматриваются примеры заданий, используемые в эксперименте. Это задания с раздаточными материалами, подготовленными преподавателем на основе материалов корпуса, а также задания на прямое использование корпуса студентами - биотехнологами для решения таких задач как поиск коллокатов , выбор правильного артикля, поиск и анализ нетипичных форм множественного числа биотехнологических терминов и др. Показано, что студенты успешно применяли полученные в ходе работы с корпусом знания для развития продуктивных навыков (говорение, письмо) и своих аналитических способностей. Отзывы студентов об экспериментальном курсе в целом положительные. В заключение рассматриваются возможные направления дальнейших исследований в области применения лингвистических корпусов в курсе AC Ц.


Author(s):  
Владимир Бенко ◽  
Катарина Раусова
Keyword(s):  

Представляется метод полуавтоматического определения латинских словосочетаний в русском веб корпусе применением разметчика латинских текстов и цепочки стандартных утилит системы Linux. В конце статьи приводится предварительный анализ выявленного списка сочетаний.


Author(s):  
Мария Владимировна Хохлова ◽  
Екатерина Владимировна Еникеева

В статье представлены результаты применения алгоритмов машинного обучения к задаче автоматического выявления глагольных и атрибутивных коллокаций . Изучение сочетаемости показало, что дистрибуционные модели могут быть успешно использованы для моделирования отношений внутри словосочетаний. Словосочетание признается значимым, если его векторное представление близко к векторному представлению заглавного слова. Нами были использованы следующие методы оценки коллокаций на основе машинного обучения и векторных представлений текстов: базовый метод, метод аналогии и линейного преобразования. Автоматически выделенные словосочетания сравнивались с данными, приведенными в лексикографических источниках (в толковых словарях и словарях сочетаемости, всего было рассмотрено пять источников), которые образовали так называемый золотой стандарт. Результаты показали, что рассматриваемые методы успешно используются для извлечения словосочетаний, в том числе находят те, которые не отражены в словарях. Данные примеры могут претендовать на лексикографическоое описание, хотя и не приведены в источниках и нуждаются в дополнительной экспертной проверке. Поэтому необходимо дополнительно провести сравнение использованных алгоритмов с другими статистическими метриками и увеличить количество словосочетаний, которые привлечены в качестве золотого стандарта.


Author(s):  
Александр Олегович Гребенников ◽  
Наталия Михайловна Марусенко

Исследование строится на базе представительного «Корпуса русских рассказов 1900 – 1930-х гг.». Для выборки из первого периода включенных в Корпус текстов (100 рассказов с 1900 по 1913 гг. отобранных по принципу не более одного рассказа от каждого из включённых в Корпус авторов) был построен частотный словарь. С целью выявления ключевых слов, соответствующих основной тематике рассказов, а также прослеживания влияния крупномасштабных политических изменений на язык художественной прозы первые 100 наиболее частотных знаменательных слов словаря были сопоставлены с данными полученных авторами ранее частотных словарей отдельных русских писателей – признанных мастеров рассказа и материалами частотного словаря русского языка в целом. Также было проведено сравнение с данными для русских рассказов аналогичного периода начала XXI века, полученными из НКРЯ. Для получения объективных результатов сравнения использовался показатель числа употреблений на миллион слов (ipm ). Полученные результаты показывают, что распределение частот знаменательных слов в верхней зоне словаря может служить хорошим индикатором общей тематики произведений не только отдельного писателя, но и отдельной эпохи, а также отражать актуальные внешние аспекты жизни общества.


Author(s):  
Павел Ярославович Бахвалов

Задача автоматической проверки правописания является актуальной: Количество написанного текста увеличивается с каждым годом, также, как и количество людей, начинающих изучать новые языки, и всем нам, как людям, свойственно делать ошибки. Существует два основных подхода к решению данной задачи: подход, основанный на машинном обучении, и подход, основанный на правилах. Первый имеет более высокое качество и не требует привлечение лингвистов, но с другой стороны второй позволяет объяснить пользователю причину ошибки и требует значительно меньше вычислительных ресурсов. Эти подходы можно комбинировать, объединяя их преимущества, и получать выигрыш в качестве. В настоящей работе представлен способ автоматического получения правил из аннотированного набора данных, которыми могут быть расширены системы автоматической проверки правописания после добавления описания. За основу был взят подход Transformation-Based Learning (TBL), который был доработан для использования на данных с большим количеством признаков. В результате были сгенерированы 1238 правил для 36 категорий ошибок. После этого, существующая система по проверке правописания LanguageTool была расширена полученными правилами и показала улучшение качества работы.


Author(s):  
Владислав Олегович Кораблинов

На текущий момент вопросно-ответный поиск по базам знаний является активно развивающейся областью. Новые подходы демонстрируют стабильное повышение качества, однако такое развитие было бы невозможно без разработки наборов данных, позволяющих обучать модели, измерять их качество и ставить все более сложные задачи. К сожалению, все существующие наборы данных содержат вопросы только на английском языке, что ограничивает исследования в этой области для других языков. Мы хотим заполнить этот пробел, разработав набор данных для оценки методов вопросно-ответного поиска по базам знаний на русском языке. В данной работе описывается способ создания такого набора данных с помощью краудсорсинга , одним из ключевых этапов которого является выделение в текстах вопросов и ответов упоминаний сущностей и их сопоставление с сущностями базы знаний. Разработанный нами алгоритм позволяет строить списки таких возможных упоминаний и находить правильную сущность в 95% случаев. При этом алгоритм автоматически связывает фрагменты текста с сущностями базы знаний Wikidata . Полученные списки в дальнейшем будут использованы для получения разметки вопросов и ответов, необходимой для создания нового набора данных.


Sign in / Sign up

Export Citation Format

Share Document