scholarly journals Automatizuotas arbitraliųjų kolokacijų atpažinimas: būdvardžių ir daiktavardžių kolokacijos

2021 ◽  
pp. 71-84
Author(s):  
Jolanta Kovalevskaitė ◽  
Erika Rimkutė ◽  
Jurgita Vaičenonienė

Straipsnyje analizuojamas vienas kolokacijų tipas – arbitraliosios kolokacijos. Jos laikomos nemotyvuotomis (tuo skiriasi nuo kito kolokacijų tipo – trivialiųjų, arba motyvuotųjų, kolokacijų, pvz.: graži diena, naujas tyrimas), joms būdingas ribotas leksinis junglumas: pagal panašią reikšmę teoriškai galima rinktis daugiau negu vieną žodį, bet linkstama vartoti būtent kurį nors vieną, pvz., platus akiratis, bet ne didelis akiratis, stipri sveikata, bet ne galinga sveikata. Analizuotos iš „Lietuvių kalbos pastoviųjų žodžių junginių duomenų bazės“ atrinktos visos kolokacijos, sudarytos iš būdvardžių ir daiktavardžių (apie 5000 junginių). Nustatyta, kad iš jų apie 650 yra arbitraliosios kolokacijos. Atrenkant šias kolokacijas, taikytas sinonimų pakeičiamumo testas: jeigu kolokacijos būdvardiškasis dėmuo (būdvardis ir būdvardiškai vartojamas dalyvis) nėra pakeičiamas kitu artimos reikšmės sinonimu, tokia kolokacija laikoma arbitraliąja. Šis arbitraliųjų kolokacijų atrankos procesas buvo automatizuotas: automatiškai atrenkant artimus būdvardžių sinonimus junginiuose su daiktavardžiais, pritaikytas žodžių vektorių modelis. Automatiškai būdvardžiai ir dalyviai sugrupuoti į maždaug 800 vektorių eilučių. Straipsnyje aprašyta, kaip vyko duomenų analizė, vertinimas ir tikslinimas, kokios kolokacijos ir kiek jų pripažintos arbitraliosiomis naudojant šį metodą.

Sign in / Sign up

Export Citation Format

Share Document