Slovenščina 2 0 empirical applied and interdisciplinary research

Sociolingvistični posvet: aktualni sociolingvistični izzivi in prednostne raziskovalne tematike

Slovenščina 2 0 empirical applied and interdisciplinary research ◽

10.4312/slo2.0.2021.2.1-40 ◽

2021 ◽

Vol 9 (2) ◽

Author(s):

Maja Bitenc ◽

Marko Stabej ◽

Nataša Gliha Komac ◽

Matejka Grgič ◽

Monika Kalin Golob ◽

...

Zapis posveta o aktualnih sociolingvističnih izzivih in prednostnih raziskovalnih tematikah, ki sta ga organizirala doc. dr. Maja Bitenc in red. prof. dr. Marko Stabej z Oddelka za slovenistiko in je potekal v ponedeljek, 27. 9. 2021, na Filozofski fakulteti Univerze v Ljubljani in s prenosom preko Zooma. V prvem delu so vabljene strokovnjakinje in strokovnjaki predstavili svoje poglede ob izhodiščnih vprašanjih, v drugem je sledila razprava vseh sodelujočih. Zapis posnetka so govornice in govorniki uredili po lastni presoji, načeloma s čim manj intervencijami, iz razprave pa so za branje prilagojene in objavljene vsebinsko tehtnejše replike.

Spletna orodja za slovenščino in tuji študenti Univerze v Ljubljani

Slovenščina 2 0 empirical applied and interdisciplinary research ◽

10.4312/slo2.0.2021.2.100-125 ◽

2021 ◽

Vol 9 (2) ◽

pp. 100-125

Author(s):

Mojca Stritar Kučuk

Redno vpisani tuji študenti Univerze v Ljubljani, ki se v prvem letu študija v okviru modula Leto plus učijo slovensko, se v drugem semestru na posebni delavnici podrobneje spoznajo s spletnimi jezikovnimi viri in tehnologijami za slovenščino. V prispevku je opisana izvedba te delavnice v študijskem letu 2019/20, ko je zaradi pandemije koronavirusa potekala na daljavo, v obliki interaktivnih videoposnetkov z nalogami za preverjanje razumevanja snovi. Drugi del prispevka se osredotoča na mnenje študentov o tovrstnih jezikovnih virih. S spletno anketo sem analizirala stališča in izkušnje študentov dveh generacij: študenti generacije 2018/19 so spletna orodja spoznavali v razredu, študenti generacije 2019/20 pa na daljavo. Sodeč po rezultatih ankete, mlajša generacija študentov jezikovne vire na spletu uporablja pogosteje. Študenti obeh skupin najpogosteje uporabljajo Googlov Prevajalnik, ki mu sledijo Sloleks, pregibnik Besana, Fran in Pons. Kot argumente za uporabo teh virov izpostavljajo predvsem hitrost oz. enostavnost uporabe in navajenost na določen vir.

Mednarodni konferenci eLex (5.–7. julij 2021) in EURALEX (7.–9. september 2021)

Slovenščina 2 0 empirical applied and interdisciplinary research ◽

10.4312/slo2.0.2021.2.126-129 ◽

2021 ◽

Vol 9 (2) ◽

pp. 126-129

Author(s):

Magdalena Gapsa

Keyword(s):

21St Century ◽

European Association

Poročilo o dveh pomembnih leksikografskih konferencah, in sicer o sedmi bienalni konferenci združenja Electronic lexicography in the 21st century (na kratko: eLex), ki je potekala med 5. in 7. julijem 2021, ter devetnajsti bienalni konferenci Evropskega leksikografskega združenja (European Association for Lexicography, EURALEX), ki je potekala med 7. in 9. septembrom 2021.

Stalnost, variantnost in modificirana raba frazemov v slovenskem jeziku in slovarjih

Slovenščina 2 0 empirical applied and interdisciplinary research ◽

10.4312/slo2.0.2021.2.71-99 ◽

2021 ◽

Vol 9 (2) ◽

pp. 71-99

Author(s):

Eva Trivunović

Prispevek prinaša pregled variant in modifikacij sedmih (iz)biblijskih frazemov v sodobni slovenščini ter njihove prisotnosti v sodobnem jeziku. Ugotovitve so primerjane z obravnavo frazemov v obstoječih slovarjih, kjer se kaže velik razkorak med slovarskim prikazom in stanjem, ki ga izkazuje korpusno gradivo. Za zanesljivejše ugotavljanje, v katerih primerih lahko govorimo o že ustaljeni variantnosti, so bili v raziskavi uporabljeni trije zvrstno različni korpusi: Gigafida 2.0, Janes in slWaC. Poleg ustaljenih variant so predstavljene neustaljene modifikacije, poseben poudarek je na prenovitvah, vendar se je jasno zastavljena tipologija mestoma izkazala za preveč togo, saj pri nekaterih mejnih primerih ni bilo mogoče nedvoumno ločiti ustaljenih variant od neprenovitvenih modifikacij ter neprenovitvenih modifikacij od prenovitvenih. Vsi izbrani frazemi in njihove prenovitve so najpogostejši v korpusu Janes, kar dokazuje nujnost vključevanja večjega števila raznovrstnih korpusov v jezikoslovne raziskave.

Collocation ranking: frequency vs semantics

Slovenščina 2 0 empirical applied and interdisciplinary research ◽

10.4312/slo2.0.2021.2.41-70 ◽

2021 ◽

Vol 9 (2) ◽

pp. 41-70

Author(s):

Nikola Ljubešić ◽

Nataša Logar ◽

Iztok Kosem

Keyword(s):

Machine Learning ◽

Support Vector Machines ◽

Area Under The Curve ◽

The Other ◽

Supervised Machine Learning ◽

Support Vector ◽

Word Embeddings ◽

Vector Machines ◽

Qualitative Part ◽

Roc Score

Collocations play a very important role in language description, especially in identifying meanings of words. Modern lexicography’s inevitable part of meaning deduction are lists of collocates ranked by some statistical measurement. In the paper, we present a comparison between two approaches to the ranking of collocates: (a) the logDice method, which is dominantly used and frequency-based, and (b) the fastText word embeddings method, which is new and semantic-based. The comparison was made on two Slovene datasets, one representing general language headwords and their collocates, and the other representing headwords and their collocates extracted from a language for special purposes corpus. In the experiment, two methods were used: for the quantitative part of the evaluation, we used supervised machine learning with the area-under-the-curve (AUC) ROC score and support-vector machines (SVMs) algorithm, and in the qualitative part the ranking results of the two methods were evaluated by lexicographers. The results were somewhat inconsistent; while the quantitative evaluation confirmed that the machine-learning-based approach produced better collocate ranking results than the frequency-based one, lexicographers in most cases considered the listings of collocates of both methods very similar.

Učno E-okolje Slovenščina na dlani: izzivi in rešitve

Slovenščina 2 0 empirical applied and interdisciplinary research ◽

10.4312/slo2.0.2021.1.181-215 ◽

2021 ◽

Vol 9 (1) ◽

pp. 181-215

Author(s):

Darinka Verdonik ◽

Simona Majhenič ◽

Špela Antloga ◽

Sandi Majninger ◽

Marko Ferme ◽

...

Prispevek izhaja iz treh izzivov, ki jih zaznavamo pri pouku slovenščine v višjih razredih osnovnih šol in v srednjih šolah: kako odpraviti napake knjižne norme, ki vztrajajo v pisnih izdelkih učencev; kako izboljšati frazeološko kompetenco; kako izboljšati sporazumevalno jezikovno zmožnost. Ti izzivi so osrednja točka razvoja sodobnega učnega e-okolja Slovenščina na dlani, ki temelji na jezikovnih in informacijsko-komunikacijskih tehnologijah ter prinaša podporo prožnim oblikam poučevanja, poučevanju na daljavo, lajša učiteljevo delo, omogoča pa tudi motiviranje učencev prek elementov igrifikacije. V prispevku predstavljamo zasnovo in izvedbo vsakega od štirih vsebinskih sklopov e-okolja: pravopis, slovnica, frazeologija in besedila.

Avtomatsko razpoznavanja slovenskega govora za dnevnoinformativne oddaje

Slovenščina 2 0 empirical applied and interdisciplinary research ◽

10.4312/slo2.0.2021.1.60-89 ◽

2021 ◽

Vol 9 (1) ◽

pp. 60-89

Author(s):

Lucija Gril ◽

Mirjam Sepesy Maučec ◽

Gregor Donaj ◽

Andrej Žgank

Keyword(s):

Broadcast News

Na področju govornih in jezikovnih tehnologij predstavlja avtomatsko razpoznavanje govora enega izmed ključnih gradnikov. V prispevku bomo predstavili razvoj avtomatskega razpoznavalnika slovenskega govora za domeno dnevnoinformativnih oddaj. Arhitektura sistema je zasnovana na globokih nevronskih mrežah. Pri tem smo ob upoštevanju razpoložljivih govornih virov izvedli modeliranje z različnimi aktivacijskimi funkcijami. V postopku razvoja razpoznavalnika govora smo preverili tudi, kakšen je vpliv izgubnih govornih kodekov na rezultate razpoznavanja govora. Za učenje razpoznavalnika govora smo uporabili bazi UMB BNSI Broadcast News in IETK-TV. Skupni obseg govornih posnetkov je znašal 66 ur. Vzporedno z globokimi nevronskimi mrežami smo povečali slovar razpoznavanja govora, ki je tako znašal 250.000 besed. Na ta način smo znižali delež besed izven slovarja na 1,33 %. Z razpoznavanjem govora na testni množici smo dosegli najboljšo stopnjo napačno razpoznanih besed (WER) 15,17 %. Med procesom vrednotenja rezultatov smo izvedli tudi podrobnejšo analizo napak razpoznavanja govora na osnovi lem in F-razredov, ki v določeni meri pokažejo na zahtevnost slovenskega jezika za takšne scenarije uporabe tehnologije.

Nadgradnja Zgodovinarskega indeksa citiranosti

Slovenščina 2 0 empirical applied and interdisciplinary research ◽

10.4312/slo2.0.2021.1.216-235 ◽

2021 ◽

Vol 9 (1) ◽

pp. 216-235

Author(s):

Katja Meden ◽

Ana Cvek

Začetki Zgodovinarskega indeksa citiranja segajo v leto 2003, ko so raziskovalci Inštituta za novejšo zgodovino začeli spremljati in sistematično popisovati citate za prijave projektov in programov na ARRS. Citatni indeks je doživel nekaj nadgradenj, poskusov harmonizacije podatkov in prečiščevanja relacijskih baz, vendar je bilo v zadnjih letih ugotovljeno, da sistem ne zadostuje potrebam indeksatorjev in uporabnikov. Pred nadgradnjo smo izvedli analizo podatkov, kjer so se identificirale največje težave. Nadgradnja je potekala v dveh delih; v prvem delu smo nadgradili administrativni del, v drugem delu pa spletno aplikacijo. Zgodovinarski indeks citiranja je bil med nadgradnjo tehnično posodobljen in s tem oblikovan tako, da je intuitiven za indeksatorje in uporabnike.

Tri spletne aplikacije o slovenskih narečjih

Slovenščina 2 0 empirical applied and interdisciplinary research ◽

10.4312/slo2.0.2021.1.236-261 ◽

2021 ◽

Vol 9 (1) ◽

pp. 236-261

Author(s):

Rok Mrvič ◽

Špela Zupančič

Potreba po večji prisotnosti narečnih vsebin na spletu in njihovi interaktivni multimedijski predstavitvi, predvsem strokovno zasnovanih dialektoloških virov in orodij, je spodbudila interdisciplinarno sodelovanje različnih fakultet Univerze v Ljubljani, zlasti Filozofske fakultete (FF) in Fakultete za računalništvo in informatiko (FRI), ki je v letih 2017 in 2018 obrodilo sadove v obliki treh prostodostopnih in odprtokodnih spletnih aplikacij o slovenskih narečjih – to so Slovenski narečni atlas (SNA, 2017), Interaktivna karta slovenskih narečnih besedil (IKNB, 2018) in Slovar starega orodja v govoru Loškega Potoka (SSOLP, 2018). Članek v prvem delu prinaša splošen pregled slovenskih spletnih dialektoloških virov in orodij, v drugem delu pa podrobnejšo predstavitev funkcionalnosti navedenih treh aplikacij, ki so uporabnikom trenutno na voljo. V diskusijskem delu pregleda je izpostavljen del okoliščin nastanka obravnavanih aplikacij in z nastankom povezanih omejitev, nakazane pa so tudi možne rešitve, ki bi jih veljalo preudariti za zagotovitev njihovega dolgoročnega razvoja.

Sign language lexicography: a case study of an online dictionary

Slovenščina 2 0 empirical applied and interdisciplinary research ◽

10.4312/slo2.0.2021.1.90-122 ◽

2021 ◽

Vol 9 (1) ◽

pp. 90-122

Author(s):

Lucia Vlášková ◽

Hana Strachoňová

Keyword(s):

Sign Language ◽

Oral Language ◽

Compound A ◽

Standard Classification ◽

Multiple Meanings ◽

Semantic Definition ◽

Lexical Classification ◽

Shape And Size

As a growing field of study within sign language linguistics, sign language lexicography faces many challenges that have already been answered for audio-oral language material. In this paper, we present some of these challenges and methods developed to help navigate the complex lexical classification field. The described methods and strategies are implemented in the first Czech sign language (ČZJ) online dictionary, a part of the platform Dictio, developed at Masaryk University in Brno. We cover the topic of lemmatisation and how to decide what constitutes a lexeme in sign language. We introduce four types of expressions that qualify for a dictionary entry: a simple lexeme, a compound, a derivative, and a set phrase. We address the question of the place of classifier constructions and shape and size specifiers in a dictionary, given their peculiar semantic status. We maintain the standard classification of classifiers (whole entity and holding classifiers) and size and shape specifiers (SASSes; static and tracing specifiers). We provide arguments for separating the category of specifiers from the category of classifiers. We discuss the proper treatment of mouthings and mouth gestures concerning citation forms, derivation and translation. We show why it is difficult in sign language to distinguish synonyms from variants and how our proposed phonological criteria can help. We explain how to construct a semantic definition in a sign language and what is the solution for multiple meanings of one form. We offer simple guidelines for forming proper examples of use in a sign language. And finally, we briefly comment on the process of the translation between sign and spoken languages. We conclude the paper with a summary of roles that Dictio plays in the ČZJ-signing community.

Slovenščina 2 0 empirical applied and interdisciplinary research
Latest Publications

TOTAL DOCUMENTS

H-INDEX

Published By University Of Ljubljana

Sociolingvistični posvet: aktualni sociolingvistični izzivi in prednostne raziskovalne tematike

Spletna orodja za slovenščino in tuji študenti Univerze v Ljubljani

Mednarodni konferenci eLex (5.–7. julij 2021) in EURALEX (7.–9. september 2021)

Stalnost, variantnost in modificirana raba frazemov v slovenskem jeziku in slovarjih

Collocation ranking: frequency vs semantics

Učno E-okolje Slovenščina na dlani: izzivi in rešitve

Avtomatsko razpoznavanja slovenskega govora za dnevnoinformativne oddaje

Nadgradnja Zgodovinarskega indeksa citiranosti

Tri spletne aplikacije o slovenskih narečjih

Sign language lexicography: a case study of an online dictionary

Export Citation Format

Slovenščina 2 0 empirical applied and interdisciplinary researchLatest Publications

TOTAL DOCUMENTS

H-INDEX

Published By University Of Ljubljana

Sociolingvistični posvet: aktualni sociolingvistični izzivi in prednostne raziskovalne tematike

Spletna orodja za slovenščino in tuji študenti Univerze v Ljubljani

Mednarodni konferenci eLex (5.–7. julij 2021) in EURALEX (7.–9. september 2021)

Stalnost, variantnost in modificirana raba frazemov v slovenskem jeziku in slovarjih

Collocation ranking: frequency vs semantics

Učno E-okolje Slovenščina na dlani: izzivi in rešitve

Avtomatsko razpoznavanja slovenskega govora za dnevnoinformativne oddaje

Nadgradnja Zgodovinarskega indeksa citiranosti

Tri spletne aplikacije o slovenskih narečjih

Sign language lexicography: a case study of an online dictionary

Slovenščina 2 0 empirical applied and interdisciplinary research
Latest Publications