Katedra českého jazyka FF OU

Aktuality

Nový grantový projekt zaměřený na aplikaci neuronových sítí v lingvistice

Analýza kontextové specifičnosti lemmatu pomocí neuronových sítí

Miroslav Kubát, Radek Čech, Jan Hůla, David Číž, Kateřina Pelegrinová

SGS01/UVAFM/18

Projekt navazuje na předchozí projekt Aplikace neuronových sítí v diachronní a synchronní sémantické analýze textů. Výzkum je založen na technice word2vec, jež využívá neuronové sítě. Jako data slouží korpus SYN_V4, což je jeden z největších tzv. synchronních korpusů současné češtiny a je součástí Českého národního korpusu. Celková velikost korpusu je více než 3,5 miliardy tokenů (3 626 417 275) a sestává z více než 14 milionů textů (14 097 711) třech různých typů textů (publicistika, odborná literatura, beletrie). Korpus obsahuje texty vytvořené mezi lety 1990-2014, což umožnuje také diachronní přístup, tedy zkoumání vývoje významu jednotlivých lemmat v průběhu let. Cílem je aplikovat navrženou metodu CSL (Context Specificity of Lemma – CSL) a z ní odvozené metriky FCS (Full Context Specificity) a CCS (Closest Context Specificity) v sémantické analýze vybraných lemmat, a to jak ze synchronního, tak i z diachronního pohledu. Dalším záměrem navrhovaného projektu je analýza synsémantik neboli neplnovýznamových, funkčních či gramatických slov, která se vyznačují tím, že jejich gramatická funkce převažuje nad lexikální funkcí. Zaměření projektu odráží klíčové výzkumné oblasti jak Ústavu pro výzkum a aplikaci fuzzy modelování Ostravské univerzity (neuronové sítě), tak Katedry českého jazyka Filozofické fakulty Ostravské univerzity (kvantitativní lingvistika).