Katedra českého jazyka FF OU

Kvantitativní analýza textů žákovského korpusu CzeSL-SGT

SGS (2022), SGS06/FF/2022
Miroslav Kubát, Radek Čech, Michaela Hanušková, Michaela Nogolová, Markéta Guńková

Projekt se zaměřuje na kvantitativní analýzu textů žákovského korpusu CzeSL-SGT. Cílem je získat základní data o textech jednotlivých jazykových úrovní a sledovat tak proces učení se češtiny jako cizího jazyka. Zabýváme se indexy slovního bohatství a syntaktické komplexity. Zajímá nás zejména vývoj napříč jednotlivými jazykovými úrovněmi a také rozdíl mezi vývojem slovanských a neslovanských rodilých mluvčích.

Kontakt: michaela.hanuskova@osu.cz, nogolovam@gmail.com


Lexikální diverzita

Lexikální diverzita (LD) je jedním ze způsobů, jak analyzovat slovní bohatství, specificky rozmanitost slov ve zkoumaném vzorku. LD se v oblasti akvizice jazyka analyzuje pomocí mnoha indexů. Na základě nejnovějších studií je jedním z nejspolehlivějších indexů MATTR (Moving-average type-token ratio), který využíváme i pro naši analýzu.

Cílem této analýzy je zjistit, jakým způsobem se vyvíjí lexikální diverzita textů psaných nerodilými mluvčími češtiny a zda se tento vývoj liší v závislosti na rodném jazyku pisatele.

Jazykový materiál je tvořen vybranými texty žákovského korpusu CZeSL-SGT, který je součástí Českého národního korpusu. Tento korpus je složen z písemných prací nerodilých mluvčích češtiny z let 2009 a 2013 a obsahuje více než 8000 autentických textů různých jazykových úrovní. Pro naši analýzu jsme využili 6073 textů. Z analýzy byly vyřazeny texty kratší než 55 slov a také jediný text s jazykovou úrovní C2. Také byly vyřazeny texty s nejasnou jazykovou úrovní.

Jazyková
úroveň
Počet
textů
Počet textů
slovanská skupina
Počet textů
neslovanská skupina
A120241466558
A218381215623
B11371879492
B2722511211
C11188038
Tabulka 1. Počty textů jednotlivých jazykových úrovní a skupin slovanských a neslovanských rodilých mluvčích.

Jednotlivé texty jsou analyzovány pomocí softwaru MATTR, okno pro analýzu klouzavého průměru je 50 slov. K porovnání výsledků mezi jednotlivými úrovněmi a také výsledků slovanských a neslovanských skupin na stejných úrovních jsou užity statistické testy. U výsledku s nenormálním rozdělením je užito Mann-Whitney testu a u výsledků s normálním rozdělením je užito t-testu. Statistické testy jsou vyhodnocovány na hladině významnosti 0,05.

Výsledky našeho výzkumu jsou zobrazeny na grafech 1 a 2.

Graf 1. Hodnoty MATTR textů jednotlivých jazykových úrovních.

V grafu 1 můžete vidět výsledky MATTR analýzy textů rozdělených do skupin podle jazykové úrovně pisatele. Napříč jednotlivými jazykovými úrovněmi je možné vidět stoupavou tendenci hodnot. Rozdíly hotnot jednotlivých statistických úrovní byly statisticky testovány pomocí Mann-Whitney testu. Výsledky statistických textů najdete v tabulce 2. Rozdíly mezi hodnotami jazykových úrovní jsou statisticky významné.

A1A2B1B2
A2<0,0001
B1<0,0001<0,0001
B2<0,0001<0,0001<0,0001
C1<0,0001<0,0001<0,0001<0,0001
Tabulka 2. Statistické testy: rozdíl mezi jazykovými úrovněmi
Graf 2. Průměrná hodnota MATTRu textů rozdělených podle mateřského jazyka pisatele.

Na základě analýzy se nám potvrdil také předpoklad, že mluvčí se slovanským mateřským jazykem budou dosahovat vyššíh hodnot MATTR napříč všemi jazykovými úrovněmi. Rozdíl mezi slovanskými a neslovanskými rodilými mluvčími je na úrovních A1-B2 statisticky významný. Výsledky z této analýzy můžete vidět v grafu 2. Výsledky statistických testů můžete vidět v tabulce 3.

A1 N x A1 S<0,0001
A2 N x A2 S<0,0001
B1 N x B1 S<0,0001
B2 N x B2 S<0,001
C1 N x C1 S> 0,05
Tabulka 3. Statistické testy: rozdíl mezi slovanskými a neslovanskými rodilými mluvčími.

Syntaktická komplexita

Měření syntaktické komplexity má v analýzách druhého jazyka dlouhou tradici. Existuje mnoho indexů, které se užívají k prozkoumání syntaktické struktury. V naší analýze užíváme tyto:

  • Průměrná délka věty (ASL)
    • Počet slov textu vydělen počtem vět.
  • Průměrná délka klauze (ACL)
    • Počet slov textu vydělen počtem klauzí.
  • Celková komplexita věty (CS)
    • Počet klauzí textu vydělen počtem vět.

Cílem této analýzy je ověřit předpoklad – čím vyšší je jazyková úroveň, tím větší je v průměru ASL, ACL a také CS. Dále nás zajímá, zda se objevují rozdíly v závislosti na mateřském jazyce, konkrétně zda se objevuje rozdíl výsledků těchto měr na stejných úrovních u nerodilých mluvčích se slovanským a s neslovanským mateřským jazykem.

Jazykový materiál je tvořen vybranými texty žákovského korpusu CZeSL-SGT, který je součástí Českého národního korpusu. Tento korpus je složen z písemných prací nerodilých mluvčích češtiny z let 2009 a 2013 a obsahuje více než 8000 autentických textů různých úrovní znalosti jazyka. Pro tuto analýzu jsme zvolili pouze úrovně A1–C1, neboť úroveň C2 obsahuje pouze jeden text. Dále byly vyloučeny texty, které neobsahovaly ani jedno správně užité verbum finitum, a texty s nejasnou jazykovou úrovní. Celkově tedy v této analýze pracujeme se 7040 texty. V tabulce 1 můžeme vidět rozložení textů ve všech zde užívaných jazykových úrovní a také jejich zastoupení ve slovanských a neslovanských skupinách.

Jazyková
úroveň
Počet
textů
Počet textů
slovanská skupina
Počet textů
neslovanská skupina
A125991780819
A220941346748
B11480929551
B2745523222
C11228240
Tabulka 1. Počty textů jednotlivých jazykových úrovní a také slovanských a neslovanských skupin.

Jednotlivé texty jsou zpracovány pomocí anotačního nástroje UDPipe 2.0. Tento nástroj nám umožňuje identifikovat věty a klauze k následné analýze. K porovnání výsledků mezi jednotlivými úrovněmi a také výsledků slovanských a neslovanských skupin na stejných úrovních jsou užity statistické testy. U výsledku s nenormálním rozdělením je užito Mann-Whitney testu a u výsledků s normálním rozdělením je užito t-testu. Statistické testy jsou vyhodnocovány na hladině významnosti 0,05.

Na obrázcích 1, 2 a 3 můžeme vidět výsledky ASL, ACL a CS jak daných jazykových úrovní, tak také slovanských a neslovanských skupin.

Obrázek 1. Průměrné hodnoty ASL
Obrázek 2. Průměrné hodnoty ACL
Obrázek 3. Průměrné hodnoty CS

U všech tří indexů lze vidět rostoucí tendenci. Mezi slovanskými a neslovanskými skupinami můžeme vidět největší rozdíly u ASL a ACL. Ve většině případů mají slovanské skupiny vyšší průměrné hodnoty. Pouze u úrovně B1 v rámci ASL a C1 v rámci ACL dosahují neslovanské skupiny vyšších průměrných hodnot. Index CS poté při porovnávání průměrných hodnot slovanských a neslovanských skupin nevykazuje značné rozdíly, výjimkou je opět úroveň B1, kde neslovanská skupina dosahuje vyšší průměrné hodnoty.

V tabulce 2, 3 a 4 můžeme vidět výsledky statistických testů jednotlivých jazykových úrovní.  

ASLA1A2B1B2
A2<0,01
B1<0,01<0,01
B2<0,01<0,01<0,01
C1<0,01<0,01<0,010,18
Tabulka 2. Výsledky statistických testů hodnot ASL
ACLA1A2B1B2
A2<0,01
B1<0,01<0,01
B2<0,01<0,01<0,01
C1<0,01<0,01<0,010,02
Tabulka 3. Výsledky statistických testů hodnot ACL
CSA1A2B1B2
A2<0,01
B1<0,01<0,01
B2<0,01<0,01<0,01
C1<0,01<0,01<0,010,93
Tabulka 4. Výsledky statistických testů hodnot CS

Výsledky statistických testů ukázaly statisticky signifikantní rozdíl mezi všemi úrovněmi, vyjma úrovní B2 a C1 u ASL a CS. U ACL byly statisticky významné rozdíly mezi všemi úrovněmi.

V tabulce 5 jsou poté výsledky statistických testů mezi slovanskými a neslovanskými skupinami.

S. vs. NASLACLCS
A1<0,01<0,01<0,01
A2<0,01<0,01<0,01
B10,74<0,01<0,01
B20,02<0,010,84
C10,490,670,19
Tabulka 5. Výsledky statistických testů mezi slovanskými a neslovanskými skupinami

Výsledky ASL u slovanských a neslovanských skupin vykazují statisticky významné rozdíly ve většině úrovní kromě B1 a C1. V rámci ACL nebyla statisticky významná pouze skupina C1 a u indexu CS jsou statisticky významné rozdíly v úrovních A1–B1.