Karelische Textcorpora - Woher nehmen?

Verfasst am | Schlagwörter:

Wer Sprach­tech­no­logie für Min­der­hei­ten­spra­chen ent­wi­ckeln will, steht immer wieder vor einer Her­aus­for­de­rung: denn wer gute Er­geb­nisse er­zielen will, braucht gute und viele Trai­nings­da­ten. Kon­kret heißt das: Text­cor­pora!

Ein Text­corpus ist eine di­gi­tale Samm­lung von Tex­ten, die au­to­ma­ti­siert ver­ar­beitet werden kann. Häufig haben die Texte ir­gend­etwas ge­mein­sam, z.B. ihr Genre oder ihre Ent­ste­hungs­zeit. Viele Cor­pora sind ein­spra­chig, aber es gibt auch Par­al­lel­cor­pora, wo jeder Text in zwei oder mehr Spra­chen vor­handen ist.

Sta­tis­ti­sche Sprach­tech­no­lo­gie-­An­wen­dungen sind zu­meist so ge­baut, dass sie an­fangs fast nichts über die Sprache wis­sen, und all ihre In­for­ma­tionen aus dem Trai­ning mit Text­cor­pora zie­hen. Für high re­source lan­guages wie Eng­lisch und Deutsch ist das ein ge­ringes Pro­blem, denn dafür gibt es große und qua­li­ta­tive Cor­pora leicht er­reichbar im In­ter­net. Diese setzen sich häufig aus Nach­rich­ten­ar­ti­keln, Bel­le­tris­tik, Ge­set­zes­texten un­d/oder Fach­t­exten zu­sam­men. Bei klei­neren Spra­chen hat 1 Glück, wenn 1 über­haupt ir­gendwas in die Hand be­kommt.

Da ich an sta­tis­ti­scher ma­schi­neller Über­set­zung (SMT) zwi­schen Fin­nisch und Ka­re­lisch ar­beite, gehen meine An­for­de­rungen sogar noch wei­ter: Ich brauche satzali­nierte Par­al­lel­cor­pora, d.h. Text­cor­pora, die jeden Text auf Fin­nisch und Ka­re­lisch ent­hal­ten, und wo jeder ka­re­li­sche Satz 1:1 einem fin­ni­schen Satz ent­spricht. Da gibt es nichts fer­ti­ges. Ein paar Res­sourcen habe ich aber auf­ge­trie­ben:

Yle Uudizet Kar­ja­lakse

Der fin­ni­sche staat­liche Rund­funk ver­öf­fent­licht seit ein paar Jahren ei­nige Nach­rich­ten­mel­dungen auch auf Ka­re­lisch. Das sind alles Über­set­zungen von fin­ni­schen Ar­ti­keln und können größ­ten­teils recht leicht damit satzali­niert wer­den. Zum Down­load habe ich ein Tool ge­schrie­ben.

Bi­beln

Es gibt Bi­bel­über­set­zungen so­wohl auf Olo­nets-­Ka­re­li­sch, als auch auf Nord­ka­re­lisch und Lü­di­sch, und ei­nigen wei­teren ura­li­schen Min­der­hei­ten­spra­chen bei Fi­nu­g­orbib.

Bel­le­tristik

Es wurden in den ver­gan­genen beiden Jahr­zehnten auch ei­nige li­te­ra­ri­sche Klas­siker ins Ka­re­li­sche über­setzt, die heute im Ori­ginal nicht mehr dem Ur­he­ber­recht un­ter­lie­gen. Dar­unter sind das „Ka­le­va­la“, „A­lice im Wun­der­land“, „Der kleine Prinz“, sowie eine ganze Reihe an Werken von Ju­hani Aho und Pentti Saa­ri­koski. Auch ei­nige Mu­umin-­Co­mics wurden über­setzt. Aus den Vier­zi­gern sind noch Über­set­zungen von Pusch­kin, Tol­stoi und an­deren er­hal­ten, je­doch in ky­ril­li­scher Schrift, au­ßerdem wurden die Dia­lekte dabei recht frei ge­mischt. Hier sind die alten di­gi­ta­li­sierten Texte on­line. Die neueren sind al­ler­dings noch im Handel und be­scheren den Über­set­zer*innen ihr täg­li­ches Ein­kom­men. Alle diese Werke sind auch auf Fin­nisch er­hält­lich, und taugen damit als Par­al­lel­cor­pora.

Oma Mua / Karjal Žur­nualu

Oma mua und Karjal Žur­nualu sind zwei mo­no­lin­guale In­ter­net­zei­tungen auf Ka­re­lisch. Es gibt keine par­al­lelen fin­ni­schen Fas­sun­gen, aber sie eignen sich den­noch als Trai­nings­daten für Sprach­mo­delle.

Wi­ki­pedia

Es gibt eine ka­re­lisch­spra­chige Wi­ki­pedia, mit über 2800 Ar­ti­keln. Die sind zwar fast alle nur ex­trem kurz, aber den­noch lässt sich viel­leicht der eine oder an­dere Par­al­lel­satz zur fin­ni­schen Fas­sung fin­den.