Natürliche Sprachen als formale Sprachen, und die Probleme dabei

Verfasst am von Enum | Schlagwörter: formale Sprachen, Linguistik, theoretische Informatik, Chomsky-Bashing

Wer ir­gend­etwas mit theo­re­ti­scher In­for­ma­tik, oder chomski­scher Lin­gu­istik zu tun hatte, hat si­cher­lich schon von for­malen Spra­chen ge­hört. Diese sollten ur­sprüng­lich als ein Mo­dell für na­tür­liche Spra­chen her­hal­ten, und waren gar nicht für die In­for­matik ge­macht. Dafür werden sie auch heut­zu­tage (bei Chomsky-­Fans) noch hin und wieder ge­nutzt, und auch In­for­matiklons stellen sich re­gel­mäßig die Frage, wo na­tür­liche Spra­chen denn in der Chomsky-Hier­ar­chie ei­gent­lich an­zu­finden sind. Dabei findet die Über­tra­gung der Sach­ver­halte je­doch ge­rade bei In­for­matiklons häufig auf sehr naive Weise statt, die zu Fehl­schlüssen führt.

Zu­nächst sei daran er­in­nert, dass es sich bei for­malen Spra­chen um ein Mo­dell han­delt. Ein Mo­dell eines Schiffes kann zu vielen Er­kennt­nissen ver­helfen - zum Bei­spiel lassen sich daran Grö­ßen­ver­hält­nisse der Ab­schnitte und Be­stand­teile ver­glei­chen. Es lassen sich dar­über manchmal auch Flucht­wege nach­voll­zie­hen. Nie­mand würde je­doch ein Schiffs­mo­dell zur Hilfe zie­hen, um die Größe des Schiffes ab­zu­messen (schließ­lich ist das Mo­dell höchst­wahr­schein­lich klei­ner), oder die Fahr­ge­schwin­dig­keit. Das sind Ei­gen­schaf­ten, die wir über „über Bord wer­fen“, wenn wir das Mo­dell an­fer­ti­gen. Wenn wir tat­säch­lich alle Ei­gen­schaften kor­rekt bei­be­halten wür­den, wäre es kein Mo­dell mehr, son­dern ein zweites bau­glei­ches Schiff.

Das ist nicht an­ders, wenn wir na­tür­liche Spra­chen über for­male Spra­chen be­trach­ten. Dabei werfen wir sehr viele Ei­gen­schaften na­tür­li­cher Spra­chen über Bord, um ein ein­fa­cheres Mo­dell zu er­hal­ten, mit dem wir leichter ar­beiten kön­nen. Das heißt aber auch, dass wir die damit ge­won­nenen Er­kennt­nisse nicht 1:1 wieder zu­rück­über­tragen kön­nen. Ein Bei­spiel dafür ist die be­schränkte Länge von Sät­zen: Sätze na­tür­li­cher Spra­chen werden von Men­schen pro­du­ziert und auch von Men­schen ge­parst. Damit fällt ein Satz aus 1 Mio. Wör­tern schonmal flach, denn nie­mand würde diesen ver­ste­hen, oder selbst sa­gen, oder auch nur be­ur­teilen kön­nen, ob er gram­ma­tisch kor­rekt ist. Denke mal über fol­genden Satz nach:

Hast du heute morgen den Bau­ern, der den Mül­ler, der den Bau­ern, der den Mül­ler, … (100 wei­tere Ver­schach­te­lun­gen) …, ge­sehen hat, ge­sehen hat, ge­sehen hat, ge­se­hen?

Könn­test du hin­terher si­cher sa­gen, ob der Satz gram­ma­tisch kor­rekt war? Dafür müss­test du ver­mut­lich extra mit­zäh­len. Dabei wür­dest du aber be­reits dein Wissen über ein Mo­dell der deut­schen Sprache ver­wen­den, und nicht die Fä­hig­keiten deines Sprach­zen­trums. Du wür­dest also dein Mo­dell­wis­sen, dass Re­la­tiv­sätze sich be­liebig oft ver­schach­teln lie­ßen, ver­wen­den, um damit die gram­ma­ti­sche Kor­rekt­heit des Satzes zu be­ur­tei­len. Ge­rade die Frage, ob Re­la­tiv­sätze sich tat­säch­lich be­liebig oft ver­schach­teln las­sen, und damit be­liebig lange Sätze er­zeugen kön­nen, ist aber gar nicht ge­klärt. Hier gerät mensch leicht in einen Zir­kel­schluss.

Wenn wir die Be­schränkt­heit na­tür­li­cher Sätze je­doch ins Mo­dell mit­neh­men, wird’s lang­wei­lig. Denn for­male Spra­chen haben immer ein end­li­ches Al­pha­bet. Wenn dann auch noch die Länge eine obere Schranke hat, ist die ganze Sprache end­lich. Alle end­li­chen Spra­chen sind re­gu­lär, und ihre Sät­ze/Wörter zudem auf­zähl­bar. Zu­frie­den­stel­lend? In­tuitiv ist’s zu­min­dest nicht, sonst würden In­for­matiklons nicht immer so ge­schockt (und gleich­zeitig mit­lei­dig) gu­cken, wenn ich be­haupte, Deutsch sei re­gu­lär. Und nütz­lich ist diese Be­trach­tung auch nicht.

Wenn wir ir­gend­welche nütz­li­chen Er­kennt­nisse her­aus­finden wol­len, müssen wir im Mo­dell also be­liebig lange Sätze er­lau­ben, und ordnen ver­mut­lich die meisten na­tür­li­chen Spra­chen als kon­text­frei ein, und ei­nige we­nige, in denen wir AnBnCn-Phra­sen­struk­turen fin­den, als mild kon­text­sen­si­tiv. Nun könnte mensch aus der Kon­text­frei­heit (oder Kon­text­sen­si­ti­vi­tät) wieder schluss­fol­gern, dass Sätze in na­tür­li­chen Spra­chen un­end­lich lang sein kön­nen, Be­weis siehe Pro­duk­ti­ons­regel XY, die mensch ja bloß durch­i­te­rieren müsse. Das wäre aber ein furcht­barer Fehl­schluss, denn die Län­gen­be­schränkt­heit ist ja ge­rade eine der Ei­gen­schaf­ten, die wir (hof­fent­lich be­wusst) über Bord ge­worfen ha­ben, um an ein nütz­li­ches Mo­dell zu kom­men. Das ist etwa so ein Fehl­schluss, wie an dem Schiffs­mo­dell die Fahr­ge­schwin­dig­keit zu mes­sen.

Fazit: Mo­delle sind immer Ver­ein­fa­chun­gen. Achtet dar­auf, an wel­chen Stellen die Ver­ein­fa­chungen statt­fin­den, und be­denkt sie, wenn ihr Er­kennt­nisse aus dem Mo­dell wieder auf den ei­gent­li­chen Ge­gen­stand rück­über­tragt.