Natürliche Sprachen als formale Sprachen, und die Probleme dabei

Wer irgendetwas mit theoretischer Informatik, oder chomskischer Linguistik zu tun hatte, hat sicherlich schon von formalen Sprachen gehört. Diese sollten ursprünglich als ein Modell für natürliche Sprachen herhalten, und waren gar nicht für die Informatik gemacht. Dafür werden sie auch heutzutage (bei Chomsky-Fans) noch hin und wieder genutzt, und auch Informatiklons stellen sich regelmäßig die Frage, wo natürliche Sprachen denn in der Chomsky-Hierarchie eigentlich anzufinden sind. Dabei findet die Übertragung der Sachverhalte jedoch gerade bei Informatiklons häufig auf sehr naive Weise statt, die zu Fehlschlüssen führt.

Zunächst sei daran erinnert, dass es sich bei formalen Sprachen um ein Modell handelt. Ein Modell eines Schiffes kann zu vielen Erkenntnissen verhelfen - zum Beispiel lassen sich daran Größenverhältnisse der Abschnitte und Bestandteile vergleichen. Es lassen sich darüber manchmal auch Fluchtwege nachvollziehen. Niemand würde jedoch ein Schiffsmodell zur Hilfe ziehen, um die Größe des Schiffes abzumessen (schließlich ist das Modell höchstwahrscheinlich kleiner), oder die Fahrgeschwindigkeit. Das sind Eigenschaften, die wir über „über Bord werfen“, wenn wir das Modell anfertigen. Wenn wir tatsächlich alle Eigenschaften korrekt beibehalten würden, wäre es kein Modell mehr, sondern ein zweites baugleiches Schiff.

Das ist nicht anders, wenn wir natürliche Sprachen über formale Sprachen betrachten. Dabei werfen wir sehr viele Eigenschaften natürlicher Sprachen über Bord, um ein einfacheres Modell zu erhalten, mit dem wir leichter arbeiten können. Das heißt aber auch, dass wir die damit gewonnenen Erkenntnisse nicht 1:1 wieder zurückübertragen können. Ein Beispiel dafür ist die beschränkte Länge von Sätzen: Sätze natürlicher Sprachen werden von Menschen produziert und auch von Menschen geparst. Damit fällt ein Satz aus 1 Mio. Wörtern schonmal flach, denn niemand würde diesen verstehen, oder selbst sagen, oder auch nur beurteilen können, ob er grammatisch korrekt ist. Denke mal über folgenden Satz nach:

Hast du heute morgen den Bauern, der den Müller, der den Bauern, der den Müller, … (100 weitere Verschachtelungen) …, gesehen hat, gesehen hat, gesehen hat, gesehen?

Könntest du hinterher sicher sagen, ob der Satz grammatisch korrekt war? Dafür müsstest du vermutlich extra mitzählen. Dabei würdest du aber bereits dein Wissen über ein Modell der deutschen Sprache verwenden, und nicht die Fähigkeiten deines Sprachzentrums. Du würdest also dein Modellwissen, dass Relativsätze sich beliebig oft verschachteln ließen, verwenden, um damit die grammatische Korrektheit des Satzes zu beurteilen. Gerade die Frage, ob Relativsätze sich tatsächlich beliebig oft verschachteln lassen, und damit beliebig lange Sätze erzeugen können, ist aber gar nicht geklärt. Hier gerät mensch leicht in einen Zirkelschluss.

Wenn wir die Beschränktheit natürlicher Sätze jedoch ins Modell mitnehmen, wird’s langweilig. Denn formale Sprachen haben immer ein endliches Alphabet. Wenn dann auch noch die Länge eine obere Schranke hat, ist die ganze Sprache endlich. Alle endlichen Sprachen sind regulär, und ihre Sätze/Wörter zudem aufzählbar. Zufriedenstellend? Intuitiv ist’s zumindest nicht, sonst würden Informatiklons nicht immer so geschockt (und gleichzeitig mitleidig) gucken, wenn ich behaupte, Deutsch sei regulär. Und nützlich ist diese Betrachtung auch nicht.

Wenn wir irgendwelche nützlichen Erkenntnisse herausfinden wollen, müssen wir im Modell also beliebig lange Sätze erlauben, und ordnen vermutlich die meisten natürlichen Sprachen als kontextfrei ein, und einige wenige, in denen wir $A^nB^nC^n$ -Phrasenstrukturen finden, als mild kontextsensitiv. Nun könnte mensch aus der Kontextfreiheit (oder Kontextsensitivität) wieder schlussfolgern, dass Sätze in natürlichen Sprachen unendlich lang sein können, Beweis siehe Produktionsregel XY, die mensch ja bloß durchiterieren müsse. Das wäre aber ein furchtbarer Fehlschluss, denn die Längenbeschränktheit ist ja gerade eine der Eigenschaften, die wir (hoffentlich bewusst) über Bord geworfen haben, um an ein nützliches Modell zu kommen. Das ist etwa so ein Fehlschluss, wie an dem Schiffsmodell die Fahrgeschwindigkeit zu messen.

Fazit: Modelle sind immer Vereinfachungen. Achtet darauf, an welchen Stellen die Vereinfachungen stattfinden, und bedenkt sie, wenn ihr Erkenntnisse aus dem Modell wieder auf den eigentlichen Gegenstand rückübertragt.