Mittwoch, 30. Mai 2007

Des Widerspenstigen Zählung II


"Da habe ich dir eine Schüssel Linsen in die Asche geschüttet" heißt es im Märchen von Aschenputtel.


Gut möglich, dass unsere Muttersprache mit den Palindromen etwas Ähnliches im Sinn hatte ;) Nur um einiges perfider: Nicht aus der Asche sucht man etwas heraus, sondern in einem Meer von Linsen diejenigen, die sich spiegelbildlich entsprechen. Das geht eigentlich nur durch langwierige Inaugenscheinnahme jeder einzelnen. Gerade deshalb wäre ein schnelles Extraktionsverfahren wie im Märchen hilfreich: "Die guten ins Töpfchen, die schlechten ins Kröpfchen." Was aber bedingt hier qualitative Abstufungen zwischen "perfekt" und "geht überhaupt nicht" - die Widerspenstigkeit oder Palindromität der Worte, ihr Vermögen also, umkehrbare Verbindungen einzugehen bzw. auszubilden?

Die erste Überlegung vor einem Monat zielte dabei auf die Buchstabenhäufigkeit ab. Mit diesem Denkansatz ließen sich die dreibuchstabigen Wörter schon recht gut einschätzen. Dabei blieb allerdings eines außer Acht: Buchstaben existieren ja nicht als isolierte Einzelindividuen, sondern stets in Verbindung mit anderen. Und in diesem "Paarungsverhalten" sind sie ähnlich wählerisch wie Menschen: nicht jeder kann mit jedem ;) Berücksichtigt man die relativen Bigrammhäufigkeiten, in denen solche Vorlieben und Abneigungen Niederschlag finden, ergibt sich ein genaueres Bild der möglichen Wahlverwandschaften. Dank einer guten Freundin lässt sich das auch in einer Formel ausdrücken:



An einem Beispiel verdeutlicht:

Das Wort "Beil" enthält 4 Buchstaben, die im Deutschen mit einer charakteristischen Häufigkeit auftreten:
1.) B: 1,9%, E: 17,4%, I: 7,6%, L: 3,4%. Im Mittel: 7,6%.

Darüber hinaus besteht es aus 3 Bigrammen, die wir in dem Fall rückwärts betrachten: LI -> IE -> EB. Auch diese treten im Deutschen mit einer bestimmten Häufigkeit auf:
2.) LI: 17,3%, IE: 21,1%, EB: 2,6%. Im Mittel: 13,7%.

Partiell auftretende Unschärfen in beiden Berechnungen erfordern die Bildung des Gesamtdurchschnitts:
3.) Diesen mittleren Wert definiere ich als Palindromität P, für "Beil" ergibt sich P=10,7.

Diesen Algorithmus habe ich zu Versuchszwecken auf alle vierbuchstabigen Wörter angewendet. Mehrere hundert konnten so relativ schnell klassifiziert werden ("wenn du die Linsen in zwei Stunden wieder ausgelesen hast, so sollst du mitgehen"). Die Höchstwertung erhielt dabei übrigens "Rebe" mit 18,7. Ab den erkennbar Schwierigen habe ich dann die Umkehrbarkeit untersucht. Das ist "Grundlagenforschung" mit Mut zur Lücke und eine Einladung zur Widerlegung* ;) Von den ca. 750 Wörtern erwiesen sich am Ende nur 4% als nicht palindrom:
6,2 Myom
5,8 Stau
5,5 wild
5,3 Zimt
4,4 Slum
4,4 Wind
4,1 Pfad
3,9 Kurs
3,9 zwar
3,8 Wink
3,7 Zorn
3,5 wund
3,4 Blut
3,4 Glut
3,2 Gong
3,2 Wurm
3,1 keck
3,1 Spuk
3,1 pfui
3,0 Punk
2,9 Form
2,9 Jeck
2,9 kurz
2,8 chic
2,5 Jury
2,5 Kohl
2,0 Kick
1,9 Fick
1,8 Guck


Die mathematische Rangfolge deckt sich dabei im Wesentlichen mit der gefühlten, empirischen Widerspenstigkeit. Mit einigen Ausreißern wie

12,8 Noxe: Retsina-Noxe: Sex-Onanist, er
10,5 Neon: Mord. Nil. Apnoe. Neon-Palindrom.
9,1 Lyse: Bargeld-Naht. Lyse. Sylt handle. Grab.

die längst nicht so pflegeleicht sind, wie hier ermittelt.

Die Grenzen dieser Methode liegen in der Anschauung einer sprachlichen Normalverteilung, die für Palindrome zwar aussagekräftig aber nicht bindend ist. Sie finden manchmal eben auch Wege, wo keine sein dürften und versagen sich anderen, die passabel scheinen. Das Eigensinnige ist das Unkalkulierbare dabei. Man darf also auf eine Fortsetzung dieser Geschichte gespannt sein ...

_________
* Schreiben Sie mir ruhig, wenn Ihnen ein hier nicht erwähntes Wort unumkehrbar scheint!