DIE ZEIT


Wissen 12/2002

Im Fadenkreuz des Zippers

--------------------------------------------------------------------------------

Komprimierungsprogramme können den Autor eines Textes enttarnen, obwohl sie kein einziges Wort verstehen

von Annette Lessmöllmann

Wie weit sind Grass und Böll stilistisch voneinander entfernt? Und welche gereimte Bosheit kann nur von Goethe stammen? Darüber lässt sich lange brüten und manch germanistisches Seminar mit dicker Luft füllen. Doch es geht auch einfacher: Jetzt wird gezippt. Zwei Mathematiker und ein Physiker der Universität La Sapienza in Rom haben in den Physical Review Letters eine aufsehenerregende Methode vorgestellt, den Autor eines Textes zu ermitteln.

Dario Benedetto, Emanuele Caglioti und Vittorio Lorenzo nutzen dabei ein bekanntes Rechenverfahren, den Lempel-Ziv-Algorithmus, der gewöhnlich zum Komprimieren beziehungsweise Verkleinern von Computerdateien dient. So steckt der Algorithmus auch in Programmen wie Winzip: Klick, und die Datei hat nur noch einen Bruchteil ihrer Größe. Ein solcher "Zipper" betrachtet Texte einfach als Zeichenketten und sucht sich alles heraus, was mehrfach vorkommt. Komprimiert er etwa einen englischen Text, wird er oft auf die Buchstabenfolge the stoßen. Für solch häufige Ketten legt er eine Art eigenes Kurzwörterbuch an. Trifft er im weiteren Text dann wieder auf the, verzichtet er darauf, die Buchstabenfolge erneut zu speichern und verweist dafür an dieser Stelle auf den Eintrag im Wörterbuch. Am Ende ist der Text ausgeweidet, frei von Wiederholungen und die Zeichenkette viel kürzer als vorher. Und die Datei kleiner, denn Verweise brauchen weniger Speicherplatz als redundante Ketten.

Je länger der Text, desto besser kann der Zipper die Zeichenkette komprimieren, weil sein Wörterbuch für die Redundanzen dann größer wird. Redundanz wird in der Informationstheorie mit Hilfe des Begriffs der Entropie erfasst: Entropie ist ein Maß für Unordnung. Besteht zum Beispiel eine Zeichenfolge aus lauter "As", dann ist sie besonders ordentlich und kann auf eine einzige Regel zusammengestaucht werden: "Vervielfältige A!" - schon ist der ganze Text wieder hergestellt. Die Entropie des Textes ist in diesem Fall extrem gering. Je niedriger die Entropie, desto kürzer die Zeichenkette, die nach dem Komprimieren herauskommt.

Die Suche nach Unordnung

Ein Zip-Programm misst die relative Entropie einer Zeichenkette in Bezug auf eine andere. Die Forscher nutzten diese Eigenschaft der Komprimierungsprogramme für ihre Strategie: Man zippe den langen Text eines bekannten Schriftstellers, um dessen Entropie zu erfassen: Die Redundanzen schreibt der Zipper in sein Wörterbuch. Kommt das Programm dann zu einem unbekannten Text, hält es sich zunächst an das, was es gerade gelernt hat: Es komprimiert nur Zeichenfolgen, die es schon im Wörterbuch hat.

Ist der unbekannte Text dem ersten ähnlich, wird das Programm viel zippen können. Es stößt also häufig auf die gleichen Wiederholungen und muss daher selten neue Wörterbucheinträge anlegen. In diesem Fall ist die Entropie des bekannten und des unbekannten Textes vergleichbar. Und damit ist die Wahrscheinlichkeit groß, dass es sich um denselben Autor handelt. Das römische Forscherteam testete auf diese Weise insgesamt 90 Texte von 11 italienischen Schriftstellern, und der Erfolg beeindruckt: In über 93 Prozent der Fälle ergab das Zippen das richtige Ergebnis. Obwohl das Programm kein Wort versteht. "Das ist ein sehr gutes Resultat", sagt Tibor Kiss, Professor für Computerlinguistik an der Ruhr-Universität Bochum. Weil es eine so hohe Trefferquote hat. Und weil sich da Herrschaften von der mathematischen und physikalischen Fakultät an ein Problem gewagt haben, das auch einen Linguisten aufhorchen lässt - die Autorenerkennung. Das ist nicht nur einfache Sprach-erkennung, also die Identifikation der Landessprache, in der ein Text geschrieben ist: "Die ist heutzutage keine große Sache mehr", sagt Kiss. Hierbei wird aber schon längst die Methode eingesetzt, Texte in Bezug auf ihre relative Entropie zu vergleichen: In englischen Texten taucht die Zeichenkette the viel öfter auf als im Deutschen. Diese spezielle Redundanz lässt sich messen. Und an dem Punkt beginnt die kollegiale Mäkelei: Die Idee mit der relativen Entropie sei eben nicht ganz so neu, wie es die Italiener in ihrem Papier darstellen. Nur die Sache mit dem Zippen, das sei wirklich originell.

Aber der Neid muss es ihnen lassen: Die Methode aus Italien ist gut. Das Forscherteam hat sie auch benutzt, um Familienähnlichkeiten zwischen Sprachen aufzudecken. Dazu zippten sie die Allgemeine Erklärung der Menschenrechte in über 50 Landessprachen. Das Ergebnis ist dem Sprachenstammbaum verblüffend ähnlich, den Sprachtypologen erarbeitet haben. Linguistische Ambitionen haben die Italiener aber ausdrücklich nicht. Sie wollen nur ein robustes Werkzeug vorstellen, das auch mal Aktienkurse und DNA-Sequenzen analysieren soll.

Und vielleicht bald ein paar berühmte Leute arbeitslos macht. Den Anglisten Don Foster zum Beispiel, der spektakulär Autoren enttarnt. Er identifizierte den Anonymus, der die Clinton-Saga Primary Colors schrieb. Foster erkannte seinen Stil, und zwar mit Intuition, aber auch mit Statistik: Joe Klein hat nämlich eine Schwäche für den Doppelpunkt und für Slangausdrücke. Andere Autoren verraten sich einfach durch die Frequenz, mit der sie "und" verwenden. So einfach ist das. Reine Statistik. Kein Wunder, dass ein Zipper das auch kann.