Alphabetisch sortieren
Des öfteren ergibt sich die Notwendigkeit, vorhandenen Text zeilenweise alphabetisch sortieren zu müssen. Die Zeichenreihenfolge ist in DIN 5007 Ordnen von Schriftzeichenfolgen festgelegt. Diese Norm ist nicht unbedingt billig und behandelt auch nicht alle Möglichkeiten in der Praxis.
Für QXP gibt es mehrere Möglichkeiten, Text zu sortieren. Jedes Mal ist das Ergebnis ein anderes. Die Sortierreihenfolge ist abhängig von der Quelldatei: Ist es ein Telefonbuch? Eine Bibliothek? Ein Personenregister? Ein Kochbuch? Was auch immer, keine der unten vorgestellten Anwendungen bietet eine Option, die Sortierreihenfolge speziell festzulegen.
Musterdatei
Die Sortierergebnisse basieren auf einer willkürlich zusammengestellten, unsortierten Musterdatei, die einige kritische Zeichen enthält:
Sortierung nach DIN 5007 Teil I Ordnen von Schriftzeichenfolgen
Für das Sortieren von Schriftzeichen gibt es ein ganzes Konglomerat von internationalen, europäischen und nationalen Normen. DIN 5007 Teil I regelt das Sortieren von Buchstaben und Ziffern und etwas lax einige Sonderzeichen. Danach müsste die obige Datei wie folgt sortiert werden:
Listenfunktion in QXP
Die Listenfunktion ist in QXP ab Version 5 integriert. Sie bietet die Möglichkeit, Zeilen nicht nur absatzweise zu sortieren (über Absatzstilvorlagen), sondern auch einzelne Wörter daraus zu filtern und zu sortieren (über Zeichenstilvorlagen):
Hier wird eine nur bei dieser Methode zu entdeckende Schwachstelle deutlich: Die Ziffer 200 mit einem Minus als Vorzeichen (–200) wird in zwei Teile (– und 200) zerlegt, da die XTension das Minus als Gedankenstrich interpretiert (in US-amerikanischen Texten wird der Gedankenstrich im Normalfall ohne Zwischenraum zu den anschließenden Zeichen gesetzt).
Generell: Sonderzeichen werden vorangestellt, anschließend Ziffern, am Schluss Buchstaben.
Wörter und Ziffern, vor denen Sonderzeichen stehen, werden unter Sonderzeichen gereiht, das gilt auch für vorangestellte Währungszeichen. Ausnahme: der Florin (ƒ), Währungssymbol für den holländischen Gulden, wird unter „F“ gereiht. Die Logik der Reihenfolge der Sonderzeichen ist nicht erkennbar.
Ziffern und Zahlen werden vor die Buchstaben gestellt und untereinander richtig gereiht. Ausnahme: Zahlen mit Führungsnullen.
Diakritische Zeichen (Akzente) werden gemäß DIN 5007 sortiert.
Die Ligatur ß wird richtig gereiht, die Ligatur ue (Mueller) nicht erkannt (wie auch?).
Kleinbuchstaben werden vor Großbuchstaben gereiht, was nicht DIN 5007 entspricht.
Indexfunktion in QXP
Die Indexfunktion ist in QXP wie die Listenfunktion ab Version 5 integriert. Sie bietet die Möglichkeit, einzelne Wörter zu indexieren, die dann in einem eigenen Index sortiert ausgegeben werden können. Wählt man die Option Seiten-Nr. unterdrücken, erhält man folgende Reihenfolge:
Der einzige Unterschied zur Listenfunktion besteht darin, dass die Zahl –200 auch als solche erhalten bleibt – die Sortierposition entspricht jedoch dem des Minus.
Es gibt aber auch zusätzliche XTensions.
Microsoft Word
Hat man nur durchgehenden Text in einem Rahmen, kann man diesen als Plain Text sichern, in Microsoft Word öffnen, sortieren, als Word-Datei (.doc) abspeichern und wieder in QXP bei deaktivierten Optionen Anführungszeichen umwandeln und Einschließlich Stilvorlagen reimportieren. Das sieht im Beispielfall dann bei aktivierter Option Groß-/Kleinschreibung beachten (Tabelle -> Sortieren -> Optionen) so aus:
Generell: Sonderzeichen werden vorangestellt, anschließend Ziffern, am Schluss Buchstaben.
Wörter und Ziffern, vor denen Sonderzeichen stehen, werden unter Sonderzeichen gereiht, das gilt auch für vorangestellte Währungszeichen. Ausnahme: Eine Zahl mit einem vorangestellten Minus (–200) wird nicht nachvollziehbar gereiht und der Florin (ƒ), Währungssymbol für den holländischen Gulden, wird unter „F“ gereiht. Die Logik der Reihenfolge der Sonderzeichen ist nicht erkennbar.
Ziffern und Zahlen werden vor die Buchstaben gestellt und untereinander richtig gereiht. Ausnahme: Zahlen mit Führungsnullen.
Diakritische Zeichen (Akzente) werden gemäß DIN 5007 sortiert.
Die Ligatur ß wird nach DIN falsch gereiht, die Ligatur ue (Mueller) nicht erkannt.
Kleinbuchstaben werden vor Großbuchstaben gereiht, was nicht DIN 5007 entspricht.
Sort Text von Durrant Software
Die kostenlose XTension Sort Text von Durrant Software dient dem Sortieren von Text. Nach der Installation und nach dem Markieren von zu sortierendem Text braucht man lediglich die Option Text sortieren im Menü Hilfsmittel anzuwählen, damit der Text (absatzweise) neu gereiht wird. Das ergibt für die Musterdatei folgendes Bild:
Generell: Die Reihung ist eigentümlich. Am Anfang stehen Großbuchstaben, dann Kleinbuchstaben (ohne Berücksichtigung vorangestellter Sonderzeichen), anschließend diakritische Zeichen. Den Abschluss bilden Ziffern und Zahlen ohne Berücksichtigung von Führungsnullen. Das gilt auch für vorangestellte Währungszeichen. Ausnahme: der Florin (ƒ), Währungssymbol für den holländischen Gulden, wird vor den Ziffern gereiht, unabhängig von der mathematischen Größe der nachfolgenden Zahl.
Vorangestellte Sonderzeichen werden nach ihrem Einfluss auf die mathematische Größe der Zahlen gereiht, also < vor >, – vor +. Die Logik der Reihenfolge der Sonderzeichen ist nicht erkennbar.
Diakritische Zeichen (Akzente) werden gemäß DIN 5007 sortiert.
Die Ligatur ß wird richtig gereiht, die Ligatur ue (Mueller) nicht erkannt.
Der Sortiervorgang selbst dauert wesentlich länger als mit den QXP-eigenen Möglichkeiten, nicht zuletzt deshalb, weil diese XTension die Zwischenablage benützt, um Zeilen umzureihen.
Word Service von Devon Technologies
Für Mac-User gibt es auch die Möglichkeit, Text im Dienstprogramm TextEdit sortieren zu lassen. Dafür muss das kostenlose Service-Programm Word Service von Devon Technologies herunter geladen werden. Nach der Installation und anschließendem Neustart steht es zur Verfügung. Exportieren Sie den zu sortierenden Text aus QXP als Plain Text und öffnen Sie ihn in TextEdit. Markieren Sie den Text und wählen Sie unter TextEdit -> Dienste die Option Formatieren -> Aufsteigend sortieren. Sichern Sie den Text im RawText-Format (.rtf) und importieren Sie ihn in QXP bei deaktivierter Option Anführungszeichen umwandeln. Die Musterdatei sieht dann so aus:
Wörter und Ziffern, vor denen Sonderzeichen stehen, werden unter Sonderzeichen gereiht. Reihenfolge der Sonderzeichen nach Unicode, daher stehen sie sowohl vor den Buchstaben als auch danach.
Ziffern und Zahlen werden untereinander richtig gereiht, sofern sie kein Sonderzeichen vorangestellt haben. Ausnahme: Zahlen mit Führungsnullen.
Diakritische Zeichen (Akzente) werden gemäß DIN 5007 sortiert.
Die Ligatur ß wird richtig gereiht, die Ligatur ue (Mueller) nicht erkannt.
Kleinbuchstaben werden vor Großbuchstaben gereiht, was nicht DIN 5007 entspricht.
Fazit
Welche Methode auch immer angewendet wird, die Sortierreihenfolge bei erhöhten Ansprüchen kann von keiner der getesteten XTensions oder Programme befriedigen. Wählen Sie selbst Ihre Methode und lesen Sie zuerst das:
Der andere Weg zum Personenregister
Vielleicht hilft es ja ;-))
Links zum Thema
Bernhard Eversberg, Zur Ordnung und Codierung der Umlautbuchstaben
Hans Christophersen, Alphabetisierung auf Computer; Prinzipien, Probleme und eine Lösungsverbesserung
Wikipedia, American Standard Code for Information Interchange
Wikipedia, Alphabetische Sortierung (zu DIN 5007 Ordnen von Schriftzeichenfolgen)
Autor: Peter Offenhuber