Textdokumente und ihre Vorzüge


Einleitung

Textdateien sind der Gegensatz zu Binärformaten wie .rtf, .doc oder .odt. Sie können mit einem beliebigen Texteditor ausgelesen werden. Eine reine .txt-Datei kann entweder den reinen Text enthalten (Klartext, plain text) oder mittels einer Syntax versehen sein, aus der ein Programm (nachträglich) Struktur und Formatierung ableiten kann. Die LaTeX-Syntax ist ein Beispiel dafür (Strukturierung des Textes mit LaTeX-Kommandos), aber noch einfacher ist es mit Markdown-Anweisungen.


Vorteile von Textdateien

Textdateien (zu denen natürlich auch TeX-Quellcode und mit der Markdown-Syntax strukturierte Textdateien zählen) haben gegenüber Binärformaten wie .doc oder .odt so einige Vorteile:

  • Die Information wird in der am weitesten Ballast-befreiten Form gespeichert: Reiner Text, reiner Inhalt. Kein unverständlicher Header, keine versteckten Code-Abschnitte, keine eingebetteten Makros.
  • Dadurch, daß die Information in ihrer reinen Grundform, als Text, gespeichert wird, wird ein Minimum an Speicherplatz belegt. Textdateien können zwar nachträglich noch komprimiert werden, aber prinzipiell wird hier ein Minimum-Zustand erreicht, der nur durch inhaltliche Kürzungen verkleinert werden kann. Die Dateigröße des Dokuments entspricht der Größe des zeichencodierten Inhalts.
  • Textdateien können mit einem beliebigen Texteditor geöffnet werden. Es besteht keine Abhängigkeit von einer bestimmten Software oder -version, ebensowenig von einem bestimmten Betriebssystem. Von allen Dateiformaten haben Textdateien vermutlich das größte Potential, um auch in einer fernen (technologisch ungewissen) Zukunft noch lesbar zu sein.
  • Durch ihre Einfachheit und geringe Größe sind Textdateien im Editor rasend schnell geöffnet und können sofort bearbeitet werden.
  • Der Text bleibt von anderen Inhalten getrennt, d.h. Bilddateien werden nicht eingebettet und können unabhängig verwaltet und bearbeitet werden. Dieses Prinzip wird z.B. bei TeX-Dokumenten umgesetzt.
  • Da Textdateien die unkomplizierteste Speicherung von Computer-bezogener Information darstellen, sind Systemabstürze (z.B. durch Stromabfall) weitaus unproblematischer als wenn man gerade ein hochkomplexes Dokument geöffnet hatte. Kleine Beschädigungen an der Dateistruktur von Binärdateien können verhindern, daß ihr Inhalt wieder lesbar gemacht werden kann.

Hinweise zum Aufbau einer Textdatei

Jede Textdatei sollte mit einer kurzen Information über Bearbeiter und Version beginnen. Sinnvoll ist manchmal die Angabe, wie der Code interpretiert werden kann, z.B. »mit XeLaTeX zu kompilieren«.

Derartige, nicht zum eigentlichen Dokument-Inhalt gehörende Informationen sollten notwendigerweise speziell gekennzeichnet werden, idealerweise werden sie auskommentiert. Das zu verwendende Kommentar-Steuerzeichen hängt von der verwendeten Code-Syntax ab. Bei TeX ist es beispielsweise das Prozent-Zeichen, bei anderen Code-Sprachen können es das Raute-Symbol # und andere sein. Bei Plain-Text-Dokumenten könnte dieser Header vom Hauptdokument durch Zeichenfolgen wie 10-mal ein Bindestrich optisch getrennt werden.

Die Zeichencodierung der Textdatei ist ein wichtiger Punkt, betrifft sie doch die korrekte Darstellung der verwendeten Glyphen (Umlaute, Akzente). Hier ist – falls das irgendwo einstellbar ist (z.B. im »Speichern Unter«-Dialog) – uneingeschränkt Unicode zu empfehlen (UTF-8).

Der Dateiname der gespeicherten Text-Datei sollte immer aus dem ASCII-Zeichensatz stammen, d.h. ausschließlich Groß- und Kleinbuchstaben des lateinischen Alphabets sowie Ziffern enthalten. Umlaute, Sonderzeichen, Akzente, Leerzeichen und andere sind zwingend zu vermeiden, auch wenn moderne Betriebssysteme damit überwiegend problemlos umgehen können. Aber im Sinne des »schwächsten Gliedes« sollte man auf die inoffizielle Konvention bestehen. Umlaute und Leerzeichen können imitiert werden (ae statt ä und _ statt Leerzeichen). Die Datei demnach nennen:

Dokument_Aenderungen.txt

statt

Dokument Änderungen.txt

Auch mit der Länge des Dateinamens sollte man es nicht übertreiben! Besser kurze, eindeutige Kombis nutzen:

Dokument_2014-04.txt

statt

Do14Apr.txt

Beim Schreiben längerer Textpassagen ist zu entscheiden, ob auch lange Absätze jeweils eine Zeile belegen oder nach einer bestimmten Zeichenanzahl (meist 80) eine neue Zeile begonnen wird. Dies zu automatisieren (automatischer Umbruch während des Tippens) hängt vom verwendeten Texteditor ab. Manche Editoren zeigen sich widerwillig beim Öffnen, wenn eine Zeile zu viele Zeichen enthält (z.B. Warnung beim Editor Kile bei mehr als 1024 Zeichen pro Zeile). Generell sind Fehler im Code schneller gefunden, wenn jede Zeile nicht mehr als 80 Zeichen enthält. Auch wird die Übersichtlichkeit erhöht. Andererseits kann es vorteilhaft sein, zusammengehörige Passagen wie einen Absatz zu behandeln und in einer einzigen Zeile zusammenzuhalten. Die Vor- und Nachteile beider Möglichkeiten habe ich andernorts beschrieben.


Syntax der Textdatei

Die wenigsten Textdokumente kommen ohne eine Syntax aus, d.h. eine Strukturierung in Überschriften bzw. Formatierung (Kursivierung etc.) oder Verlinkung (auf Bilder, URL-Adressen) ist fast immer erforderlich oder gewünscht. Von den vielen möglichen Syntax-Sprachen möchte ich nur die Unterschiede zwischen TeX und Markdown vorstellen.

TeX gebraucht man zum Erstellen komplexer und typographisch vollendeter, zum Druck gedachter Texte. Markdown dagegen beherrscht keine Wortumbrüche, sprachbedingte Ersetzungen, Formelsatz, interne Verlinkungen, automatische Verzeichnisse und Bibliographien. Damit ist TeX erste Wahl für wissenschaftliche Abschlußarbeiten und Berichte sowie umfassende Drucktexte wie Prosa (Romane, Kurzgeschichten).

Wer seinen Text lediglich mit Gliederungsebenen strukturieren will, und wem dabei Kursivierung und Fettschrift als Auszeichnung von Wörtern oder Passagen reicht, der verwende die sog. Markdown-Syntax. Die Dokumentstruktur (Überschriften und Unter-Überschriften) sowie Listenumgebungen, Tabellen, Auszeichnungen (Kursivierung etc.) werden dabei mit bestimmten Steuerzeichen und Leerzeichen markiert. Damit ist ein Markdown-Text ideal für kurze Notizen und E-Mails, Anleitungen und Handbücher. Im Unterschied zu TeX ist die Syntax viel einfacher zu lernen und das Dokument trotz der Syntax einfacher zu lesen. Markdown-Texte halte ich immer dann für angebracht, wenn von vornherein der Druck des Textes nicht infrage kommt (Handbücher für Software) und es nicht auf typographisch vollendete Texte ankommt (sich ständig ändernde Notizlisten etc.). Selbstverständlich können Markdown-strukturierte Texte ebenfalls in ein PDF überführt und gedruckt werden!


Editoren und Schriftarten

Texteditoren gibt es eine ganze Menge, die meisten existieren für alle gängigen Betriebssysteme. Generell vertrete ich die Meinung: Je einfacher, desto besser. Wichtigste Elemente sind meiner Ansicht nach die Funktion eines dynamischen Zeilenumbruchs und die Möglichkeit zur Anzeige von Zeilennummern. Das beherrschen eigentlich alle Editoren. Im Sinne des angenehmeren Arbeitens ist außerdem von Vorteil, wenn sich verschiedene dunkle Farbthemen installieren lassen (augenschonend am Bildschirm), die die gerade verwendete Syntax eindeutig hervorheben. Hochentwickelte Editoren wie vim, VisualCode, Sublime oder Emacs erkennen die Syntax auch selbst, heben sie entsprechend hervor und bieten auch sonst umfangreiche Funktionen. Einige Editoren beherrschen auch eine Rechtschreibkorrektur und die Möglichkeit zur Integration diverser Erweiterungen.

Als Editor-Schriftart kommt traditionsgemäß eine Monospace-Schrift infrage, d.h. eine Schriftart, deren Glyphen jeweils genau die gleiche Breite einnehmen.