Warum man freie Software und freie Formate in den Wissenschaften einsetzen sollte

Der Austausch von Informationen ist die Grundlage wissenschaftlichen Fortschritts.

Ein theoretisches Beispiel: Die digitale Bereitstellung aller Museumskataloge der Welt (inkl. Fotodokumentation der Belegstücke), sofern das Material umfangreich digital katalogisiert und in ein einheitliches Austauschformat gepreßt worden ist, könnte die überflüssige Erhebung vieler Neotypen vermeiden. Und wäre jede jemals verfaßte wissenschaftliche Veröffentlichung im Internet frei verfügbar, könnte man Studien betreiben, ohne von anderen Forschern bereits gewonnene Aspekte zu übersehen! — Genug geträumt.

Nun, freie Software kann nicht alle Wünsche erfüllen. Aber freie Software und freie Formate sind häufig Geschwister. Und durch eben den Einsatz dieser Geschwister kann eine Grundlage geschaffen werden, die zur Verbreitung neuen Wissens genutzt werden kann.

Freie Software – freie Formate!

Unfreie Formate sind typischerweise von unfreier Software erzeugte Binärformate. Sie haben allein den Zweck, an eine bestimmte Software gebunden zu werden, für die man hin und wieder eine neue Version kaufen muß. Ein populäres Beispiel ist das alte Word-Format (.doc), das die meisten Personen, Behörden und Forschungseinrichtungen für ein grundsätzlich akzeptiertes Austauschformat (»Standard«) halten und es entsprechend vorgeben, fördern und verbreiten – und zwar noch immer. Allerdings sollte dieses Format kein Standard sein; es ist einfach nur weit verbreitet.

Grundsätzlich kann ich mich nicht gegen den vernünftigen Gedanken erwehren, ein Format zu nutzen, das weltweit verbreitet ist. Nutze ich als Europäer nicht auch das weltweit gebrauchte metrische System? Wie könnte ein Informationsaustausch auch sinnvoll erfolgen, wenn jede Partei ein anderes Format nutzt und einfordert?

Bei Software existiert allerdings der Dualismus, daß zu einer Software auch ein Dateiformat gehört. Und hier liegt das Problem unfreier Formate, d.h. von Formaten, deren Spezifikationen nicht allgemein zugänglich dokumentiert sind, weil es sich um »Firmengeheimnisse« handelt: Zum Lesen dieses Formats benötige ich eine spezielle Software. Und hinter der Einforderung, dieses Format für den Datenaustausch zu verwenden, verbirgt sich nichts weiter als eine Nötigung, diese Software zu besitzen oder zu kaufen, wenn ich sie noch nicht mein Eigen nenne.

Nicht selten erhalten unfreie Formate ein Update, sodaß nun auch die Software zum Auslesen aktualisiert oder neu gekauft werden muß. Auf dieser Seite kann sich der Leser weiter informieren, warum man Word nicht zum Dateiaustausch nutzen sollte.

Bevor hier weiter gepöbelt und gejammert wird: Das Word-Format ist nur eines von vielen Beispielen, das bei der täglichen Arbeit im Leben eines Naturwissenschaftlers eine Rolle spielt. Es gibt in jedem Fachbereich (Chemie, Biologie, Mathematik, Geologie, Physik etc.) eine unüberschaubare Anzahl von freier und unfreier Software zur Auswertung (Visualisierung oder Berechnung) von Forschungsdaten. Ich kenne nicht wenige Fälle, bei denen von dieser speziellen Software eben ein ganz bestimmtes Dateiformat erzeugt wird, das nur von dieser Software gelesen werden kann. Und genausooft sind angeblich freie Formate, die in Programm A anders eingelesen werden als in Programm B. Das alles führt zu Mißmut, zu Enttäuschung, zur Überzeugung, daß die Institute, Firmen und Konzerne hinter dieser Software allein darauf aus sind, dem leichtgläubigen, häufig nur ausgelieferten Anwender das Geld abzuknöpfen. Oder ihn für dumm zu verkaufen. Andererseits verstehe ich auch, wie aufwendig es ist, eine funktionsreiche und gut bedienbare Software zu schreiben; und daß dazu auch ein Format gehört, das die verarbeiteten Daten optimal speichert.

Im folgenden kann ich also unmöglich über alle unfreien Formate abschätzig urteilen. Aber einige haben es verdient :)

Ich erinnere mich, einmal im Kollegenkreis den Wechsel auf ein freies Format (waren es Tabellendokumente?) vorgeschlagen zu haben. Dabei erwähnte ich noch nicht einmal die Kostenersparnis für den Verzicht auf die bisher gebrauchte Software-Lizenz. Konkret ging es um den Wechsel vom Excel-Format auf das OpenDocument-(Tabellen-)Format. In meiner wissenschaftlichen Einfältigkeit bemerkte ich, daß man unfreie Format eines Tages nicht mehr würde öffnen können, wenn die dahinterstehende Software nicht mehr weiterentwickelt wird. Darauf entgegnete man mir etwas ruppig: »Excel wird es doch immer geben!« – Und dann dachte ich gleich an 3,5-Zoll-Disketten und die Mühe, heutzutage ein Lesegerät oder passenden Anschluß aufzutreiben.

Ein anderes Beispiel: An einem Computer war ein Zeichengerät zur Digitalisierung von Karten angeschlossen. Darauf installiert war eine Software, die es nur für dieses Gerät gibt. Der Entwickler dieser Software arbeitete einige Jahre mit dem Gerät und ging dann in den Ruhestand. Um heute die kartographischen Daten noch auslesen zu können, behielt dieser alte PC weiterhin seinen angestammten Platz in der Büro-Ecke. Nur, daß niemand mehr mit der Software arbeiten kann, und auch die Konvertierung der Daten in ein heute nutzbares Format aussichtslos erscheint.

Zusammenfassend kann man festhalten, daß Daten am besten so abgelegt werden sollen, daß sie mit einem beliebigen Texteditor auslesbar bleiben, in möglichst menschenlesbarer Form (Beispiel: XML).

Am Beispiel der Textdokumente

Was gehört zu den häufigsten Aufgaben eines Naturwissenschaftlers? – Zum Beispiel die Arbeit mit Textdokumenten:

zum Tradieren von Forschungsergebnissen,
zum Dokumentieren von Arbeitsbedingungen und Arbeitsschritten (»Handbücher«),
zum Veröffentlichen seiner Ergebnisse, alleine oder mit Co-Autoren.

Insbesondere für das wissenschaftliche Publizieren wird schnell zu einer herkömmlichen Textverarbeitung gegriffen, namentlich MS Office Word. Ob man stattdessen ein freies Format (OpenDocument-Format) oder das PDF-Format nutzt, ändert nichts an der üblichen Arbeitsweise: Man versendet das Dokument an einen Co-Autor oder Verlag, der daraufhin Änderungen und Ergänzungen vornimmt. Bei den großen Textverarbeitungsprogrammen stehen dem Nutzer zum bequemen Editieren zahlreiche Möglichkeiten zur Verfügung:

Anbringen von Kommentarboxen
»Änderungen nachverfolgen«-Funktion
Rechtschreibprüfung
Inline-Übersetzungen, Synonymlisten etc.

Kompliziert wird es, wenn am gemeinsamen Manuskript fünf oder mehr Co-Autoren schreiben. Auch hierfür gibt es mittlerweile, zugegeben, Lösungsmöglichkeiten, z.B. das gemeinsame Bearbeiten des Textdokuments über einen Cloud-Dienst. Jedoch werden die meisten (älteren) Autoren die lokale Arbeit mit einem vertrauten Schreibprogramm bevorzugen.

Worauf ich hinaus will, ist das Problem der Weitergabe inkompatibler Dateiformate. Man kann schließlich nicht davon ausgehen, daß jeder Co-Autor die gleiche Word-Version verwendet. Und gerade das Word-Format ist bekannt dafür, daß es bei komplex strukturierten und formatierten Dokumenten bei jedem Anwender anders aussehen kann. Das ist übrigens auch bei reichlich strukturierten und formatierten OpenDocument-Formaten nicht anders.

Ein alternativer Weg ist, daß der Haupt-Autor (Erstautor) eine PDF-Version an seine Co-Autoren versendet, die mithilfe von Kommentarboxen und anderen Werkzeugen (Einfügen-Markierung, Durchstreichen-Markierung etc.) ihre Änderungsvorschläge dokumentieren. Am Ende geht das PDF an den Erstautor zurück, der die Änderungen im ursprünglichen Manuskript umsetzt. Was umständlich klingt, ist auch umständlich.

Das Hauptproblem an der Angelegenheit ist die irrige Annahme, daß für eine Aufgabe wie dem Verfassen eines Manuskripts eine vollausgestattete Textverarbeitung notwendig sei.

Denn sofern man nicht privat verlegt und veröffentlicht, hat das Arbeiten auf diese Weise wenig Sinn: Wird das Manuskript, wie üblich, bei einem Verlag eingereicht, übernimmt dieser die endgültige Formatierung selbst. Mit anderen Worten: Die vorherige Festlegung von Schriftart und -größe, Zeilenabstand, Seitenrändern etc. ist überflüssig. Wichtig ist allein der Inhalt des Dokuments und dessen saubere Strukturierung (1. Ebene, 2. Ebene usf.) sowie die klare Deklaration, was zum Haupttext gehört und welche Passagen Bild- und Tabellenunterschriften sind. Selbst textinterne Verlinkungen können sinnlos sein, wenn der Verlag eine davon abweichende Numerierung anwendet (z.B. mit vorangestellter Kapitel-Nr.).

Darüber hinaus besteht keine Garantie, daß Formatierungen eingereichter Textdokumente auch im fertig gesetzten Text identisch formatiert sind. Aus eigener Erfahrung kann ich berichten: Der Verlag erhielt ein Textdokument, in dem bestimmte Passagen und Wörter kursiviert waren. Im fertig gesetzten Text (PDF), also nach der Veröffentlichung, mußte ich enttäuscht feststellen, daß die Kursivierung nicht mehr vorlag. Das kann in bestimmten Fällen, z.B. Taxa-Formatierung formal falsch sein. Sogar Strukturebenen konnten durch das Setzen beim Verlag ein anderes Level angenommen haben (aus Überschrift 2 wurde 3 usw.).

An dieser Stelle schlage ich die Verwendung einer einfachen Textdatei vor, die mithilfe der Markdown-Syntax formatiert und strukturiert wird. Ebenso könnte man die TeX-Syntax nutzen, die aber nicht für jeden Nutzer so leicht zu erlernen ist. Für Markdown braucht man sich nur eine Handvoll Befehle zu merken, mit denen

Überschriften und Unterüberschriften gekennzeichnet werden (= Dokumentstruktur),
und Text-interne Formatierungen festgelegt werden.

So etwas wie ein Seitenlayout kann man generell nicht einstellen. Auch hat man keinen Einfluß auf Schriftgrößen, Zeilenabstand oder Wortumbrüche. Das alles kann (muß aber nicht) ein vorformatiertes Export-Format (z.B. zu HTML) übernehmen.

Die Weitergabe einer Markdown-formatierten Textdatei ist wahrlich unproblematisch, denn sie hängt von keiner Software- oder Dateiformat-Version ab. Jeder, der am Computer arbeitet, besitzt einen Texteditor. Und jeder mit Texteditor kann eine Markdown-Datei laden und editieren. An Markdown-Dateien kann man außerdem auch online zusammenarbeiten, dafür gibt es verschiedene (auch kostenlose) Online-Markdown-Editoren (StackEdit, Dillinger und wie sie alle heißen).

Selbstverständlich kann eine Markdown-Datei in Dutzende andere Formate konvertiert werden (z.B. mithilfe des Parsers Pandoc). Der Export zu PDF ist generell kein Problem (siehe oben), und Programme wie Typora erleichtern Umsteigern die Markdown-Nutzung, denn sie sehen wie eine vertraute Textverarbeitung aus und können auf Knopfdruck (mithilfe von Pandoc) auch wieder ein Textdokument für andere Programme (.doc, .odt) erzeugen.

Wer mit einem Texteditor so eine einfache Textdatei bearbeitet, muß auf gewisse Bequemlichkeiten verzichten:

So etwas wie »Änderungen nachverfolgen« gibt es nicht. Wird der Text verändert, kann von einem zweiten Betrachter nicht nachvollzogen werden, was sich verändert hat. (Bestimmte Programme ermöglichen allerdings den Vergleich zweier Textdokumente und die Herausstellung der Änderungen).
Kommentarboxen sind nicht vorgesehen, obwohl Editoren wie StackEdit sie ermöglichen.
Eine Rechtschreibprüfung oder der Abruf von Synonymlisten ist nur dann gegeben, wenn sie der verwendete Texteditor (oder online: der Browser) unterstützt.
Eine Literaturverwaltung, bei der automatisiert Zitate eingefügt werden, kann nur ermöglicht werden, wenn der verwendete Editor mitspielt.
Nur einfache, nicht komplexe Tabellen können mit Markdown gesetzt werden.
Das Dokument kann an sich nicht verschlüsselt werden, wäre aber über eine Container-Umgebung (verschlüsseltes Archiv) nicht unmöglich.

Wer den richtigen Editor verwendet (Tip: Sublime Text Editor, Visual Code, Kate), braucht auch bei der Verwendung der Markdown-Syntax keine Abstriche hinnehmen.

Freie Software – unentbehrlich für die Wissenschaft!

In der Wissenschaft sind freie Software und freie Formate weiterverbreitet als man denkt. Und das sollten sie auch! Denn hier geht es um die Auswertung und Speicherung wissenschaftlicher Daten, die vor allem auch in ferner Zukunft noch lesbar sein sollen.

Astrophysiker nutzen beispielsweise das freie, von der NASA entwickelte FITS-Format zur Speicherung von Fotografien und Meßwerten. Warum? Weil sie sich nicht von einer Firma abhängig machen und die Daten problemlos noch in achtzig Jahren lesen wollen!
Fast jeder Superrechner läuft auf einer Linux-Basis. Warum? Weil sie sich leichter skalieren lassen und nur die Berechnungen durchführen, die sie sollen.
Am Kernforschungszentrum CERN, am Fermilab und dem Teilchenbeschleuniger DESY kommt eine speziell angepaßte Version von Scientific Linux zum Einsatz, die Tausende von Wissenschaftlern für die Auswertung ihrer Meßreihen nutzen und einheitlich verbindet.
Museen und naturwissenschaftliche Universitätssammlungen nutzen immer öfter freie Datenbanksysteme wie Specify zur Erfassung ihrer naturwissenschaftlichen Sammlung, um ihre Kataloge mit Daten aufzufüllen, international zu verbinden und Daten abzufragen.

Stellen wir uns als Wissenschaftler also die Frage: Wie wichtig ist der Erhalt wissenschaftlicher Daten? Wollen wir sie nicht auch auslesen können, wenn uns gerade wieder die Geldmittel für Software-Lizenzen ausgegangen sind? Gibt es bestimmte Firmen und damit Software in vielen Jahren noch, damit wir unsere damals mit dieser Software gespeicherten Informationen überhaupt noch auslesen können? – Ich denke, die einzige Antwort auf diese Frage ist: Nutzt freie Software und vor allem freie Formate, wo es möglich ist! Sollte die betreffende Software wirklich einmal nicht mehr weiterentwickelt werden, ist zumindest der Quellcode verfügbar und kann zweckgebunden angepaßt werden!

Ein abschließendes Wort über Schriftarten

Schriftarten für den Digitalsatz sind auch nur Software. Und auch hier gibt es freie und unfreie. Anders als bei der oben genannten Anwendersoftware liegt bei Schriftarten-Dateien der Sonderfall vor, daß ich ausdrücklich betone, nicht ausschließlich freie Schriftarten zu verwenden. In zahlreichen Studien habe ich Umfang, Ausstattung und Lesbarkeit von freien und unfreien Schriftarten untersucht. Und wie sich herausstellte, gilt das gleiche Prinzip wie bei Anwender-Software:

Freie Schriftarten sind teilweise sehr viel besser als unfreie Schriftarten. Genauso können gut entwickelte Schriftarten, die kommerziell vertrieben werden, besser sein als eine entsprechende freie.

Es gibt nicht wenige Schriftarten, für die ich gerne Geld ausgegeben habe, um damit arbeiten zu können. Und genauso habe ich meine Favoriten unter den freien Schriftarten, bei denen ich mir die Frage stelle: Weshalb arbeitet alle Welt nur mit dem vorinstallierten Schrott, ohne von diesen frei nutzbaren Schätzen zu wissen? Insbesondere, wenn es nicht auf eine bestimmte Textart ankommt (Antiqua für Manuskripte, Monospace für Quellcode, Sans für Abbildungs- und Kartenbeschriftungen) ist diese Frage bedeutsam.

Software — wie immer Fluch und Segen zugleich.