Hierfür gibt es zwei Möglichkeiten:
Beide Methoden haben ihre Tücken: Wer die Wörter im Quellcode zählen will, muß beachten, daß keine Kommandostrukturen (z.B. Präambel, Formatangaben, Makros) oder auskommentierten Absätze mitgezählt werden. Fertig kompilierte Dokumente enthalten dagegen ggf. sich wiederholende Kopfzeilen mit der Kapitelüberschrift oder Seitenzahlen, die ja für eine plausible Wortanzahl eigentlich auch nicht mitgezählt werden sollten. Manchmal werden auch am Zeilenende umgebrochene Wörter als zwei Wörter gezählt oder gar nicht, wenn sie eine komplexe Ligatur-Glyphe enthalten. All das verfälscht die korrekte Anzahl der Wörter.
Am sinnvollsten ist es, den reinen Quelltext zu zählen. Man muß nur ein Programm benutzen, das die Kommandostrukturen und Kommentare nicht mit in die Zählung einbezieht.
Das geht über verschiedene Wege, ich stelle hier einige vor.
texcount
. Dieses kleine Perl-Script ist in den großen TeX-Distributionen enthalten, bei TeXLive unter GNU/Linux im Paket texlive-extra-utils
. Die
Anwendung erfolgt, indem über die Konsole folgender Befehl eingegeben wird: texcount [Optionen] [Datei]
, also z.B. texcount -sum Datei.tex
⟶ als Ausgabe erfolgt die
Anzahl in Summe, pro Kapitel, pro Header und nur für den Haupttext. Wer weitere Angaben braucht, sollte die Dokumentation nach den zahlreichen möglichen Optionen durchsuchen. Sehr nützlich ist
noch die Option -inc
, die alle eventuell über include
-Makros eingebundenen Teildokumente mit durchzählt.
Manchmal ist es erforderlich, in einem PDF die Wörter zu zählen, z.B., wenn man nicht über den Quellcode verfügt.
pdftotext Dokument.pdf - | wc -w
(hierbei wird das PDF zunächst in ein Textdokument konvertiert und
dann über die Pipe an den »word count« (wc)-Algorithmus übergeben. Als Ausgabe nur die Wortanzahl (Option -w
).
Die zurückgegebene Wortanzahl liegt aber meist nicht sehr nah an der Wirklichkeit, weil Seitenzahlen, umgebrochene Wörter und andere Dinge mitgezählt werden.
Je nach Methode weicht die am Ende ausgerechnete Wortanzahl erheblich voneinander ab (siehe Grafik). Für diesen Vergleich wurden außerdem zwei weitere Methoden aufgenommen:
wc -w Dokument.tex
Selbstverständlich wird hierbei nicht inhaltssensitiv unterschieden, d.h. alle
Wörter der Präambel und isoliert stehende Kommandos im Quelltext werden mitgezählt.
\textit{Wort}
zu Wort. Damit blieb reiner Text übrig, so wie ich ihn auch im Writer tippen würde. Allerdings habe ich hier auch alle auskommentierten Notizen behalten.
Links eine Auswertung zur Wortzählung nach verschiedenen Methoden. Als Text habe ich eine meiner Novellen verwendet. Die Methode »LibreOffice Writer« ist die Zählmethode des Textes nach LO Writer-interner Zählstatistik (keine Präambel oder Befehle, aber Kommentare). Die 2. Zählmethode »Kile« ist mit dem Kile-internen Wortzählalgorithmus des ursprünglichen Quelltextes gezählt worden (keine Kommandos, ohne Kommentare?). Bei Methode 3 (»Datei«) wurde der Inhalt der vollständigen .tex-Datei über die Kommandozeile gezählt (also auch Wörter der Kommandostruktur, Präambel usw.). Bei Methode 4 (»PDF«) wurde das fertige PDF wieder in eine Textdatei zerlegt und diese, wie eine Methode vorher beschrieben, gezählt. Obwohl das PDF weder Präambel noch Kommentare noch LaTeX-Kommandos enthält, ist die Wortanzahl identisch mit dem reinen Quelltext. Methode 5 (»texcount«) zeigt das wahrscheinlich verläßlichste Ergebnis an. Der Unterschied zwischen Methode »LO Writer« und »Kile« ist eigenartig. Da im Writer nur reiner Text ohne Kommandos steht, hätte ich hier eine kleinere Wortanzahl als bei der Quelltext-Zählung durch Kile erwartet. Der Unterschied ist möglicherweise Resultat dessen, daß im Kile auch die auskommentierten Bereiche nicht mitgezählt werden, beim LO Writer aber schon.
Letztendlich empfehle ich die Quellcode-Zählung mit texcount
.