LaTeX in Word umwandeln

Wenn ich Bücher oder Artikel schreibe, benutze ich ja meistens das Schriftsatzsystem LaTeX. Hier ein paar Gründe:

  1. Ich bekomme ein schönes pdf (dank XeTeX kann ich auch bei den Schriftarten dabei alle Register ziehen, ich finde ja die TeX-Standard-Schriftart Computer Modern nicht so ansprechend).
  2. Die Literaturverwaltung mit bib(la)tex (und biber) funktioniert einwandfrei. Ich bekomme die richtigen bibliografischen Angaben direkt im Bibtex-Format aus den gängigen Datenbanken und natürlich aus Zotero, Google Scholar, BibSonomy usw. Außerdem habe ich für meine Interessengebiete schon größere Literaturdatenbanken in Bibtex.
  3. Querverweise funktionieren in Latex einwandfrei (ein großes Manko bei Pages).
  4. Ich benötige häufig komplizierte Sonderzeichen: Phonetische Zeichen sind dank UTF-8 zwar fast überall verfügbar, nur sehen sie meist typografisch merkwürdig aus. Außer in Latex ist es fast unmöglich, beliebige Zeichen zu kombinieren, was aber in linguistischen Arbeiten oft nötig ist, insbesondere wenn es um Dialekte geht.
  5. Die interlineare Übersetzung von exotischen Sprachen ist ohne Latex eine ziemliche Fummelei.
  6. Ich lasse mich vom Inhalt nicht durch Formatierungsfragen während der Texterstellung ablenken.

Das Problem ist aber, dass viele Herausgeber gern statt einer Latex-Datei eine Word-Datei haben möchten (manchmal „unformatiert“, häufig auf der Basis eines eigenen Stylesheets). Die Umwandlung von Latex zu Word ist eigentlich ganz einfach, wenn man weiß, wie es geht. Ich habe verschiedene Lösungen ausprobiert und nur eine scheint mir (trotz einer gewissen Komplexität) wirklich ohne Abstriche gangbar: Die Umwandlung vollzieht sich in drei Schritten:

tex4ht

Das Script htlatex kompliliert latex-Dateien mit dem Paket tex4ht. Auf der Kommandozeile gebe ich Folgendes ein:

htlatex Latexdatei.tex 'html,charset=utf-8,NoFonts'

Damit wird die Latexdatei in eine html-Datei umgewandelt. Mit der zweiten Option wird im Header dieser Datei vermerkt, dass es sich um eine UTF8-kodierte Datei handelt (was aber nicht stimmt, dazu gleich mehr). Die dritte Option unterdrückt die Angabe von Zeichensätzen in der html-Datei, denn die brauchen wir nicht, da die am Ende herausfallende Datei entweder „unformatiert“ sein oder einem Stylesheet entsprechen soll.

Korrekt in UTF8 umgewandelt würde die Datei mit folgenden Optionen (das Leerzeichen zu Beginn der zweiten Optionsgruppe ist wichtig):

htlatex Latexdatei.tex 'html,charset=utf-8,NoFonts' ' -cunihtf -utf8 -cvalidate'

Das führt aber dazu, dass die Datei auch Ligaturen enthält, was für die weitere Verarbeitung aber störend ist. Ohne die zweite Optionsgruppe ist die entstehende html-Datei (trotz anderer Information im Header) in ISO-8859-1 kodiert und enthält keine Ligaturen.

Kodierung korrigieren

Ich muss also die Kodierung korrigieren mit:

iconv -f ISO-8859-1 -t UTF-8 Latexdatei.html

Jetzt haben wir eine html-Datei in der richtigen Kodierung (entsprechend der Angabe im Header). Diese Datei kann ich natürlich als html-Seite veröffentlichen, was ich aber gar nicht möchte. Es ist vielmehr die Grundlage für die Weiterverarbeitung, die ich mir gar nicht anschaue.

pandoc

Die entstandene html-Datei kann ich jetzt in jedes beliebige Format umwandeln dank Pandoc. So ist es kein Problem, einfach ein schönes E-Book zu produzieren (epub oder gar epub3). Auch die Umwandlung in doc oder docx ist möglich. Ich gehe allerdings meist über einen Zwischenschritt und wähle odf, damit ich mir die Datei noch mal mit Open/LibreOffice ansehen und durchsehen kann, bevor ich sie als Word-Datei abspeichere und an den Herausgeber schicke.

Bevor jetzt jemand fragt: Die direkte Umwandlung von latex nach doc mit pandoc liefert keine auch nur im Ansatz zufriedenstellenden Ergebnisse. Insbesondere bekomme ich biblatex nicht richtig mit pandoc vermählt.

Leave a Reply

Your email address will not be published. Required fields are marked *