LaTeX in Word umwandeln

Wenn ich Bücher oder Artikel schreibe, benutze ich ja meistens das Schriftsatzsystem LaTeX. Hier ein paar Gründe:

  1. Ich bekomme ein schönes pdf (dank XeTeX kann ich auch bei den Schriftarten dabei alle Register ziehen, ich finde ja die TeX-Standard-Schriftart Computer Modern nicht so ansprechend).
  2. Die Literaturverwaltung mit bib(la)tex (und biber) funktioniert einwandfrei. Ich bekomme die richtigen bibliografischen Angaben direkt im Bibtex-Format aus den gängigen Datenbanken und natürlich aus Zotero, Google Scholar, BibSonomy usw. Außerdem habe ich für meine Interessengebiete schon größere Literaturdatenbanken in Bibtex.
  3. Querverweise funktionieren in Latex einwandfrei (ein großes Manko bei Pages).
  4. Ich benötige häufig komplizierte Sonderzeichen: Phonetische Zeichen sind dank UTF-8 zwar fast überall verfügbar, nur sehen sie meist typografisch merkwürdig aus. Außer in Latex ist es fast unmöglich, beliebige Zeichen zu kombinieren, was aber in linguistischen Arbeiten oft nötig ist, insbesondere wenn es um Dialekte geht.
  5. Die interlineare Übersetzung von exotischen Sprachen ist ohne Latex eine ziemliche Fummelei.
  6. Ich lasse mich vom Inhalt nicht durch Formatierungsfragen während der Texterstellung ablenken.

Das Problem ist aber, dass viele Herausgeber gern statt einer Latex-Datei eine Word-Datei haben möchten (manchmal „unformatiert“, häufig auf der Basis eines eigenen Stylesheets). Die Umwandlung von Latex zu Word ist eigentlich ganz einfach, wenn man weiß, wie es geht. Ich habe verschiedene Lösungen ausprobiert und nur eine scheint mir (trotz einer gewissen Komplexität) wirklich ohne Abstriche gangbar: Die Umwandlung vollzieht sich in drei Schritten:

tex4ht

Das Script htlatex kompliliert latex-Dateien mit dem Paket tex4ht. Auf der Kommandozeile gebe ich Folgendes ein:

htlatex Latexdatei.tex 'html,charset=utf-8,NoFonts'

Damit wird die Latexdatei in eine html-Datei umgewandelt. Mit der zweiten Option wird im Header dieser Datei vermerkt, dass es sich um eine UTF8-kodierte Datei handelt (was aber nicht stimmt, dazu gleich mehr). Die dritte Option unterdrückt die Angabe von Zeichensätzen in der html-Datei, denn die brauchen wir nicht, da die am Ende herausfallende Datei entweder „unformatiert“ sein oder einem Stylesheet entsprechen soll.

Korrekt in UTF8 umgewandelt würde die Datei mit folgenden Optionen (das Leerzeichen zu Beginn der zweiten Optionsgruppe ist wichtig):

htlatex Latexdatei.tex 'html,charset=utf-8,NoFonts' ' -cunihtf -utf8 -cvalidate'

Das führt aber dazu, dass die Datei auch Ligaturen enthält, was für die weitere Verarbeitung aber störend ist. Ohne die zweite Optionsgruppe ist die entstehende html-Datei (trotz anderer Information im Header) in ISO-8859-1 kodiert und enthält keine Ligaturen.

Kodierung korrigieren

Ich muss also die Kodierung korrigieren mit:

iconv -f ISO-8859-1 -t UTF-8 Latexdatei.html

Jetzt haben wir eine html-Datei in der richtigen Kodierung (entsprechend der Angabe im Header). Diese Datei kann ich natürlich als html-Seite veröffentlichen, was ich aber gar nicht möchte. Es ist vielmehr die Grundlage für die Weiterverarbeitung, die ich mir gar nicht anschaue.

pandoc

Die entstandene html-Datei kann ich jetzt in jedes beliebige Format umwandeln dank Pandoc. So ist es kein Problem, einfach ein schönes E-Book zu produzieren (epub oder gar epub3). Auch die Umwandlung in doc oder docx ist möglich. Ich gehe allerdings meist über einen Zwischenschritt und wähle odf, damit ich mir die Datei noch mal mit Open/LibreOffice ansehen und durchsehen kann, bevor ich sie als Word-Datei abspeichere und an den Herausgeber schicke.

Bevor jetzt jemand fragt: Die direkte Umwandlung von latex nach doc mit pandoc liefert keine auch nur im Ansatz zufriedenstellenden Ergebnisse. Insbesondere bekomme ich biblatex nicht richtig mit pandoc vermählt.

2 thoughts on “LaTeX in Word umwandeln

  1. Hey,
    auch wenn der Post schon etwas älter ist, ist das Thema für mich brandaktuell :)
    Erst einmal ganz herzlichen Dank für den Post, zu dem ich eine Frage habe, bei der ich einfach nicht weiter weiß. Wie funktioniert denn das ganze Verfahren mit Fußnoten? Bei mir werden momentan stets separate html-Dateien erstellt und dort werden leider noch nicht einmal die gewünschten Kurztitel sondern nur die bibtex-Kürzel eingetragen. In der Konsequenz bekomme ich lediglich den gesamten Text ohne Fußnoten relativ problemlos nach Word. Ziel wäre natürlich, dass auch diese im finalen Dokument auftreten. Haben Sie eine Idee, was ich da falsch mache.
    Besten Dank und herzliche Grüße,
    Janis

  2. Ich mag ja Fußnoten nicht so, aber eigentlich müsste das von mir beschriebene Verfahren auch für Fußnoten funktionieren, aber ich konnte das bisher nicht ausprobieren, weil meine Artikel keine Fußnoten hatten. Kurz zu Fußnoten: Sie behindern den Lesefluss und sind meines Erachtens nicht mehr zeitgemäß (außer vielleicht in der Geschichtswissenschaft, wo sie den wissenschaftlichen Apparat enthalten).

Leave a Reply

Your email address will not be published. Required fields are marked *