Mein 500. Blogbeitrag: Serverausfall, Berlinale

Aufgrund des Ausfalls meines Servers im Februar ist folgender Eintrag über die diesjährige Berlinale völlig untergegangen. Jetzt, wo mein Blog seit der icmp7 wieder auf dem aktuellen Stand ist, liegt die Berlinale zwar schon lange zurück, aber der Vollständigkeit halber möchte ich den Beitrag doch veröffentlichen, der übrigens mein fünfhundertster in diesem Blog ist.

Berlinale 2014

Obwohl ich mich im letzten Jahr so sehr über einen Kinobesuch geärgert habe, dass ich mir vorgenommen hatte zuhause zu bleiben, ging ich auch dieses Jahr zur Berlinale und habe zwei neue Filme gesehen. Ich hätte sicher mehr gesehen, wenn die Berlinale endlich mal einen vernünftigen Kartenverkauf über das Internet organisieren könnte. Der Kauf über das Internet ist immer noch schwierig: es gibt nur kleine Kontingente und die richtigen Enthusiasten werden gezwungen, für Karten anzustehen. Das ist so richtig rückwärtsgewandt und auch so ein Grund, nicht mehr hinzugehen.

Gesehen habe ich Afternoon of a Faun: Tanaquil Le Clercq (Trailer), einen Film über eine US-amerikanische Ballet-Tänzerin, die an Kinderlähmung erkrankt. Der Film ist ein sehr guter Dokumentarfilm. Zwei Dinge haben mich gestört:

  1. An einer Stelle gab es einen unmotivierten schwarzen Schnitt – aber das ist eine Kleinigkeit;
  2. der Umgang mit der Homosexualität eines Protagonisten: Irgendwie war die ziemlich unterschwellig bis verklemmt heraushörbar (und von der Wikipedia bestätigt). Das ist eigentlich unzeitgemäß im 21. Jahrhundert. Ein Zuschauer hatte die Regisseurin nachher drauf angesprochen. Es war also nicht nur mir aufgefallen. Sie redete sich heraus damit, dass die Menschen manchmal komplizierter seien – ziemlich unsouverän!

Der andere Film war Tryptique (Homepage, Trailer), ein ziemlich interessanter Film aus Québec. Der Film setzt Techniken der Fotografie filmisch um und geht damit so richtig unter die Haut. Leider werden Menschen, die nicht sehr gut Französisch, Englisch und Deutsch können, ihn nicht wirklich genießen können. Er ist aber auf jeden Fall empfehlenswert.

LaTeX in Word umwandeln

Wenn ich Bücher oder Artikel schreibe, benutze ich ja meistens das Schriftsatzsystem LaTeX. Hier ein paar Gründe:

  1. Ich bekomme ein schönes pdf (dank XeTeX kann ich auch bei den Schriftarten dabei alle Register ziehen, ich finde ja die TeX-Standard-Schriftart Computer Modern nicht so ansprechend).
  2. Die Literaturverwaltung mit bib(la)tex (und biber) funktioniert einwandfrei. Ich bekomme die richtigen bibliografischen Angaben direkt im Bibtex-Format aus den gängigen Datenbanken und natürlich aus Zotero, Google Scholar, BibSonomy usw. Außerdem habe ich für meine Interessengebiete schon größere Literaturdatenbanken in Bibtex.
  3. Querverweise funktionieren in Latex einwandfrei (ein großes Manko bei Pages).
  4. Ich benötige häufig komplizierte Sonderzeichen: Phonetische Zeichen sind dank UTF-8 zwar fast überall verfügbar, nur sehen sie meist typografisch merkwürdig aus. Außer in Latex ist es fast unmöglich, beliebige Zeichen zu kombinieren, was aber in linguistischen Arbeiten oft nötig ist, insbesondere wenn es um Dialekte geht.
  5. Die interlineare Übersetzung von exotischen Sprachen ist ohne Latex eine ziemliche Fummelei.
  6. Ich lasse mich vom Inhalt nicht durch Formatierungsfragen während der Texterstellung ablenken.

Das Problem ist aber, dass viele Herausgeber gern statt einer Latex-Datei eine Word-Datei haben möchten (manchmal „unformatiert“, häufig auf der Basis eines eigenen Stylesheets). Die Umwandlung von Latex zu Word ist eigentlich ganz einfach, wenn man weiß, wie es geht. Ich habe verschiedene Lösungen ausprobiert und nur eine scheint mir (trotz einer gewissen Komplexität) wirklich ohne Abstriche gangbar: Die Umwandlung vollzieht sich in drei Schritten:

tex4ht

Das Script htlatex kompliliert latex-Dateien mit dem Paket tex4ht. Auf der Kommandozeile gebe ich Folgendes ein:

htlatex Latexdatei.tex 'html,charset=utf-8,NoFonts'

Damit wird die Latexdatei in eine html-Datei umgewandelt. Mit der zweiten Option wird im Header dieser Datei vermerkt, dass es sich um eine UTF8-kodierte Datei handelt (was aber nicht stimmt, dazu gleich mehr). Die dritte Option unterdrückt die Angabe von Zeichensätzen in der html-Datei, denn die brauchen wir nicht, da die am Ende herausfallende Datei entweder „unformatiert“ sein oder einem Stylesheet entsprechen soll.

Korrekt in UTF8 umgewandelt würde die Datei mit folgenden Optionen (das Leerzeichen zu Beginn der zweiten Optionsgruppe ist wichtig):

htlatex Latexdatei.tex 'html,charset=utf-8,NoFonts' ' -cunihtf -utf8 -cvalidate'

Das führt aber dazu, dass die Datei auch Ligaturen enthält, was für die weitere Verarbeitung aber störend ist. Ohne die zweite Optionsgruppe ist die entstehende html-Datei (trotz anderer Information im Header) in ISO-8859-1 kodiert und enthält keine Ligaturen.

Kodierung korrigieren

Ich muss also die Kodierung korrigieren mit:

iconv -f ISO-8859-1 -t UTF-8 Latexdatei.html

Jetzt haben wir eine html-Datei in der richtigen Kodierung (entsprechend der Angabe im Header). Diese Datei kann ich natürlich als html-Seite veröffentlichen, was ich aber gar nicht möchte. Es ist vielmehr die Grundlage für die Weiterverarbeitung, die ich mir gar nicht anschaue.

pandoc

Die entstandene html-Datei kann ich jetzt in jedes beliebige Format umwandeln dank Pandoc. So ist es kein Problem, einfach ein schönes E-Book zu produzieren (epub oder gar epub3). Auch die Umwandlung in doc oder docx ist möglich. Ich gehe allerdings meist über einen Zwischenschritt und wähle odf, damit ich mir die Datei noch mal mit Open/LibreOffice ansehen und durchsehen kann, bevor ich sie als Word-Datei abspeichere und an den Herausgeber schicke.

Bevor jetzt jemand fragt: Die direkte Umwandlung von latex nach doc mit pandoc liefert keine auch nur im Ansatz zufriedenstellenden Ergebnisse. Insbesondere bekomme ich biblatex nicht richtig mit pandoc vermählt.

Feeds für den Mahacast

Einige haben mich gefragt, wo die Feeds für den Mahacast zu finden sind. Viele Podcastcatcher finden die nicht automatisch, wenn http://maha-online.de/ eingegeben wird (manche finden sie jedoch, wenn http://maha-online.de/blog/ eingegeben wird). Daher liste ich hier noch mal alle Feeds auf:

  1. Allgemeiner Podcastfeed (Screencast, Video): http://www.maha-online.de/blog/feed/podcast/,
  2. AAC-Audio (ohne Video/Screencast): http://www.maha-online.de/blog/feed/podcast-aac/,
  3. opus-Audio (ohne Video/Screencast): http://www.maha-online.de/blog/feed/podcast-opus/, Vorteil: ganz kleine Dateien/open source, wird aber nicht von allen Playern unterstützt,
  4. ogg-Audio (ohne Video/Screencast): http://www.maha-online.de/blog/feed/podcast-ogg/, Vorteil: open source, wird aber nicht von allen Playern unterstützt,
  5. mp3-Audio (ohne Video/Screencast): http://www.maha-online.de/blog/feed/podcast-mp3/, Vorteil: von so ziemlich allen Playern unterstützt,
  6. nur Blog (Text ohne Mahacasts): http://www.maha-online.de/blog/feed/,

Ich empfehle, den ersten Feed (default, Screencasts) für den mahacast und den letzten Feed für das Blog zu abonnieren. Die mittleren Feeds nur, wenn partout kein Video gewünscht ist. Für die Videos (Screencasts) habe ich jetzt auch einen Youtube-Channel.

Wichtiger Hinweis: Anfang Februar gab es einen Serverausfall, der leider zum Verlust einiger Daten führte, da auch das Backup betroffen war. Inzwischen bin ich dabei, die verlorenen Daten wiederherzustellen.