Google Docs nach WordPress in 3 (bis 5) Schritten

Wie verwandelt man ein knapp 100-seitiges Dokument kapitelweise in WordPress-Beiträge? Da ich langwieriges Copy & Paste nicht mag (wer mag das schon …), habe ich ein wenig im Werkzeugkoffer gekramt – und voilà:
Zum Einsatz kommt ein vielseitiges Schweizermesser namens Pandoc. Das ist ein  Dokumentenkonverter, der so ziemlich alles in alles umzuwandeln vermag:

Pandoc-Konvertierungsoptionen

Quelle: http://pandoc.org/README.html

Bildschirmfoto 2015-11-12 um 12.03.33Pandoc hat keine grafische Benutzeroberfläche, ist also nach der Installation nicht sichtbar.

Ausgeführt wird das Programm ausschließlich als Kommando im Eingabeaufforderungs-Fenster bzw. Terminal. Das ist vielleicht nicht jedermanns Sache – aber so kompliziert nun auch wieder nicht.

Um mein Google Doc zu verarbeiten, lade ich es zunächst als Word-Dokument (.docx) herunter. Danach genügt ein einziger Pandoc-Befehl für die Ausgabe als EPUB (ja, genau!).

Pandoc-Eingabe

Was habe ich Pandoc mitgeteilt? Die Datei beispiel.docx soll als beispiel.epub ausgegeben werden, und zwar ab der Überschriftenebene 3 in Einzeldateien zerlegt.

ePub Zip/UnzipDann brauche ich als nächstes ein kleines Tool, das mir dieses EPUB – was ja nichts anderes ist als eingezippte (X)HTML-Dateien mit ein paar weiteren Bestandteilen – auspackt.

Damit bekomme ich ein Verzeichnis, in dem die Einzeldateien schön aufgereiht sind:

Einzeldateien XHTML

Als letztes kommt ein Werkzeug zum Einsatz, mit dem ich die Dateien als einzelne Artikel-Entwürfe in WordPress hochladen und abspeichern kann. Das ist das Plugin HTML Import 2 von Stephanie Leary. Es erlaubt sowohl einzelne Dateien von der Festplatte als auch ein ganzes Verzeichnis (dann allerdings vom Server) zu importieren.

Importer Fertig!
Zwei Schönheitsfehler hat die Sache allerdings noch:

  • Pandoc schreibt den Inhalt von <h2>, <h3> usw. in das title-Element, was zwar den prima Effekt hat, dass die Beiträge gleich den richtigen Titel haben – man muss ihn aber aus den Beiträgen selber dann noch löschen, um Dopplungen zu vermeiden.
  • Bei der Umwandlung der docx-Datei ins EPUB-Format mit Pandoc gehen individuelle Gestaltungen wie Farbe, frei platzierte Objekte, auch Bilder verloren, und die Verarbeitung einzelner Elemente ist vielleicht nicht wie gewünscht.

Um das Ergebnis zu verbessern, gilt es noch etwas zu experimentieren. Zum Beispiel mit einer zweistufigen Umwandlung: Zuerst Konvertierung der Gesamtdatei in Markdown (pandoc beispiel.docx -o beispiel.md). In diesem Format lässt sich die Datei zuerst noch editieren und bereinigen. Ein paar Schritte mehr sind es also vielleicht doch. Andererseits: auch bei der Methode Copy & Paste ist das ja nicht auszuschließen …