Programmieren statt Schreiben: Der NaNoGenMo

Typewriter

Paul Sableman: Typewriter. Flickr cc-by-2.0

 Es ist Mitte November. Halbzeit also beim NaNoWriMo, dem “National Novel Writing Month”, der aber schon längst international ist. Weltweit hauen ein paar hunderttausend angehender Roman-Autorinnen und -Autoren auf die Tasten, um bis Monatsende ihre 50.000 Wörter im Speicher zu haben. Überarbeiten kommt später – jetzt geht es erst mal um Quantität.

Währenddessen, auf der Nerdseite des Planeten …

Ambitionierte Coder wetteifern um das eleganteste Programm, welches 50.000 Wörter generieren kann. Es sind natürlich nur eine Handvoll Leute, nicht Tausende. Aber immerhin gibt es die Tradition des NaNoGenMo jetzt auch schon seit vier Jahren. Die Teilnehmer veröffentlichen den Code auch, und zwar auf einer Art Selfpublishing-Plattform für Open-Source-Software: GitHub.

Zur Beruhigung der echten Romanautoren muss man sagen, dass es den generierten Texten an Rhythmus, Struktur und Ästhetik mangelt. Mit noch so viel Überarbeiten wird es kaum gelingen, sie zu fesselnden Geschichten zu machen, die eine Leserschar förmlich verschlingt.

Wer jetzt trotzdem denkt: “Das ist doch Betrug!” oder dem geflügelten Wort Code Is Poetry überhaupt nicht zustimmen kann, dem sei gesagt, dass sowas unter Umständen auch viele Stunden dauern kann und sogar Kreativität verlangt.

Beweis: Das heutige Netzfundstück

Die Entstehungsgeschichte des zu besprechenden Textes ist viel interessanter als der Text selbst. Aber das ist ja typisch für den NaNoGenMo.

Captain Napalm schreibt auf seinem Blog, wie er eine Idee von Douglas Hofstadter umsetzte, die dieser noch händisch realisiert haben dürfte: Man nehme, so Hofstadter, einen kleinen Text, und ersetze darin jedes bedeutungstragende Wort durch dessen Lexikon-Definition. Schwupp, ist der kurze Absatz aufgebläht – und wenn die 50.000 noch nicht erreicht sind, dann wiederholt man diesen Prozess nach Belieben.

Was bei Hofstadters Experiment herausgekommen ist, als er das Wort Liebe durch eine Definition ersetzte und diesen Text anschließend durch die gleiche Prozedur aufblähte, zeigt der Screenshot weiter unten (links, das englische Original).

Aber zurück zum Blogartikel. Unser Programmierer dachte sich, das ist ja nun wirklich sehr einfach umzusetzen. Fehlt mir nur ein frei zugängliches maschinenlesbares Wörterbuch. Kein Problem, gibts beim Projekt Gutenberg. Tja, was er dabei erlebte, dürfte so manchen Textarbeiter/innen vertraut vorkommen…

Oh look—it’s in some vague HTMLish markup language (even though the file says it’s HTML, it’s not HTML) so I should be able to parse what I want out of this. It can’t be that much work. The format is straightforward:
otherstuff <hw> word </hw> otherstuff <def> definition </def> otherstuff
And I’m not two dozen words in when parsing fails. I check, and the text I’m up against is:
<hw><hw> word </hw> ... <hw> otherword </hw> ... <hw> ... <def> definition </def>
You have got to be kidding me! That is not even valid HTMLish markup! So I code, and I code and I code code code …

Tja, Junge, diese „Art HTML“, das sind Codierungen, die aus der Digitalisierung von Gedrucktem stammen … Bleisatz kennt keine semantischen Auszeichnungen – und oh ja, um daraus beautiful Markup zu machen, sind viele Arbeitsstunden nötig. Zum Glück für Captain Napalm haben sich wohl Leute daran gemacht, den Wörterbuchtext aufzuräumen. Er wurde an anderer Stelle fündig und konnte so seinen Novel-Generator fertigstellen.

Postskriptum

Als meinen Beitrag zum NaNoGenMo habe ich, mangels Programmierkenntnissen, den oben erwähnten “romantischen” Text von Douglas Hofstadter der neuen Übersetzungsmaschine DeepL zum Verdauen vorgeworfen.
Die wollte ich ja schon lange testen, aber bin irgendwie nicht dazu gekommen.
Hier bitte der übersetzte Text. Was interessant ist: Da hilft einem die Maschine noch beim Überarbeiten, in dem sie Synonyme und ähnliche Formulierungen aus einem Korpus herausfischt.

Leider wird es wahrscheinlich unglaublich lange dauern, den Text auf diese Weise zu retten, im Gegenteil, vielleicht wird er immer unverständlicher. Die Lektorin in mir würde vermutlich empfehlen zu prüfen, ob es diesen Absatz nun wirklich braucht, oder ob man ihn nicht einfach rausstreichen kann …

Zum Weiterlesen

Ein interessanter Thread von James Ryan auf Twitter: “In honor of National Novel Generation Month (), here’s a partial timeline outlining the early history of computer-generated books  “