Auf der Suche nach der geschätzten Lesezeit, Teil 1: Die richtige Formel.
Auf meinem Blog möchte ich eine Lesezeit-Schätzung zu jedem Artikel hinzufügen.
Das Problem scheint auf den ersten Blick gelöst zu sein: es gibt genug How-To-Artikel und Tutorials dafür. Allerdings gehen die meisten Beiträge zu dem Thema von einer universellen und fixen Lesegeschwindigkeit in Wörtern pro Minute aus. Dann wird einfach die Gesamtzahl der Wörter im Artikel durch diese Lesegeschwindigkeit geteilt und das war es dann.
Das Problem ist also nicht wirklich gelöst. Zumindest bin ich mit diesem Ansatz nicht zufrieden. Er scheint mir zu simpel. Hat die Beschaffenheit des Textes keine Auswirkung auf die Lesegeschwindigkeit? Sicherlich hat ein technischer Artikel eine andere Lesegeschwindigkeit als ein Boulevard-Artikel. Und gilt diese magische universelle Lesegeschwindigkeit sowohl für Deutsch als auch für Englisch?
Faktoren, welche die Lesegeschwindigkeit beeinflussen
Wie sich herausstellt, gibt es viele Faktoren, welche die Lesegeschwindigkeit beeinflussen. Diese lassen sich grob in drei Kategorien einteilen, je nachdem, wo sie ihren Ursprung haben:
- Es gibt Komplexität, die dem Text selbst innewohnt. Je höher diese Komplexität ist, desto langsamer wird die Lesegeschwindigkeit sein. Der Anteil langer Wörter (Miller and Coleman 1971; Radner et al. 2002) sowie die Satzstruktur (Gibson 2001; Pauly and Nottbusch 2020) korrelieren mit dieser Komplexität.
- Manche Faktoren, welche die Lesegeschwindigkeit beeinflussen, gehen vom Leser selbst aus. Das sind z.B. Lesefertigkeit (Radner et al. 2002; Trauzettel-Klosinski and Dietz 2012) und Alter (Trauzettel-Klosinski and Dietz 2012; Brysbaert, Keuleers, and Mandera 2019).
- Einige Faktoren hängen davon ab, wie der Text dargestellt wird und in welchem Umfeld der Inhalt konsumiert wird. Kontrast (Legge et al. 1990), Schriftgröße (Bailey, Clear, and Berman 1993) und Schriftart (Mansfield, Legge, and Bane 1996) gehören dieser Kategorie an.
Sowohl die zweite als auch die dritte Kategorie sind für mich praktisch nicht zu bestimmen, weil ich keine Gewissheit habe, wie mein Blog dargestellt wird oder wer ihn liest. Daher bleibt mir nur die Komplexität als Einflussfaktor, den ich a priori bestimmen kann.
Textkomplexität als Bestimmungsfaktor der Lesegeschwindigkeit
Weil die Textkomplexität der einzige bestimmbare Faktor für eine Schätzung der Lesegeschwindigkeit ist, muss ich ihren Einfluss modellieren können. Es gibt mehrere Theorien dazu, wie man Textkomplexität modellieren kann. Zwei populäre Beispiele aus der Literatur sind:
- Dependency local theory (DLT) basiert auf der Hypothese, dass während dem Lesen kognitive Ressourcen für 1) die Speicherung der bisherigen Satzstruktur und 2) die Integration des aktuell gelesenen Wortes in diese Struktur aufgewendet werden. Die Hypothese besagt weiter, dass die Komplexität von der Entfernung der beiden zu integrierenden Elemente abhängt (Gibson 2001). Vereinfacht gesagt: Je länger und verschachtelter ein Satz ist, desto höher ist seine Komplexität.
- Surprisal modelliert Komplexität als ein informationstheoretisches Konzept, welches die Erwartbarkeit jedes Wortes im gegebenen Kontext widerspiegelt (Henderson et al. 2016). Das bedeutet: Je unwahrscheinlicher ein Wort in einem bestimmten Kontext erscheint, desto höher ist seine Komplexität.
Eine vollständige Theorie der Komplexität wird wahrscheinlich beide dieser Maßnahmen integrieren müssen, da es Hinweise darauf gibt, dass DLT und Surprisal keine Korrelation aufweisen (Demberg and Keller 2008).
Obwohl diese Theorien von einem akademischen Standpunkt aus interessant sind, scheint ihre Anwendung für meinen Zweck wenig praktikabel. Der erwartete Zugewinn an Genauigkeit beim Schätzen der Lesegeschwindigkeit wird wahrscheinlich den Implementierungsaufwand nicht rechtfertigen. Ich suche letzten Endes nach einer Möglichkeit, die Lesezeiten für einen Blog zu schätzen, dessen Leserschaft optimistisch betrachtet aus fünf Leuten und einem LLM besteht.
Praktischer Ansatz: Lesbarkeitsbewertungen
Die direkte Anwendung der akademischen Theorien zur Textkomplexität erscheint mir für meinen Zweck übertrieben. Es gibt allerdings eine verwandte Art der Modellierung, die praktischer veranlagt ist: Lesbarkeitsbewertungen.
Der bekannteste Lesbarkeitswert ist der Flesch Reading-Ease Index, soweit ich das nach meiner Internet-Recherche beurteilen kann. Weitere Beispiele sind der SMOG-Grad oder der Coleman-Liau-Index. All diese Bewertungen sind auf die englische Sprache abgestimmt. Im Gegensatz dazu sind die Wiener Sachtextformel und der Lesbarkeitsindex (LIX) gut auf Deutsch anwendbar (https://barrierefreies.design/werkzeuge/lesbarkeit-analysieren).
Die meisten Lesbarkeitsbewertungen basieren auf der Berechnung der Länge von Sätzen und Wörtern, definiert durch die Anzahl der Silben, die sie enthalten. Daraus ergibt sich auch die Verbindung von Lesbarkeitsbewertungen zu den rein akademischen Theorien über Textkomplexität. Leider ist das auch ihr Nachteil in Bezug auf meine Problemstellung.
Die Berechnung der Satzlänge an und für sich ist bereits nicht trivial. Denken Sie an Satzzeichen, die mitten im Satz stehen - wie z.B. in dem Satz, den Sie gerade lesen. Eine robuste Berechnung der Silbenanzahl scheint ebenfalls außer Reichweite. Es gibt vorschläge zur Berechnung, die allerdings von den Autoren selbst als ungenau bezeichnet werden (siehe dieses Beispiel, dieses Beispiel oder auch dieses hier).
Geht es noch einfacher?
Lesbarkeitsbewertungen sind einfacher zu implementieren als die rein akademischen Theorien zur Textkomplexität. Dennoch stützen sich die meisten immer noch auf Metriken, die ich mit vertretbarem Aufwand nicht zuverlässig berechnen kann: Textlänge und Silbenanzahl.
Muss ich mich also am Ende doch auf Wörter pro Minute verlassen? Die Antwort ist: "Nein, muss ich nicht." Denn zum Glück hat jemand eine einfache Formel entwickelt, welche trotzdem auch die Komplexität berücksichtigt.
2019 hat Brysbaert eine Meta-Überprüfung der Literatur zu Lesegeschwindigkeiten durchgeführt (Brysbaert 2019). Auch er hat Wörter pro Minute als Metrik für Lesegeschwindigkeiten gewählt (aufgrund deren hoher Akzeptanz). Er schlägt jedoch eine korrigierte Formel zur Berechnung der erwarteten Lesegeschwindigkeit vor: 238 * 4.6 / durchschnittliche Wortlänge
. 238
ist in diesem Fall der beste verfügbare Schätzwert für die Lesegeschwindigkeit in Wörtern pro Minute. 4.6
ist die durchschnittliche Wortlänge in Sachtexten. Die Formel verwendet also Wörter pro Minute als Basis, berücksichtigt aber die Wortlänge zur Abbildung der Komplexität.
Das scheint ein vielversprechender Ansatz zu sein. Eine pragmatische Formel ohne fehleranfällige Berechnung der Satzlänge oder Silbenanzahl. Auch wenn ein gewisses Risiko der übermäßigen Vereinfachung besteht, korreliert die Wortlänge gut mit dem Schwierigkeitsgrad des Textes (Miller and Coleman 1971). Dies wird auch von Radner et al. bestätigt, die feststellten, dass längere Wörter mit einer Verringerung der Lesegeschwindigkeit korrelieren (Radner et al. 2002). Daher werde ich die Wortlänge vorläufig als vernünftigen Indikator für die Komplexität betrachten.
Anpassungen für Deutsch
Da ich auch auf Deutsch schreibe, muss ich die Formel von Brysbaert noch an die durchschnittliche deutsche Lesegeschwindigkeit und Wortlänge anpassen. Leider gibt es keine Meta-Überprüfung für deutsche Lesegeschwindigkeiten, die diese Werte leicht zugänglich macht.
Duden gibt eine durchschnittliche Länge von 5.97 Buchstaben pro Wort an. Wenn die oberste Instanz für den deutschen Sprachkorpus das so sagt, darf man es schonmal einfach hinnehmen. Wenn es um die durchschnittliche Lesegeschwindigkeit geht, wird die Sache etwas weniger eindeutig.
Radner et al. berichten von einer Lesegeschwindigkeit von 209 Wörtern pro Minute für kurze Sätze und 170 Wörtern pro Minute für lange Sätze (Radner et al. 2002). Trauzettel-Klosinski und Dietz haben 179 Wörter pro Minute in einem internationalen standardisierten Test gemessen (Trauzettel-Klosinski and Dietz 2012). Pauly und Nottbusch berichten von einer durchschnittlichen Lesegeschwindigkeit zwischen 184 und 210 Wörtern pro Minute, je nach syntaktischer Satzstruktur (Pauly and Nottbusch 2020).
Aufgrund der referenzierten Literatur werde ich eine durchschnittliche Lesegeschwindigkeit von 185 Wörtern pro Minute für deutsche Leser annehmen. Die Überlegung dahinter ist, dass ich über technische Themen schreiben werde; daher ein Wert aus dem unteren Bereich. Allerdings bemühe ich mich normalerweise, die Komplexität meiner Texte zu verringern. Daher habe ich nicht die absolut niedrigste beobachtete Lesegeschwindigkeit gewählt. Ich werde diesen Wert bei Bedarf anpassen, sobald ich ein paar empirische Daten habe.
Das Ergebnis
Zusammengefasst lauten die Formeln, die ich vorläufig zur Berechnung der Lesegeschwindigkeit verwenden werde:
lesegeschwindigkeit_en = 238 * 4.6 / [durchschnittliche_wortlänge_des_beitrags]
und
lesegeschwindigkeit_de = 185 * 5.97 / [durchschnittliche_wortlänge_des_beitrags]
für Englisch bzw. Deutsch. Unter Berücksichtigung aller mir bekannten Literatur scheint dies der beste Kompromiss zwischen Pragmatismus und Berücksichtigung von Textkomplexität zu sein. Gemäß der Literatur (Brysbaert 2019; Miller and Coleman 1971; Radner et al. 2002) erwarte ich, dass die Wortlänge eine vernünftige Annäherung an die Gesamtkomplexität darstellt.
Schließlich lautet die Formel zur Schätzung der Lesezeit eines bestimmten Blogbeitrags in Minuten:
lesezeit_minuten = [wörter_im_beitrag] / lesegeschwindigkeit
Einschränkungen
Ich habe mir einige Freiheiten genommen, was die Zahlen aus der Literatur betrifft. Ich habe die Schriftsetzung, mit der die durchschnittlichen Lesegeschwindigkeiten ermittelt wurden, völlig außer Acht gelassen. Viele Faktoren abseits der Textkomplexität, die ich selbst (möglicherweise suboptimal) gewählt habe, könnten die durchschnittliche Lesegeschwindigkeit auf meiner Website beeinflussen: Kontrast, Schriftart, Schriftgröße, Zeilenlänge usw.
Natürlich ist jede Herleitung von Formeln in meinem Beitrag als hypothetisch zu betrachten. Es fehlt bisher jegliche kritische Prüfung. Eine solche kritische Prüfung würde den Rahmen eines einzelnen Blogbeitrags überschreiten.
Was nun?
Im nächsten Beitrag werde ich eine Implementierung der vorgeschlagenen Formel beschreiben. Ich werde JavaScript verwenden, um die Lesezeit von Blogbeiträgen im Markdown- bzw. HTML-Format zu schätzen. Sobald das implementiert ist, werde ich einige empirische Tests der berechneten Lesezeiten durchführen. Bleiben Sie dran!