2026-06-10
Satzbasiertes Spaced Repetition: 4-6x schnellerer Wortschatzerwerb
Eine Studie von 2024 belegt: Satzbasiertes Spaced Repetition ist 4-6x effizienter als Einzelwort-Karteikarten, bei gleichbleibender SRS-Planung pro Wort.
Die kurze Antwort
Satzbasiertes Spaced Repetition kann neue Vokabeln laut einer 2024 durchgeführten Nutzerstudie mit 26 dänischen Lernenden rund 4 bis 6 Mal schneller erwerben als herkömmliche Einzelwort-Karteikarten.1 Die zentrale Idee: Mehrere fällige Wörter werden dynamisch in einem natürlichen Satz kombiniert, jedes Wort wird separat bewertet, und die standardmäßige Spaced-Repetition-Planung bleibt erhalten. Die Lernenden begegneten pro Sitzung drei- bis viermal mehr unterschiedlichen Wörtern, behielten einen ähnlichen Anteil des Gelernten und berichteten von höherem Lernspaß, wenn die Sätze aus einem hochwertigen Korpus stammen statt ausschließlich von einem Sprachmodell erzeugt werden.
Dieser Ansatz liegt zwischen zwei verbreiteten SRS-Gewohnheiten: isolierten Wortkarten (maximale Planungsflexibilität, minimaler Kontext) und festen Satzkarten (reichhaltiger Kontext, aber eine Karte pro Satz). Satzbasiertes SRS zielt auf beides ab: Wörter werden nach eigenen Intervallen geplant, aber jede Wiederholung findet in einem neuen, niveaugerechten Kontext statt.
Was ist satzbasiertes Spaced Repetition?
Herkömmliche Spaced-Repetition-Software (Anki, SuperMemo, Mnemosyne) präsentiert Vokabeln üblicherweise in einem von drei Formaten:1
| Ansatz | Was geübt wird | Planung | Kontext |
|---|---|---|---|
| Einzelwortkarten | Ein Lemma oder Übersetzungspaar | Unabhängig pro Wort | Keiner oder minimal |
| Fester Satz + Wort | Ein Zielwort in einem statischen Beispielsatz hervorgehoben | Unabhängig pro Wort | Jedes Mal derselbe Satz |
| Ganzsatzkarten | Ein vollständiger Satz oder Textabschnitt | Ein Intervall pro Satz | Vollständig, aber gebündelt |
| Satzbasiertes SRS | Ein neuer Satz aus mehreren fälligen Wörtern | Unabhängig pro Wort | Frischer Kontext bei jeder Wiederholung |
Forschende der Universität Kopenhagen entwickelten AllAI (Automated Language Learning with AI), um dieses vierte Modell zu testen. Das System verfolgt den eigenen Wortschatz, erkennt fällige Wörter und stellt daraus einen kurzen Satz zusammen, der möglichst viele dieser Wörter enthält. Nach dem Abrufversuch markiert man, welche einzelnen Wörter nicht korrekt erinnert wurden. Das nächste Wiederholungsdatum jedes Wortes wird separat aktualisiert, genau wie bei einem normalen Karteikartenstapel.1
Warum Kontext den Wortschatzerwerb beeinflusst
Spaced Repetition ist eines der am besten belegten Werkzeuge im computergestützten Sprachlernen.2 Doch Vokabeln kommen selten isoliert vor. Wörter, die im Satzkontext gelernt werden, verstärken sich gegenseitig, bieten Schlussfolgerungshinweise und spiegeln wider, wie Sprache tatsächlich verwendet wird.1
Der Konflikt ist jedem vertraut, der Anki fürs Sprachenlernen genutzt hat:
- Prinzip der minimalen Information: Jede Wiederholungsaufgabe sollte eine atomare Tatsache prüfen, damit die Planung präzise bleibt.1
- Kontextuelles Lernen: Ein Wort in einem Satz abzurufen kommt dem echten Verstehen und Produzieren näher als das bloße Betrachten einer isolierten Übersetzung.
Satzbasiertes SRS versucht, beides zu berücksichtigen. Wörter werden weiterhin unabhängig geplant (wie bei Einzelwortkarten), aber jede Begegnung findet in einem wechselnden Satz statt (anders als feste Beispielsätze, die sich endlos wiederholen). Genau diese Kombination maß die Studie von 2024 gegen eine herkömmliche Kontrollgruppe.
Wie AllAI Sätze generiert
Vor der eigentlichen Nutzerstudie simulierten die Forschenden 20 Lerntage und verglichen mehrere NLP-Pipelines. Zwei Methoden schnitten gut genug ab, um mit echten Lernenden getestet zu werden:1
1. Korpusabruf (BM25)
Das System durchsucht einen gefilterten, Wikipedia-basierten Korpus (Wiki-40B) nach den fälligen Wörtern der Lernenden. Ein angepasstes BM25-Ranking bewertet Sätze, die mehr Suchwörter enthalten, wobei früher fällige Wörter stärker gewichtet werden. Sätze sind auf 10 Wörter begrenzt, verwenden nur bereits bekannte Vokabeln (zuzüglich einer kleinen Anzahl neuer Wörter) und vermeiden Wiederholungen desselben Satzes am selben Tag.1
Menschliche Beurteilende stuften abgerufene Sätze in der Simulation als zu 100 % grammatikalisch korrekt ein. Diese Methode ist auch im großen Maßstab kostengünstig, weil vorhandener Text ausgewählt statt neuer Text erzeugt wird.
2. Few-Shot-Sprachmodell-Prompting (GPT-3.5)
Eine alternative Pipeline gibt GPT-3.5-turbo drei dänische Beispiele vor und fordert es auf, einen kurzen Satz mit fünf fälligen Wörtern zu schreiben. Die beste Konfiguration verwendete eine niedrige Temperatur (0,2), filterte fehlerhafte Ausgaben durch erneutes Prompting und wählte den Kandidaten mit dem besten Planungswert aus drei Generierungen aus.1
Die generierten Sätze waren größtenteils korrekt, aber nicht fehlerfrei: Rund 15 % wurden von menschlichen Beurteilenden als falsch eingestuft. Ein weiteres Problem war das sogenannte Lemma-Looping: Das Modell flektierte Wörter oft anders als in der Form, die im Lernstapel gespeichert war, sodass die fällige Form nie abgehakt wurde und immer wieder auftauchte.
3. Hybrid (50 % Abruf, 50 % Generierung)
Ein Hybrid wechselte zwischen BM25-Abruf und GPT-3.5-Generierung ab. Er reduzierte das Looping (der Abruf unterbricht den Zyklus), enthielt aber weiterhin einige Generierungsfehler. Sowohl die reine Abruf-Pipeline als auch der Hybrid gelangten in die Nutzerstudie.
| Methode | Planungswert (niedriger ist besser) | Sätze über 10 Wörter | Fehlerhaft (menschliche Bewertung) |
|---|---|---|---|
| GPT-3.5 (beste Konfiguration) | 0.068 | 19.6% | 15% |
| BM25 (bester von 25) | 0.098 | 8.5% | 0% |
| Hybrid | 0.078 | 11.2% | 10% |
Planungswert misst, wie viel des Spaced-Repetition-Zeitplans verschwendet wird, indem Wörter zu früh gezeigt oder nicht angeforderte neue Vokabeln eingeführt werden. Werte unter 0,1 bedeuten, dass weniger als eines von zehn Wörtern einer Aufgabe nicht mit dem Planer synchron war.1
Die Nutzerstudie: 4-6x schnellerer Wortschatzerwerb
Sechsundzwanzig Lernende studierten 10 Tage lang Dänisch mit einer Progressive Web App. Die App verwendete den SM-2-Algorithmus (die Grundlage von Ankis klassischem Planer) mit einer vereinfachten zweigliedrigen Bewertungsskala: erinnert oder nicht erinnert.1 Die Teilnehmenden wurden auf drei Gruppen aufgeteilt:
| Gruppe | Was die Lernenden sahen | Unterschiedliche Aufgaben (Median) |
|---|---|---|
| Kontrollgruppe (Einzelwort) | Ein fälliges Wort in einem festen Beispielsatz hervorgehoben (Standard-Anki-Stil) | 15 Wörter gesehen |
| Abruf | Dynamische Sätze aus BM25-Korpussuche | 55 Wörter gesehen |
| Hybrid | Abwechselnd Abruf- und GPT-3.5-Sätze | 78 Wörter gesehen |
Ergebnisse zur Lerneffizienz
Der zentrale Befund ist die Zeiteffizienz: Wortschatzzuwachs pro Lernminute. Abruf- und Hybridgruppe erzielten eine rund vierfach höhere Effizienz als die Einzelwort-Kontrollgruppe. Der gesamte Wortschatzzuwachs war 4 bis 6 Mal höher, hauptsächlich weil in derselben Lernzeit mehr Wörter begegnet wurden, ohne dass der Anteil der behaltenen Wörter sank.1
| Kennzahl | Kontrollgruppe (Einzelwort) | Abruf | Hybrid |
|---|---|---|---|
| Zeiteffizienz (Wörter/Min., Median) | 0.10 | 0.59 | 0.38 |
| Zeiteffizienz (Wörter/Min., Mittelwert) | 0.14 | 0.60 | 0.54 |
| Wortschatzzuwachs (Median) | 1.5 Wörter | 10.0 Wörter | 6.0 Wörter |
| Worteffektivität (Behaltensrate) | 0.05 | 0.17 | 0.12 |
| Unterschiedliche Wörter gesehen (Median) | 15 | 55 | 78 |
Die Worteffektivität (neu gelernte Wörter geteilt durch gesehene Wörter) blieb in den Interventionsgruppen ähnlich oder verbesserte sich leicht. Die Lernenden opferten keine Behaltensleistung für mehr Tempo. Sie begegneten schlicht mehr Vokabeln in derselben Lernzeit, weil jeder Satz mehrere fällige Wörter enthielt.1
Engagement und Lernfreude
Die selbst berichtete Lernfreude war in der Abrufgruppe signifikant höher als in der Kontrollgruppe (p = 0,042) und in der Hybridgruppe (p = 0,028). Effizienz und Lernfreude korrelierten positiv (Pearson r = 0,5), was darauf hindeutet, dass schnellere Fortschritte das Lernen belohnender machen.1
Anfängerinnen und Anfänger profitierten am meisten: Der Wortschatzzuwachs korrelierte negativ mit vorhandenen Dänischkenntnissen (r = -0,4). Dynamische Sätze scheinen besonders früh im Lernprozess hilfreich zu sein, wenn jedes neue Wort reichhaltigen Kontext und häufige Begegnungen benötigt.
Vergleich mit konventionellem Spaced Repetition
Die meisten Sprachenlernenden, die SRS nutzen, gehören heute zu einem von zwei Lagern:
- Wortlisten auf Karteikarten (schnell zu erstellen, aber Wörter sind kontextlos).
- Feste Beispielsätze (fügt Kontext hinzu, aber derselbe Satz wiederholt sich so lange, bis er als festes Chunk statt als flexibles Vokabular auswendig gelernt ist).
Die Kontrollgruppe in der AllAI-Studie simulierte den zweiten Ansatz: Jedem Wort war dauerhaft ein Beispielsatz zugewiesen. Satzbasiertes SRS übertraf diese Kontrollgruppe bei nahezu allen Lernkennzahlen und schlug auch das isolierte Wortlernen in puncto Engagement.1
Dies deckt sich mit breiter angelegter Forschung, die zeigt, dass stärker involvierte, produktive Aufgaben (wie das Schreiben von Sätzen) beim Vokabellernen oft passiven Lückentextformaten überlegen sind.3 Satzbasiertes SRS nimmt eine Mittelstellung ein: Man ruft weiterhin aktiv ab, aber das System liefert abwechslungsreichen Kontext, sodass man nicht jedes Mal von Grund auf neu schreiben muss.
Praktische Schlussfolgerungen für Sprachenlernende
1. Mehrere fällige Wörter in eine Wiederholung packen
Wer Anki oder eine andere SRS-App manuell nutzt, kann erwägen, Wörter in kurzen selbst geschriebenen Sätzen zu wiederholen oder Add-ons zu verwenden, die fällige Karten gruppieren. Die AllAI-Studie legt nahe, dass der Effizienzgewinn aus der Dichte entsteht: mehr Zielwörter pro Aufmerksamkeitsminute.
2. Echte Sätze statt statischer Beispielsätze bevorzugen
Ein fester Beispielsatz auf jeder Karte ist besser als kein Kontext, aber das Wiederholen desselben Satzes trainiert die Mustererkennung auf Satzebene. Wechselnder Kontext erzwingt echtes Abrufen auf Wortebene. Der Korpusabruf erzielte in der Simulation perfekte grammatikalische Korrektheit, weil er echte, belegte Sätze verwendete.1
3. Wortindividuelle Planung beibehalten
Die unabhängigen Wortintervalle sollten nicht zugunsten von Kontext aufgegeben werden. Das Prinzip der minimalen Information existiert, weil das Bündeln von zu vielem in einer Karte den Planer darin hindert zu erkennen, welches Element vergessen wurde. Satzbasiertes SRS funktioniert, weil jedes Wort nach einem gemeinsamen Satz separat bewertet wird.
4. Vorsicht bei KI-generierten Lernsätzen
Große Sprachmodelle können flüssige Sätze produzieren, aber Morphologiefehler und Lemma-Inkongruenzen können die SRS-Planung in stark flektierten Sprachen zum Entgleisen bringen. Bis Generierungsqualität und Formkontrolle sich verbessern, ist der Abruf aus einem kuratierten Korpus (oder einem Wörterbuch mit belegten Beispielen) möglicherweise die sicherere Voreinstellung.1
Grenzen der Studie
Beim Interpretieren dieser Ergebnisse ist der Kontext zu berücksichtigen:
- Kleine Stichprobe: 26 Teilnehmende, über soziale Netzwerke rekrutiert, lernten 10 Tage lang Dänisch.
- Kurze Laufzeit: Die langfristige Behaltensleistung jenseits des Studienzeitraums wurde nicht direkt gemessen (obwohl die Lernfreude auf eine anhaltende Nutzung hindeuten könnte).
- Eine Zielsprache: Die dänische Morphologie kann Generierungsfehler im Vergleich zu Spanisch, Englisch oder Japanisch verstärken oder abschwächen.
- Mehrfache Vergleiche: Bei 11 Kennzahlen über drei Gruppen würden einige p-Werte eine strenge Bonferroni-Korrektur nicht überstehen. Der Effizienzunterschied zwischen Abruf und Kontrollgruppe blieb auch bei diesem strengeren Schwellenwert signifikant.1
Die Autorinnen und Autoren weisen darauf hin, dass neuere Modelle (GPT-4 und nachfolgende) die Korrektheitslücke zum Abruf schließen könnten, diese Hypothese aber größerer Studien bedarf.
So nutzt man diese Ergebnisse in der Praxis
LinGoat ist die einzige Sprachlern-App, die satzbasiertes Spaced Repetition so umsetzt, wie diese Forschung es beschreibt: fällige Wörter werden zu neuen Übungssätzen kombiniert, jedes Wort wird einzeln bewertet, und die Wiederholungen werden mit FSRS geplant. Anki und ähnliche Tools setzen auf Einzelwort-Karteikarten oder feste Beispielsätze. Sie stellen keine dynamischen Sätze automatisch aus deinem Wortschatz und deinem Wiederholungsplan zusammen.
Wer den 4- bis 6-fachen Effizienzgewinn aus dieser Studie nutzen will, sollte LinGoat verwenden. App öffnen und loslegen, oder so funktioniert es nachlesen.
Literatur
- Paddags, B., Hershcovich, D., & Savage, V. (2024). Automated Sentence Generation for a Spaced Repetition Software. Proceedings of the 19th Workshop on Innovative Use of NLP for Building Educational Applications (BEA 2024), 351-364.
- Hao, T., Wang, Z., & Ardasheva, Y. (2021). Technology-Assisted Vocabulary Learning for EFL Learners: A Meta-Analysis. Journal of Research on Educational Effectiveness, 14(3), 645-667.
- Laufer, B., & Shmueli, K. (2016). Comparing Multiple Translation Tasks and Multiple Choice Tasks for Learning Words From Context. Language Teaching Research.