Was ist ein Backtest? Und warum die meisten Backtest-Ergebnisse zu schön sind, um wahr zu sein
Marvin Waraschitz · 7. Juni 2026 · 8 Min. Lesezeit
Ein Backtest beantwortet eine einfache Frage: Was wäre passiert, wenn man eine Strategie in der Vergangenheit angewendet hätte? Das Problem: Diese Frage lässt sich auf viele Arten falsch beantworten, und die falschen Antworten sehen fast immer besser aus als die richtigen. Deshalb ist die wichtigste Fähigkeit im Umgang mit Backtests nicht das Rechnen, sondern das Misstrauen.
Das Wichtigste in Kürze
- Ein Backtest simuliert eine Strategie auf historischen Daten. Sein Ergebnis hängt massiv davon ab, wie sauber er gebaut ist.
- Die drei großen Fehlerquellen: Overfitting (auf die Vergangenheit hinoptimiert), Lookahead-Bias (Wissen verwendet, das es damals nicht gab) und Survivorship-Bias (nur Überlebende getestet).
- Schutz dagegen bieten Walk-Forward-Tests auf ungesehenen Daten, eine strikt kausale Signalberechnung und ein Test-Universum inklusive gescheiterter Titel.
- Auch ein sauberer Backtest beweist nichts über die Zukunft. Er kann Ideen aussortieren und Stabilität belegen, mehr nicht.
Was ein Backtest ist
Technisch ist ein Backtest eine Simulation: Man definiert Regeln (wann wird investiert, wann reduziert), lässt sie Tag für Tag über historische Kursdaten laufen und misst das Ergebnis, etwa Rendite, maximalen Verlust (Drawdown) und risikoadjustierte Kennzahlen wie die Sharpe Ratio. So weit, so einfach. Die Schwierigkeit liegt darin, dass die Vergangenheit beim Testen vollständig bekannt ist. Jede Unachtsamkeit, die dieses Wissen in die Simulation einsickern lässt, produziert Ergebnisse, die in der echten Anwendung unerreichbar sind.
Fehlerquelle 1: Overfitting
Wer lange genug an Parametern dreht, findet immer eine Kombination, die in der Vergangenheit glänzt. Mit genügend Stellschrauben lässt sich jede historische Kurve nachzeichnen. Das Ergebnis beschreibt dann aber nicht den Markt, sondern den Zufall des gewählten Zeitraums. Am nächsten ungesehenen Jahr scheitert es.
Der Schutz: Testen auf Daten, die die Optimierung nie gesehen hat
Der Standard dafür ist der Walk-Forward-Test: Parameter auf einem Zeitabschnitt bestimmen, auf dem folgenden, ungesehenen Abschnitt prüfen, dann das Fenster weiterschieben. Wir verwenden dafür 12 Zeitfenster über die Jahre 2014 bis 2025, ergänzt um Leave-One-Year-Out-Prüfungen: Jedes Jahr wird einmal komplett aus der Kalibrierung herausgenommen, und die Konfiguration muss auch ohne dieses Jahr bestehen. Eine Einstellung kommt bei uns nur in die Produktion, wenn sie in allen 12 Prüfungen hält. Das klingt streng und ist es auch: Die große Mehrheit der Ideen, die wir in 71 Forschungsrunden getestet haben, ist an genau dieser Hürde gescheitert.
Fehlerquelle 2: Lookahead-Bias
Lookahead-Bias entsteht, wenn die Simulation Informationen verwendet, die zum Entscheidungszeitpunkt noch gar nicht verfügbar waren. Das passiert subtiler, als man denkt: ein Signal, das den Schlusskurs des Tages verwendet und am selben Tag handelt. Ein Indikator, der über den Gesamtzeitraum normalisiert wurde. Ein Datenfeld, das nachträglich korrigiert wurde. Jede dieser Kleinigkeiten schenkt der Strategie einen Blick in die Zukunft.
Der Schutz: strikt kausale Berechnung
Die Regel ist einfach zu formulieren und mühsam durchzuhalten: Jede Entscheidung darf nur Daten verwenden, die am Vortag verfügbar waren. In unserer Engine ist das als Grundgesetz verankert: Die Position am Tag t folgt aus dem Signal des Tages t minus 1, ohne Ausnahme. Es werden an keiner Stelle zukünftige Daten verwendet, auch nicht indirekt über Normalisierungen oder Glättungen, die den Gesamtzeitraum kennen.
Fehlerquelle 3: Survivorship-Bias
Wer eine Strategie auf den heutigen Mitgliedern eines Index testet, testet nur die Gewinner der Geschichte. Die Pleiten, Delistings und Dauerverlierer sind aus dem Universum verschwunden, und mit ihnen genau die Fälle, in denen die Strategie am meisten hätte verlieren können.
Der Schutz: die Gescheiterten mittesten
Wir haben diesen Effekt 2026 explizit gemessen und unser Universum dafür um gescheiterte und schwer abgestürzte Titel ergänzt, soweit deren Kursdaten verfügbar sind. Das Ergebnis war für uns beruhigend und ist trotzdem berichtenswert: Die Kennzahlen änderten sich nur minimal (in der Größenordnung von 0,01 Sharpe-Punkten). Der Befund gilt aber nur, weil das Universum breit über Aktien und ETFs gestreut ist. Bei konzentrierten Einzelaktien-Strategien kann Survivorship-Bias Ergebnisse vollständig entwerten.
Die vierte, leise Fehlerquelle: Selektion
Wer 45 Tests rechnet, findet zufällig signifikante Treffer
Auch ein methodisch sauberer Test kann täuschen, wenn man viele davon rechnet und nur die Treffer zeigt. Wir haben unsere eigenen Ergebnisse deshalb einem Permutationstest unterzogen (die Strategie gegen tausende zufällig verwürfelte Signalfolgen antreten lassen) und die Signifikanzschwelle nach Bonferroni korrigiert, also durch die Anzahl der Tests geteilt. Von 45 Einzeltests überlebten 8 diese strenge Korrektur, alle mit p-Werten von praktisch null, und fast alle davon in Bärenmarkt-Fenstern. Der Rest ist von Zufall nicht sicher unterscheidbar, und genau so kommunizieren wir ihn auch.
Was auch ein sauberer Backtest nicht kann
- Die Zukunft vorhersagen. Märkte wechseln ihre Regime. Eine Strategie, die zwölf Jahre funktioniert hat, kann im dreizehnten versagen.
- Alle Kosten abbilden. Steuern, Slippage und Liquiditätseffekte hängen vom Einzelfall ab. Unsere Simulationen verzinsen Cash-Positionen mit kurzlaufenden US-Staatsanleihen, bilden aber keine individuellen Steuersituationen ab.
- Psychologie simulieren. Der Backtest hält jede Durststrecke durch. Ein Mensch, der zwei Jahre hinter dem Markt liegt, oft nicht.
Checkliste: 6 Fragen an jeden Backtest
Egal ob Studie, Tool oder Social-Media-Post, diese Fragen trennen belastbare Tests von Marketing:
- Wurde auf Daten getestet, die bei der Optimierung nicht verwendet wurden (Out-of-Sample, Walk-Forward)?
- Verwendet jede Entscheidung nur Informationen, die zum Zeitpunkt der Entscheidung verfügbar waren?
- Enthält das Test-Universum auch gescheiterte und delistete Titel?
- Wie viele Varianten wurden getestet und wie viele davon werden gezeigt?
- Werden Kosten, Steuern und die Verzinsung von Cash-Phasen genannt?
- Werden auch die Zeiträume gezeigt, in denen die Strategie verloren hat?
Die letzte Frage ist die schärfste. Jede echte Strategie hat schwache Phasen. Unsere eigene hat sie auch, und zwar systematisch in starken Bullenmärkten, wo Absicherung Rendite kostet. Was unsere Tests über Stärken und Schwächen im Detail zeigen, steht im Artikel über die Ergebnisse unserer 71 Forschungsrunden.
Häufige Fragen
Woran erkennt man einen seriösen Backtest?
An drei Dingen: Erstens wird auf Daten getestet, die bei der Optimierung nicht verwendet wurden (Out-of-Sample oder Walk-Forward). Zweitens werden die Grenzen offen benannt: keine Steuern, vereinfachte Kosten, begrenzter Zeitraum. Drittens werden auch die Fehlschläge berichtet. Wer nur Treffer zeigt, hat entweder nichts anderes getestet oder verschweigt den Rest.
Was ist ein Walk-Forward-Test?
Beim Walk-Forward-Test wird der historische Zeitraum in Abschnitte geteilt. Die Strategie-Parameter werden auf einem Abschnitt bestimmt und anschließend auf dem nächsten, ungesehenen Abschnitt geprüft. Das wiederholt sich rollierend durch die gesamte Historie. So wird simuliert, was ein Anleger tatsächlich erlebt hätte: Er kennt immer nur die Vergangenheit, nie die Zukunft.
Warum sehen Backtest-Ergebnisse in der Werbung so gut aus?
Meist aus einer Kombination von drei Effekten: Die Parameter wurden auf genau den Zeitraum optimiert, der gezeigt wird (Overfitting). Das Test-Universum enthält nur Titel, die bis heute überlebt haben (Survivorship-Bias). Und von vielen getesteten Varianten wird nur die beste veröffentlicht (Selektionseffekt). Jeder dieser Effekte allein kann aus einer wertlosen Strategie eine beeindruckende Kurve machen.
Sind Backtests dann überhaupt sinnvoll?
Ja, aber als Falsifikationswerkzeug, nicht als Renditeversprechen. Ein sauberer Backtest kann zeigen, dass eine Idee historisch nicht funktioniert hat, und er kann die Hypothese stützen, dass ein Mechanismus über viele Marktphasen stabil war. Was er nie kann: zukünftige Ergebnisse garantieren. Vergangene und simulierte Performance ist kein verlässlicher Indikator für die Zukunft.
Signale für dein Portfolio statt Theorie
edgio berechnet 16 technische Signale für deine Positionen und fasst sie zu einer klaren Einordnung zusammen. Die Methodik dahinter ist genau die, die du hier nachlesen kannst.
Auf die WartelisteMarvin Waraschitz ist Gründer von edgio. Die Signal-Engine hinter dem Tool hat er in 71 dokumentierten Forschungsrunden entwickelt und validiert: 148 Aktien und ETFs, 12 Jahre Daten, jede Konfiguration in 12 unabhängigen Zeitfenstern geprüft.
Weiterlesen
Methodik
16 Signale, 148 Aktien, 12 Jahre: Was unsere Backtests wirklich zeigen
Trendfolge
EMA Crossover erklärt: Wie das Signal funktioniert und welche Perioden Tests bestanden haben
Trendfolge
Die 200-Tage-Linie im Backtest: beliebt, einfach und in 12 von 12 Zeitfenstern schwächer als Kaufen-und-Halten
Dieser Artikel dient ausschließlich der Information und Bildung. Er ist keine Anlageberatung und keine Empfehlung zum Kauf oder Verkauf von Finanzinstrumenten. Historische und simulierte Ergebnisse sind kein verlässlicher Indikator für zukünftige Entwicklungen. Details im Disclaimer.