Stuttgart 21/Stresstest/Richtlinienverstöße

Im Schlichterspruch zum Stresstest war die Anwendung "anerkannter Standards des Bahnverkehrs" gefordert worden. Eine solche weiter gefasste Prüfung der Prämissen des Stresstests auch im Vergleich zu internationalen Standards fand nicht statt. Es wiegt deshalb besonders schwer, dass sich in den Details der Durchführung des Stresstests zu Stuttgart 21 sogar eine Reihe von Verstößen gegen Bahn-Richtlinien finden. Besondere Bedeutung kommt dabei der Richtlinie 405 "Fahrwegkapazität" zu. Selbst diese Richtlinie ist argumentativ nicht geschlossen, da sie an vielen Stellen auf die Unter-Richtlinie 405.0105 "Theoretische Grundlagen" verweist, die noch nicht vorliegt.

Es wird eine unglaubliche Fülle an Richtlinienverstößen gezählt, aktuell allein 11 KO-Kriterien (Stand 13.11.2013), von denen jedes für sich genommen den Stresstest ungültig macht. Es stellt sich die Frage, wie das passieren konnte und ob aus Fahrlässigkeit oder Vorsatz. Die Bahn selbst gibt die Antwort, offenbar war sie schon früh selbst nicht davon überzeugt, dass der Stresstest unter regulären Bedingungen bestanden werden könnte:

"Während SMA die Prämissen gleich zu Anfang festzurren wollte, wollte die Bahn diese im Prozess anpassen, damit der Stresstest für den Tiefbahnhof mit 49 Zügen auch bestanden werde." (Stuttgarter Zeitung, 21.06.2011)^[1]

Es war also von der Bahn offen angekündigt worden, dass die Prämissen (die weitgehend von Richtlinien festgelegt sind) auf das gewünschte Stresstest-Ergebnis hin "angepasst" werden würden. Das erklärt die zahlreichen Richtlinienverstöße.

– schwerer Mangel oder Nachteil
– KO-Kriterium
– KO-Kriterium im öffentlichen Fokus

Richtlinien-Verstöße
Richtlinien-Verstöße, Methode
Regelwidrige Grenzen für Betriebsqualität
Betriebsqualität aus gekappter Streckenauswertung
Betriebsqualität allein aus Verspätungsveränderung
Betriebsqualität von Haltezeitverkürzung überlagert
Sensitivitäten kein Ersatz für Vollsimulation
Finaler Simulationslauf auch unvollständig
Test nur im Vergleich aussagefähig
Stresstest-Dokumentation nicht nachvollziehbar
Keine Belegungsgrade
Simulation nach ungültiger Prozessbeschreibung
Keine Modellzug-Spezifität
Richtlinien-Verstöße, Parameter
Kein Stress im Test
Haltezeitverlängerungen gekappt
Fahrzeitüberschüsse voll verwendet

Inhaltsverzeichnis

1 RICHTLINIENVERSTÖSSE, METHODE
2 Regelwidrige Ermittlung der Betriebsqualität
3 Sensitivitäten kein Ersatz für Vollsimulation
4 Simulation nur im Vergleich aussagefähig
5 Abschlussdokumentation nicht nachvollziehbar
6 Belegungsgrade wurden nicht dargestellt
7 Test des Fahrplans oder der Infrastruktur?
8 Keine modellzugspezifische Verspätungsveränderung
9 Stresstest-Simulation auf Basis ungültiger Prozessbeschreibung
10 RICHTLINIENVERSTÖSSE, PARAMETER
11 Kein Stress im Test
- 11.1 Mangelhafte Berücksichtigung von Urverspätungen
12 Gekappte Haltezeitverlängerungen
13 Fahrzeitüberschüsse voll im Verspätungsabbau
14 Qualität der Bahn-Richtlinien
15 Einzelnachweise

Diese Seite kann nur von Mitgliedern des Experten-Rats Stuttgart 21 bearbeitet werden. Aber jeder ist herzlich eingeladen zu Kommentaren oder vorbereitender Mitarbeit auf der Diskussionsseite (bitte vorher registrieren/anmelden). Bewerbungen um die Mitgliedschaft in dem Experten-Rat bitte hier.

Dieser Artikel befindet sich noch im Aufbau. Inhalte und Quellenangaben sind unvollständig, alle wertenden Aussagen sind vorläufig. Jede Mithilfe oder Korrektur ist willkommen, gerne auf der Diskussionsseite – gleich registrieren/anmelden (rechts oben) – oder an

!

RICHTLINIENVERSTÖSSE, METHODE

Regelwidrige Ermittlung der Betriebsqualität

Regelwidrige Qualitätsgrenzen im Stresstest

Falsch zugeordnete Minutengrenzen in der neuen Definition der Betriebsqualität im Stresstest. Im Ergebnis eine weitere Stufe weniger anspruchsvoll. (Doku. Teil 1 S. 23) (Quelle: Bahn, Hervorhebungen: WikiReal).

Im Stresstest wurde vollkommen freihändig und verfälschend eine neue Qualitätseinstufung als Collage aus Versatzstücken der Richtlinie zusammengesetzt. Dabei wurden die tatsächlichen quantitativen Grenzen um eine Stufe verschoben und teils fälschlich auf den ganzen Auswerteraum bezogen.

In der im Stresstest gegebenen Definition für die Betriebsqualität (Abbildung rechts, Doku. Teil 1 S. 23) wurden zwei unterschiedliche Passagen der Richtlinie 405 zusammenkopiert. Dies erfolgte aber unter Auslassung wesentlicher Festlegungen und indem ein falscher Bezug hergestellt wurde. Tatsächlich reicht der "wirtschaftlich optimale" Bereich nicht bis 1,0 Minuten Verspätungsaufbau, sondern nur bis 0,0 Minuten Verspätungsaufbau. Bis 1,0 Minuten folgt der "risikobehaftete" Qualitätsbereich. Diese Einstufung gilt außerdem nur für Teilstrecken nicht für das Gesamtnetz oder Mittelwerte von Strecken.

Die unzutreffende Qualitäts-Definition wurde in der Abschluss-Dokumentation des Stresstests auch auf Seite 18 gebraucht, mit der definitv falschen Aussage, der "optimale" Leistungsbereich reiche bis zu einer Minute Verspätungsaufbau (Doku. Teil 1 S. 18). Es stellt sich die Frage, wie ein Projekt fortgeführt werden kann, das mit derart unzutreffenden Aussagen gerechtfertigt wurde.

Falsche Definition der "optimalen" Betriebsqualität (Doku. Teil 1 S. 18) (Quelle: Bahn, Hervorhebungen: WikiReal).

Dass sich also der Verspätungsabbau von 8 und 9 Sekunden auf den Zu- und Ablaufstrecken in der Grundversion mit einer Verspätungsgrenze von 1 Minute für das Ende des "wirtschaftlich optimalen" Bereichs vergleicht (mit viel Spielraum für die "Sensitivitäten"), hat bspw. auch der Projektleiter bei der Bahn in den Prämissengesprächen erläutert.^[2] Die SMA hat dies auch so verstanden (Audit SI-08 S. 14 / Bl. 199) und auch z.B. Boris Palmer^[3].

Für die großen räumlichen Einheiten des Auswerteraums oder der Mittelwerte der Zu- bzw. Ablaufstrecken, ist die Vorgabe der Richtlinie rein qualitativ (Richtlinie 405.0104 S. 6 / Bl. 94, Hervorhebungen durch WikiReal):

* Hierbei wird angenommen, dass entsprechend den Bedingungen in der Praxis ein Teil der in der Regel erforderlichen planmäßigen Wartezeiten und der bei der Fahrplanerstellung üblicherweise eingearbeiteten Zeitzuschläge zum Verspätungsabbau genutzt werden kann. (Richtlinie 405.0104 S. 6 / Bl. 94; Hervorhebungen durch WikiReal)
Summe Folgeverspätungen / Verspätungsveränderung	Bewertungsstufen der Betriebsqualität
nur geringe Folgeverspätungen (außerplanmäßige Wartezeiten); Sofern Zeitreserven* zur Verfügung stehen können diese genutzt werden, so dass sich die Gesamtsumme der Verspätungen zwischen Einbruch und Ausbruch deutlich verringert (Verspätungsabbau*).	Premiumqualität
Summe der Folgeverspätungen (außerplanmäßige Wartezeiten) noch akzeptabel. Sofern Zeitreserven* zur Verfügung stehen, können die Folgeverspätungen im Mittel kompensiert werden, die Gesamtsumme der Verspätungen bleibt annähernd gleich bzw. ändert sich nicht signifikant.*	wirtschaftlich optimal
Summe der Folgeverspätungen (außerplanmäßige Wartezeiten) steigt erheblich, Im Falle vorhandener Zeitreserven* reichen diese nicht aus, die Folgeverspätungen zu kompensieren. Die Summe der Verspätungen steigt zwischen Einbruch und Ausbruch deutlich an(Verspätungszuwachs).	risikobehaftet
Verspätungssumme steigt zwischen Einbruch und Ausbruch stark an	mangelhaft (nicht marktgerecht)

Die Darstellung der Stresstest-Dokumentation basiert im Grundgerüst auf dieser Definition. Die rot hinterlegte wiederholte entscheidende Einschränkung durch die Fußnote, dass nur ein Teil der Wartezeiten und Zeitzuschläge verwendet werden kann, fehlt jedoch. Und gerade hier beging die Bahn einen weiteren Regelverstoß bezüglich der Fahrzeitüberschüsse.

Die Stresstest-Definition wurde um einen quantitativen Zusatz mit Minutengrenzen ergänzt. Er stammt aus der Erläuterung der Kenngröße Verspätungsveränderung (Richtlinie 405.0104 S. 21 / Bl. 109, Hervorhebungen durch WikiReal):

Für den Verspätungszuwachs gilt vorläufig folgender Rahmen (für Personenverkehr auf Mischbetriebsstrecken) • Als Optimum gilt: zul t_Vz = 0,0 [min] im Mittel über alle SPV-Züge. D.h. Die mittlere Verspätung soll im Untersuchungsbereich (Auswerteraum) möglichst nicht ansteigen. Ein Verspätungsaufbau kann auf Abschnitten ggf. dann zugelassen werden, wenn entsprechende Abbaumöglichkeiten in den benachbarten Netzelementen bestehen. • Als noch akzeptabel gilt eine mittlere Verspätungsveränderung (Zuwachs) von: zul t_Vz = 1,0 [min] im Mittel über alle SPV-Züge auf einer Folge von Netzelementen (Strecke, Teilnetz), zul t_Vz = 0,5 [min] im Mittel über alle SPV-Züge in Bahnhofsköpfen. Diese Werte liegen somit an der Grenze zum mangelhaften Bereich.

Wieder bezeichnen die rot hinterlegten Passagen die Auslassungen bei der Übernahme in die Definition der Betriebsqualität des Stresstests. Das Zusammenstückeln der beiden Richtlinien-Texte ist sinnentstellend und im Ergebnis werden die Qualitätsstufen der Betriebsqualität um eine Stufe verschoben für eine erleichterte Zielerreichung im Stresstest. Dabei wird mit Auslassung und äußerst trickreich mit falschen Bezügen gearbeitet:

Bis 2007 wurde noch gute Betriebsqualität angestrebt, danach wirtschaftlich optimal.
Verspätungsverhalten der Infrastruktur	Betriebsqualität nach Richtlinie 405 bis 12.2007	Betriebsqualität nach Richtlinie 405 ab 01.2008	Betriebsqualität im Stresstest (falsche Minutengrenzen)
Verspätungsabbauend	gut	Premiumqualität	Premiumqualität
Verspätungserhaltend	befriedigend	wirtschaftlich optimal	Premiumqualität
Verspätungssteigernd	—	risikobehaftet	wirtschaftlich optimal
Stark verspätungssteigernd	mangelhaft	mangelhaft	risikobehaftet

In der Stresstest-Dokumentation wurde insbesondere nicht der letzte Zusatz zitiert, dass die angeführten Werte schon die Grenze zum "mangelhaften" Qualitätsbereich markieren. Das ist zwei Stufen schlechter als "wirtschaftlich optimal", noch schlechter als "risikobehaftet" (siehe oben).
In der Stresstest-Dokumentation wurde der erste Punkt nicht mitzitiert (rot), d.h. dass die Grenze für "Optimum" bei "0,0" Minuten im gesamten Auswerteraum liegt. Nachdem im Folgepunkt nur eine weitere Grenze definiert wurde, an der "somit" der mangelhafte Bereich beginnt, lässt dies nur den Schluss zu, dass die 0,0 Minuten die Obergrenze für "wirtschaftlich optimal" darstellen. Diese Einstufung ist mit der vorausgehenden qualitativen Einstufung verträglich, da ja "Premium" einen "deutlichen" Verspätungsabbau bedeuten soll. D.h. die "wirtschaftlich optimale" Betriebsqualität verlangt Verspätungsabbau, der jedoch nicht "deutlich" ausfallen muss, maximal ist Verspätungserhaltung zulässig.
Hier ist zu beachten, dass die Bahn suggestiv und unzulässigerweise den zweimal auftauchenden Begriff "noch akzeptabel" in Beziehung gesetzt hat. Das erste "noch akzeptabel" aus der qualitativen Definition bezeichnet jedoch die "Summe der Folgeverspätungen", die aber im Mittel (zwischen Einbruch und Ausbruch) vom Verspätungsabbau kompensiert werden sollen. Das zweite "noch akzeptabel" aus der Detaildefinition bezeichnet jedoch den Wert, der für eine "risikobehaftete" Einzelstrecke noch akzeptabel ist, bevor der "mangelhafte" Bereich beginnt.
In der Stresstest-Dokumentation wurde insbesondere nicht darauf hingewiesen, dass diese Werte eben nicht für eine Mittelung über alle Zulauf- oder alle Ablaufstrecken sowie nicht für den gesamten Untersuchungsbereich gelten, insbesondere nicht für Zulaufstrecke plus Bahnhof mit Halt plus Ablaufstrecke. Die Grenzwerte gelten ausdrücklich nur für Teilstrecken und Bahnhofsköpfe.
Dass die Bahn und auch SMA wiederholt die Sekundenwerte dieser Strecken-Mittelwerte mit der Minutengrenze der Qualitätsdefinition in Beziehung setzte ist unzulässig und führte die Öffentlichkeit in die Irre. In den Grafiken hätte per Fußnote darauf hingewiesen werden müssen, dass bspw. die 8 bis 9 Sekunden Verspätungsabbau nichts mit dem Qualitätsprädikat und der Qualitätsgrenze von 30 oder 60 Sekunden zu tun haben.
Allenfalls hätte eine Aussage dargestellt werden dürfen, dass X % der Zulaufstrecken, betreffend Y % der Züge, im Zulauf "wirtschaftlich optimal" erhalten, etc. Tatsächlich hat die Bahn aber auch in der Qualitäts-Bewertung der einzelnen Strecken unsauber gearbeitet, indem bei kritischen Strecken das Prädikat nur für den Abschnitt erteilt wurde, der noch "optimal" ausfiel, die Gesamtstrecke, die "mangelhaft" ergeben hätte, wurde nicht bewertet (Folgeabsatz).
Diese Teilelemente des Systems wären dann (den Beispiel-Auswertungen der Richtlinie folgend) in einer graphischen Auswertung entsprechend ihrer Qualität einzeln farblich zu kennzeichnen (Richtlinie 405.0205A01 S. 5 / Bl. 235).
In der Qualitätsdefinition der Stresstest-Dokumentation ist zwar die Formulierung "in Bahnhofsköpfen" korrekt übernommen worden (Doku. Teil 1 S. 23). Dennoch wurde nie, insbesondere bei dem verschiedentlichen Bezug auf die 30 Sekunden-Verspätungsgrenze in den "freiwilligen" Zusatzprüfungen eine Prüfung der tatsächlichen Bahnhofsköpfe vorgenommen, sondern vielmehr der Untersuchungsraum auf den "S21-Knoten" ausgeweitet (Doku. Teil 1 S. 22, Teil 2 S. 63, 68, 85, 91, 113, 133 / Bl. 2, 7, 24, 30, 52, 72) und ein großer Anteil Alt-Zulaufstrecke zum Abpuffern der Verspätungen genutzt.
Die tatsächliche Auswertung der Bahnhofsköpfe hätte weit unvorteilhaftere Werte für den Verspätungsaufbau geliefert, z.B. von +24 Sek. für die Züge aus Horb nach Stuttgart (Doku Teil 2 S. 89 / Bl. 28), nahe der Grenze zu "mangelhaft" bei +30 Sek. – und das schon in der viel zu optimistischen Grundvariante. Ein Wert deutlich verschieden von den 8 Sek., dem Mittelwert, den die Bahn für die Zuläufe angibt.

Gegenüberstellung der falschen Zuordnung der Betriebsqualität im Stresstest mit der Zuordnung entsprechend der Richtlinie anhand von Beispielwerten.

Die Hauptproblematik aus der verfälschten Definition der Betriebsqualität wird in der nebenstehenden Grafik illustriert. Die erste farbige Säule gibt die unzulässig verschobenen Qualitätsstufen wieder. Die Grenze zu Premium hatte die Bahn in den Prämissengesprächen mit -5 Sekunden angegeben.^[4] Die Bahn hatte aber nicht nur die Stufen falsch festgelegt, sondern auch unzulässigerweise den mittleren Verspätungsaufbau im Durchschnitt aller Zuläufe oder Abläufe hiermit verglichen. Die Richtlinie lässt eine solche Mittelung nicht zu, sondern schreibt eine Bewertung von Teilstrecken (Folge von Netzelementen) vor, zumindest wenn es um die Anwendung der Minutengrenzen geht. Es hätten also die Einzelstrecken bewertet werden müssen.

Dort wo die Einzelstrecken bewertet werden, in der sogenannten freiwilligen Zusatzprüfung, hatte die Bahn in der Darstellung des Verspätungsaufbaus nach Linien in mehreren Fällen nicht die ganze Strecke bewertet, sondern die Strecke exakt nur soweit betrachtet, solange sie noch "wirtschaftlich optimal" erschien (siehe Folgeabsatz), wie in den mittleren Säulen dargestellt. Diese Willkür wird weder von der Bahn noch vom Auditor SMA begründet und es ist nicht zu erkennen, wie sie gerechtfertigt werden könnte. Werden die Strecken bis zum Ende bewertet, reichen sie teilweise weit in den "risikobehafteten" (entspr. den Stresstest-Qualitätsstufen) Bereich. Tatsächlich reichen sie aufgrund der unzulässig verschobenen Qualitätsskala weit in den "mangelhaften" Bereich.

Entsprechend der Richtlinie müssen Bahnhofsköpfe strenger bewertet werden. Hier beginnt der mangelhafte Bereich schon bei 30 Sekunden. Es wurden die Auswertungen des Schienenpersonenverkehrs aus der Dokumentation S. 69 bis 84 (Teil 2 Bl. 8 bis 23) herangezogen, um die mittlere Verspätungsveränderung beim Zulauf in die Bahnhofsköpfe zu ermitteln. Dabei wurde mit den Zugzahlen gewichtet und der Rückstau in vorangehende Netzelemente berücksichtigt. Der nordöstliche Bahnhofskopf wirkt für den Zulauf aus Obertürkheim verspätungsabbauend. Die anderen Bahnhofsköpfe liegen sämtlich deutlich im risikobehafteten Bereich. Dies sind alles Daten der "Grundversion" der Simulation mit durchgehend zu optimistischen Parametern und selbst hier erscheint der Bahnhof als klar überlastet.

Die SMA übernahm die falsche Grenzwert-Festlegung für die Betriebsqualität offenbar ohne kritische Prüfung inklusive aller Fehler (Audit SI-07 S. 2 / Bl. 176, SI-08 S. 14 / Bl. 199). Durch die Aufklärung dieser Fehlinterpretation von "wirtschaftlich optimal" ist nun klar, dass diese Qualitätsstufe oberhalb des "deutlichen" Verspätungsabbaus der "Premium"-Qualität anzusetzen ist und bis zu verspätungserhaltendem Verhalten reicht. Auch der Internationale Eisenbahnverband sieht bei Verspätungserhaltung (Verspätungsänderung ≈ 0,0 Min.) die Obergrenze des akzeptablen Bereichs.^[5]^[6] Nur so macht es Sinn, dass die Bahn "wirtschaftlich optimale" Strecken anstrebt. Würden diese alle bis zu 1 Minute Verspätungen aufbauen (wir erinnern uns, Sekundenveränderungen wiegen hier schon schwer), würde das Netz kollabieren. Dass die Richtlinie für den "deutlichen Verspätungsabbau" als Grenze zum Premiumbereich keine quantitative Grenze vorgibt, lässt erkennen, dass die Vermeidung von Premium-Qualität offenbar nicht den Stellenwert hat, den die Projekt-Befürworter in der Stresstest-Präsentation nahelegen wollten.

Die schlichtweg falschen Ergebnis-Darstellungen (deutlicher Verspätungsaufbau bis 1 Minute ist nicht wirtschaftlich optimal) (Doku. S. 67, 112, 132, Audit Bl. 183, Bl. 195, Doku. FS S. 5) wurden durch Auslassungen und Fehlbezüge (Doku. Teil 1 S. 23) sinnentstellend zusammenkopiert. Direkte Fehlinformationen (Prämissengespräche) halfen diese Fehldarstellung zu verdecken. Wichtige Fußnoten, die die Annahmen für den Verspätungsabbau einschränken, wurden weggelassen, die Qualitätsgrenzen falsch zugeordnet und die beiden Qualitätsbezugsräume Auswerteraum und Teilstrecke wurden unzulässig vermischt. Nach den Buchstaben der gültigen Richtlinie ist der Stuttgart 21-Bahnknoten in der Grundversion sowie in allen Sensitivitäten inklusive der "finalen Simulation" als "risikobehaftet" bis "mangelhaft" einzustufen. Eine Simulation, die sämtliche Korrekturen beinhalten würde, wäre sicher nicht mehr fahrbar.

Fahrlässigkeit in dem Vorgehen scheint aufgrund der Systematik und dem Widerspruch zu eisenbahnerischen Grundregeln undwahrscheinlich. Es könnte als Indiz gewertet werden, dass die Bahn sich bei der Diskussion zu Betriebsqualität und Verspätungsabbau in der Stresstest-Präsentation so bedeckt hielt, während sich stundenlage fruchtlose Diskussionen um dieses Thema drehten. Es stellt sich die Frage, ob die Bahn auch noch andere verspätungsaufbauende Projekte mit ähnlicher Argumentation rechtfertigte. Es bleibt die beruhigende Erkenntnis, dass die Bahn, sofern sie ihren Richtlinien und internationalen Standards folgt, nicht die Republik mit verspätungsaufbauenden Projekten überziehen kann.

Diese Aufklärung der eigentlichen Definition der Betriebsqualität ist erst jüngst gelungen, die Formulierungen in den anderen Texten müssen ggf. noch angepasst werden.

Betriebsqualitäten aus gekappten Streckenauswertungen

Die Seiten 92 und 93 aus der Stresstest-Dokumentation der Bahn.

Die Bahn hat in der Qualitäts-Bewertung der einzelnen Strecken unsauber gearbeitet, indem bei kritischen Strecken das Prädikat nur für den Abschnitt erteilt wurde, der noch "optimal" ausfiel (bei korrekter Anwendung der Verspätungsgrenzwerte jedoch "risikobehaftet"), die Gesamtstrecke, die "mangelhaft" ergeben hätte, wurde nicht bewertet. In der Gegenrichtung wurde jedoch im Gegensatz dazu die Gesamtstrecke bewertet, um bspw. das "Premium"-Prädikat möglichst deutlich zu erreichen (Doku. Teil 2 S. 92-93, 96-101, 106-109 / Bl. 31-32, 35-40, 45-48). Tatsächlich hätten einige Strecken als "mangelhaft" bewertet und ausgewiesen werden müssen und im Gesamtergebnis hätte ein entsprechender Anteil an "mangelhaften" Strecken dargestellt werden müssen.

Im Beispiel rechts, der Linie L1/11 von Horb nach Schwäbisch-Hall-Hessental, wurde die Auswertung ab Stuttgart Hauptbahnhof nur bis Murrhardt geführt, exakt der Station, bis zu der noch das Kriterium "wirtschaftlich optimal" erfüllt ist mit einem Verspätungsaufbau von 48 Sekunden. Der tatsächliche Verspätungsaufbau bis zum Ende des Betrachtungsraums in Horb hätte aber 3 Minuten und 8 Sekunden betragen. Selbst in der falschen Stresstest-Definition würde das weit in den "risikobehafteten" Bereich wenn nicht darüber hinaus reichen. Tatsächlich müsste nach der Richtlinie (siehe zuvor) die Verspätung über 1 Minute als mangelhaft und der gut 3-fache Wert wahrscheinlich als unfahrbar angesehen werden. In der Gegenrichtung wird jedoch bereitwillig die ganze Strecke ausgewertet und es wird so ein deutliches "Premium"-Prädikat erlangt. Hätte man analog zur anderen Richtung erst ab Murrhardt bewertet, hätte die Strecke mit 2 Sekunden Verspätungsabbau nur ein "wirtschaftlich optimal" erhalten (siehe zuvor, erst ab -5 Sekunden wird angeblich "Premium" vergeben).

Es ist nicht durch die Richtlinie gedeckt und wurde auch nicht von der Bahn oder dem Auditor in irgendeiner Weise gerechtfertigt, dass die Daten nach dem gewünschten Ergebnis "wirtschaftlich optimal" zusammengestellt werden. Dass in der Argumentation für das Projekt Stuttgart 21 selbst auf solche Maßnahmen zurückgegriffen wird, ist entlarvend.

Betriebsqualität allein aus Verspätungsveränderung

→ siehe auch Stuttgart 21/Stresstest/Interpretation#Verspätungsabbau und Betriebsqualität

Richtlinie 405 stellt anspruchsvolle Anforderungen an die Entscheidungsbasis für die Ermittlung der Betriebsqualität in einer Infrastruktur:

"Um einen Qualitätsnachweis zu führen, sind die an den Messpunkten (vgl. Abs. (9)) gewonnenen Qualitätskenngrößen mit Qualitätsmaßstäben zu vergleichen, die i.d.R. aufgrund von Erfahrungswerten und zusätzlichen theoretischen Überlegungen gewonnen wurden." (Richtlinie 405.0104 S. 5 / Bl. 93)

"Fundierte Entscheidungen sind in der Regel nur auf der Grundlage der komplexen Betrachtung mehrerer Kenngrößen ggf. unter Angabe möglicher Bandbreiten bzw. Wertebereiche zu treffen." (Richtlinie 405.0104 S. 7 / Bl. 95)

"Aussagen zur Kapazität der Infrastruktur sollten sich nicht nur auf ein einziges Betriebsprogramm bzw. eine einzige Struktur der Leistungsanforderungen und einen einzigen daraus resultierenden Leistungswert stützen. Vielmehr ist es erforderlich, bei solchen Untersuchungen auf Bandbreiten, die sich z.B. aus unterschiedlichen möglichen Entwicklungen der Leistungsanforderungen ergeben können, hinzuweisen. Dazu ist die Berechnung mehrerer Kenngrößen bzw. gleicher Kenngrößen unter unterschiedlichen Randbedingungen sowie von geeigneten Eckwerten sinnvoll" (Richtlinie 405.0104 S. 10 / Bl. 98)

Im Stresstest wurde die Betriebsqualität regelwidrig allein anhand der Kenngröße Verspätungsveränderung ermittelt. Insbesondere bei merklichem Verspätungsabbau (wie durch die hohen Haltezeitverkürzungen im Tiefbahnhof) sowie speziell für die bei Stuttgart 21 geforderte Infrastrukturbewertung sollen laut Richtlinie andere Größen zur Qualitätsbestimmung hinzugezogen werden:

"Für infrastrukturbezogene Aufgabenstellungen ist sie [die Kenngröße Verspätungsveränderung] jedoch nur bedingt geeignet, da ggf. Verspätungsabbau das Leistungsverhalten von Netzelementen überlagern kann. In diesen Fällen sind weitere Kenngrößen (z.B. infrastrukturbezogene Behinderungen bzw. Wartezeiten) heranzuziehen." (Richtlinie 405.0104 S. 20 / Bl. 108)

D.h. die Beschränkung der Qualitätsbetrachtung auf die eine Größe Verspätungsabbau durch die Bahn im Stresstest zu Stuttgart 21 (Doku. Teil 1 S. 23, Teil 2 S. 67, 112, 132 / Bl. 6, 51, 71) ist nicht richtlinienkonform. Besonders schwerwiegend erscheint die regelwerkswidrige Unterschlagung der Kenngröße Belegungsgrad. Dass entgegen der Forderung der Richtlinie bei hohem Verspätungsabbau und im Falle von Infrastrukturbewertung andere Kenngrößen wie "infrastrukturbezogene Behinderungen" bzw. "Wartezeiten" nicht herangezogen wurden, folgt mutmaßlich der gleichen Motivation, wie die Unterschlagung der Belegungsgrade: Die Inkonsistenz der Darstellung würde zu offensichtlich werden.

Haltezeitverkürzung überlagert die Betriebsqualität

Im Stresstest wurde die Haltezeitverkürzung im Hauptbahnhof extrem zum Verspätungsabbau genutzt. Im letzten Richtlinienzitat des vorausgehenden Absatzes (Richtlinie 405.0104 S. 20 / Bl. 108) wurde klar, dass ein solch ausgeprägter Verspätungsabbau "das Leistungsverhalten von Netzelementen überlagert", d.h. verfälscht. Damit sind die Ergebnisgrafiken in der Abschlussdokumentation der Bahn (Doku. Teil 2 S. 67, 112, 132 / Bl. 6, 51, 71), die in der Summe über die Zulaufstrecken, die Haltezeitverkürzung im Hauptbahnhof und die Ablaufstrecken eine Premium-Qualität nahelegen, unzulässig, zumindest solange keine Fußnote belegt, dass das Prädikat auch aus anderen Gründen erteilt werden kann.

Dies könnte auch erklären, warum die Bahn im Abschlussbericht keine entsprechende textliche Schlussbeurteilung in ihren Bericht aufnahm, und ist wohl auch der Hintergrund der Äußerung eines Bahnvertreters in der Prämissen-Sitzung vom 19.07.2011, dass die Haltezeitverkürzung im Hauptbahnhof "nicht entscheidungsrelevant" sein könne.^[7] Hier kommt natürlich hinzu, dass in Stuttgart der Fahrgastwechsel 80 bis 90 % beträgt. So kommt die Haltezeitverkürzung im Hauptbahnhof nur dem kleineren Teil der 10 bis 20 % durchfahrenden Passagiere zugute. Die Bahn hielt sich in der Stresstest-Präsentation in dieser Frage auffällig zurück und überließ den Laien-Vertretern der Befürworterseite die Argumentation, dass ja die Haltezeitverkürzung im Hauptbahnhof die Premium-Qualität begründen würde (.... Quelle).

In den Ergebnis-Darstellungen wird überdeutlich, dass der Verspätungsabbau von dem anerkanntermaßen hohen Verspätungsabbau durch die Haltezeitverkürzungen im Hauptbahnhof wesentlich bestimmt wird. Die Richtlinie stellt klar, dass dies die ermittelte Betriebsqualität der Netzelemente "überlagert" also verfälscht. Damit sind die Stresstest-Ergebnisse nicht belastbar, insbesondere wenn sie allein aus Verspätungsveränderungen begründet werden.

Sensitivitäten kein Ersatz für Vollsimulation

Die Berechnung einer "Sensitivität" wie auch der "finale Simulationslauf" der letzten verbliebenen Fehler besteht nur aus einzelnen oder max. wenigen Läufen des Simulationsmodells mit teilweise veränderten Parametern. Ein solcher Simulationslauf ist kein Ersatz für eine Vollsimulation von 100 Tagen unter Anpassung aller Parameter auf realistische Werte. Diesen Simulationsläufen fehlt einerseits die statistische Basis andererseits ist die gegenseitige Verstärkung der Einflussparameter nicht abgebildet.

Für den finalen Simulationslauf liegen die folgenden Dokumente vor, auf die in der in Klammern angegebenen Kurz-Zitierung referenziert wird:

10.10.2011, bahnprojekt-stuttgart-ulm.de, Bahn: Stesstest Stuttgart 21 Abschlussbericht (Doku. FS)
10.10.2011, bahnprojekt-stuttgart-ulm.de, SMA: Audit Finaler Simulationslauf (Audit FS)
10.10.2011, bahnprojekt-stuttgart-ulm.de, SMA: Anpassungen für finalen Simulationslauf (Anpassungen FS)

Die Sensitivitäten sind laut Aussage der Bahn (... Quelle) kein vollständiger Stresstest (mit 100 simulierten Betriebstagen). Der finale Simulationslauf besteht aus drei simulierten Tagen (Audit FS S. 7). Solche Sensitivitäten sind hilfreich für den Bediener des Modells, um vor Planung eines neuen kompletten Simulationslaufs ein Gefühl für die Auswirkung einzelner Parameter-Änderungen zu bekommen oder um Fehler im Modell aufzuspüren.

Sensitivitäten oder Einzelläufe sind jedoch nicht in Richtlinie 405 vorgesehen, schon gar nicht als Ersatz für eine Vollsimulation. Einerseits fehlt ihnen die statistische Basis der notwendigen 100 simulierten Tage zur Erlangung einer gültigen Aussage und andererseits erlaubt die Richtlinie auch nicht, stichprobenartig nur einzelne Parameter auf realistischere Werte zu setzen. Eine Simulation muss durchgehend mit realistischen Parametern (deren Realitätsnähe einzeln geprüft und nachgewiesen sein muss) und über die vollen 100 Tage durchgeführt werden, um eine belastbare Aussage zu erhalten. Es ist deshalb nicht nachvollziehbar, wie die SMA verschiedentlich "Sensitivitäten" zu einzelnen Mängeln als Abschluss der Untersuchung empfiehlt, die sie dann auch noch irrational und inkonsequent bewertet.

Sensitivitäten ohne statistische Basis

Eine Sensitivität kann in keiner Weise eine Vollsimulation ersetzen, da die Statistik des Ergebnisses vollkommen unzureichend ist. Eine solche Sensitivität ist erheblich beeinflusst von dem spezifischen Satz von Zufallsparametern, d.h. ob ein guter oder ein schlechter Tag für die Sensitivität gerechnet wurde. Richtlinie 405 schreibt "möglichst" 100 Simulationsläufe vor, um mittels einer "ausreichend großen Grundgesamtheit" ein Minimum an statistischer Signifikanz der Ergebnisse sicherzustellen:

"Während analytische Methoden grundsätzlich als Mittelwert zu interpretierende Ergebnisse liefern, werden bei Simulationen zunächst Einzelwerte bereitgestellt, die nachträglich entsprechend ausgewertet werden, in der Regel Mittelwerte und ggf. Streuungen. Dafür ist eine ausreichend große Grundgesamtheit von Einzelwerten erforderlich. Nach Möglichkeit sollten möglichst 100 Simulationsläufe durchgeführt werden." (Richtlinie 405.0205 S. 3 / Bl. 229)

Ein einzelner oder wenige Simulationsläufe wie für die Sensitivitätsbetrachtungen, können höchstens eine Indikation liefern über die Größenordnung der Auswirkung einzelner Parameter-Veränderungen. Um einen Nachweis zu erbringen, müssen alle Parameter auf realistische Werte gesetzt werden und im Minimum die vollen 100 Tage simuliert werden.

Sämtliche Zufallsparameter der 100 zu simulierenden Tage wurden mit ihren Verspätungsverteilungen an den Einbruchstellen und den Haltezeitverlängerungen zu Beginn des Stresstests festgelegt (Audit SI-03 S. 1 / Bl. 147 Fußnote 2). Die SMA stellte klar, dass es bei den 100 Simulationsläufen "gute und schlechte Tage" gibt (Audit Schlussbericht S. 2 / Bl. 8)^[8]. Es braucht also nur ein "guter Tag" gewählt zu werden und so lassen sich auch erschwerte Bedingungen verkraften.

Dies ist auch das Problem, warum die Berechnung einer weiteren Sensitivität mit der Korrektur einzelner Fehler in dem finalen Simulationslauf ohne Relevant für die Frage ist, ob Stuttgart 21 in Zukunft die geplante Leistung erbringen kann.

Sensitivitäten und Nichtlinearität

Prinzipskizze zur Nichtlinearität der Bahnhofs-Leistungsfähigkeit. Eine Parameter-Verschlechterung wird noch verkraftet, die zweite nicht mehr.

Sensitivitäten haben einerseits keine Aussagekraft wegen der nicht ausreichenden statistischen Basis. Andererseits wurden im Stresstest und auf Anforderung von SMA nur einzelne oder wenige Einzelparameter verändert, die jeweils kleinere und noch 'verkraftbare' Verschlechterungen des Systems verursachten. Wenn einzelne Korrekturen verkraftet werden, heißt das nicht, dass sie auch noch in Summe verkraftet werden, da sie sich gegenseitig verstärken.

Die Leistungsfähigkeit eines Bahnhofs ist ein hoch-nichtlineares Problem. Das heißt nichts anderes, als dass beispielsweise bei hoher Belastung die Qualität des Bahnhofs immer schneller zurückgeht, da die Verspätungen sich gegenseitig verstärken. Dies wird in der nebenstehenden Abbildung schematisch gezeigt, angelehnt an die unten folgende Berechnung von Prof. Martin zu Stuttgart 21. Dargestellt ist auf der x-Achse die Leistung bzw. Auslastung des Bahnhofs in Zügen pro Stunde und rechts dieser Wert multipliziert mit der mittleren Geschwindigkeit der Züge, einem Maß für die Qualität (Verspätungen), dies ergibt die sogenannte Beförderungsenergie.

Die maximale Leistung bei noch vertretbarer Qualität finden wir im Maximum oder etwas rechts davon. Sollen hier noch ein paar Züge mehr im Bahnhof abgefertigt werden, sinkt die Qualität, anfangs in einem evtl. noch vertretbaren Maße, etwa während einer kurzen Belastungsspitze. Wer von der prozentualen geringen Qualitätseinbuße schließt, dass auch noch ein zweites Paket von Zusatzzügen verkraftet werden könnte, irrt. Der Bahnhof ist bei dieser Belastung schon komplett zusammengebrochen. Das ist das Problem der Nichtlinearität, Belastungsfaktoren können nicht addiert werden.

Schematische Darstellung der durch zunehmend realistischere Parameter korrigierten Bahnhofsleistungskurve.

Verschärfen wir die Parameter, die der Bahnhofsleistungskurve zugrunde liegen und halten die gewünschte Zugleistung konstant, dann zieht sich die Kurve nach links unten zurück. Hier würde die erste Parameterverschlechterung unseren Zielpunkt sinken lassen, die zweite hätte ihm ebenso beschleunigt wie im vorigen Fall den Boden unter den Füßen entzogen.

Konkret auf den Stresstest bezogen stellt sich die Situation wie folgt dar. Die am weitesten nach rechts reichende Kurve ist die Originalkurve aus dem Gutachten von Prof. Martin^[9], mit dem vor dem Verwaltungsgerichtshof "nachgewiesen" wurde^[10], "der achtgleisige Durchgangsbahnhof sei ausreichend und zukunftssicher bemessen". Das Gutachten von Prof. Martin ist aus heutiger Sicht zu optimistisch, da es nicht die Zu- und Ablaufstrecken voll berücksichtigte und bspw. im Regionalverkehr mit Mindesthaltezeiten von 1 Minute arbeitete.

Die Kurve für die Parameter der Grundversion des Stresstets müsste etwas geschrumpft angenommen werden. Die Sensitivitäten zeigen, dass jede Parameterverschlechterung schon eine deutliche Verschlechterung der Qualität bringt, so dass die 49 Züge sich auf dem Abhang rechts vom Maximum befinden müssen. Grob geschätzt haben wir durch die Verschärfung der Parameter im Stresstest gegenüber der Simulation von Prof. Martin eine Leistungseinbuße von etwa 12 % angenommen. Die 57 Züge, auf die die Bahnhofsleistung im Falle des S-Bahn-Notfallkonzepts steigt, befinden sich schon in einem äußerst kritischen Teil des Graphen, in dem kein fahrbarer Betrieb mehr anzunehmen ist.

Mit jeder Parameter-Verschlechterung zieht sich die Kurve weiter nach links unten zurück. Immer schneller wird den angepeilten 49 Zügen der Boden unter den Füßen entzogen. Für ein besseres Verständnis soll versucht werden, den Vorgang in einer bildhaften Sprache zu beschreiben: Die einzelnen Sensitivitäten entsprechen immer wieder einem vorsichtigen Schritt von der Bergkuppe hangabwärts. Die Berücksichtigung aller Korrekturen würde mehrere Schritte bedeuten und damit den Absturz.

Wenden wir nun für das Beispiel die Korrektur einer ganzen Reihe von Parametern des Stresstests auf realistische Werte an, in Summe etwa um 33 % (zu vergleichen mit der abgeschätzten aktuellen Leistungsreduktion bei Korrektur der Fehler im Stresstest von 34 %, Stand 18.10.2011), erhalten wir eine maximale Leistung des Bahnhofs von 33 Zügen. Die 49 Züge sind schon lange nicht mehr fahrbar.

Wegen der hohen Nichtlinearität ist es eben nicht seriös, zu argumentieren, dass die eine Korrektur nur geringfügig ausfallen würde und die andere auch, und dass hier nur eine Sekunde fehlt und dort nur ein Prozent. Die Qualitätseinbußen verstärken sich gegenseitig, so dass mehrere kleine Korrekturen nicht mehr tolerierbar sind, sondern vielmehr schon längst den Kollaps des Gesamtsystems herbeigeführt haben können.

Wegen der mangelnden statistischen Basis und wegen der notwendigen Berücksichtigung der Wechselwirkung aller Parameter ist jede Argumentation aufgrund einer "Sensitivität" (ob eine bestimmte Parameter-Verschlechterung noch verkraftet wird) ohne jede Beweiskraft. Aus diesem Grund schreibt die Richtlinie die Vollsimulation von 100 Tagen mit allen auf realistische Werte eingestellten Parametern vor. Nichts anderes könnte einen "Nachweis" erbringen.

Auch der finale Simulationslauf könnte nur bei Korrektur aller Parameter, nicht nur der von SMA erkannten Fehler, sondern nach Korrektur sämtlicher unrealistischer Größen und bei Vollsimulation über 100 Tage einen "Nachweis" erbringen.

Sensitivitäten und Teilkorrekturen

Aufgrund der Nichtlinearität des Problems ist die Korrektur von Einzelparametern ohne Aussage für das Gesamtergebnis. Die Sensititäten adressierten aber jeweils nur einzelne Parameter, die Parameteränderungen anderer Sensitivitäten bleiben außen vor (siehe auch die kommentierte Übersicht der Sensitivitäten):

Übersicht, welche Parameter-Korrekturen von den einzelnen Sensitivitäten berücksichtigt werden. Es wurde der grundlegende Fehler begangen, dass jeweils die anderen Parameter unkorrigiert blieben. Ein Nachweis der Leistungsfähigkeit würde die Korrektur aller Parameter voraussetzen.
* Aus dem mittleren Verspätungsabbau in den Zu- und Abläufen lässt sich abschätzen, um wieviel weniger
Züge der Bahnhof bei Korrektur dieses Fehlers verkraften würde, wenn er dieselbe Qualität erreichen soll.
Sensitivitätsberechnungen: / Realistischere Parameterwerte:	Grund- version (Vollsim.)	75% der Fahrzeit- übersch.	ohne Güter- verkehr	Auswerte- zeitraum 7-8 Uhr	Daten- modell 15. Juli	Finaler Simula- tionslauf	Nachweis (Vollsimul. 100 Tage)
	(Doku. S. 67)	(Doku. S. 112)	(Doku. S. 132)	(Audit Bl. 183)	(Audit Bl. 195)	(Doku. FS S. 5)
	Datenmodell vom 21.06.2011				15.07.2011	08.09.2011
75 % Fahrzeitüberschüsse
Auswertezeitraum
Abfertigungszeiten
Verläng. S-Bahn Haltez.
Haltez., Takte, Verknüpf. etc.
Realistische Spitzenstunde
Realist. Verspätungsspitzen
Sonstige Korrekturen
Verspätungsänd. Zu-/Ablauf	—	+11 Sek.	-25 Sek.	+25 Sek.	+3 Sek.	+2 Sek.
Zugzahl bzw. Differenz*	49	-2,8	(sinnlos)	-6,4	-0,8	-0,5	32 (?)

Die Tabelle gibt eine Übersicht über die durchgeführten Sensitivitätsrechnungen und welche Parameter jeweils in Richtung realistischerer Werte korrigiert wurden. Dabei erreichte die Korrektur häufig nicht einmal ganz das realistische Niveau. Es wird der grundlegende Fehler begangen, dass jeweils die anderen Parameter unkorrigiert bleiben. Ein Nachweis einer Leistungsfähigkeit könnte aber nur bei Korrektur aller Parameter auf ein möglichst realistisches Niveau erbracht werden.

Der mittlere Verspätungsabbau in den Zu- und Abläufen liefert eine Abschätzung, um wieviel weniger Züge der Bahnhof bei Korrektur dieses Fehlers verkraften würde, wenn er dieselbe Qualität erreichen soll. Die Eichung dieser Entsprechung wurde mit der Sensitivität zum eingeschränkten Auswertezeitraum von 7-8 Uhr vorgenommen. In dieser Sensitivität liegt der Verspätungsaufbau um 25 Sekunden pro Zug über dem der Grundversion. Dort ist die Belastung aufgrund der schwach verspäteten Stunde am 6 Uhr und aufgrund dessen, dass im Stresstest auch ab 8 Uhr viel zu wenig Züge angenommen wurden, um rund 13 % geringer. Diese geringere Last entspricht 6,4 Zügen gemessen an den 49 Zügen des Stresstests.

Es mag die Urheber des Stresstests und des Audits überrascht haben, dass hierzu nicht früher fundamentale Kritik geübt wurde. Sie setzten wiederholt nur einzelne Parameter auf (dann auch nur annähernd) realistische Werte und stellten dabei oft schon gravierende Verschlechterungen fest. Dennoch wurde geschlossen, dass das System bei Korrektur aller Werte wohl noch stabil bliebe!?

Das Argumentationsmuster erinnert an die Faktenschlichtung beim Thema Fahrbarkeit der Fildertrasse.^[11] Dort findet sich eine einzigartige Ballung von sechs schwerwiegenden Engpässen. Dass dies beherrschbar sei, wurde mit dem Verweis auf ähnliche Zwangspunkte an anderen Stellen Mitteleuropas begründet. Ist denn zu glauben, dass das, was einzeln woanders (noch) beherrscht wird, hier in sechsfacher Vervielfachung noch fahrbar ist? Sogar das Eisenbahnbundesamt hält diese Planung für "extrem grenzwertig" und für so "auf keinen Fall fahr- und planbar".^[12] Die gleiche Situation liegt beim Stresstest mit den einzelnen Sensitivitäten vor.

Überlebende in einem Rettungsboot (Quelle: Wikipedia)

Ein anschauliches Bild zur Verdeutlichung

Man stelle sich vor, die Kapazität der Rettungsboote eines Passagierschiffs soll durch den Eigner nachgewiesen werden. Jedes dieser Boote soll 49 Personen aufnehmen können, tatsächlich trägt es aber nur 32. Der Eigner muss sich einem Test unterziehen, also befüllt er die Boote mit 49 Kindern, der Test wird bestanden. Der Auditor bemängelt, dass die Kinder nicht ausgewachsenen Personen entsprechen. Also werden zwei von den Kinder durch Erwachsene ersetzt. Das Boot fängt an gefährlich zu schwanken und nimmt schon etwas Wasser auf. Der Auditor ist zufrieden und testiert, es können 49 Personen gerettet werden – Erwachsene und Kinder.

Der Stresstest wurde nur mit unrealistischen Parametern durchgeführt. Bei den einzelnen Sensitivitäten wurden dann nur einzelne Parameter auf realistische Werte gesetzt (die anderen aber nicht). Das Rettungsboot würde seine Tragkraft erst mit 49 Erwachsenen beweisen, dann ginge es aber unter. – Und Stuttgart 21 würde kollabieren, würden alle Parameter realistisch gewählt.

Finaler Simulationslauf liefert keinen Nachweis

Die SMA beendet ihren Schlussbericht mit der folgenden Empfehlung:

"Weiter empfehlen wir, die in den Steckbriefen beschriebenen Unstimmigkeiten und kleineren Fehler zu beheben und zur Bestätigung des Gesamtresultates einen weiteren Simulationslauf durchzuführen und zu veröffentlichen." (Audit Schlussber. S. 10 / Bl. 16)

Dr. Kefer sagte einen solchen zusätzlichen Simulationslauf zu, aber nur für die von SMA benannten verbliebenen Fehler. Die Ergebnisse sollen im Internet veröffentlicht werden.^[13]

Die Bahn gibt zum finalen Simulationslauf noch deutlich weniger Informationen als zur Grundsimulation. Eigentlich nur eine finale Ergebnisgrafik und die Behauptung, die geforderten Kriterien wären eingearbeitet. Es gibt aber keinerlei Nachweis, keinen finalen Fahrplan, der eine Überprüfung ermöglichen würde, keine Auswertungen des Verspätungsabbaus. Diese Ergebnisdokumentation ist ein Schlag ins Gesicht der Öffentlichkeit. Es ist nicht klar, ob nicht die drei der besten Tage des Systems für die Simulationsläufe gewählt wurden, und welche Annahmen für die anderen Parameter der Simulation gemacht wurden. Ohnehin sind drei einzelne Simulationsläufe überhaupt nicht hinreichend, um die Leistungsfähigkeit von S21 auch unter verschärften Parametern zu demonstieren.

Die Richtlinie 405 schreibt "möglichst" 100 Simulationsläufe vor, um mittels einer "ausreichend großen Grundgesamtheit" ein Minimum an statistischer Signifikanz der Ergebnisse sicherzustellen (Richtlinie 405.0205 S. 3 / Bl. 229). Einzelne Simulationsläufe, wie sie für die Sensitivitätsbetrachtungen durchgeführt werden, können höchstens eine Indikation liefern über die Größenordnung der Auswirkung einzelner Parameter-Veränderungen. Um einen Nachweis zu erbringen, müssen alle Parameter auf realistische Werte gesetzt werden und es müssten die vollen 100 Tage simuliert werden.

Sämtliche Zufallsparameter der 100 zu simulierenden Tage wurden mit ihren Verspätungsverteilungen an den Einbruchstellen und den Haltezeitverlängerungen zu Beginn des Stresstests festgelegt (Audit SI-03 S. 1 Fußnote 2 / Bl. 147). Die SMA stellte klar, dass es bei den 100 Simulationsläufen "gute und schlechte Tage" gibt (Audit Schlussbericht S. 2 / Bl. 8)^[8]. Es braucht also nur ein "guter Tag" gewählt zu werden und so lassen sich auch erschwerte Bedingungen verkraften.

Auch wäre aufgrund des Problems der Nichtlinearität, da sich die Verschlechterung mehrerer Parameter gegenseitig verstärkt, es überhaupt nicht hinreichend allein eine erneute Sensitivität für die bisher unberücksichtigten Fehler zu rechnen. Es müssten alle Parameter gleichzeitig auf realistische Werte gesetzt werden.

Der finale Simulationslauf liefert genausowenig einen Nachweis der Leistungsfähigkeit von Stuttgart 21 wie die anderen vorausgehenden Sensitivitätsrechnungen. Dass die Simulation aufgrund der paar korrigierten Haltezeiten, Takte und Verknüpfungen sich ein bisschen im Ergebnis verändert ist eine Information ohne echten Erkenntniswert. Für den Nachweis der Leistungsfähigkeit müssen sämtliche Korrekturen berücksichtigt werden. Einerseits die aus früheren Sensitivitätsrechnungen, meist sogar verschärft, da die Annahmen noch zu optimistsch waren. Andererseits aber auch die vielen noch gar nicht berücksichtigten Fehler im Stresstest, wie die unrealistische Spitzenstunde, die fehlenden Verspätungsspitzen in den Haltezeitverlängerungen etc. abgebildet werden. Dies würde aber zum sicheren Kollaps des Bahnhofs führen.

Simulation nur im Vergleich aussagefähig

Eine Computersimulation hängt entscheidend von den Eingangsparametern ab. Weil es hier so schwierig ist, absolut realistische Methoden und Parameter zu modellieren, werden Simulationen in der Regel im Vergleich von Alternativen durchgeführt. Auf diesem Weg wirken sich die Falschannahmen in beiden Fällen ähnlich aus, so dass der relative Unterschied der Alternativen das belastbarere Ergebnis liefert.

Die Richtlinie gibt genau aus diesem Grund als Grenzen des Simulationsverfahrens an:

"• Ermittlung von Leistungsfähigkeitskenngrößen nur aufwändig über Variantengleich oder Iteration
• Bemessung nur über Variantenvergleich" (Richtlinie 405.0202A01 S. 5 / Bl. 175)

"Für die Eichung der mit Simulationstools ermittelten Kenngrößen ist die Untersuchung des Ist-Zustandes als Vergleichsmaßstab hilfreich und deshalb zu empfehlen, da Qualitätsmaßstäbe noch nicht voll abgesichert sind bzw. sich noch in Entwicklung befinden." (Richtlinie 405.0202 S. 13 / Bl. 163)

Das heißt, die einzige Methode, den vielen unvermeidlichen systematischen Fehlern des Stresstests (die sicherlich auch nach Korrektur der gröbsten Fehler verbleiben) zu begegnen, ist die Simulation einer echten Alternative. Hierfür kommt vor allem der Kopfbahnhof in Betracht, da die S21-Investition sich ja durch den Vorteil gegenüber diesem rechtfertigen soll.

Allerdings ist abzusehen, dass die Leistungsfähigkeit des Kopfbahnhofs unter gleichen Annahmen (z.B. den verkürzten Blockabständen von Zuffenhausen zum Bahnhof, den Pufferzeitverletzungen, den dramatisch reduzierten Verspätungsniveaus, etc.) regelrecht explodieren würde. Und damit erklärt sich auch, dass die Bahn sich so vehement gegen diese Forderung der Kritiker zur Wehr setzt (die jedoch auch vom Regelwerk und dem wissenschaftlichen Prinzip geboten wäre). Dass dieses Grundprinzip der Computersimulationen von der SMA nicht angesprochen wurde (trotz dem Hinweis in der Richtlinie) ist als weiteres schweres Versäumnis zu werten.

An fehlenden Infrastrukturdaten des Kopfbahnhofs würde das Projekt nicht scheitern, da diese sämtlich schon im System vorhanden sind, wie in der Prämissen-Gesprächen deutlich wurde (.... Quelle).

Quelle für diese Aussage ergänzen, dass die Infrastrukturdaten des Kopfbahnhof schon im System der Bahn eingepflegt sind.

Die Begründungen, die Dr. Kefer in der Stresstest-Präsentation dafür gab, dass nicht der Kopfbahnhof im Vergleich simuliert wurde, sind damit als unrichtig anzusehen:

"Die simple Antwort lautet: Wir tun das deswegen nicht, weil zu dem damaligen Zeitpunkt eine Aufgabe definiert wurde, die da lautete, dass nachzuweisen sei, dass der Durchgangsbahnhof eine bestimmte Kapazität hat. Und die ist so definiert worden, wie wir sie heute besprechen. Die Aufgabe lautete damals nicht, einen Vergleich zu machen, welcher der Bahnhöfe denn jetzt eine höhere Kapazität hatte." ^[14]

"Ich möchte noch ein Weiteres klarstellen. Wir werden keinen weiteren Stresstest für K 20 machen, weil es nicht unsere Aufgabe ist, einen Nachweis zu führen, was K 20, K 19 oder K 21 kann, sondern die Aufgabe war klipp und klar der Nachweis, was S 21 kann." ^[15]

Die Kapazität des Durchgangsbahnhofs ist eine Frage seiner Bemessung. Damit irrt Dr. Kefer in seiner Ablehnung des Vergleichs. Die Richtlinie schreibt gerade für die Kapazitätsfrage den Vergleich vor, da sonst die systematischen Fehler das Ergebnis unkontrollierbar verfälschen. Gerade zum Nachweis der Leistungsfähigkeit von Stuttgart 21 ist die vergleichende Simulation des Kopfbahnhofs die Voraussetzung.

Abschlussdokumentation nicht nachvollziehbar

Die Abschlussdokumentation des Stresstests entspricht nicht den Anforderungen:

"Alle Ergebnisse sind so aufzubereiten, dass die sich ergebenden Schlussfolgerungen nachvollziehbar sind." (Richtlinie 405.0205 S. 1 / Bl. 227)

Dies erscheint als die wichtigste verletzte Anforderung der Richtlinie. Aber auch die Detailanforderungen der Richtlinie sind nicht erfüllt:

"Bei der Darstellung von Ergebnissen sind folgende Grundsätze zu beachten:
- Übersichtliche und komprimierte Darstellung von Zahlen möglichst in Tabellen oder in grafischer Form (Histogramme, Diagramme)
- Darstellung im Kontext mit den Ausgangsbedingungen bzw. mit den Prämissen für die Gültigkeit
- Hervorheben der für die Ableitung der Schlussfolgerungen aussagekräftigsten Kennwerte
- Beschränkung auf möglichst wenige Kenngrößen
- Abzuleitende Aussagen in verbaler Form direkt neben oder unter der entsprechenden bildlichen oder tabellarischen Darstellung platzieren
- Grenzwerte bzw. Maßstäbe in die Darstellungen möglichst optisch wirksam einarbeiten (z.B. farbige Darstellung, wenn bestimmte Grenzen über- oder unterschritten werden
- Bildliche Darstellungen und Diagramme mit Legenden versehen" (Richtlinie 405.0205 S. 4 / Bl. 230)

Hinsichtlich der "Beschränkung auf möglichst wenige Kenngrößen", darf natürlich nicht der Fehlschluss gezogen werden, dass dies die Unterschlagung von den nach der Richtlinie vorgeschriebenen Kenngrößen legitimieren würde. Wesentliche "abzuleitende Aussagen" werden gerade in den Ergebnisdarstellungen nur durch Zahlenwerte oder Schlagworte, ohne echte Begründung und Einordnung wiedergegeben, auch die aussagefähige Legenden fehlen zumeist. Die Ergebnisdarstellung ist in höchstem Maße unvollständig, unrichtig, unübersichtlich, unerläutert und irreführend:

Insbesondere die Prämissen sind äußerst unvollständig dargestellt, so dass hier auch nach drei Tagen der in der Folge stattfindenden Prämissengespräche noch keine vollständige Klarheit herrschte.
Verschobene Stufen der Betriebsqualität: Durch eine sinnentstellende Collage aus Versatzstücken der Richtlinie wurde eine neue Definition unrichtig festgelegt.
- Tatsächlich wurden durch diese unzulässige Verschiebung die Qualitätsgrenzen in der Verspätungsveränderung um eine Stufe zu wenig anspruchsvoll festgelegt. Außerdem ist die Anwendung dieser Minutengrenzen auf die Mittelwerte unterschiedlicher Strecken unzulässig.
Strecken-Auswertungen: In den Auswertungen des Verspätungsaufbaus auf einzelnen Strecken, wurden unzulässig teilweise nur verkürzte Teilstrecken bewertet, um überall ein "optimal"-Prädikat zu erhalten.
- Dies verdeckte, dass tatsächlich ein großer Teil der Strecken ein "risikobehaftet" und (bei korrigierter Skala, siehe zuvor) mehrere Strecken ein "mangelhaft"-Prädikat erhalten.
Premium-Qualität aus Haltezeitverkürzungen": Die Ermittlung einer "Premium" Qualität unter Abzug der Haltezeitverkürzungen im Hauptbahnhof erfolgte suggestiv und ohne Hinweis, dass dies nach der Richtlinie als verfälschend angesehen wird.
Abweichungen von den Vorgaben des Landes: Sind nicht dargestellt.
- So musste der Leser den Eindruck gewinnen, die Vorgaben des Landes (Doku. Teil 1 S. 11) wären eingehalten worden, was jedoch nicht der Fall war.
Annahmen zum Verspätungsaufbau: Sind ohne Darstellung der erheblichen Kappung der Verspätungs-Maximalwerte falsch dargestellt.
- Tatsächlich waren die Verspätungen in der Simulation teils um mehr als einen Faktor 2 geringer angenommen worden. Dies erscheint als grobe Täuschung, insbesondere, da auch auf gezielte Nachfrage die Bahn diese Information nicht preisgab.
Betriebsqualität von 6 bis 10 Uhr gemittelt: Aber die Zugzahlen außerhalb der Spitzenstunde wurden nicht genannt. Es wurde keine Ankunfts- und Abfahrtstafel für den Hauptbahnhof gegeben. Die mit der Abschlussdokumentation mitgelieferte Netzgrafik beinhaltete nur Grundtakt und Spitzenstunde und war unverbindlich, da zahlreiche Abweichungen nicht dokumentiert waren (roter Vermerk oben in der Grafik).
- Genau in den Zugzahlen außerhalb der Spitzenstunde fand eine der quantitativ größten Verfälschungen der Stresstest-Parameter statt. Auch hier war die Bahn der gezielten Frage ausgewichen.
Zahlreiche Prämissen undokumentiert: Tatsächlich wurden die entscheidenden Eingangsgrößen des Stresstests, die Prämissen, zum größten Teil überhaupt nicht dokumentiert, etwa die Annahmen zum Verspätungsabbau sind überhaupt nicht angegeben (aber auch Abweichungen von Landesforderungen, Falschdarstellung Verspätungsaufbau, etc. ...).
- Es ist eine unverzeihliche Lücke, wenn in der Stresstest-Dokumentation nur der Aufbau von Verspätungen (wenn auch unvollständig und falsch) dargestellt wird, aber die Möglichkeiten im Modell zum Verspätungsabbau überhaupt nicht dargestellt werden. Hier befinden sich mit der vollen Nutzung der Fahrzeitreserven, der fehlenden Haltezeitverlängerung zur Hauptverkehrszeit, dem unzulässigen Verspätungsabbau am Einbruchsbahnhof und dem Abzug der Urverspätungen vom Verspätungsaufbau einige der großen Fehler im Stresstest.
Fehlende Prüfung der Realitätsnähe: Es hätte geprüft werden müssen, ob für die Verspätungsannahmen die Näherungswerte (Richtlinie 405.0204A03 S. 1 / Bl. 225 f) oder Ist-Verspätungswerte oder Modifizierungen anzunehmen wären (Richtlinie 405.0204 S. 12 / Bl. 210). Eine solche Prüfung ist nicht dargestellt.
- Jede dieser Überprüfungen hätte die unrealistischen Annahmen in der Verspätungsstatistik (unrealistisch niedriges Verspätungsniveau und gekappte Haltezeitverlängerungen) zu Tage gebracht
Belegungsgrade: Sind entgegen der Vorschrift nicht angegeben (siehe Folgeabsatz, Richtlinie 405.0202 S. 13 / Bl. 162).
- Die Angabe der Belegungsgrade hätte offengelegt, dass diese von "katastrophal" bis "unfahrbar" reichen.
Weitere Kenngrößen fehlen: Auch die weiteren nach der Richtlinie für Infrastrukturuntersuchungen und im Fall von deutlichem Verspätungsabbau vorgeschriebenen weiteren Kenngrößen wie "infrastrukturbezogene Behinderungen" bzw. "Wartezeiten" werden aus mutmaßlich ähnlichem Grunde nicht angegeben.
Berücksichtigung von Urverspätungen: Die Art der Berücksichtigung von Urverspätungen ist nicht angegeben. D.h. es wurde nicht dargestellt, dass die Haltezeitverlängerungen (Doku. Teil 1 S. 21) neben den echten Haltezeitverlängerungen in den Bahnhöfen im wesentlichen auch die auf der Strecke entstehenden Urverspätungen wiedergeben sollen.
- Die Klarstellung, dass die Haltezeitverlängerungen nicht allein die Haltezeitverlängerungen, sondern zu einem größeren Teil die auf der Strecke eintretenden Urverspätungen abbilden, hätte viel eher Zweifel aufkommen lassen an deren ausreichender Höhe und auch dem systematischen Fehler, dass dadurch der Verspätungsabbau geschönt dargestellt wird.
Keine Angabe der Modellzüge: Seitenweise Zuglisten (Doku. Teil 1 S. 27-39) werden ohne Angabe der technischen Daten zu den Zügen dargestellt und sind somit praktisch ohne Aussage.
- Die Überprüfung der Zuglängen als Voraussetzung für die Doppelbelegungen und für die Beförderung der geplanten Fahrgastzahlen ist so unmöglich. Auch Bremskurven sind so nicht zuordenbar.
Belegungsgrafiken unvollständig: Die Belegungsgrafiken (Doku. Teil 1 S. 40-48) sind unvollständig, insbesondere sind sie mangels Legende nicht selbsterklärend.
- Ohne eine ausreichend beschreibende Legende ist beispielsweise nicht ersichtlich, dass z.B. die Zuläufe aus Zuffenhausen nur dank der neuen Signaltechnik ETCS die gewünschte Zugzahl verarbeiten können. Aber ETCS wird bis zur Inbetriebnahme von Stuttgart 21 nicht zur Verfügung stehen.
Keine Prämissen der Sensitivitätsanalysen: Es wurde in keiner Weise spezifiziert, unter welchen Annahmen die Sensititvitätsanalysen (Doku Teil 2 S. 112, 132 / Bl. 51, 71) durchgeführt wurden, d.h. mit welchem Parametersatz (d.h. Verspätungswerten, war es ein guter oder ein schlechter Tag, wurde er zufällig ausgewählt), mit welcher Anzahl von Simulationsläufen (wie groß ist die Unsicherheit aufgrund mangelnder Statistik anzusetzen) etc.
- Damit sind die sogenannten Sensitivitäten ohne jede Nachvollziehbarkeit und Beweiskraft. Trotz dieses formalen Fehlers und dieser unprofessionellen Darstellung, sind die Sensitivitäten ohnehin ohne jede Beweiskraft, da ihnen die nötige statistische Signifikanz und die gleichzeitige Berücksichtigung realistischer Werte in sämtlichen Parametern fehlt.
Datenmodell vom 15. Juli undokumentiert: Gleiches gilt für die Sensitivitätsrechnung zur Korrektur eines Teils der von SMA angemahnten Fehler, das Datenmodell vom 15. Juli (Audit SI-08 / Bl. 186 ff) für das es keinerlei Ergebnisdokumentation der Deutschen Bahn gibt.
Finaler Simulationslauf undokumentiert: Die vorhandenen 7 Folien gehen nicht über die Behauptung eines Ergebnisses hinaus. Nicht einmal ein Fahrplan, geschweige denn Verspätungsverläufe oder alle weiteren Informationen, die zum Nachvollziehen der Ergebnisse nötig wären, liegen vor.
- Auf diese Weise haben diese Simulationsläufe nur die Qualität einer unbelegten Behauptung. Aber ihnen fehlt ohnehin die Beweiskraft wegen der grundsätzlichen Einschränkungen für Sensitivitäten. Ein "Nachweis" wurde so in keiner Weise geführt.
Infrastrukturoptionen ungeprüft: In der Stresstest-Dokumentation wurde lediglich dargestellt, welche Infrastrukturoptionen nicht aktiviert wurden (Doku. Teil 1 S. 54-61). Es wurde aber nicht untersucht (bzw. zumindest nicht dargestellt), welche Verbesserung diese Optionen gebracht hätten, wie es der Vorgabe im Schlichterspruch und der gültigen Prozessbeschreibung entsprochen hätte.
- Auf diese Weise bleibt verborgen, wie gravierend sich die bestehenden Engpässe tatsächlich auswirken. Dies würde deutlich, wenn der deutliche Leistungs- und Qualitätsschub ermittelt würde, der bei Ausbau zur großen Wendlinger Kurve oder der P-Option bringen würde.

Selbst die SMA attestiert:

"Der Bericht 'Stresstest Stuttgart 21 – Fahrplanrobustheitsprüfung' der DB Netz AG vom 30. Juni ist nicht selbsterklärend, weist teilweise inhaltliche Mängel auf und bietet keine vollständige Dokumentation der durchgeführten Arbeiten." (Audit SI-07 S. 10 / Bl. 184)

Es ist nicht nachvollziehbar, wie die SMA nach einer solchen Aussage und auf der Basis einer solchen Ausgangsdatenlage überhaupt in der Lage war zu testieren. Es ist außerdem einem Audit nicht angemessen, dass die SMA einen solchen schweren Vorwurf nicht im Einzelnen mit den konkreten Mängeln belegt, dadurch verdeckt sie mehr als sie kritisiert.

Wenn die SMA ausführt, dass weitergehende Informationen von der DB bilateral erhalten wurden (.... Quelle), so sind diese Informationen nicht hinreichend dokumentiert ....

Ein solch umfassender Verstoß gegen die Richtlinie und gegen die Nachvollziehbarkeit durch die Öffentlichkeit ist als KO-Kriterium für den Stresstest zu sehen. Kein Wirtschaftsprüfer dürfte eine solch lückenhafte Bilanz akzeptieren.

Belegungsgrade wurden nicht dargestellt

Die Richtlinie schreibt für die Dokumentation der eisenbahnbetriebswissenschaftlichen Simulation verbindlich vor:

"Generell werden ausgewiesen:
• Verspätungszuwachs bzw. Verspätungsveränderung zwischen zwei definierten Querschnitten, dieser Wert dient als Kenngröße und wird dem zugehörigen Bewertungsmaßstab verglichen.
• Verspätungsverlauf über den Fahrweg des Zuges (der Zugfamilie).
• Einzelbelegungsgrade von Belegungselementen bzw. Kanten (Kenngröße)." (Richtlinie 405.0202 S. 13 / Bl. 162)

Dies fand an keiner Stelle der Stresstest-Dokumentation statt. Dieser Verstoß wurde von der SMA trotz ihrer großen einschlägigen Expertise übersehen bzw. nicht angesprochen. Die Belegungsgrade gehören zu den wichtigsten Kenngrößen in der Simulation einer Bahn-Infrastruktur mit stabilen Erfahrungswerten für fahrbare Auslegungen. So ergibt beispielsweise die Aktualisierung einer früheren Berechnung des Belegungsgrads von Stuttgart 21 mit den Daten des Stresstests einen Belegungsgrad in der Spitzenstunde von 95 %, das ist unfahrbar. Dies ist möglicherweise der Hintergrund für diesen Richtlinienverstoß.

Es ist zu vermuten, dass auch die Belegungsgrade für andere Stellen der Infrastruktur bspw. die Zufahrt von Zuffenhausen, die Filderstrecke, Wendlinger Kurve ähnliche Warnsignale für die Überlastung der Stuttgart 21-Infrastruktur ergeben.

Die Bahn hat die Belegungsgrade für die Stuttgart 21-Infrastruktur vorliegen. Schon in der Faktenschlichtung am 29.10.2010 wurden die Belegungsgrade für die Zufahrten der Flughafen-Bahnhöfe gezeigt, auch ein Bahnsteiggleis-Belegungsgrad.^[16] Das im Stresstest verwendete Programm Railsys gibt die Werte für Belegungsgrade standardmäßig aus.^[17]

Nach Möglichkeit könnten aus den vorhandenen Daten Berechnungen zu den Belegungsgraden weiterer Infrastrukturelemente angestellt werden und auf diesem Portal ergänzt werden.

Test des Fahrplans oder der Infrastruktur?

Die Bahn verfuhr nach dem Prozess zur Fahrplanrobustheitsprüfung ....
Die Vorschriften der RiLi 405 für Infrastrukturprüfungen sind nicht erfüllt ....
Auch die SMA spricht nur von der Untersuchung der "Robustheit des Fahrplans" nicht von der Robustheit der Infrastruktur bei hoher Belastung. (Audit SI-02 S. 4 / Bl. 144)

....

Bitte ausarbeiten!

Keine modellzugspezifische Verspätungsveränderung

Die Richtlinie schreibt eine etwas detailliertere Analyse der Simulationsergebnisse vor, als sie in der Stresstest-Dokumentation erfolgte:

"In Simulationsmethoden werden bei allen Tools Verspätungszuwächse (nicht immer völlig identisch mit der Summe der Wartezeiten, je nachdem, ob Urverspätungen oder Verspätungsabbau mit enthalten ist) modellzugspezifisch ermittelt." (Richtlinie 405.0202 S. 12 / Bl. 162)

Die Abschlussdokumentation liefert keine klare Zuordnung der Modellzüge zu den Linien.

Stresstest-Simulation auf Basis ungültiger Prozessbeschreibung

Kopf Prozessbeschreibung LN34-07.01.03, DB Netze

Der Stresstest wurde nach einer noch nicht gültigen Prozessbeschreibung durchgeführt und dies wurde dennoch von der SMA testiert.

Die Bahn gab in ihrer Abschlussdokumentation vom 30.06.2011 an, beim Stresstest "gemäß Prozess »Fahrplanrobustheitsprüfung (FRP) durchführen« (LN34-07-01-03)" verfahren zu haben (Doku Teil 1 S. 2). Diese Prozessbeschreibung ist gültig seit 10.07.2011, d.h. sie konnte für die Durchführung des Stresstests keine Anwendung finden. Diesen Mangel übersieht die SMA und testiert einen Prozess, der auf einer nicht gültigen Verfahrensanweisung basiert. Dies ist überraschend, weil es zum Kern der Auditierung gehören müsste. Es ist die Frage, ob bzw. in welcher Form die noch nicht gültige Prozessbeschreibung der SMA überhaupt vorlag.

Prozessbeschreibung LN34-07-01-03, gültig ab 10.07.2011, DB Netze. Ausriss zu den Infrastrukturvarianten

Prozessbeschreibung LN34-05-07, gültig ab 16.02.2009, DB Netze. Ausriss zu den Infrastrukturvarianten

Für die Durchführung des Stresstests war eine frühere Fassung relevant, die Prozessbeschreibung LN34-05-07, gültig ab 16.02.2009. Es gibt womöglich mehrere Unterschiede zwischen beiden Verfahrensanweisungen. Ein entscheidender Unterschied liegt in dem Folgenden: In der älteren Prozessbeschreibung war die Berücksichtigung unterschiedlicher Infrastrukturvarianten an den Untersuchungsauftrag gebunden. In unserem Fall ist das der Schlichterspruch zum Stresstest, der ausdrücklich den Zusammenhang zwischen Simulation und Varianten darstellte:

"Welche der von mir vorgeschlagenen Baumaßnahmen, wie ich das eben getan habe, zur Verbesserung der Strecken bis zur Inbetriebnahme von S 21 realisiert werden, hängt von den Ergebnissen der Simulation ab." ^[18]

D.h. es hätte bspw. auch zwingend zumindest der Verkehr bei Bau der großen Wendlinger Kurve simuliert werden müssen (da hier die Leistungsvorgabe klar nicht erfüllt wird). Aber angesichts der extremen Parameter im Tiefbahnhof mit vielen Pufferzeitverletzungen und Doppelbelegungen hätten auch 9. und 10. Gleis und P-Option geprüft werden müssen.

Die neue Richtlinie, die möglicherweise eigens für den Stuttgart 21-Stresstest geändert wurde, galt aber nicht während seiner Durchführung. Allein sie würde es erlauben, von dem Untersuchungsauftrag durch einen gegebenenfalls enger gefassten Simulationsauftrag abzuweichen.

D.h. gemäß der geltenden Prozessbeschreibung und dem Auftrag aus dem Schlichterspruch hätten im Stresstest die Varianten mit den Ausbauten Große Wendlinger Kurve, P-Option, etc. geprüft werden müssen, was nicht geschah, so dass der Stresstest die betreffende Vorschrift verletzt. Allein wegen dieses Regelverstoßes müsste der Stresstest noch einmal regelkonform wiederholt werden. Inzwischen – aber eben erst jetzt – wäre dann eine Abweichung vom Untersuchungsauftrag möglich. Allerdings müsste die Bahn dann bei der Veröffentlichung fairerweise auch den Simulationsauftrag offenlegen und Abweichungen vom Untersuchungsauftrag begründen. Dieses Vorgehen müsste dann auch vollständig vom Auditor geprüft und als sachgerecht eingestuft werden.

RICHTLINIENVERSTÖSSE, PARAMETER

Kein Stress im Test

Es existiert offenbar bei der Bahn keine eigene Richtlinie für die Durchführung eines echten "Stresstests". Die hier immer wieder zitierte Richtlinie 405 macht Vorgaben für die Durchführung einer eisenbahnbetriebswissenschaftlichen Simulation, die zu den verschiedensten Zwecken durchgeführt werden könnte. Klar ist aber der Untersuchungsauftrag im Schlichterspruch mit dem Begriff "Stresstest" formuliert worden.

Aufgabe eines Stresstests ist die Prüfung einer erhöhten Belastungssituation, wie sie gerade im Falle von Stör- und Notfällen auftreten, insofern ist besondere Aufmerksamkeit auf die korrekte Abbildung dieser Betriebssituationen zu legen. Es existiert eine Prozessbeschreibung "Fahrplanrobustheitsprüfung durchführen" (bei der auch nicht die gültige Fassung vom Stresstest eingehalten wurde, siehe voriger Absatz), diese beschreibt aber lediglich den Ablauf, nicht die Parameter.

Richtlinie 405 geht jedoch darauf ein, dass eine Simulation und die darin verwendeten Parameter der Aufgabe angepasst werden müssen:

Zu den Eingangsgrößen: "Direkt aus dem Istzustand ermittelte Kenngrößen spiegeln zwar die Realität gut wieder, entsprechen aber, sofern sie nicht speziell für die aktuelle Aufgabe ermittelt wurden, nicht immer genau der geforderten Aussage." (Richtlinie 405.0205 S. 1 / Bl. 227)

"Zur Abbildung der im Betriebsablauf zu erwartenden Folgeverspätungen bzw. außerplanmäßigen Wartezeiten werden die Züge mit • Einbruchsverspätungen (ggf. bei Güterzügen auch Einbruchsverfrühungen) und • Urverspätungen (aufgaben- und toolspezifisch) belegt. Zu Quellen und Aufbereitung dieser Parameter siehe 405.0204 [Betriebsprogramm] und 405.0206 [Verspätungsanalyse]. Liegen Auswertungen nicht vor oder erscheint ihre Anwendung nicht sinnvoll (z.B. bei perspektivischen Untersuchungen), sind entsprechende Annahmen (siehe 405.0103A03) zu treffen." (Richtlinie 405.0201 S. 6 / Bl. 138)

D.h. im Falle, dass die Simulation einen Stresstest darstellen soll, ist die Verwendung von Jahres- und Tages-Durchschnittswerten aus dem Alltagsbetrieb nicht zielführend. Es müssten Werte der untersuchten Belastungsspitze (im Stresstest die Spitzenstunde), für Tage besonderer Belastung (Winter, Suizid, etc.) eingesetzt werden. Statt Durchschnittswerten müssten also bspw. eigentlich die zur Stoßzeit spezifisch verlängerten Haltezeiten verwendet werden. Außerdem müssten typische Störungsszenarien, wie die rund zweistündige Sperrung von ein bis zwei Gleisen, oder die nicht so seltene zumindest halbstündige Blockade eines Zuges im Bahnhof durch eine technische Störung am Zug simuliert werden. Beide typische Stresssituationen kommen in der Simulation nicht vor.

Dem Argument, dass die in der Simulation eingesetzte Verteilung auch einzelne Extremwerte liefert, muss entgegnet werden, dass diese gerade im Stresstest für Stuttgart 21 durch die spezifischen Einstellungen im Modell beschnitten wurden:

Die Störungswerte insbesondere des Fernverkehrs und der S-Bahn wurden extrem unterdurchschnittlich angesetzt.
Die Streuung im Modell fällt nur rund halb so groß aus wie in der Realität beobachtet. D.h. die eigentlich kritischen Extremwerte fallen nur halb so gravierend aus.
Im Modell wurden aber darüber hinaus gerade die Maximalwerte beschnitten, so dass genau der Anteil der Verspätungsstatistik, der Stör- und Notfälle abbilden sollte, aus der Simulation herausgenommen wurde. Dieser Eingriff ist einer der gravierendsten Fehler im Stresstest.

D.h. statt auf die korrekte Abbildung gerade der hohen Belastungsspitzen zu achten, wurde eine Simulation durchgeführt, die gegenüber durchschnittlichen Bedingungen noch deutlich weichgespült wurde, also definitiv eine Schönstwettersimulation statt einem Stresstest. Dabei gibt die Richtlinie explizit vor, dass die Simulation von Stör- und Notfällen durch das Gegenteil, nämlich die Erhöhung der Parameter simuliert werden soll:

"Die Modellierung der Ausfälle oder Teilverfügbarkeiten von Infrastrukturelementen muss bisher ersatzweise durch Erhöhung der zugbezogenen Parameter für Urverspätungen erfolgen." (Richtlinie 405.0206 S. 11 / Bl. 251)

Eine solche spezifische Modellierung einer besonderen Verspätungssituation kann offenbar problemlos in das System integriert werden, wie am Beispiel der "Gesonderten Ur- und Einbruchsverspätungen" in Marbach und Bondorf geschehen (Audit SI-08 S. 9 / Bl. 194). In gleicher Weise könnten auch die für den achtgleisigen Tiefbahnhof so kritischen Szenarien "Suizid" und "Technische Störung am Zug" bspw. durch testweise auf 120 bzw. 30 Min. heraufgesetzte Haltezeitverlängerungen im Hauptbahnhof simuliert werden.

Der Auditor des Stresstests, die Schweizer Firma SMA distanzierte sich außerdem ausdrücklich davon, die "betriebswissenschaftliche Simulation" als "Stresstest" zu bezeichnen^[19]. Insofern stellt der Auditor klar, dass er lediglich eine Simulation und keinen Stresstest bewertet hat.

Die Ausblendung von Stress im Stresstest sowohl durch eine vom Ansatz her schon wenig anspruchsvolle Verspätungsstatistik als auch durch die unverantwortliche und im Verborgenen durchgeführte Kappung der Haltezeitverlängerungen ist ein eklatanter Verstoß gegen die Anforderungen der Richtlinie, den Untersuchungsauftrag in der Simulation korrekt abzubilden. Die Bahn hat die Anforderung nach einem Stresstest nicht erfüllt und ja auch nie behauptet, einen Stresstest durchgeführt zu haben. Auch der Auditor stellt klar, dass er keinen Stresstest auditierte. Diese grundlegendste Anforderung ist also definitiv nicht erfüllt.

Mangelhafte Berücksichtigung von Urverspätungen

Richtlinie 405 macht eine Reihe von Vorgaben für die Berücksichtigung von Urverspätungen als notwendigen Störungsparameter für eine eisenbahnbetriebswissenschaftliche Untersuchung. Urverspätungen setzen sich zusammen aus Unterwegsverspätungen aufgrund von Störungen auf der Strecke (Gleis, Oberleitung, Signale, Personen oder Zug) sowie Haltezeitverlängerungen durch ähnliche Störungen in den Bahnhöfen. Im vorigen Absatz war schon ein Zitat der Richtlinie zur möglichst aufgabenspezifischen und realitätsnahen Berücksichtigun gegeben worden (Richtlinie 405.0201 S. 6 / Bl. 138), außerdem wird dies auch hier angemahnt:

"Bei Simulationen ist zu berücksichtigen, dass bei großem Betrachtungsraum und ohne Einspielen zusätzlicher Urverspätungen durch Verspätungsabbau im Betriebsablauf u.U. ein unrealistisch niedriges Verspätungsniveau bei der Einfahrt in den Auswerteraum entstehen kann. In diesen Fällen ist der Betrachtungsraum zu reduzieren oder es sind Urverspätungen einzuspielen." (Richtlinie 405.0203 S. 5 / Bl. 195)

Insbesondere für den Fernverkehr sind die Urverspätungen besonders relevant:

"Liegen vor einem Knoten lange Streckenabschnitte, so führt der Abbau ggf. zu einem zu günstigen Verspätungsniveau beim Einbruch in den Knoten. Um diesen Nachteil zu vermeiden, muss von der Möglichkeit Gebrauch gemacht werden, Urverspätungen einzugeben." (Richtlinie 405.0202 S. 11 / Bl. 161)

In der Stresstest-Dokumentation werden allein "Haltezeitverlängerungen" dargestellt (Doku. Teil 1 S. 21). Diese unkommentierte Größe musste von der Öffentlichkeit als tatsächliche Verlängerungen der Haltezeit im Bahnhof aufgrund von kleineren Störungen im Bahnhof oder hohem Fahrgastwechsel angesehen werden und erschien so relativ anspruchsvoll gewählt. Erst der Auditor stellt klar, dass die Haltezeitverlängerungen auch (zum größeren Teil) die Urverspätungen auf der Strecke enthalten (Audit SI-05 S. 1 ff / Bl. 156). Die Bahn ist also zunächst der Verpflichtung gemäß der Richtinie nicht nachgekommen, in der Abschlussdokumentation die Abbildung der Prämissen zu den Urverpätungen nachvollziehbar darzustellen.

Darüber hinaus wurden jedoch diese Haltezeitverlängerungen, die die Urverspätungen enthalten sollen, unzulässig gekappt und es wurde der Verspätungsaufbau ohne den Beitrag der Urverspätungen sowohl in den Einbruchsbahnhöfen wie auch im Hauptbahnhof ermittelt. Diese schwerwiegenden Fehler in der Abbildung der Urverspätungen in der Simulation werden in den entsprechenden Abschnitten besprochen.

Inwieweit sich bei der im Audit erwähnten Lenkungskreissitzung Stresstest in Karlsruhe am 05.05.2011 sich evtl. kaum eingearbeitete Vertreter der neuen Landesregierung sich bei dieser Festlegung evtl. über den Tisch haben ziehen lassen, lässt sich nicht sagen. Im Ergebnis werden die Urverspätungen jedoch gegen die Vorgaben der Richtlinie unzureichend bis gar nicht berücksichtigt.

Gekappte Haltezeitverlängerungen

Verdeckung der Kappung

SMA-Präsentation vom 07.07.2011, "Ausgewählte Prämissen", Folie 6 (am 07.07. nicht gezeigt, aber später an Aktionsbündnis übergeben). Es werden die Maximalwerte noch ohne Güterverkehr angegeben.

Seite 21 aus der Stresstest-Dokumentation vom 30.06.2011. Es wird kein Hinweis auf die Kappung der Verspätungsspitzen gegeben. Damit ist die Darstellung falsch, teils um den Faktor 2.

Eine der quantitativ größten Fehlannahmen im Stresstest mit der Wirkung der Erleichterung des Bestehens ist auch eine der zuletzt identifizierten: Die vollkommen unbegründete Kappung der Haltezeitverlängerungen auf vollkommen unzulässig niedrige Maximalwerte. Diese Maximalwerte wurden von der Bahn in der Stresstest-Dokumentation und den Prämissengesprächen unterschlagen.

SMA-Audit vom 21.07.2011, SI-05 S. 2 / Bl. 157 Tabelle der Haltezeitverlängerungen. Erst hier werden die Maximalwerte auch für den Güterverkehr angegeben.

Antwort der DB Netz vom 08.07.2011 auf die Fragen zur Verspätungsstatistik. Trotz gezielter Frage danach wird nicht auf Verspätungsspitzen eingegangen.

Die Bahn hatte in ihrer Abschlussdokumentation zum Stresstest die Annahmen für die unterstellten Verspätungsverteilungen dargestellt (Doku. S. 21), aber nicht angegeben um welche Verteilungsfunktion es sich handelte. Insbesondere wurde durch die Angabe von Mittelwerten und Wahrscheinlichkeiten suggeriert, dass eine unbeschnittene Verteilung angewandt wurde. Es gab keinerlei Hinweis auf die Beschneidung der maximalen Verspätungswerte.

Und selbst der Auditor SMA hatte offenbar für die längste Zeit keine vollständige Kenntnis davon. Zumindest hatte er zum Zeitpunkt der Prämissengespräche am 07.07.2011 offenbar noch keine Kenntnis von der schwerwiegendsten der Kappungen, der im Güterverkehr. Dies belegt die Folie der SMA aus den Prämissengesprächen, die für den Güterverkehr keine Kappung ausweist und bei deren Präsentation auch nicht die Bedeutung und vor allem die Auswirkung der Kappungsgrößen bei Fern- und Nahverkehr sowie S-Bahn erläutert wurden.

In den Prämissengesprächen hatte das Aktionsbündnis detailliert zu der Ausgestaltung der Verspätungsverteilung nachgefragt: Nach der Funktion, nach den im Test für die einzelnen Züge verwendeten konkreten Verspätungswerten, dem Vergleich mit realen Verspätungsdaten und sogar schon nach der Höhe der "Ausreißer" in der Verteilung. Diese Fragen wurden schriftlich mit der mageren Information "negative Exponentialverteilung" beantwortet. In der mündlichen Nachfrage wurde keiner der weiteren Punkte beantwortet, aber es wurde immerhin zu den Einbruchsverspätungen die Information gegeben, dass die "DB Spielräume hat, welche Verteilung an welchem [Einbruch-]Punkt angenommen wird." (Prämissengespräch 19.07.2011) Aber auch hier wurde kein Hinweis auf die Kappung der Haltezeitverlängerungen gegeben.

Am 19.07.2011 wurden noch einmal schriftlich die Daten der konkret auf die Züge einwirkenden Verspätungswerte nachgefragt und in der Folge mehrfach, aber ohne Erfolg angemahnt. Kurz vor der Stresstest-Präsentation hieß es dann, man habe die Frage nicht verstanden (.... Quelle).

Erst im Audit legte die SMA die Kappungen der Haltezeitverlängerungen offen, ohne allerdings auch nur mit einer Silbe auf diese Größen einzugehen. Selbst als die SMA in ihrer Tabelle den Grenzwert für den Güterverkehr eintrug, der das Maximum unterhalb des Mittelwerts festlegte, wurde sie nicht stutzig. Dafür reicht mutmaßlich nicht aus, nur auf einem Auge blind zu sein.

Wirkung der Kappung

Es bestand wohl die Hoffnung, dass niemand verstehen würde, was diese Randnotiz in der Tabelle zu bedeuten hätte. Ohne jede Erläuterung ist das auch kaum möglich. Man muss in das Handbuch der verwendeten Simulationssoftware schauen, um diese Größen einordnen zu können:

Auswirkung der gekappten Haltezeitverlängerungen (hohes Belastungsniveau)
Parameter	Fern- verkehr	Nah- verkehr	S-Bahn	Güter- verkehr
Wahrscheinlichkeit	10 %	10 %	10 %	10 %
Mittelwert der Verspätungen (nominal)	2,0 Min.	1,0 Min.	0,5 Min.	5,0 Min.
Maximum der Verspätungen	5,0 Min.	3,0 Min.	1,0 Min.	3,0 Min.
Anteil der gekappten Verspät.	8 %	5 %	14%	55 %
Mittelwert der Verspätungen (real)	1,84 Min.	0,95 Min.	0,43 Min.	2,26 Min.
Reduktion des Mittelwertes	8 %	5 %	14 %	55 %

"Die negative Exponentialverteilung wird häufig zur Beschreibung einer Abfahrtszeitverlängerung genutzt. Die Wahrscheinlichkeit w_p, dass eine Verspätung der Zufallszahl v auftritt ist definiert als:
Sei v € [0;1] und wenn v < w_e / 100 (d.h. wenn die Zufallszahl v kleiner ist als der Anteil der verspäteten Züge, dann wird der Zug mit der folgenden Verteilung gestört.)
      v_sp = – p_m × ln(1 – 100 v / w_e)
Die Parameter haben dabei folgende Bedeutung
      v_sp = Verspätung in Minuten
      p_m = mittlere Verspätung der verspäteten Züge in Min.
      w_e = Anteil der verspäteten Züge (in %)
      p_max = die maximale Verspätung der verspäteten Züge in Min.: Wenn die zufällig gezogene Verspätung diesen Wert übersteigt, wird der entsprechende Wert auf p_max reduziert."
(Handbuch Railsys, S. 415, "Parameter der negativen Exponentialverteilung")

Haltezeitverlängerungen in Minuten als Ergebnis des Railsys-Algorithmus. Die hohen Verspätungswerte werden auf wenig anspruchsvolle Werte gekappt. Die Kurven der Verkehrsarten wurden voreinander gelegt.

Erst mit der Kenntnis dieses Algorithmus wird die Bedeutung der Größen klar. Der Maximalwert kappt die Verspätungsspitzen auf diesen Wert. Die Simulation dieser Verteilung der Verspätungswerte liefert die in der nebenstehenden Tabelle und der Grafik dargestellten Werte.

Grundsätzlich ist die Anwendung solcher Maximalwerte in dem Algorithmus von Railsys keine unsinnige willkürliche Maßnahme. Die Formel kann in seltenen Fällen extrem hohe Verspätungswerte liefern, auch viele Stunden oder gar Tage, und es ist sinnvoll, diese zu begrenzen. Im Fall der Einbruchsverspätungen wird dies auch gemacht und hat keine merkbare grob verfälschende Wirkung. Im Falle der Haltezeitverlängerungen ist die Wirkung erheblich.

Es wird der Großteil der Ereignisse, die alleine noch Stress in das System eintragen, nämlich die Verspätungsspitzen, auf harmlose Werte im Bereich der üblichen Pufferzeiten zurückgekürzt (zu den eigentlichen Pufferzeiten kommen die in Stuttgart Hbf teilweise besonders langen Haltezeiten). Es werden im Fern- und Nahverkehr, bei S-Bahnen und Güterverkehr 5 %, 8 %, 14 % und sogar 55 % der Werte gekappt. Die Kappung verfälscht dabei die Mittelwerte erheblich. Es ist eine Eigentümlichkeit der Exponentialverteilung, dass diese um den gleichen Prozentsatz sinken und das, obwohl die Werte ja nicht auf Null zurückgesetzt werden, sondern auf den Maximalwert. Dies zeigt das hohe Gewicht der Verspätungsspitzen. Aufgrund der hohen Nichtlinearität des Problems der Bahnhofsleistungsfähigkeit ist die Wirkung der Spitzen erheblich höher, als dem Prozentbetrag entspricht, um den der Mittelwert sinkt. Es waren genau diese gekappten Verspätungsspitzen, die eigentlich den Stress abbildeten, und die jetzt herausgenommen wurden.

Im Falle des Güterverkehrs ist der Eingriff schwindelerregend, wenn die Bahn das Maximum fast bei der Hälfte des Mittelwerts ansetzt. Es kann nicht entschieden werden, ob diese Größe überhaupt und ob sie genau aus diesem Grund dem Auditor vorenthalten wurde. Möglicherweise ist der Auditor aus eigenem Antrieb zurückgescheut, diese Größe schon in den Prämissengesprächen zu offenbaren. In jedem Fall hätte die Darstellung eines Maximalwerts, der unter unter dem Mittelwert der Verpätungsverteilung liegt, erhebliche Aufmerksamkeit auf dieses Thema gelenkt.

Die umfassende Informationszurückhaltung, die definitive Falschdarstellung in der Abschlussdokumentation der Bahn und die unvollständige Darstellung durch den Auditor in den Prämissengesprächen, die Nicht-Beantwortung entsprechender Fragen, lassen den Verdacht einer absichtsvollen Täuschung der Öffentlichkeit in dieser Frage aufkommen. Es entsteht der Eindruck, als wurden (fast) alle Maßnahmen getroffen, um diesen Eingriff zu verdecken.

Für die extreme Kappung der für die Simulation so enorm wichtigen Urverspätungen in Form der Haltezeitverlängerungen gibt es keine Rechtfertigung. Eine solche wurde auch an keiner Stelle von der Bahn oder der SMA gegeben. Die Richtlinie gibt an keiner Stelle Raum für einen solch umfassenden Eingriff in die Verspätungsstatistik. Wenn die wesentlichen Stressparameter teilweise um mehr als einen Faktor 2 falsch dargestellt werden in einer Unterlage, die eine Milliardeninvestition rechtfertigen soll, erscheint das als schwerwiegender Vorfall. Es ehrt die SMA, dass sie diesen Eingriff (wenn auch nur versteckt, quasi in einer Randnote) öffentlich machte. Es wirft aber ein sehr zweifelhaftes Licht auf den Auditor, wenn dieser dabei die Abweichung von dem Bahn-Regelwerk und diesen erheblichen Manipulationseingriff nicht erkannte, ja die Auswirkung dieser eigens für die Stresstest-Simulation eingeführten Parameter gar nicht prüfte. Die gekappten Verspätungen zählen zu den quantitativ größten Fehlern in der Simulation. Die Verdeckung dieser Parameter durch die Bahn – evtl. auch vor dem Auditor – könnte das Misstrauen in die Bahn verstärken.

Verspätungsspitzen für Störungen

Es erscheint als ein ausgesprochener Zynismus, wenn die Bahn ausgerechnet die Verspätungsspitzen aus der Simulation herausnimmt, die laut vielfacher Beteuerungen der Bahn und des Auditors in der Stresstest-Präsentation gerade das reale Störungsgeschehen abbilden sollen (in den Prämissengesprächen ähnlich):

"Die Kennzahlen der Betriebssimulation sind: [...] 140.000 eingebrachte Störfälle durch Verspätungen in einer großen Bandbreite, um zu statistisch gesicherten Ergebnissen zu gelangen." (Dr. Kefer, 29.07.2011, .... Uhr)^[20]
- Die Bandbreite wurde durch das Herausnehmen der Spitzen genau dort verengt, wo Störungen abgebildet worden wären.
"In dieser Computersimulation da werden ja unendlich viele Störeinflüsse per Zufallsgenerator in das Modell hineingeschossen und dann so weitergerechnet." (Werner Stohler, 29.07.2011, 13:54 Uhr)^[21]
- Richtiger wäre: ... Störeinflüsse per Zufallsgenerator in das Modell hineingeschossen und danach auf ein harmloses Maß gestutzt.
"Die Verspätungen, die in dem System wiedergespiegelt werden, werden per Zufallsgenerator erzeugt. Das war genau die Aussage, die wir getan haben und Herr Stohler hat sie bestätigt. Und diese Ursachen beinhalten auch abweichend von dem, was Herr Palmer vorhin gesagt hat, natürlich jegliche Ursache, die da vorstellbar ist. Also Signalstörungen, Weichenstörung und sonst irgendwas. Das wird dort alles wiedergespiegelt." (Dr. Kefer, 29.07.2011, 17:47 Uhr)^[22]
- Wenn 55 % der Verspätungsannahmen im Güterverkehr denselben (verharmlosten) Wert annehmen oder 8 % im Fernverkehr, kann man nicht mehr von Zufallsgenerator sprechen.

Mehrfach wurde von der Bahn und der SMA betont, es seien anspruchsvolle Parameter gewählt worden. Dabei wurde verschwiegen, dass die eigentlich anspruchsvollen Verspätungswerte auf ein harmloses Niveau gekappt wurden:

"Für die Betriebssimulation des Stresstests wurden durchgehend anspruchsvolle Parameter gewählt." (Doku. Teil 1 S. 21)
- Diese Aussage steht direkt neben den Verspätungsparametern, die die Kappung der Haltezeitverlängerungen auf wenig anspruchsvolle Werte unterschlagen. Diese Unaufrichtigkeit tut besonders weh und mag noch für Charakterstudien dienlich sein.
"Es werden in der Simulation die Werte für eine hohe Belastung des Haltebahnhofs unterstellt. Damit werden auch weitere Urverspätungen, die nicht explizit in das System eingebracht werden, abgedeckt." (Audit SI-05 S. 2 / Bl. 157)
- Auch dies ist der direkte Zusatz der SMA zur Darstellung der gekappten Haltezeitverlängerungen. Sie musste mutmaßlich auf mehr als einem Auge blind sein, um die Kappung zu übersehen. Aber dass hier auch noch geschlossen wird, dass sogar "weitere Urverspätungen" abgedeckt seien, geht besonders weit. Diese weiteren Urverspätungen müssen sich auf die größeren Störfälle beziehen, die die SMA an anderer Stelle im Audit anspricht. D.h. es wird dargestellt, wie die Verspätungsspitzen gekappt werden und geschlossen, dass nun genau die Störungen berücksichtigt werden, die nur von den ungekappten Verspätungsspitzen abgebildet werden könnten!?

Es bleibt als Fazit nur festzustellen, dass auch noch genau der Teil der ohnehin unrealistisch optimistischen Verspätungsverteilung aus der Simulation herausgenommen wurde, der als letzter noch ein bisschen Stress hätte erzeugen können. D.h. der Stresstest ist nicht nur eine Schönwettersimulation, sondern eine Schönstwettersimulation!

Rolle des Güterverkehrs

Man kann nachvollziehen, dass die Berücksichtigung des Güterverkehrs unter realistischen Bedingungen enorme Schwierigkeiten in der Simulation verursachen würde. Dies könnte auch eine Erklärung liefern für die so vollkommen unsinnige Sensitivitätsbetrachtung ohne Güterverkehr, zu der die SMA schreibt:

"DB Netz AG hat eine Sensitivitätsbetrachtung ohne SGV durchgeführt. Ein Betriebsprogramm ohne Güterverkehr ist nicht realistisch. Da dieser Zustand einen fiktiven Fall darstellt, wird er hier nicht detailliert kommentiert. Die Sensitivitätsprüfung zeigt einen deutlichen Effekt des Güterverkehrs in der Simulation. Zwischen Einbruchbetriebsstelle und Ausbruchbetriebsstelle können gut 40 Sekunden mehr Verspätung als in der Grundvariante abgebaut werden." (Audit SI-07 S. 7 / Bl. 181)

Da die Berechnung einer Sensitivität ohne Güterverkehr so fern der Wirklichkeit ist (es gibt keine Pläne für die Abschaffung des Güterverkehrs in der Region Stuttgart), stellt sich die Frage, wozu diese Untersuchung gemacht wurde. Es kann nur spekuliert werden, ob man nach der extremen Kappung der Haltezeitverlängerung und damit der Reduktion der Urverspätungen im Güterverkehr um mehr als die Hälfte nicht mehr sicher war, ob sich der Güterverkehr überhaupt noch signifikant in der Simulation bemerkbar macht. In diesem Fall hätte das Ergebnis eines immer noch "deutlichen Effekts" des Güterverkehrs für die Verantwortlichen des Eingriffs eine Beruhigung sein können.

Angesichts der besonders großen Verfälschung beim Güterverkehr durch die Kappung der Verspätungen hat das folgende Fazit der SMA zum Güterverkehr einen besonders bitteren Klang und erscheint als einer der kapitalsten Fehler im Audit:

"Beim Güterverkehr sind keine Anpassungen erforderlich." (Audit FP-09 S. 3 / Bl. 115)

Fahrzeitüberschüsse voll im Verspätungsabbau

Richtlinie: 50 % Fahrzeitüberschuss nutzbar

Laut Richtlinie 405 dürfen insbesondere bei der Bewertung der Betriebsqualität (wenn es um "wirtschaftlich optimal" oder "Premium" geht) "entsprechend den Bedingungen in der Praxis" Bauzuschläge und planmäßige Wartezeiten nur zum Teil, in der Regel nur zu 50 %, genutzt werden. Fahrzeitzuschläge sollten ggf. ganz unberücksichtigt bleiben:

"Simulationsmethoden erlauben die Abbildung von Verspätungsabbau, wobei i.d.R. der Abbau der Hälfte des Bauzuschlags und der im zu Grunde liegenden Fahrplan enthaltenen planmäßigen Wartezeiten im Betrachtungsraum zugelassen wird. Die Nutzung von Fahrzeitzuschlägen zum Abbau von Verspätungen kann toolgebunden unterbunden werden." (Richtlinie 405.0202 S. 11 / Bl. 161)

In der Definition der Betriebsqualität wird vielfach auf folgende Fußnote verwiesen, die jedoch sowohl von der Bahn in der Stresstest-Dokumentation (Doku. Teil 1 S. 23) als auch von der SMA im Audit (Audit SI-02 S. 2 / Bl. 176) unterschlagen wird:

"Hierbei wird angenommen, dass entsprechend den Bedingungen in der Praxis ein Teil der in der Regel erforderlichen planmäßigen Wartezeiten und der bei der Fahrplanerstellung üblicherweise eingearbeiteten Zeitzuschläge zum Verspätungsabbau genutzt werden kann." (Richtlinie 405.0104 S. 6 / Bl. 94)

Die erste Formulierung ist nicht ganz eindeutig, der Satz am Anfang könnte so gelesen werden, dass nur die Hälfte des Bauzuschlags und die Wartezeiten voll zum Verspätungsaufbau genutzt werden könnten (wenn der Genitiv der Wartezeiten sich auf "Abbau" und nicht auf "Hälfte" beziehen würde). Wäre dies so gemeint, hätte die Richtlinie das präziserweise mit einer zusätzlichen Formulierung wie 'der Abbau der vollen [...] enthaltenen planmäßigen Wartezeiten' klarstellen müssen. Dass sich die Hälfte sowohl auf Bauzuschlag wie auch auf die planmäßigen Wartezeiten bezieht, wird durch die zweite genannte Passage der Richtlinie klar. Aber insbesondere ist es die einzig logische Interpretation. Denn es ist nicht zu erkennen, warum im Verspätungsfall andere Störungen aufgrund von Bautätigkeiten, Ausfällen der Technik oder Problemen mit Personen ausgeschaltet sein sollten.

Simulation: 100 % Fahrzeitüberschuss genutzt

Verspätungsabbau aus Fahrzeitreserven. Antwort DB Netz auf Frage 33 in den Prämissengesprächen.

Die für den Stresstest wesentlichen Annahmen zum Verspätungsabbau sind nicht in der Stresstest-Dokumentation dargestellt. Weder die Nutzung von Fahrzeitüberschüssen, noch die Mindesthaltezeiten oder andere Annahmen zum Verspätungsabbau.

Erst in den Prämissengesprächen wurden die Bedingungen des Verspätungsabbaus offenbart. Allerdings ohne den Hinweis darauf, dass die Richtlinie nur die Nutzung von 50 % der Reserven zum Verspätungsabbau zulässt. Das in der Antwort der DB Netz auf die entsprechende Fragen dargestellte Bild aus dem Simulationstool suggeriert dabei doch noch eine Nutzung des Bauzuschlags zu nur 50 %. Dieser ist jedoch zu diesem Zeitpunkt schon ganz dem Fahrzeitüberschuss zugeschlagen (zweiter Aufzählungspunkt, Audit SI-04 S. 1 / Bl. 153 f, siehe Folgeabsatz).

Nach den im vorausgehenden Absatz zitierten Aussagen der Richtlinien darf der Bauzuschlag nur zu 50 % zum Verspätungsabbau verwendet werden. Fahrzeitüberschüsse sollen nach der Richtlinie sogar gegebenenfalls ganz unberücksichtigt bleiben. Die Simulation der "Grundversion", die die Basis des Stresstest-Ergebnisses ist, und offenbar im Unterschied zu den "Sensitivitäten" die einzige Vollsimulation mit 100 simulierten Tagen ist, beruht somit auch bezüglich der Verwendung der Fahrzeitüberschüsse auf unzulässigen Parametern. Offenbar wurde dieser Fehler lediglich in der "Sensitivität" mit 75 % Fahrzeitüberschuss teilweise korrigiert:

SMA: 75 % Fahrzeitüberschuss genutzt

Die SMA schreibt zu den Fahrzeitreserven:

"Die Richtlinie sieht vor, dass in der Regel bei Simulationen die Hälfte des Bauzuschlags sowie der gesamte Fahrzeitüberschuss zum Verspätungsabbau genutzt werden können. Der Regelzuschlag wird nicht explizit genannt.

Bauzuschläge sind hier im FzÜ enthalten. Zur Kompensation der vollständigen Nutzung des FzÜ und somit des impliziten Bauzuschlags wird der Regelzuschlag nicht zum Verspätungsabbau genutzt. Da Bau- und Regelzuschlag im Allgemeinen ähnlich große Werte annehmen, ist dieses Vorgehen eine sinnvolle Annäherung.

Aufgrund der Unsicherheiten des weit in der Zukunft liegenden Zeithorizonts in der Fahrplankonstruktion (Bauzuschlag, Fahrzeuge etc.) ist das Verhältnis zwischen Regel-, Bauzuschlag und Fahrzeitüberschuss nicht genau einzuschätzen. Eine Sensitivitätsanalyse erlaubt es, diese Unsicherheit einzugrenzen. Es wird eine Analyse empfohlen, bei der nur 75 % des FzÜ für den Verspätungsabbau genutzt werden." (Audit SI-04 S. 1 / Bl. 153 f)

Diese Darstellung der SMA unterliegt einer Reihe von Fehleinschätzungen:

Die SMA begeht hier den Fehlschluss, dass der Regelzuschlag, weil er "nicht explizit genannt" wird, zum Verspätungsabbau genutzt werden könnte, und seine Nichtverwendung hier die fälschliche Nutzung des Bauzuschlags kompensieren kann.
Wenn die Richtlinie den Regelzuschlag nicht beim Verspätungsabbau erwähnt, dann heißt es, dass er nicht zum Verspätungsabbau zugelassen wird. D.h. er steht dann auch nicht zur Kompensation zur Verfügung.
Der Regelzuschlag, "dient dem Ausgleich der sich täglich ändernden äußeren Einflüsse auf die Fahrzeit (Witterung, unterschiedliche Tfz-Leistung, Reaktion des Tfz-Führers)." (Richtlinie 405.0103 S. 7 / Bl. 41) und ist im Fahrplan enthalten. Er beruht auf Erfahrungswerten und ist Bestandteil der realistischen Fahrzeit, kann also gar nicht zum Verspätungsabbau genutzt werden.
SMA argumentiert inkonsequent, wenn zunächst das Vorgehen der Bahn als "sinnvolle Annäherung" bewertet wird, und dann doch eine Sensitivität gefordert wird.
Die Argumentation bezüglich der Unsicherheit im Verhältnis der Zuschläge und dem "weit in der Zukunft liegenden Zeithorizont" ist unzutreffend, da 9 Jahre wenig bedeuten vor dem Zeitraum, in dem die Erfahrungswerte der Richtlinie gesammelt wurden und regelmäßig zur Anwendung kamen. Es ist nicht anzunehmen, dass sich in den kommenden 9 Jahren das Bahnwesen vollkommen verändert, dann wäre gar keine Richtlinie nötig.
Es ist überhaupt nicht zu erkennen, wie eine für den Stresstest durchgeführte Sensitivität mit 75 % Fahrzeitüberschuss diese vermeintliche Unsicherheit der Zuschläge in der Zukunft "einzugrenzen" vermag. Sie hat damit nichts zu tun.
In Summe erscheint die Darstellung nebulös und wenig quantitativ. Woher kommen die 75 %?

Die SMA führt hier eine nicht nachvollziehbare Argumentation. Es lässt sich nicht entscheiden, ob die Richtlinie nicht aufmerksam gelesen wurde oder ob der SMA evtl. eine bestimmte Interpretation nahegelegt wurde, so dass sie dem Missverständnis unterlag, dass die Regelzuschlag als Kompensation genutzt werden könnte. Die Begründung für die Sensitivität ist nicht logisch nachvollziehbar, der Wert von 75 % Fahrzeitüberschuss erscheint nicht hinreichend begründet.

Bitte sämtliche Richtlinienverstöße prüfen/ergänzen/ausformulieren und evtl. mit weiteren Referenzen aus den Richtlinien (zumeist 405) belegen! Ggf. weitere Punkte anfügen.

Qualität der Bahn-Richtlinien

Aus der Analyse des Stresstests ergibt sich auch eine Bewertung der Qualität der Richtlinie 405 der Bahn.

Die Richtlinie fordert eine realitätsnahe Simulation

Die hohe Qualität der Richtlinie zeigt sich darin, dass sie nahezu alle Abweichungen von einer realitätsnahen Simulation im Stresstest zu Stuttgart 21 untersagt:

Sämtliche Parameter müssen aufgabengemäß gewählt werden und einzeln auf die Realitätsnähe geprüft werden.
Für eine Simulation müssen alle Parameter gleichzeitig auf diese Werte gesetzt werden. Sensitivitäten sind nicht zugelassen, um Resultate zu ermitteln.
Eine Simulation muss über 100 Tage durchgeführt werden, Stichproben an einzelnen möglicherweise handverlesenen "guten" Tagen (Sensitivitäten) sind nicht zulässig.
Die Verspätungsstatistik darf nicht um die Spitzen, die gerade die Störungen im praktischen Betrieb abbilden, bereinigt werden.
....

Ergänzen und Belege anfügen!

Die Richtlinie ist an mehreren Stellen unnötig unklar

Es fällt aber auf, dass die Richtlinie an einzelnen entscheidenden Stellen merkwürdig unklare Formulierungen gebraucht, wo eine einfache absolut eindeutige Darstellung geboten wäre:

Problematisch für den Stresstest zu Stuttgart 21 war die unnötig komplizierte Formulierung zu den Minutengrenzen des Verspätungsaufbaus (405.0104 S. 21 / Bl. 109): Eine einfache Tabelle, in der Art: Bis 0,0 Minuten Verspätungsaufbau "wirtschaftlich optimal", bis 1,0 Minuten "risikobehaftet", darüber "mangelhaft" würde die Einstufung klarer wiedergeben.
Tatsächlich doppeldeutig ist die Formulierung zum Abbau der Fahrzeitüberschüsse (Richtlinie 405.0202 S. 11 / Bl. 161), deren zutreffende Interpretation sich erst mithilfe einer weit entfernten Textstelle der Richtlinie aufklären lässt (Richtlinie 405.0104 S. 6 / Bl. 94).

Die Richtlinie weist einen systematischen Fehler auf

Ein einziger systematischer Fehler in der Richtlinie wurde bisher identifiziert:

Die Richtlinie lässt zu, dass Urverspätungen in Form von Haltezeitverlängerungen berücksichtigt werden. Sie macht aber keine Vorschrift, dass die Ermittlung des Verspätungsaufbaus dann um den Beitrag der Urverspätungen zu korrigieren wäre. Damit erscheint der Verspätungsaufbau systematisch um mehrere Sekunden geschönt.

Einzelnachweise

In Klammern gesetzte (Quellenangaben) ohne Fußnote beziehen sich zumeist auf wesentliche Unterlagen zum Stresstest, die im Artikel "Dokumente" beschrieben werden.

↑ 21.06.2011, stuttgarter-zeitung.de, "Bahn hält die Vorgaben für «irreal»"
↑ 19.07.2011, 3. Prämissengespräch, Thorsten Schaer, DB Netz AG. In der Diskussion im Anschluss an Frage 48 (wirtschaftlich optimale Qualität) erläuterte beim Vergleich der Sensitivität zur Qualität in der Spitzenstunde von 7 bis 8 Uhr mit der Grundsimulation, dass die wirtschaftlich optimale Betriebsqualität "nach oben bis zu 1 Minute Verspätungsaufbau" reiche (Protokoll).
↑ 29.07.2011, Stresstest-Präsentation, 14:58 Uhr, Boris Palmer
↑ 19.07.2011, 3. Prämissengespräch, Thorsten Schaer, DB Netz. Herr Schaer sagte laut dem Protokoll, dass laut Regelwerk ab 1 Sek. Verspätungsabbau Premiumqualität vorliegt, die DB aber erst ab 5 Sekunden Premium vergibt. Dabei ist unklar, wie die 1 Sek. laut Regelwerk dem dort geforderten "deutlichen" Verspätungsabbau entsprechen soll.
↑ 12.2004, uic.org, "Capacity Management (Capman Phase 3), Summary Report": "If time supplements are available for reducing delays, the value of punctuality will be acceptable, which means the difference between entrance and exit delay of the line section is equal to zero."
↑ 26.10.2005, uic.org, Gerard Dalton, Director, UIC Infrastructure Department, "UIC Capacity Management Project": "Acceptable punctuality (delta delay near 0)."
↑ 19.07.2011, 3. Prämissengespräch im Stuttgarter Rathaus, Protokoll. Thorsten Schaer, DB Netz, sinngemäß zu Chart 67 der Abschlussdokumentation: Die Haltezeitverkürzung von 2,77 auf 2,0 Minuten kann kein Entscheidungskriterium für den Verspätungsabbau sein.
↑ ^a ^b 29.07.2011, Stresstest-Präsentation, 13:54 Uhr, Werner Stohler: "[...] das Modell kennt gute Tage und schlechte Tage [...]"
↑ U. Martin et al., "Vergleich der Leistungsfähigkeiten und des Leistungsverhaltens des neuen Durchgangsbahnhofes (S21) und einer Variante umgestalteter Kopfbahnhof (K21)". In: Landeshauptstadt Stuttgart (Hrsg.): Stuttgart 21 – Diskurs, Stuttgart 2007, S. 2287–2369 (das-neue-herz-europas.de, PDF).
↑ 06.04.2006, Verwaltungsgerichtshof Baden-Württemberg 5. Senat, Aktenzeichen 5 S 848/05 (landesrecht-bw.de)
↑ 29.10.2010, 2. Tag der Faktenschlichtung, ab 15:18 Uhr, Ingulf Leuschel
↑ 12.03.2011, stuttgarter-zeitung.de, "Bundesamt hält Fildertrasse für grenzwertig"
↑ 29.07.2011, Stresstest-Präsentation, 16:40 Uhr, Dr. Volker Kefer
↑ 29.07.2011, Stresstest-Präsentation, .... Uhr (vormittags), Dr. Volker Kefer
↑ 29.07.2011, Stresstest-Präsentation, .... Uhr (vormittags), Dr. Volker Kefer
↑ 29.10.2011, Faktenschlichtung, Foliensatz Ingulf Leuschel S. 3, 4, 5
↑ Handbuch Railsys, S. 327 / Bl. 349 u.v.m.
↑ 30.11.2010, Schlichterspruch Heiner Geißlers, 17:22 Uhr
↑ 29.07.2011, Stresstest-Präsentation, 13:51 Uhr (s.a. 14:04 Uhr), Werner Stohler, CEO von SMA
↑ 29.07.2011, Stresstest-Präsentation, .... Uhr, Dr. Volker Kefer
↑ 29.07.2011, Stresstest-Präsentation, 13:54 Uhr, Werner Stohler
↑ 29.07.2011, Stresstest-Präsentation, 17:47 Uhr, Dr. Volker Kefer

[2011-06-21_StZ_Vorgaben_irreal-1] 21.06.2011, stuttgarter-zeitung.de, "Bahn hält die Vorgaben für «irreal»"

[2] 19.07.2011, 3. Prämissengespräch, Thorsten Schaer, DB Netz AG. In der Diskussion im Anschluss an Frage 48 (wirtschaftlich optimale Qualität) erläuterte beim Vergleich der Sensitivität zur Qualität in der Spitzenstunde von 7 bis 8 Uhr mit der Grundsimulation, dass die wirtschaftlich optimale Betriebsqualität "nach oben bis zu 1 Minute Verspätungsaufbau" reiche (Protokoll).

[3] 29.07.2011, Stresstest-Präsentation, 14:58 Uhr, Boris Palmer

[4] 19.07.2011, 3. Prämissengespräch, Thorsten Schaer, DB Netz. Herr Schaer sagte laut dem Protokoll, dass laut Regelwerk ab 1 Sek. Verspätungsabbau Premiumqualität vorliegt, die DB aber erst ab 5 Sekunden Premium vergibt. Dabei ist unklar, wie die 1 Sek. laut Regelwerk dem dort geforderten "deutlichen" Verspätungsabbau entsprechen soll.

[5] 12.2004, uic.org, "Capacity Management (Capman Phase 3), Summary Report": "If time supplements are available for reducing delays, the value of punctuality will be acceptable, which means the difference between entrance and exit delay of the line section is equal to zero."

[6] 26.10.2005, uic.org, Gerard Dalton, Director, UIC Infrastructure Department, "UIC Capacity Management Project": "Acceptable punctuality (delta delay near 0)."

[7] 19.07.2011, 3. Prämissengespräch im Stuttgarter Rathaus, Protokoll. Thorsten Schaer, DB Netz, sinngemäß zu Chart 67 der Abschlussdokumentation: Die Haltezeitverkürzung von 2,77 auf 2,0 Minuten kann kein Entscheidungskriterium für den Verspätungsabbau sein.

[29.07.2011_13:54-8] 29.07.2011, Stresstest-Präsentation, 13:54 Uhr, Werner Stohler: "[...] das Modell kennt gute Tage und schlechte Tage [...]"

[9] U. Martin et al., "Vergleich der Leistungsfähigkeiten und des Leistungsverhaltens des neuen Durchgangsbahnhofes (S21) und einer Variante umgestalteter Kopfbahnhof (K21)". In: Landeshauptstadt Stuttgart (Hrsg.): Stuttgart 21 – Diskurs, Stuttgart 2007, S. 2287–2369 (das-neue-herz-europas.de, PDF).

[10] 06.04.2006, Verwaltungsgerichtshof Baden-Württemberg 5. Senat, Aktenzeichen 5 S 848/05 (landesrecht-bw.de)

[11] 29.10.2010, 2. Tag der Faktenschlichtung, ab 15:18 Uhr, Ingulf Leuschel

[12] 12.03.2011, stuttgarter-zeitung.de, "Bundesamt hält Fildertrasse für grenzwertig"

[13] 29.07.2011, Stresstest-Präsentation, 16:40 Uhr, Dr. Volker Kefer

[14] 29.07.2011, Stresstest-Präsentation, .... Uhr (vormittags), Dr. Volker Kefer

[15] 29.07.2011, Stresstest-Präsentation, .... Uhr (vormittags), Dr. Volker Kefer

[16] 29.10.2011, Faktenschlichtung, Foliensatz Ingulf Leuschel S. 3, 4, 5

[17] Handbuch Railsys, S. 327 / Bl. 349 u.v.m.

[18] 30.11.2010, Schlichterspruch Heiner Geißlers, 17:22 Uhr

[19] 29.07.2011, Stresstest-Präsentation, 13:51 Uhr (s.a. 14:04 Uhr), Werner Stohler, CEO von SMA

[20] 29.07.2011, Stresstest-Präsentation, .... Uhr, Dr. Volker Kefer

[21] 29.07.2011, Stresstest-Präsentation, 13:54 Uhr, Werner Stohler

[22] 29.07.2011, Stresstest-Präsentation, 17:47 Uhr, Dr. Volker Kefer

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]