Stuttgart 21/Stresstest/Richtlinienverstöße
Im Schlichterspruch zum Stresstest war die Anwendung "anerkannter Standards des Bahnverkehrs" gefordert worden. Eine solche weiter gefasste Prüfung der Prämissen des Stresstests auch im Vergleich zu internationalen Standards fand nicht statt. Es wiegt deshalb besonders schwer, dass sich in den Details der Durchführung des Stresstests zu Stuttgart 21 sogar eine Reihe von Verstößen gegen Bahn-Richtlinien finden. Besondere Bedeutung kommt dabei der Richtlinie 405 "Fahrwegkapazität" zu. Selbst diese Richtlinie ist argumentativ nicht geschlossen, da sie an vielen Stellen auf die Unter-Richtlinie 405.0105 "Theoretische Grundlagen" verweist, die noch nicht vorliegt.
Es wird eine unglaubliche Fülle an Richtlinienverstößen gezählt, aktuell allein 11 KO-Kriterien (Stand 13.11.2013), von denen jedes für sich genommen den Stresstest ungültig macht. Es stellt sich die Frage, wie das passieren konnte und ob aus Fahrlässigkeit oder Vorsatz. Die Bahn selbst gibt die Antwort, offenbar war sie schon früh selbst nicht davon überzeugt, dass der Stresstest unter regulären Bedingungen bestanden werden könnte:
- "Während SMA die Prämissen gleich zu Anfang festzurren wollte, wollte die Bahn diese im Prozess anpassen, damit der Stresstest für den Tiefbahnhof mit 49 Zügen auch bestanden werde." (Stuttgarter Zeitung, 21.06.2011)[1]
Es war also von der Bahn offen angekündigt worden, dass die Prämissen (die weitgehend von Richtlinien festgelegt sind) auf das gewünschte Stresstest-Ergebnis hin "angepasst" werden würden. Das erklärt die zahlreichen Richtlinienverstöße.
– schwerer Mangel oder Nachteil
– KO-Kriterium
– KO-Kriterium im öffentlichen Fokus
Richtlinien-Verstöße
Richtlinien-Verstöße, Methode
Regelwidrige Grenzen für Betriebsqualität
Betriebsqualität aus gekappter Streckenauswertung
Betriebsqualität allein aus Verspätungsveränderung
Betriebsqualität von Haltezeitverkürzung überlagert
Sensitivitäten kein Ersatz für Vollsimulation
Finaler Simulationslauf auch unvollständig
Test nur im Vergleich aussagefähig
Stresstest-Dokumentation nicht nachvollziehbar
Keine Belegungsgrade
Simulation nach ungültiger Prozessbeschreibung
Keine Modellzug-Spezifität
Richtlinien-Verstöße, Parameter
Kein Stress im Test
Haltezeitverlängerungen gekappt
Fahrzeitüberschüsse voll verwendet
Inhaltsverzeichnis
- 1 RICHTLINIENVERSTÖSSE, METHODE
- 2 Regelwidrige Ermittlung der Betriebsqualität
- 3 Sensitivitäten kein Ersatz für Vollsimulation
- 4 Simulation nur im Vergleich aussagefähig
- 5 Abschlussdokumentation nicht nachvollziehbar
- 6 Belegungsgrade wurden nicht ermittelt
- 7 Test des Fahrplans oder der Infrastruktur?
- 8 Keine modellzugspezifische Verspätungsveränderung
- 9 Stresstest-Simulation auf Basis ungültiger Prozessbeschreibung
- 10 RICHTLINIENVERSTÖSSE, PARAMETER
- 11 Kein Stress im Test
- 12 Mangelhafte Berücksichtigung von Urverspätungen
- 13 Gekappte Haltezeitverlängerungen
- 14 Fahrzeitüberschüsse voll im Verspätungsabbau
- 15 Usw, usf.
- 16 Einzelnachweise
RICHTLINIENVERSTÖSSE, METHODE
Regelwidrige Ermittlung der Betriebsqualität
Regelwidrige Qualitätsgrenzen im Stresstest
Im Stresstest wurde vollkommen freihändig und verfälschend eine neue Qualitätseinstufung als Collage aus Versatzstücken der Richtlinie zusammengesetzt. Dabei wurden die tatsächlichen quantitativen Grenzen um eine Stufe verschoben und teils fälschlich auf den ganzen Auswerteraum bezogen.In der im Stresstest gegebenen Definition für die Betriebsqualität (Abbildung rechts, Doku. Teil 1 S. 23) wurden zwei unterschiedliche Passagen der Richtlinie 405 zusammenkopiert. Dies erfolgte aber unter Auslassung wesentlicher Einschränkungen und indem ein falscher Bezug hergestellt wurde. Tatsächlich reicht der "wirtschaftlich optimale" Bereich nicht bis 1,0 Minuten Verspätungsaufbau, sondern nur bis 0,0 Minuten Verspätungsaufbau. Bis 1,0 Minuten folgt der "risikobehaftete" Qualitätsbereich. Diese Einstufung gilt außerdem nur für Teilstrecken nicht für das Gesamtnetz oder Mittelwerte von Strecken.
Die Richtlinie gibt also keine Qualitätsgrenzen von 30 oder 60 Sekunden Verspätungsaufbau für die Mittelwerte aller Zuläufe oder Abläufe oder des Gesamtraums vor, wie von der Bahn dargestellt. Diese Interpretation, dass der Verspätungsabbau bspw. der 8 und 9 Sekunden auf den Zu- und Ablaufstrecken in der Grundversion sich mit einer Verspätungsgrenze von 1 Minute für das Ende des "wirtschaftlich optimalen" Bereichs vergleicht, hat auch der Projektleiter bei der Bahn in den Prämissengesprächen erläutert.[2] Die SMA hat dies auch so verstanden (Audit SI-08 S. 14 / Bl. 199) und auch z.B. Boris Palmer[3].
Für die großen räumlichen Einheiten des Auswerteraums oder der Mittelwerte der Zu- bzw. Ablaufstrecken, ist die Vorgabe der Richtlinie jedoch rein qualitativ (Richtlinie 405.0104 S. 6 / Bl. 94; Hervorhebungen durch WikiReal):
Summe Folgeverspätungen / Verspätungsveränderung | Bewertungsstufen der Betriebsqualität |
---|---|
nur geringe Folgeverspätungen (außerplanmäßige Wartezeiten); Sofern Zeitreserven* zur Verfügung stehen können diese genutzt werden, so dass sich die Gesamtsumme der Verspätungen zwischen Einbruch und Ausbruch deutlich verringert (Verspätungsabbau*). | Premiumqualität |
Summe der Folgeverspätungen (außerplanmäßige Wartezeiten) noch akzeptabel. Sofern Zeitreserven* zur Verfügung stehen, können die Folgeverspätungen im Mittel kompensiert werden, die Gesamtsumme der Verspätungen bleibt annähernd gleich bzw. ändert sich nicht signifikant.* | wirtschaftlich optimal |
Summe der Folgeverspätungen (außerplanmäßige Wartezeiten) steigt erheblich, Im Falle vorhandener Zeitreserven* reichen diese nicht aus, die Folgeverspätungen zu kompensieren. Die Summe der Verspätungen steigt zwischen Einbruch und Ausbruch deutlich an(Verspätungszuwachs). | risikobehaftet |
Verspätungssumme steigt zwischen Einbruch und Ausbruch stark an | mangelhaft (nicht marktgerecht) |
Die Darstellung der Stresstest-Dokumentation basiert im Grundgerüst auf dieser Definition. Die rot hinterlegte wiederholte entscheidende Einschränkung durch die Fußnote, dass nur ein Teil der Wartezeiten und Zeitzuschläge verwendet werden kann, fehlt jedoch. Und gerade hier beging die Bahn einen weiteren Regelverstoß bezüglich der Fahrzeitüberschüsse.
Die Stresstest-Definition wurde um einen quantitativen Zusatz mit Minutengrenzen ergänzt. Er stammt aus der Erläuterung der Kenngröße Verspätungsveränderung (Richtlinie 405.0104 S. 20 / Bl. 108; Hervorhebungen durch WikiReal):
Für den Verspätungszuwachs gilt vorläufig folgender Rahmen (für Personenverkehr auf Mischbetriebsstrecken)
• Als Optimum gilt:
zul tVz = 0,0 [min] im Mittel über alle SPV-Züge. D.h. Die mittlere Verspätung soll im Untersuchungsbereich (Auswerteraum) möglichst nicht ansteigen. Ein Verspätungsaufbau kann auf Abschnitten ggf. dann zugelassen werden, wenn entsprechende Abbaumöglichkeiten in den benachbarten Netzelementen bestehen.
• Als noch akzeptabel gilt eine mittlere Verspätungsveränderung (Zuwachs) von:
zul tVz = 1,0 [min] im Mittel über alle SPV-Züge auf einer Folge von Netzelementen (Strecke, Teilnetz),
zul tVz = 0,5 [min] im Mittel über alle SPV-Züge in Bahnhofsköpfen. Diese Werte liegen somit an der Grenze zum mangelhaften Bereich.
Wieder bezeichnen die rot hinterlegten Passagen die Auslassungen bei der Übernahme in die Definition der Betriebsqualität des Stresstests. Dieses Zusammenstückeln der beiden Richtlinien-Texte ist sinnentstellend und im Ergebnis werden die Qualitätsstufen der Betriebsqualität um eine Stufe verschoben für eine erleichterte Zielerreichung im Stresstest. Dabei wird mit Auslassung und äußerst trickreich mit falschen Bezügen gearbeitet:
Verspätungsverhalten der Infrastruktur |
Betriebsqualität nach Richtlinie 405 bis 12.2007 |
Betriebsqualität nach Richtlinie 405 ab 01.2008 |
Betriebsqualität im Stresstest (falsche Minutengrenzen) |
---|---|---|---|
Verspätungsabbauend | gut | Premiumqualität | Premiumqualität |
Verspätungserhaltend | befriedigend | wirtschaftlich optimal | |
Verspätungssteigernd | — | risikobehaftet | wirtschaftlich optimal |
Stark verspätungssteigernd | mangelhaft | mangelhaft | risikobehaftet |
- In der Stresstest-Dokumentation wurde insbesondere nicht der letzte Zusatz zitiert, dass die angeführten Werte schon die Grenze zum "mangelhaften" Qualitätsbereich markieren. Das ist zwei Stufen schlechter als "wirtschaftlich optimal", noch schlechter als "risikobehaftet" (siehe oben).
- In der Stresstest-Dokumentation wurde der erste Punkt nicht mitzitiert (rot), d.h. dass die Grenze für "Optimum" bei "0,0" Minuten im gesamten Auswerteraum liegt. Nachdem im Folgepunkt nur eine weitere Grenze definiert wurde, an der "somit" der mangelhafte Bereich beginnt, lässt dies nur den Schluss zu, dass die 0 Minuten die Obergrenze für "wirtschaftlich optimal" darstellen. Diese Einstufung ist mit der vorausgehenden qualitativen Einstufung verträglich, da ja "Premium" einen "deutlichen" Verspätungsabbau bedeuten soll. D.h. die "wirtschaftlich optimale" Betriebsqualität verlangt Verspätungsabbau, der jedoch nicht "deutlich" ausfallen muss, maximal ist Verspätungserhaltung zulässig.
- Hier ist zu beachten, dass die Bahn suggestiv und unzulässigerweise den zweimal auftauchenden Begriff "noch akzeptabel" in Beziehung gesetzt hat. Das erste "noch akzeptabel" aus der qualitativen Definition bezeichnet jedoch die "Summe der Folgeverspätungen" die aber im Mittel (zwischen Einbruch und Ausbruch) vom Verspätungsabbau kompensiert werden sollen. Das zweite "noch akzeptabel" aus der Detaildefinition bezeichnet jedoch den Wert, der für eine "risikobehaftete" Einzelstrecke noch akzeptabel ist, bevor der "mangelhafte" Bereich beginnt.
- In der Stresstest-Dokumentation wurde insbesondere nicht darauf hingewiesen, dass diese Werte eben nicht für eine Mittelung über alle Zulauf- oder alle Ablaufstrecken sowie nicht für den gesamten Untersuchungsbereich gelten, insbesondere nicht für Zulaufstrecke plus Bahnhof mit Halt plus Ablaufstrecke. Die Grenzwerte gelten ausdrücklich nur für Teilstrecken und Bahnhofsköpfe.
- Dass die Bahn und auch SMA wiederholt die Sekundenwerte dieser Strecken-Mittelwerte mit der Minutengrenze der Qualitätsdefinition in Beziehung setzte ist unzulässig und führte die Öffentlichkeit in die Irre. In den Grafiken hätte per Fußnote darauf hingewiesen werden müssen, dass bspw. die 8 bis 9 Sekunden Verspätungsabbau nichts mit dem Qualitätsprädikat und der Qualitätsgrenze von 30 oder 60 Sekunden zu tun haben.
- Allenfalls hätte eine Aussage dargestellt werden dürfen, dass X % der Zulaufstrecken, betreffend Y % der Züge, im Zulauf "wirtschaftlich optimal" erhalten, etc. Tatsächlich hat die Bahn aber auch in der Qualitäts-Bewertung der einzelnen Strecken unsauber gearbeitet, indem bei kritischen Strecken das Prädikat nur für den Abschnitt erteilt wurde, der noch "optimal" ausfiel, die Gesamtstrecke, die "mangelhaft" ergeben hätte, wurde nicht bewertet (Folgeabsatz).
- Diese Teilelemente des Systems wären dann (den Beispiel-Auswertungen der Richtlinie folgend) in einer graphischen Auswertung entsprechend ihrer Qualität einzeln farblich zu kennzeichnen (Richtlinie 405.0205A01 S. 5 / Bl. 235).
- In der Qualitätsdefinition der Stresstest-Dokumentation ist zwar die Formulierung "in Bahnhofsköpfen" korrekt übernommen worden. Dennoch wurde nie, insbesondere bei dem verschiedentlichen Bezug auf die 30 Sekunden-Verspätungsgrenze in den "freiwilligen" Zusatzprüfungen eine Prüfung der tatsächlichen Bahnhofsköpfe vorgenommen, sondern vielmehr ein großer Anteil Alt-Zulaufstrecke zum Abpuffern der Verspätungen genutzt.
- Die tatsächliche Auswertung der Bahnhofsköpfe hätte weit unvorteilhaftere Werte für den Verspätungsaufbau geliefert, z.B. von +24 Sek. für die Züge aus Horb nach Stuttgart (Doku Teil 2 S. 89 / Bl. 28), nahe der Grenze zu "mangelhaft" bei +30 Sek. – und das schon in der viel zu optimistischen Grundvariante. Ein Wert deutlich verschieden von den 8 Sek., dem Mittelwert der Bahn für die Zuläufe.
Dort wo die Einzelstrecken bewertet werden, in der sogenannten freiwilligen Zusatzprüfung, hatte die Bahn in der Darstellung des Verspätungsaufbaus nach Linien in mehreren Fällen nicht die ganze Strecke bewertet, sondern die Strecke exakt nur soweit betrachtet, solange sie noch "wirtschaftlich optimal" erschien, wie in den mittleren Säulen dargestellt (Doku. Teil 2 S. 93, 96, 98, 100, 106 / Bl. 32, 35, 37, 39, 45). Zum Beispiel auf der Linie 1 / 11 Horb Hessental bricht die Qualitätsermittlung ab Stuttgart in Murrhardt ab und erreicht mit 48 Sekunden Verspätungsabbau noch "wirtschaftlich optimal", dabei wäre die gesamte Strecke bis Hessental mit 3 Minuten 8 Sekunden weit jenseits der Qualitätsgrenze. In der anderen Richtung, auf der vorausgehenden Seite, wird sehr wohl die gesamte Strecke Horb-Stuttgart bewertet, die auf diese Art ein sattes Premium-Prädikat erhält (Doku. Teil 2 S. 92, 93 / Bl. 31, 32). Diese Willkür wird weder von der Bahn noch vom Auditor SMA begründet und es ist nicht zu erkennen, wie sie gerechtfertigt werden könnte. Werden die Strecken bis zum Ende bewertet, reichen sie teilweise weit in den "risikobehafteten" (entspr. den Stresstest-Qualitätsstufen) Bereich. Tatsächlich reichen sie weit in den "mangelhaften" Bereich.
Entsprechend der Richtlinie müssen Bahnhofsköpfe strenger bewertet werden. Hier beginnt der mangelhafte Bereich schon bei 30 Sekunden. Es wurden die Auswertungen des Schienenpersonenverkehrs aus der Dokumentation S. 69 bis 84 (Teil 2 Bl. 8 bis 23) herangezogen, um die mittlere Verspätungsveränderung beim Zulauf in die Bahnhofsköpfe zu ermitteln. Dabei wurde mit den Zugzahlen gewichtet und der Rückstau in vorangehende Netzelemente berücksichtigt. Der nordöstliche Bahnhofskopf wirkt für den Zulauf aus Obertürkheim verspätungsabbauend. Die anderen Bahnhofsköpfe liegen sämtlich deutlich im risikobehafteten Bereich. Dies sind alles Daten der "Grundversion" der Simulation mit durchgehend zu optimistischen Parametern und selbst hier erscheint der Bahnhof als klar überlastet.
Die SMA übernahm die falsche Grenzwert-Festlegung für die Betriebsqualität offenbar ohne kritische Prüfung inklusive aller Fehler (Audit SI-07 S. 2 / Bl. 176, SI-08 S. 14 / Bl. 199). Durch die Aufklärung der Fehlinterpretation von "wirtschaftlich optimal" ist nun klar, dass diese Qualitätsstufe oberhalb des "deutlichen" Verspätungsabbaus der "Premium"-Qualität anzusetzen ist und bis zu verspätungserhaltendem Verhalten reicht. Nur so macht es Sinn, dass die Bahn "wirtschaftlich optimale" Strecken anstrebt, würden diese alle bis zu 1 Minute Verspätungen aufbauen (wir erinnern uns, Sekundenveränderungen wiegen hier schon schwer), würde das Netz kollabieren. Dass die Richtlinie für den "deutlichen Verspätungsabbau" als Grenze zum Premiumbereich keine quantitative Grenze vorgibt, lässt erkennen, dass die Vermeidung von Premium-Qualität offenbar nicht den Stellenwert hat, den die Projekt-Befürworter in der Stresstest-Präsentation nahelegen wollten.
Die schlichtweg falschen Ergebnis-Darstellungen (deutlicher Verspätungsaufbau bis 1 Minute ist nicht wirtschaftlich optimal) (Doku. S. 67, 112, 132, Audit Bl. 183, Bl. 195, Doku. FS S. 5) wurden durch gezielte Cut- and Paste-Manipulation, Auslassungen und Fehlbezüge (Doku. Teil 1 S. 23), direkte Fehlinformationen (Prämissengespräche) systematisch vorbereitet. Wichtige Fußnoten, die die Annahmen für den Verspätungsabbau einschränken, wurden weggelassen, die Qualitätsgrenzen falsch zugeordnet und die beiden Qualitätsbezugsräume Auswerteraum und Teilstrecke wurden unzulässig vermischt.
Das Vorgehen erscheint nicht fahrlässig, sondern von Vorsatz bestimmt. Auf jeden Fall ist verständlich, warum die Bahn sich bei der Diskussion zu Betriebsqualität und Verspätungsabbau in der Stresstest-Präsentation so bedeckt hielt, während sich stundenlage fruchtlose Diskussionen um dieses Thema drehten. Es stellt sich die Frage, ob die Bahn auch noch andere verspätungsaufbauende Projekte mit ähnlicher Argumentation rechtfertigte. Es bleibt die beruhigende Erkenntnis, dass die Bahn, sofern sie ihren Richtlinien folgt, nicht die Republik mit verspätungsaufbauenden Projekten überziehen kann.
Betriebsqualitäten aus gekappten Streckenauswertungen
Die Bahn hat in der Qualitäts-Bewertung der einzelnen Strecken unsauber gearbeitet, indem bei kritischen Strecken das Prädikat nur für den Abschnitt erteilt wurde, der noch "optimal" ausfiel (bei korrekter Anwendung der Verspätungsgrenzwerte jedoch "risikobehaftet"), die Gesamtstrecke, die "mangelhaft" ergeben hätte, wurde nicht bewertet. In der Gegenrichtung wurde jedoch im Gegensatz dazu die Gesamtstrecke bewertet, um bspw. das "Premium"-Prädikat möglichst deutlich zu erreichen (Doku. Teil 2 S. 92-93, 96-101, 106-109 / Bl. 31-32, 35-40, 45-48). Tatsächlich hätten einige Strecken als "mangelhaft" bewertet und ausgewiesen werden müssen und im Gesamtergebnis hätte ein entsprechender Anteil an "mangelhaften" Strecken dargestellt werden müssen.
Es ist nicht durch die Richtlinie gedeckt und wurde auch nicht von der Bahn oder dem Auditor in irgendeiner Weise gerechtfertigt, dass die Daten nach dem gewünschten Ergebnis "wirtschaftlich optimal" zusammengestellt werden. Dass in der Argumentation für das Projekt Stuttgart 21 selbst auf solche Maßnahmen zurückgegriffen wird, ist entlarvend.
Betriebsqualität allein aus Verspätungsveränderung
→ siehe auch Stuttgart 21/Stresstest/Interpretation#Verspätungsabbau und Betriebsqualität
Richtlinie 405 stellt anspruchsvolle Anforderungen an die Entscheidungsbasis über die in einer Infrastruktur zu erreichende Betriebsqualität:
- "Um einen Qualitätsnachweis zu führen, sind die an den Messpunkten (vgl. Abs. (9)) gewonnenen Qualitätskenngrößen mit Qualitätsmaßstäben zu vergleichen, die i.d.R. aufgrund von Erfahrungswerten und zusätzlichen theoretischen Überlegungen gewonnen wurden." (Richtlinie 405.0104 S. 5 / Bl. 93)
- "Fundierte Entscheidungen sind in der Regel nur auf der Grundlage der komplexen Betrachtung mehrerer Kenngrößen ggf. unter Angabe möglicher Bandbreiten bzw. Wertebereiche zu treffen." (Richtlinie 405.0104 S. 7 / Bl. 95)
- "Aussagen zur Kapazität der Infrastruktur sollten sich nicht nur auf ein einziges Betriebsprogramm bzw. eine einzige Struktur der Leistungsanforderungen und einen einzigen daraus resultierenden Leistungswert stützen. Vielmehr ist es erforderlich, bei solchen Untersuchungen auf Bandbreiten, die sich z.B. aus unterschiedlichen möglichen Entwicklungen der Leistungsanforderungen ergeben können, hinzuweisen. Dazu ist die Berechnung mehrerer Kenngrößen bzw. gleicher Kenngrößen unter unterschiedlichen Randbedingungen sowie von geeigneten Eckwerten sinnvoll" (Richtlinie 405.0104 S. 10 / Bl. 98)
Im Stresstest wurde die Betriebsqualität regelwidrig allein anhand der Kenngröße Verspätungsveränderung ermittelt. Insbesondere bei merklichem Verspätungsabbau (wie durch die hohen Haltezeitverkürzungen im Tiefbahnhof) sowie speziell für die bei Stuttgart 21 geforderte Infrastrukturbewertung sollen laut Richtlinie andere Größen zur Qualitätsbestimmung hinzugezogen werden:
- "Für infrastrukturbezogene Aufgabenstellungen ist sie [die Kenngröße Verspätungsveränderung] jedoch nur bedingt geeignet, da ggf. Verspätungsabbau das Leistungsverhalten von Netzelementen überlagern kann. In diesen Fällen sind weitere Kenngrößen (z.B. infrastrukturbezogene Behinderungen bzw. Wartezeiten) heranzuziehen." (Richtlinie 405.0104 S. 20 / Bl. 108)
D.h. die Beschränkung der Qualitätsbetrachtung auf die eine Größe Verspätungsabbau durch die Bahn im Stresstest zu Stuttgart 21 (Doku. Teil 1 S. 23, Teil 2 S. 67, 112, 132 / Bl. 6, 51, 71) ist nicht richtlinienkonform. Besonders schwerwiegend erscheint die regelwerkswidrige Unterschlagung der Kenngröße Belegungsgrad. Dass entgegen der Forderung der Richtlinie bei hohem Verspätungsabbau und im Falle von Infrastrukturbewertung andere Kenngrößen wie "infrastrukturbezogene Behinderungen" bzw. "Wartezeiten" nicht herangezogen wurden, folgt mutmaßlich der gleichen Motivation, wie die Unterschlagung der Belegungsgrade: Die Inkonsistenz der Darstellung würde zu offensichtlich werden.
Haltezeitverkürzung überlagert die Betriebsqualität
Im Stresstest wurde die Haltezeitverkürzung im Hauptbahnhof extrem zum Verspätungsabbau genutzt. Im letzten Richtlinienzitat des vorausgehenden Absatzes (Richtlinie 405.0104 S. 20 / Bl. 108) wurde klar, dass ein solch ausgeprägter Verspätungsabbau "das Leistungsverhalten von Netzelementen überlagert", d.h. verfälscht. Damit sind die Ergebnisgrafiken in der Abschlussdokumentation der Bahn (Doku. Teil 2 S. 67, 112, 132 / Bl. 6, 51, 71), die in der Summe über die Zulaufstrecken, die Haltezeitverkürzung im Hauptbahnhof und die Ablaufstrecken eine Premium-Qualität nahelegen, unzulässig, zumindest solange keine Fußnote belegt, dass das Prädikat auch aus anderen Gründen erteilt werden kann.
Dies könnte auch erklären, warum die Bahn im Abschlussbericht keine entsprechende textliche Schlussbeurteilung in ihren Bericht aufnahm, und ist wohl auch der Hintergrund der Äußerung eines Bahnvertreters in der Prämissen-Sitzung vom 19.07.2011, dass die Haltezeitverkürzung im Hauptbahnhof "nicht entscheidungsrelevant" sein könne.[5] Hier kommt natürlich hinzu, dass in Stuttgart der Fahrgastwechsel 80 bis 90 % beträgt. So kommt die Haltezeitverkürzung im Hauptbahnhof nur dem kleineren Teil der 10 bis 20 % durchfahrenden Passagiere zugute. Die Bahn hielt sich in der Stresstest-Präsentation in dieser Frage auffällig zurück und überließ den Laien-Vertretern der Befürworterseite die Argumentation, dass ja die Haltezeitverkürzung im Hauptbahnhof die Premium-Qualität begründen würde (.... Quelle).
In den Ergebnis-Darstellungen wird überdeutlich, dass der Verspätungsabbau von dem anerkanntermaßen hohen Verspätungsabbau durch die Haltezeitverkürzungen im Hauptbahnhof wesentlich bestimmt wird. Die Richtlinie stellt klar, dass dies die ermittelte Betriebsqualität der Netzelemente "überlagert" also verfälscht. Damit sind die Stresstest-Ergebnisse nicht belastbar, wenn sie allein aus Verspätungsveränderungen begründet werden.
Sensitivitäten kein Ersatz für Vollsimulation
Die Berechnung einer "Sensitivität" wie auch der "Finale Simulationslauf" der letzten verbliebenen Fehler besteht nur aus einzelnen oder max. wenigen Läufen des Simulationsmodells mit teilweise veränderten Parametern. Ein solcher Simulationslauf ist kein Ersatz für eine Vollsimulation von 100 Tagen unter Anpassung aller Parameter auf realistische Werte. Diesen Simulationsläufen fehlt einerseits die statistische Basis andererseits ist die gegenseitige Verstärkung der Einflussparameter nicht abgebildet.
Für den finalen Simulationslauf liegen die folgenden Dokumente vor, auf die in der in Klammern angegebenen Kurz-Zitierung referenziert wird:
- 10.10.2011, bahnprojekt-stuttgart-ulm.de, Bahn: Stesstest Stuttgart 21 Abschlussbericht (Doku. FS)
- 10.10.2011, bahnprojekt-stuttgart-ulm.de, SMA: Audit Finaler Simulationslauf (Audit FS)
- 10.10.2011, bahnprojekt-stuttgart-ulm.de, SMA: Anpassungen für finalen Simulationslauf (Anpassungen FS)
Die Sensitivitäten sind laut Aussage der Bahn (... Quelle) kein vollständiger Stresstest (mit 100 simulierten Betriebstagen). Der finale Simulationslauf besteht aus drei simulierten Tagen (Audit FS S. 7). Solche Sensitivitäten sind hilfreich für den Bediener des Modells, um vor Planung eines neuen kompletten Simulationslaufs ein Gefühl für die Auswirkung einzelner Parameter-Änderungen zu bekommen oder um Fehler im Modell aufzuspüren.
Sensitivitäten oder Einzelläufe sind jedoch nicht in Richtlinie 405 vorgesehen, schon gar nicht als Ersatz für eine Vollsimulation. Einerseits fehlt ihnen die statistische Basis der notwendigen 100 simulierten Tage zur Erlangung einer gültigen Aussage und andererseits erlaubt die Richtlinie auch nicht, stichprobenartig nur einzelne Parameter auf realistischere Werte zu setzen. Eine Simulation muss durchgehend mit realistischen Parametern (deren Realitätsnähe einzeln geprüft und nachgewiesen sein muss) und über die vollen 100 Tage durchgeführt werden, um eine belastbare Aussage zu erhalten. Es ist deshalb nicht nachvollziehbar, wie die SMA verschiedentlich "Sensitivitäten" zu einzelnen Mängeln als Abschluss der Untersuchung empfiehlt, die sie dann auch noch irrational und inkonsequent bewertet.
Sensitivitäten ohne statistische Basis
Eine Sensitivität kann in keiner Weise eine Vollsimulation ersetzen, da die Statistik des Ergebnisses vollkommen unzureichend ist. Eine solche Sensitivität ist erheblich beeinflusst von dem spezifischen Satz von Zufallsparametern, d.h. ob ein guter oder ein schlechter Tag für die Sensitivität gerechnet wurde. Richtlinie 405 schreibt "möglichst" 100 Simulationsläufe vor, um mittels einer "ausreichend großen Grundgesamtheit" ein Minimum an statistischer Signifikanz der Ergebnisse sicherzustellen:
- "Während analytische Methoden grundsätzlich als Mittelwert zu interpretierende Ergebnisse liefern, werden bei Simulationen zunächst Einzelwerte bereitgestellt, die nachträglich entsprechend ausgewertet werden, in der Regel Mittelwerte und ggf. Streuungen. Dafür ist eine ausreichend große Grundgesamtheit von Einzelwerten erforderlich. Nach Möglichkeit sollten möglichst 100 Simulationsläufe durchgeführt werden." (Richtlinie 405.0205 S. 3 / Bl. 229)
Ein einzelner oder wenige Simulationsläufe wie für die Sensitivitätsbetrachtungen, können höchstens eine Indikation liefern über die Größenordnung der Auswirkung einzelner Parameter-Veränderungen. Um einen Nachweis zu erbringen, müssen alle Parameter auf realistische Werte gesetzt werden und im Minimum die vollen 100 Tage simuliert werden.
Sämtliche Zufallsparameter der 100 zu simulierenden Tage wurden mit ihren Verspätungsverteilungen an den Einbruchstellen und den Haltezeitverlängerungen zu Beginn des Stresstests festgelegt (Audit SI-03 S. 1 / Bl. 147 Fußnote 2). SMA-Chef Stohler stellte in der Stresstest-Präsentation klar, dass es bei den 100 Simulationsläufen "gute und schlechte Tage" gibt.[6] Es braucht also nur ein "guter Tag" gewählt zu werden und so lassen sich auch erschwerte Bedingungen verkraften.
Dies ist auch das Problem, warum die Berechnung einer weiteren Sensitivität mit der Korrektur einzelner Fehler in der Nachsimulation ohne jede Aussagekraft für die Frage ist, ob Stuttgart 21 in Zukunft die geplante Leistung erbringen kann.
Sensitivitäten und Nichtlinearität
Sensitivitäten haben einerseits keine Aussagekraft wegen der nicht ausreichenden statistischen Basis. Andererseits wurden im Stresstest und auf Anforderung von SMA nur einzelne oder wenige Einzelparameter verändert, die jeweils kleinere und noch 'verkraftbare' Verschlechterungen des Systems verursachten. Wenn einzelne Korrekturen verkraftet werden, heißt das nicht, dass sie auch noch in Summe verkraftet werden, da sie sich gegenseitig verstärken.Die Leistungsfähigkeit eines Bahnhofs ist ein hoch-nichtlineares Problem. Das heißt nichts anderes, als dass beispielsweise bei hoher Belastung die Qualität des Bahnhofs immer schneller zurückgeht, da die Verspätungen sich gegenseitig verstärken. Dies wird in der nebenstehenden Abbildung schematisch gezeigt, angelehnt an die unten folgende Berechnung von Prof. Martin zu Stuttgart 21. Dargestellt ist auf der x-Achse die Leistung bzw. Auslastung des Bahnhofs in Zügen pro Stunde und rechts dieser Wert multipliziert mit der mittleren Geschwindigkeit der Züge, einem Maß für die Qualität (Verspätungen), dies ergibt die sogenannte Beförderungsenergie.
Die maximale Leistung bei noch vertretbarer Qualität finden wir im Maximum oder etwas rechts davon. Sollen hier noch ein paar Züge mehr im Bahnhof abgefertigt werden, sinkt die Qualität, anfangs in einem evtl. noch vertretbaren Maße, evtl. während einer kurzen Belastungsspitze. Wer von der prozentualen geringen Qualitätseinbuße schließt, dass auch noch ein zweites Paket von Zusatzzügen verkraftet werden könnte, irrt. Der Bahnhof ist bei dieser Belastung schon komplett zusammengebrochen. Das ist das Problem der Nichtlinearität, Belastungsfaktoren können nicht addiert werden.
Verschärfen wir die Parameter, die der Bahnhofsleistungskurve zugrunde liegen und halten die gewünschte Zugleistung konstant, dann zieht sich die Kurve nach links unten zurück. Hier würde die erste Parameterverschlechterung unseren Zielpunkt sinken lassen, die zweite hätte ihm ebenso beschleunigt wie im vorigen Fall den Boden unter den Füßen entzogen.Konkret auf den Stresstest bezogen stellt sich die Situation wie folgt dar. Die am weitesten nach rechts reichende Kurve ist die Originalkurve aus dem Gutachten von Prof. Martin[7], mit dem vor dem Verwaltungsgerichtshof "nachgewiesen" wurde[8], "der achtgleisige Durchgangsbahnhof sei ausreichend und zukunftssicher bemessen". Das Gutachten von Prof. Martin ist aus heutiger Sicht zu optimistisch, da es nicht die Zu- und Ablaufstrecken voll berücksichtigte und bspw. im Regionalverkehr mit Mindesthaltezeiten von 1 Minute arbeitete.
Die Kurve für die Parameter der Grundversion des Stresstets müsste etwas geschrumpft angenommen werden. Die Sensitivitäten zeigen, dass jede Parameterverschlechterung schon eine deutliche Verschlechterung der Qualität bringt, so dass die 49 Züge sich auf dem Abhang rechts vom Maximum befinden müssen. Grob geschätzt haben wir durch die Verschärfung der Parameter im Stresstest gegenüber der Simulation von Prof. Martin eine Leistungseinbuße von etwa 12 % angenommen. Die 57 Züge, auf die die Bahnhofsleistung im Falle des S-Bahn-Notfallkonzepts steigt, befinden sich schon in einem äußerst kritischen Teil des Graphen, in dem kein fahrbarer Betrieb mehr anzunehmen ist.
Mit jeder Parameter-Verschlechterung zieht sich die Kurve weiter nach links unten zurück. Immer schneller wird den angepeilten 49 Zügen der Boden unter den Füßen entzogen. Für ein besseres Verständnis soll versucht werden, den Vorgang in einer bildhaften Sprache zu beschreiben: Die einzelnen Sensitivitäten entsprechen immer wieder einem vorsichtigen Schritt von der Bergkuppe hangabwärts. Die Berücksichtigung aller Korrekturen würde mehrere Schritte bedeuten und damit den Absturz.
Wenden wir nun für das Beispiel die Korrektur einer ganzen Reihe von Parametern des Stresstests auf realistische Werte an, in Summe etwa um 33 % (zu vergleichen mit der abgeschätzten aktuellen Leistungsreduktion bei Korrektur der Fehler im Stresstest von 34 %, Stand 18.10.2011), erhalten wir eine maximale Leistung des Bahnhofs von 33 Zügen. Die 49 Züge sind schon lange nicht mehr fahrbar.
Wegen der hohen Nichtlinearität ist es eben nicht seriös, zu argumentieren, dass die eine Korrektur nur geringfügig ausfallen würde und die andere auch, und dass hier nur eine Sekunde fehlt und dort nur ein Prozent. Die Qualitätseinbußen verstärken sich gegenseitig, so dass mehrere kleine Korrekturen nicht mehr tolerierbar sind, sondern vielmehr schon längst den Kollaps des Gesamtsystems herbeigeführt haben können.
Wegen der mangelnden statistischen Basis und wegen der notwendigen Berücksichtigung der Wechselwirkung aller Parameter ist jede Argumentation aufgrund einer "Sensitivität" (ob eine bestimmte Parameter-Verschlechterung noch verkraftet wird) ohne jede Beweiskraft. Aus diesem Grund schreibt die Richtlinie die Vollsimulation von 100 Tagen mit allen auf realistische Werte eingestellten Parametern vor. Nichts anderes könnte einen "Nachweis" erbringen.
Auch die Nachsimulation könnte nur bei Korrektur aller Parameter, nicht nur der von SMA erkannten Fehler, sondern nach Korrektur sämtlicher unrealistischer Größen und bei Vollsimulation über 100 Tage einen "Nachweis" erbringen.
Sensitivitäten und Teilkorrekturen
Aufgrund der Nichtlinearität des Problems ist die Korrektur von Einzelparametern ohne Aussage für das Gesamtergebnis. Die Sensititäten adressierten aber jeweils nur einzelne Parameter, die Parameteränderungen anderer Sensitivitäten bleiben außen vor (siehe auch die kommentierte Übersicht der Sensitivitäten):
Sensitivitätsberechnungen: / Realistischere Parameterwerte: |
Grund- version (Vollsim.) |
75% der Fahrzeit- übersch. |
ohne Güter- verkehr |
Auswerte- zeitraum 7-8 Uhr |
Daten- modell 15. Juli |
Finaler Simula- tionslauf |
Nachweis (Vollsimul. 100 Tage) |
---|---|---|---|---|---|---|---|
(Doku. S. 67) |
(Doku. S. 112) |
(Doku. S. 132) |
(Audit Bl. 183) |
(Audit Bl. 195) |
(Doku. FS S. 5) |
||
Datenmodell vom 21.06.2011 | 15.07.2011 | 08.09.11 | |||||
75 % Fahrzeitüberschüsse | |||||||
Auswertezeitraum | |||||||
Abfertigungszeiten | |||||||
Verläng. S-Bahn Haltez. | |||||||
Haltez., Takte, Verknüpf. etc. | |||||||
Realistische Spitzenstunde | |||||||
Realist. Verspätungsspitzen | |||||||
Sonstige Korrekturen | |||||||
Verspätungsänd. Zu-/Ablauf | — | +11 Sek. | -25 Sek. | +25 Sek. | +3 Sek. | +2 Sek. | |
Zugzahl bzw. Differenz* | 49 | -2,8 | (sinnlos) | -6,4 | -0,8 | -0,5 | 32 (?) |
Die Tabelle gibt eine Übersicht über die durchgeführten Sensitivitätsrechnungen und welche Parameter jeweils in Richtung realistischerer Werte korrigiert wurden. Dabei erreichte die Korrektur häufig nicht einmal ganz das realistische Niveau. Es wird der grundlegende Fehler begangen, dass jeweils die anderen Parameter unkorrigiert bleiben. Ein Nachweis einer Leistungsfähigkeit könnte aber nur bei Korrektur aller Parameter auf ein möglichst realistisches Niveau erbracht werden.
Der mittlere Verspätungsabbau in den Zu- und Abläufen liefert eine Abschätzung, um wieviel weniger Züge der Bahnhof bei Korrektur dieses Fehlers verkraften würde, wenn er dieselbe Qualität erreichen soll. Die Eichung dieser Entsprechung wurde mit der Sensitivität zum eingeschränkten Auswertezeitraum von 7-8 Uhr vorgenommen. In dieser Sensitivität liegt der Verspätungsaufbau um 25 Sekunden pro Zug über dem der Grundversion. Dort ist die Belastung aufgrund der schwach verspäteten Stunde am 6 Uhr und aufgrund dessen, dass im Stresstest auch ab 8 Uhr viel zu wenig Züge angenommen wurden, um rund 13 % geringer. Diese geringere Last entspricht 6,4 Zügen gemessen an den 49 Zügen des Stresstests.
Die Macher des Stresstests und des Audits müssen sich eigentlich die Augen reiben, dass sie damit davon kommen. Sie setzten wiederholt nur einzelne Parameter auf (dann auch nur annähernd) realistische Werte und stellten dabei oft schon gravierende Verschlechterungen fest. Dennoch wurde geschlossen, dass das System bei Korrektur aller Werte wohl noch stabil bliebe!?
Das ist eine Milchmädchenrechnung ganz im Stil der Einlage in der Faktenschlichtung zur Fahrbarkeit der Fildertrasse.[9] Dort findet sich eine einzigartige Ballung von sechs schwerwiegenden Engpässen. Dass dies beherrschbar sei, wurde mit dem Verweis auf ähnliche Zwangspunkte an anderen Stellen Mitteleuropas begründet. Ist denn zu glauben, dass das, was einzeln woanders (noch) beherrscht wird, hier in sechsfacher Vervielfachung noch fahrbar ist? Sogar das Eisenbahnbundesamt hält diese Planung für "extrem grenzwertig" und für so "auf keinen Fall fahr- und planbar".[10] Die gleiche Situation liegt beim Stresstest mit den einzelnen Sensitivitäten vor.
Ein anschauliches Bild zur Verdeutlichung
Man stelle sich vor, die Kapazität der Rettungsboote der Titanic soll durch den Eigner nachgewiesen werden. Jedes dieser Boote soll 49 Personen aufnehmen können, tatsächlich trägt es aber nur 32. Der Eigner muss sich einem Test unterziehen, also befüllt er die Boote mit 49 Kindern, der Test wird bestanden. Der Auditor bemängelt, dass die Kinder nicht ausgewachsenen Personen entsprechen. Also werden zwei Kinder durch Erwachsene ersetzt. Das Boot fängt an gefährlich zu schwanken und nimmt schon etwas Wasser auf. Der Auditor ist zufrieden und testiert, es können 49 Personen gerettet werden – Erwachsene und Kinder.
Der Stresstest wurde nur mit unrealistischen Parametern durchgeführt. Bei den einzelnen Sensitivitäten wurden dann nur einzelne Parameter auf realistische Werte gesetzt (die anderen aber nicht). Das Rettungsboot beweist seine Tragkraft erst mit 49 Erwachsenen. Dann ginge es aber unter und Stuttgart 21 würde kollabieren.
Finaler Simulationslauf liefert keinen Nachweis
Die SMA beendet ihren Schlussbericht mit der folgenden Empfehlung:
- "Weiter empfehlen wir, die in den Steckbriefen beschriebenen Unstimmigkeiten und kleineren Fehler zu beheben und zur Bestätigung des Gesamtresultates einen weiteren Simulationslauf durchzuführen und zu veröffentlichen." (Audit Schlussber. S. 10 / Bl. 16)
Dr. Kefer sagte einen solchen zusätzlichen Simulationslauf zu, aber nur für die von SMA benannten verbliebenen Fehler. Die Ergebnisse sollen im Internet veröffentlicht werden.[11]
Die Bahn gibt zum Finalen Simulationslauf noch deutlich weniger Informationen als zur Grundsimulation. Eigentlich nur eine finale Ergebnisgrafik und die Behauptung, die geforderten Kriterien wären eingearbeitet. Es gibt aber keinerlei Nachweis, keinen finalen Fahrplan, der eine Überprüfung ermöglichen würde, keine Auswertungen des Verspätungsabbaus. Diese Ergebnisdokumentation ist ein Schlag ins Gesicht der Öffentlichkeit. Es ist nicht klar, ob nicht die drei der besten Tage des Systems für die Simulationsläufe gewählt wurden, und welche Annahmen für die anderen Parameter der Simulation gemacht wurden. Ohnehin sind drei einzelne Simulationsläufe überhaupt nicht hinreichend, um die Leistungsfähigkeit von S21 auch unter verschärften Parametern zu demonstieren.
Der Finale Simulationslauf liefert genausowenig einen Nachweis der Leistungsfähigkeit von Stuttgart 21 wie die anderen vorausgehenden Sensitivitätsrechnungen. Dass die Simulation aufgrund der paar korrigierten Haltezeiten, Takte und Verknüpfungen sich ein bisschen im Ergebnis verändert ist eine Information ohne echten Erkenntniswert. Für den Nachweis der Leistungsfähigkeit müssen sämtliche Korrekturen berücksichtigt werden. Einerseits die aus früheren Sensitivitätsrechnungen, meist sogar verschärft, da die Annahmen noch zu optimistsch waren. Andererseits aber auch die vielen noch gar nicht berücksichtigten Fehler im Stresstest, wie die unrealistische Spitzenstunde, die fehlenden Verspätungsspitzen in den Haltezeitverlängerungen etc. abgebildet werden. Dies würde aber zum sicheren Kollaps des Bahnhofs führen.
Simulation nur im Vergleich aussagefähig
Eine Computersimulation hängt entscheidend von den Eingangsparametern ab. Weil es hier so schwierig ist, absolut realistische Methoden und Parameter zu modellieren, werden Simulationen in der Regel im Vergleich von Alternativen durchgeführt. Auf diesem Weg wirken sich die Falschannahmen in beiden Fällen ähnlich aus, so dass der relative Unterschied der Alternativen das belastbarere Ergebnis liefert.
Die Richtlinie gibt genau aus diesem Grund als Grenzen des Simulationsverfahrens an:
- "• Ermittlung von Leistungsfähigkeitskenngrößen nur aufwändig über Variantengleich oder Iteration • Bemessung nur über Variantenvergleich" (Richtlinie 405.0202A01 S. 5 / Bl. 175)
- "Für die Eichung der mit Simulationstools ermittelten Kenngrößen ist die Untersuchung des Ist-Zustandes als Vergleichsmaßstab hilfreich und deshalb zu empfehlen, da Qualitätsmaßstäbe noch nicht voll abgesichert sind bzw. sich noch in Entwicklung befinden." (Richtlinie 405.0202 S. 13 / Bl. 163)
Das heißt, die einzige Methode, den vielen unvermeidlichen systematischen Fehlern des Stresstests (die sicherlich auch nach Korrektur der gröbsten Fehler verbleiben) zu begegnen, ist die Simulation einer echten Alternative. Hierfür kommt vor allem der Kopfbahnhof in Betracht, da die S21-Investition sich ja durch den Vorteil gegenüber diesem rechtfertigen soll.
Allerdings ist abzusehen, dass die Leistungsfähigkeit des Kopfbahnhofs unter gleichen Annahmen (z.B. den verkürzten Blockabständen von Zuffenhausen zum Bahnhof, den Pufferzeitverletzungen, den dramatisch reduzierten Verspätungsniveaus, etc.) regelrecht explodieren würde. Und damit erklärt sich auch, dass die Bahn sich so vehement gegen diese Forderung der Kritiker zur Wehr setzt (die jedoch auch vom Regelwerk und dem wissenschaftlichen Prinzip geboten wäre). Dass dieses Grundprinzip der Computersimulationen von der SMA nicht angesprochen wurde (trotz dem Hinweis in der Richtlinie) ist als weiteres schweres Versäumnis zu werten.
An fehlenden Infrastrukturdaten des Kopfbahnhofs würde das Projekt nicht scheitern, da diese sämtlich schon im System vorhanden sind, wie in der Prämissen-Gesprächen deutlich wurde (.... Quelle).
Die SMA beendet ihren Schlussbericht mit der folgenden Empfehlung:
- "Weiter empfehlen wir, die in den Steckbriefen beschriebenen Unstimmigkeiten und kleineren Fehler zu beheben und zur Bestätigung des Gesamtresultates einen weiteren Simulationslauf durchzuführen und zu veröffentlichen." (Audit Schlussber. S. 10 / Bl. 16)
Dr. Kefer sagte einen solchen zusätzlichen Simulationslauf zu, aber nur für die von SMA benannten verbliebenen Fehler. Die Ergebnisse sollen im Internet veröffentlicht werden.[12]
Die Richtlinie 405 schreibt "möglichst" 100 Simulationsläufe vor, um mittels einer "ausreichend großen Grundgesamtheit" ein Minimum an statistischer Signifikanz der Ergebnisse sicherzustellen (Richtlinie 405.0205 S. 3 / Bl. 229). Einzelne Simulationsläufe, wie sie für die Sensitivitätsbetrachtungen durchgeführt werden, können höchstens eine Indikation liefern über die Größenordnung der Auswirkung einzelner Parameter-Veränderungen. Um einen Nachweis zu erbringen, müssen alle Parameter auf realistische Werte gesetzt werden und es müssten die vollen 100 Tage simuliert werden.
Sämtliche Zufallsparameter der 100 zu simulierenden Tage wurden mit ihren Verspätungsverteilungen an den Einbruchstellen und den Haltezeitverlängerungen zu Beginn des Stresstests festgelegt (Audit SI-03 S. 1 Fußnote 2 / Bl. 147). SMA-Chef Stohler stellte in der Stresstest-Präsentation klar, dass es bei den 100 Simulationsläufen "gute und schlechte Tage" gibt.[13] Es braucht also nur ein "guter Tag" gewählt zu werden und so lassen sich auch erschwerte Bedingungen verkraften.
Die Bahn gibt zum Finalen Simulationslauf noch deutlich weniger Informationen als zur Grundsimulation. Eigentlich nur eine finale Ergebnisgrafik und die Behauptung, die geforderten Kriterien wären eingearbeitet. Es gibt aber keinerlei Nachweis, keinen finalen Fahrplan, der eine Überprüfung ermöglichen würde, keine Auswertungen des Verspätungsabbaus. Diese Ergebnisdokumentation ist ein Schlag ins Gesicht der Öffentlichkeit. Es ist nicht klar, ob nicht die drei der besten Tage des Systems für die Simulationsläufe gewählt wurden, und welche Annahmen für die anderen Parameter der Simulation gemacht wurden. Ohnehin sind drei einzelne Simulationsläufe überhaupt nicht hinreichend, um die Leistungsfähigkeit von S21 auch unter verschärften Parametern zu demonstieren.
- Auch wäre aufgrund des Problems der Nichtlinearität, da sich die Verschlechterung mehrerer Parameter gegenseitig verstärkt, es überhaupt nicht hinreichend allein eine erneute Sensitivität für die bisher unberücksichtigten Fehler zu rechnen. Es müssten alle Parameter gleichzeitig auf realistische Werte gesetzt werden.
Abschlussdokumentation nicht nachvollziehbar
Die Abschlussdokumentation des Stresstests entspricht nicht den Anforderungen:
- "Alle Ergebnisse sind so aufzubereiten, dass die sich ergebenden Schlussfolgerungen nachvollziehbar sind." (Richtlinie 405.0205 S. 1 / Bl. 227)
Dies erscheint als die wichtigste verletzte Anforderung der Richtlinie. Aber auch die Detailanforderungen der Richtlinie sind nicht erfüllt:
- "Bei der Darstellung von Ergebnissen sind folgende Grundsätze zu beachten:
- Übersichtliche und komprimierte Darstellung von Zahlen möglichst in Tabellen oder in grafischer Form (Histogramme, Diagramme)
- Darstellung im Kontext mit den Ausgangsbedingungen bzw. mit den Prämissen für die Gültigkeit
- Hervorheben der für die Ableitung der Schlussfolgerungen aussagekräftigsten Kennwerte
- Beschränkung auf möglichst wenige Kenngrößen
- Abzuleitende Aussagen in verbaler Form direkt neben oder unter der entsprechenden bildlichen oder tabellarischen Darstellung platzieren
- Grenzwerte bzw. Maßstäbe in die Darstellungen möglichst optisch wirksam einarbeiten (z.B. farbige Darstellung, wenn bestimmte Grenzen über- oder unterschritten werden
- Bildliche Darstellungen und Diagramme mit Legenden versehen" (Richtlinie 405.0205 S. 4 / Bl. 230)
Insbesondere die Prämissen sind äußerst unvollständig dargestellt, so dass hier auch nach drei Tagen der in der Folge stattfindenden Prämissengespräche noch keine vollständige Klarheit herrschte. Hinsichtlich der "Beschränkung auf möglichst wenige Kenngrößen", darf natürlich nicht der Fehlschluss gezogen werden, dass dies die Unterschlagung von den nach der Richtlinie vorgeschriebenen Kenngrößen legitimieren würde. Wesentliche "abzuleitende Aussagen" werden gerade in den Ergebnisdarstellungen nur durch Zahlenwerte oder Schlagworte, ohne echte Begründung und Einordnung wiedergegeben, auch die aussagefähige Legenden fehlen zumeist. Die Ergebnisdarstellung ist in höchstem Maße unvollständig, unrichtig, unübersichtlich, unerläutert und irreführend:
- Die Stufen der Betriebsqualität wurden durch eine sinnentstellende Collage aus Versatzstücken der Richtlinie unrichtig festgelegt.
- Tatsächlich wurden durch diese Manipulation die Qualitätsgrenzen in der Verspätungsveränderung um eine Stufe zu wenig anspruchsvoll festgelegt. Außerdem ist die Anwendung dieser Minutengrenzen auf die Mittelwerte unterschiedlicher Strecken unzulässig.
- In den Detail-Auswertungen wurden unzulässig teilweise nur verkürzte Teilstrecken bewertet, um überall ein "optimal"-Prädikat zu erhalten.
- Dies verdeckte, dass tatsächlich ein großer Teil der Strecken ein "risikobehaftet" und (bei korrigierter Skala, siehe zuvor) mehrere Strecken ein "mangelhaft"-Prädikat erhalten.
- Die Ermittlung einer "Premium" Qualität unter Abzug der Haltezeitverkürzungen im Hauptbahnhof erfolgte suggestiv und ohne Hinweis, dass dies nach der Richtlinie als verfälschend angesehen wird.
- Die Abweichungen von den Vorgaben des Landes im Fahrplan sind nicht dargestellt.
- Die Annahmen zum Verspätungsaufbau sind ohne Darstellung der erheblichen Kappung der Verspätungs-Maximalwerte falsch dargestellt.
- Tatsächlich waren die Verspätungen in der Simulation teils um mehr als einen Faktor 2 geringer angenommen worden. Dies erscheint als grobe Täuschung, insbesondere, da auch auf gezielte Nachfrage die Bahn diese Information nicht preisgab.
- Obwohl die Betriebsqualität für die Zeit von 6 bis 10 Uhr ermittelt wurde, werden in der Dokumentation nicht die Fahrpläne, ja nicht einmal die Zugzahlen außerhalb der Spitzenstunde genannt.
- Genau in den Zugzahlen außerhalb der Spitzenstunde fand eine der quantitativ größten Manipulationen der Stresstest-Parameter statt. Auch hier war die Bahn Stuttgart 21/Stresstest/Glaubwürdigkeit#Prämissengespräche, Haltezeitverkürzung und Lastkurve der gezielten Frage ausgewichen.
- Tatsächlich wurden die entscheidenden Eingangsgrößen des Stresstests, die Prämissen, zum größten Teil überhaupt nicht dokumentiert, z.B.: Die Annahmen zum Verspätungsabbau sind überhaupt nicht angegeben.
- Es ist eine unverzeihliche Lücke, wenn in der Stresstest-Dokumentation nur der Aufbau von Verspätungen (wenn auch unvollständig und falsch) dargestellt wird, aber die Möglichkeiten im Modell zum Verspätungsabbau überhaupt nicht dargestellt werden. Hier befinden sich mit der vollen Nutzung der Fahrzeitreserven, der fehlenden Haltezeitverlängerung zur Hauptverkehrszeit, dem unzulässigen Verspätungsabbau am Einbruchsbahnhof und dem Abzug der Urverspätungen vom Verspätungsaufbau einige der großen Fehler im Stresstest.
- Es hätte geprüft werden müssen, ob für die Verspätungsannahmen die Näherungswerte (Richtlinie 405.0204A03 S. 1 / Bl. 225 f) oder Ist-Verspätungswerte oder Modifizierungen anzunehmen wären (Richtlinie 405.0204 S. 12 / Bl. 210). Eine solche Prüfung ist nicht dargestellt.
- Jede dieser Überprüfungen hätte die Manipulationen in der Verspätungsstatistik (unrealistisch niedriges Verspätungsniveau und gekappte Haltezeitverlängerungen) zu Tage gebracht
- Die Belegungsgrade sind entgegen der Vorschrift nicht angegeben (siehe Folgeabsatz, Richtlinie 405.0202 S. 13 / Bl. 162).
- Die Angabe der Belegungsgrade hätte offengelegt, dass diese von "katastrophal" bis "unfahrbar" reichen.
- Auch die weiteren nach der Richtlinie für Infrastrukturuntersuchungen und im Fall von deutlichem Verspätungsabbau vorgeschriebenen weiteren Kenngrößen wie "infrastrukturbezogene Behinderungen" bzw. "Wartezeiten" werden aus mutmaßlich ähnlichem Grunde nicht angegeben.
- Die Art der Berücksichtigung von Urverspätungen ist nicht angegeben. D.h. es wurde nicht dargestellt, dass die Haltezeitverlängerungen (Doku. Teil 1 S. 21) neben den echten Haltezeitverlängerungen in den Bahnhöfen im wesentlichen auch die auf der Strecke entstehenden Urverspätungen wiedergeben sollen.
- Die Klarstellung, dass die Haltezeitverlängerungen nicht allein die Haltezeitverlängerungen, sondern zu einem größeren Teil die auf der Strecke eintretenden Urverspätungen abbilden, hätte viel eher Zweifel aufkommen lassen an deren ausreichender Höhe und auch dem systematischen Fehler, dass dadurch der Verspätungsabbau geschönt dargestellt wird.
- Seitenweise Zuglisten (Doku. Teil 1 S. 27-39) werden ohne Angabe der technischen Daten zu den Zügen dargestellt und sind somit praktisch ohne Aussage.
- Die Überprüfung der Zuglängen als Voraussetzung für die Doppelbelegungen und für die Beförderung der geplanten Fahrgastzahlen ist so unmöglich. Auch Bremskurven sind so nicht zuordenbar.
- Die Belegungsgrafiken (Doku. Teil 1 S. 40-48) sind unvollständig und mangels Legende nicht selbsterklärend.
- Ohne eine ausreichend beschreibende Legende ist beispielsweise nicht ersichtlich, dass z.B. die Zuläufe aus Zuffenhausen nur dank der neuen Signaltechnik ETCS die gewünschte Zugzahl verarbeiten können. Aber ETCS wird bis zur Inbetriebnahme von Stuttgart 21 nicht zur Verfügung stehen.
- Es wurde in keiner Weise spezifiziert, unter welchen Annahmen die Sensititvitätsanalysen (Doku Teil 2 S. 112, 132 / Bl. 51, 71) durchgeführt wurden, d.h. mit welchem Parametersatz (d.h. Verspätungswerten, war es ein guter oder ein schlechter Tag, wurde er zufällig ausgewählt), mit welcher Anzahl von Simulationsläufen (wie groß ist die Unsicherheit aufgrund mangelnder Statistik anzusetzen) etc.
- Damit sind die sogenannten Sensitivitäten ohne jede Nachvollziehbarkeit und Beweiskraft. Trotz dieses formalen Fehlers und dieser unprofessionellen Darstellung, sind die Sensitivitäten ohnehin ohne jede Beweiskraft, da ihnen die nötige statistische Signifikanz und die gleichzeitige Berücksichtigung realistischer Werte in sämtlichen Parametern fehlt.
- Gleiches gilt für die Sensitivitätsrechnung zur Korrektur eines Teils der von SMA angemahnten Fehler, das Datenmodell vom 15. Juli (Audit SI-08 / Bl. 186 ff) für das es keinerlei Ergebnisdokumentation der Deutschen Bahn gibt.
- Gleiches gilt für den Finalen Simulationslauf, bei dem die vorhandenen 7 Folien nicht über die Behauptung eines Ergebnisses hinausgehen. Nicht einmal ein Fahrplan, geschweige denn Verspätungsverläufe oder alle weiteren Informationen, die zum Nachvollziehen der Ergebnisse nötig wären, liegen vor.
- Auf diese Weise haben diese Simulationsläufe nur die Qualität einer unbelegten Behauptung. Aber ihnen fehlt ohnehin die Beweiskraft wegen der grundsätzlichen Einschränkungen für Sensitivitäten. Ein "Nachweis" wurde so in keiner Weise geführt.
- In der Stresstest-Dokumentation wurde lediglich dargestellt, welche Infrastrukturoptionen nicht aktiviert wurden (Doku. Teil 1 S. 54-61). Es wurde aber nicht untersucht (bzw. zumindest nicht dargestellt), welche Verbesserung diese Optionen gebracht hätten, wie es der Vorgabe im Schlichterspruch und der gültigen Prozessbeschreibung entsprochen hätte.
- Auf diese Weise bleibt verborgen, wie gravierend sich die bestehenden Engpässe tatsächlich auswirken. Dies würde deutlich, wenn der deutliche Leistungs- und Qualitätsschub ermittelt würde, der bei Ausbau zur großen Wendlinger Kurve oder der P-Option bringen würde.
Selbst die SMA attestiert:
- "Der Bericht 'Stresstest Stuttgart 21 – Fahrplanrobustheitsprüfung' der DB Netz AG vom 30. Juni ist nicht selbsterklärend, weist teilweise inhaltliche Mängel auf und bietet keine vollständige Dokumentation der durchgeführten Arbeiten." (Audit SI-07 S. 10 / Bl. 184)
Es ist nicht nachvollziehbar, wie die SMA nach einer solchen Aussage und auf der Basis einer solchen Ausgangsdatenlage überhaupt in der Lage war zu testieren. Es ist außerdem inakzeptabel, dass die SMA einen solchen schweren Vorwurf nicht im Einzelnen mit den konkreten Mängeln belegt, dadurch verdeckt sie mehr als sie kritisiert.
Wenn die SMA ausführt, dass weitergehende Informationen von der DB bilateral erhalten wurden (.... Quelle), so sind diese Informationen nicht hinreichend dokumentiert ....
Ein solch umfassender Verstoß gegen die Richtlinie und gegen die Nachvollziehbarkeit durch die Öffentlichkeit ist als KO-Kriterium für den Stresstest zu sehen. Kein Wirtschaftsprüfer dürfte eine solch lückenhafte Bilanz akzeptieren.
Belegungsgrade wurden nicht ermittelt
Die Richtlinie schreibt für die Dokumentation der eisenbahnbetriebswissenschaftlichen Simulation verbindlich vor:
- "Generell werden ausgewiesen: Verspätungszuwachs bzw. Verspätungsveränderung zwischen zwei definierten Querschnitten, dieser Wert dient als Kenngröße und wird dem zugehörigen Bewertungsmaßstab verglichen. • Verspätungsverlauf über den Fahrweg des Zuges (der Zugfamilie). • Einzelbelegungsgrade von Belegungselementen bzw. Kanten (Kenngröße)." (Richtlinie 405.0202 S. 13 / Bl. 162)
Dies fand an keiner Stelle der Stresstest-Dokumentation statt. Dieser schwerwiegende Verstoß wurde von der SMA übersehen bzw. nicht angesprochen. Die Belegungsgrade gehören zu den wichtigsten Kenngrößen in der Simulation einer Bahn-Infrastruktur mit stabilen Erfahrungswerten für fahrbare Auslegungen. So ergibt beispielsweise der Fahrplan für den achtgleisigen Tiefbahnhof einen Belegungsgrad in der Spitzenstunde von 85 % bis 95 %, das sind Werte von "katastrophal" bis unfahrbar. Dies ist möglicherweise der Hintergrund für diesen Richtlinienverstoß.
Es ist zu vermuten, dass auch die Belegungsgrade für andere Stellen der Infrastruktur bspw. die Zufahrt von Zuffenhausen, die Filderstrecke, Wendlinger Kurve ähnliche Warnsignale für die Überlastung der Stuttgart 21-Infrastruktur ergeben.
Test des Fahrplans oder der Infrastruktur?
- Die Bahn verfuhr nach dem Prozess zur Fahrplanrobustheitsprüfung ....
- Die Vorschriften der RiLi 405 für Infrastrukturprüfungen sind nicht erfüllt ....
- Auch die SMA spricht nur von der Untersuchung der "Robustheit des Fahrplans" nicht von der Robustheit der Infrastruktur bei hoher Belastung. (Audit SI-02 S. 4 / Bl. 144)
....
Keine modellzugspezifische Verspätungsveränderung
Die Richtlinie schreibt eine etwas detailliertere Analyse der Simulationsergebnisse vor, als sie in der Stresstest-Dokumentation erfolgte:
- "In Simulationsmethoden werden bei allen Tools Verspätungszuwächse (nicht immer völlig identisch mit der Summe der Wartezeiten, je nachdem, ob Urverspätungen oder Verspätungsabbau mit enthalten ist) modellzugspezifisch ermittelt." (Richtlinie 405.0202 S. 12 / Bl. 162)
Zumindest mangelt es der Dokumentation an der klaren Zuordnung der Modellzüge zu den Linien.
Stresstest-Simulation auf Basis ungültiger Prozessbeschreibung
Der Stresstest wurde nach einer noch nicht gültigen Prozessbeschreibung durchgeführt und dies wurde dennoch von der SMA testiert.Die Bahn gab in ihrer Abschlussdokumentation vom 30.06.2011 an, beim Stresstest "gemäß Prozess 'Fahrplanrobustheitsprüfung (FRP) durchführen' (LN34-07-01-03)" verfahren zu haben (Doku Teil 1 S. 2). Diese Prozessbeschreibung ist gültig seit 10.07.2011, d.h. sie konnte für die Durchführung des Stresstests keine Anwendung finden. Diesen Mangel übersieht die SMA und testiert einen Prozess, der auf einer nicht gültigen Verfahrensanweisung basiert. Dies ist überraschend, weil es zum Kern der Auditierung gehören müsste. Es ist die Frage, ob bzw. in welcher Form die noch nicht gültige Prozessbeschreibung der SMA überhaupt vorlag.
Für die Durchführung des Stresstests war eine frühere Fassung relevant, die Prozessbeschreibung LN34-05-07, gültig ab 16.02.2009. Es gibt womöglich mehrere Unterschiede zwischen beiden Verfahrensanweisungen. Ein entscheidender Unterschied liegt in dem Folgenden: In der älteren Prozessbeschreibung war die Berücksichtigung unterschiedlicher Infrastrukturvarianten an den Untersuchungsauftrag gebunden. In unserem Fall ist das der Schlichterspruch zum Stresstest, der ausdrücklich die Simulation den Zusammenhang zwischen Simulation und Varianten darstellte:- "Welche der von mir vorgeschlagenen Baumaßnahmen, wie ich das eben getan habe, zur Verbesserung der Strecken bis zur Inbetriebnahme von S 21 realisiert werden, hängt von den Ergebnissen der Simulation ab." [14]
D.h. es hätte bspw. auch zwingend zumindest der Verkehr bei Bau der großen Wendlinger Kurve simuliert werden müssen (da hier die Leistungsvorgabe klar nicht erfüllt wird). Aber angesichts der extremen Parameter im Tiefbahnhof mit vielen Pufferzeitverletzungen und Doppelbelegungen hätten auch 9. und 10. Gleis und P-Option geprüft werden müssen.
Die neue Richtlinie, die möglicherweise eigens für den Stuttgart 21-Stresstest geändert wurde, galt aber nicht während seiner Durchführung. Allein sie würde es erlauben, von dem Untersuchungsauftrag durch einen gegebenenfalls enger gefassten Simulationsauftrag abzuweichen.
D.h. gemäß der geltenden Prozessbeschreibung und dem Auftrag aus dem Schlichterspruch hätten im Stresstest die Varianten mit den Ausbauten Große Wendlinger Kurve, P-Option, etc. geprüft werden müssen, was nicht geschah, so dass der Stresstest die betreffende Vorschrift verletzt. Allein wegen dieses Regelverstoßes müsste der Stresstest noch einmal regelkonform wiederholt werden. Inzwischen – aber eben erst jetzt – wäre dann eine Abweichung vom Untersuchungsauftrag möglich. Allerdings müsste die Bahn dann bei der Veröffentlichung fairerweise auch den Simulationsauftrag offenlegen und Abweichungen vom Untersuchungsauftrag begründen. Dieses Vorgehen müsste dann auch vollständig vom Auditor geprüft und als sachgerecht eingestuft werden.
RICHTLINIENVERSTÖSSE, PARAMETER
Kein Stress im Test
Es existiert offenbar bei der Bahn keine eigene Richtlinie für die Durchführung eines echten "Stresstests". Die hier immer wieder zitierte Richtlinie 405 macht Vorgaben für die Durchführung einer eisenbahnbetriebswissenschaftlichen Simulation, die zu den verschiedensten Zwecken durchgeführt werden könnte. Klar ist aber der Untersuchungsauftrag im Schlichterspruch mit dem Begriff "Stresstest" formuliert worden.
Aufgabe eines Stresstests ist die Prüfung einer erhöhten Belastungssituation, wie sie gerade im Falle von Stör- und Notfällen auftreten, insofern ist besondere Aufmerksamkeit auf die korrekte Abbildung dieser Betriebssituationen zu legen. Es existiert eine Prozessbeschreibung "Fahrplanrobustheitsprüfung durchführen" (bei der auch nicht die gültige Fassung vom Stresstest eingehalten wurde), diese beschreibt aber lediglich den Ablauf, nicht die Parameter.
Richtlinie 405 geht aber darauf ein, dass eine Simulation und die darin verwendeten Parameter der Aufgabe angepasst werden müssen:
- Zu den Eingangsgrößen: "Direkt aus dem Istzustand ermittelte Kenngrößen spiegeln zwar die Realität gut wieder, entsprechen aber, sofern sie nicht speziell für die aktuelle Aufgabe ermittelt wurden, nicht immer genau der geforderten Aussage." (Richtlinie 405.0205 S. 1 / Bl. 227)
D.h. im Falle, dass die Simulation einen Stresstest darstellen soll, ist die Verwendung von Jahres- und Tages-Durchschnittswerten aus dem Alltagsbetrieb nicht zielführend. Es müssten Werte der untersuchten Belastungsspitze (im Stresstest die Spitzenstunde), für Tage besonderer Belastung (Winter, Suizid, etc.) eingesetzt werden. Statt Durchschnittswerten müssten also bspw. eigentlich die zur Stoßzeit spezifisch verlängerten Haltezeiten verwendet werden. Außerdem müssten typische Störungsszenarien, wie die rund zweistündige Sperrung von ein bis zwei Gleisen, oder die nicht so seltene zumindest halbstündige Blockade eines Zuges im Bahnhof durch eine technische Störung am Zug simuliert werden. Beide typische Stresssituationen kommen in der Simulation nicht vor.
Dem Argument, dass die in der Simulation eingesetzte Verteilung auch einzelne Extremwerte liefert, muss entgegnet werden, dass diese gerade im Stresstest für Stuttgart 21 durch die spezifischen Einstellungen im Modell beschnitten wurden:
- Die Störungswerte insbesondere des Fernverkehrs und der S-Bahn wurden extrem unterdurchschnittlich angesetzt.
- Die Streuung im Modell fällt nur rund halb so groß aus wie in der Realität beobachtet. D.h. die eigentlich kritischen Extremwerte fallen nur halb so gravierend aus.
- Im Modell wurden aber darüber hinaus gerade die Maximalwerte beschnitten, so dass genau der Anteil der Verspätungsstatistik, der Stör- und Notfälle abbilden sollte, aus der Simulation herausgenommen wurde. Dieser Eingriff ist einer der gravierendsten Fehler im Stresstest.
D.h. statt auf die korrekte Abbildung gerade der hohen Belastungsspitzen zu achten, wurde eine Simulation durchgeführt, die gegenüber durchschnittlichen Bedingungen noch deutlich weichgespült wurde, also definitiv eine Schönstwettersimulation statt einem Stresstest. Dabei gibt die Richtlinie explizit vor, dass die Simulation von Stör- und Notfällen durch das Gegenteil, nämlich die Erhöhung der Parameter simuliert werden soll:
- "Die Modellierung der Ausfälle oder Teilverfügbarkeiten von Infrastrukturelementen muss bisher ersatzweise durch Erhöhung der zugbezogenen Parameter für Urverspätungen erfolgen." (Richtlinie 405.0206 S. 11 / Bl. 251)
Eine solche spezifische Modellierung einer besonderen Verspätungssituation kann offenbar problemlos in das System integriert werden, wie am Beispiel der "Gesonderten Ur- und Einbruchsverspätungen" in Marbach und Bondorf geschehen (Audit SI-08 S. 9 / Bl. 194). In gleicher Weise könnten auch die für den achtgleisigen Tiefbahnhof so kritischen Szenarien "Suizid" und "Technische Störung am Zug" bspw. durch testweise auf 120 bzw. 30 Min. heraufgesetzte Haltezeitverlängerungen im Hauptbahnhof simuliert werden.
Der Auditor des Stresstests, die Schweizer Firma SMA distanzierte sich außerdem ausdrücklich davon, die "betriebswissenschaftliche Simulation" als "Stresstest" zu bezeichnen[15]. Insofern stellt der Auditor klar, dass er lediglich eine Simulation und keinen Stresstest bewertet hat.
Die Ausblendung von Stress im Stresstest sowohl durch eine vom Ansatz her schon wenig anspruchsvolle Verspätungsstatistik als auch durch die unverantwortliche und extrem manipulative Kappung der Haltezeitverlängerungen ist ein eklatanter Verstoß gegen die Anforderungen der Richtlinie, den Untersuchungsauftrag in der Simulation korrekt abzubilden. Weder hat die die Bahn die Anforderung nach einem Stresstest erfüllt, indem sie nie behauptet hat, einen Stresstest durchgeführt zu haben, und auch der Auditor stellt klar, dass er keinen Stresstest auditierte. Diese grundlegendste Anforderung ist also definitiv nicht erfüllt.
Mangelhafte Berücksichtigung von Urverspätungen
Richtlinie 405 macht eine Reihe von Vorgaben für die Berücksichtigung von Urverspätungen als notwendigen Störungsparameter für eine eisenbahnbetriebswissenschaftliche Untersuchung. Urverspätungen setzen sich zusammen aus Unterwegsverspätungen aufgrund von Störungen auf der Strecke (Gleis, Oberleitung, Signale, Personen oder Zug) sowie Haltezeitverlängerungen durch ähnliche Störungen in den Bahnhöfen:
- "Zur Abbildung der im Betriebsablauf zu erwartenden Folgeverspätungen bzw. außerplanmäßigen Wartezeiten werden die Züge mit • Einbruchsverspätungen (ggf. bei Güterzügen auch Einbruchsverfrühungen) und • Urverspätungen (aufgaben- und toolspezifisch) belegt. Zu Quellen und Aufbereitung dieser Parameter siehe 405.0204 und 405.0206. Liegen Auswertungen nicht vor oder erscheint ihre Anwendung nicht sinnvoll (z.B. bei perspektivischen Untersuchungen), sind entsprechende Annahmen (siehe 405.0103A03) zu treffen." (Richtlinie 405.0201 S. 6 / Bl. 138)
- "Bei Simulationen ist zu berücksichtigen, dass bei großem Betrachtungsraum und ohne Einspielen zusätzlicher Urverspätungen durch Verspätungsabbau im Betriebsablauf u.U. ein unrealistisch niedriges Verspätungsniveau bei der Einfahrt in den Auswerteraum entstehen kann. In diesen Fällen ist der Betrachtungsraum zu reduzieren oder es sind Urverspätungen einzuspielen." (Richtlinie 405.0203 S. 5 / Bl. 195)
Insbesondere für den Fernverkehr sind die Urverspätungen besonders relevant:
- "Liegen vor einem Knoten lange Streckenabschnitte, so führt der Abbau ggf. zu einem zu günstigen Verspätungsniveau beim Einbruch in den Knoten. Um diesen Nachteil zu vermeiden, muss von der Möglichkeit Gebrauch gemacht werden, Urverspätungen einzugeben." (Richtlinie 405.0202 S. 11 / Bl. 161)
In der Stresstest-Simulation werden Urverspätungen allein in Form von Haltezeitverlängerungen abgebildet (Doku. Teil 1 S. 21). Erst der Auditor stellt klar, dass die Haltezeitverlängerungen auch die Urverspätungen auf der Strecke enthalten sollen (Audit SI-05 S. 1 ff / Bl. 156) .... vollkommen unzureichende Berücksichtigung innerhalb der Haltezeitverlängerungen entspricht einem weiteren Richtlinienverstoß. Inwieweit sich bei der im Audit erwähnten Lenkungskreissitzung Stresstest in Karlsruhe am 05.05.2011 sich evtl. kaum eingearbeitete Vertreter der neuen Landesregierung sich bei dieser Festlegung evtl. über den Tisch haben ziehen lassen, lässt sich nicht sagen. Im Ergebnis werden die Urverspätungen jedoch gegen die Vorgaben der Richtlinie unzureichend bis gar nicht berücksichtigt.
Gekappte Haltezeitverlängerungen
Eine der quantitativ größten Manipulationen am Stresstest zum Zweck der Erleichterung des Bestehens ist auch eine der zuletzt identifizierten: Die vollkommen unbegründete Kappung der Haltezeitverlängerungen auf vollkommen unzulässig niedrige Maximalwerte. Diese Maximalwerte wurden von der Bahn in der Stresstest-Dokumentation und den Prämissengesprächen unterschlagen.
Die Bahn hatte in ihrer Abschlussdokumentation zum Stresstest die Annahmen für die unterstellten Verspätungsverteilungen dargestellt (Doku. S. 21), aber nicht angegeben um welche Verteilungsfunktion es sich handelte. Insbesondere wurde durch die Angabe von Mittelwerten und Wahrscheinlichkeiten suggeriert, dass eine unbeschnittene Verteilung angewandt wurde. Es gab keinerlei Hinweis auf die Beschneidung der maximalen Verspätungswerte.
Und selbst der Auditor SMA hatte offenbar für die längste Zeit keine vollständige Kenntnis davon. Zumindest hatte er zum Zeitpunkt der Prämissengespräche am 07.07.2011 offenbar noch keine Kenntnis von der dreistesten der Kappungen, der im Güterverkehr. Dies belegt die Folie der SMA aus den Prämissengesprächen, die für den Güterverkehr keine Kappung ausweist und bei deren Präsentation auch nicht die Bedeutung und vor allem die Auswirkung der Kappungsgrößen bei Fern- und Nahverkehr sowie S-Bahn erläutert wurden.
In den Prämissengesprächen hatte das Aktionsbündnis detailliert zu der Ausgestaltung der Verspätungsverteilung nachgefragt: Nach der Funktion, nach den im Test für die einzelnen Züge verwendeten konkreten Verspätungswerten, dem Vergleich mit realen Verspätungsdaten und sogar schon nach der Höhe der "Ausreißer" in der Verteilung. Diese Fragen wurden schriftlich mit der mageren Information "negative Exponentialverteilung" beantwortet. In der mündlichen Nachfrage wurde keiner der weiteren Punkte beantwortet, aber es wurde immerhin zu den Einbruchsverspätungen die Information gegeben, dass die "DB Spielräume hat, welche Verteilung an welchem [Einbruch-]Punkt angenommen wird." (Prämissengespräch 19.07.2011) Aber auch hier wurde kein Hinweis auf die Kappung der Haltezeitverlängerungengegeben.
Am 19.07.2011 wurden noch einmal schriftlich die Daten der konkret auf die Züge einwirkenden Verspätungswerte nachgefragt und in der Folge mehrfach, aber ohne Erfolg angemahnt. Kurz vor der Stresstest-Präsentation hieß es dann, man habe die Frage nicht verstanden (.... Quelle).
Erst im Audit legte die SMA die Kappungen der Haltezeitverlängerungen offen, ohne allerdings auch nur mit einer Silbe auf diese Größen einzugehen. Selbst als die SMA in ihrer Tabelle den Grenzwert für den Güterverkehr eintrug, der das Maximum unterhalb des Mittelwerts festlegte wurde sie nicht stutzig. Dazu muss man als Auditor allerdings beide Augen fest zukneifen.
Es bestand wohl die Hoffnung, dass niemand verstehen würde, was diese Randnotiz in der Tabelle zu bedeuten hätte. Ohne jede Erläuterung kann das auch niemand verstehen. Man muss in das Handbuch der verwendeten Simulationssoftware schauen, um diese Größen einordnen zu können:
Parameter | Fern- verkehr |
Nah- verkehr |
S-Bahn | Güter- verkehr |
---|---|---|---|---|
Wahrscheinlichkeit | 10 % | 10 % | 10 % | 10 % |
Mittelwert der Verspät. (nominal) | 2,0 Min. | 1,0 Min. | 0,5 Min. | 5,0 Min. |
Maximum der Verspätungen | 5,0 Min. | 3,0 Min. | 1,0 Min. | 3,0 Min. |
Anteil der gekappten Verspät. | 8 % | 5 % | 14% | 55 % |
Mittelwert der Verspät. (real) | 1,84 Min. | 0,95 Min. | 0,43 Min. | 2,26 Min. |
Reduktion des Mittelwertes | 8 % | 5 % | 14 % | 55 % |
- "Die negative Exponentialverteilung wird häufig zur Beschreibung einer Abfahrtszeitverlängerung genutzt. Die Wahrscheinlichkeit wp, dass eine Verspätung der Zufallszahl v auftritt ist definiert als:
Sei v € [0;1] und wenn v < we / 100 (d.h. wenn die Zufallszahl v kleiner ist als der Anteil der verspäteten Züge, dann wird der Zug mit der folgenden Verteilung gestört.)
vsp = – pm × ln(1 – 100 v / we)
Die Parameter haben dabei folgende Bedeutung
vsp = Verspätung in Minuten
pm = mittlere Verspätung der verspäteten Züge in Min.
we = Anteil der verspäteten Züge (in %)
pmax = die maximale Verspätung der verspäteten Züge in Min.: Wenn die zufällig gezogene Verspätung diesen Wert übersteigt, wird der entsprechende Wert auf pmax reduziert."
(Handbuch Railsys, S. 391, "Parameter der negativen Exponentialverteilung")
Erst mit der Kenntnis dieses Algorithmus wird die Bedeutung der Größen klar. Der Maximalwert kappt die Verspätungsspitzen auf diesen Wert. Die Simulation dieser Verteilung der Verspätungswerte liefert die in der nebenstehenden Tabelle und der Grafik dargestellten Werte.
Grundsätzlich ist die Anwendung solcher Maximalwerte in dem Algorithmus von Railsys keine unsinnige willkürliche Maßnahme. Die Formel kann in seltenen Fällen extrem hohe Verspätungswerte liefern, auch viele Stunden oder gar Tage, und es ist sinnvoll, diese zu begrenzen. Im Fall der Einbruchsverspätungen wird dies auch gemacht und hat keine merkbare grob verfälschende Wirkung. Im Falle der Haltezeitverlängerungen ist die Wirkung erheblich.
Es wird der Großteil der Ereignisse, die alleine noch Stress in das System eintragen, nämlich die Verspätungsspitzen, auf harmlose Werte im Bereich der üblichen Pufferzeiten zurückgekürzt. Es werden im Fern- und Nahverkehr, bei S-Bahnen und Güterverkehr 5 %, 8 %, 14 % und sogar 55 % der Werte gekappt. Die Kappung verfälscht sogar die Mittelwerte erheblich, es ist eine Eigentümlichkeit der Exponentialverteilung, dass diese um den gleichen Prozentsatz sinken und das, obwohl die Werte ja nicht auf Null zurückgesetzt werden, sondern auf den Maximalwert. Dies zeigt das hohe Gewicht der Verspätungsspitzen. Aufgrund der hohen Nichtlinearität des Problems der Bahnhofsleistungsfähigkeit ist die Wirkung der Spitzen erheblich höher, als dem Prozentbetrag entspricht, um den der Mittelwert sinkt. Es waren genau diese gekappten Verspätungsspitzen, die eigentlich den Stress abbildeten, und die jetzt herausgenommen wurden. Im Falle des Güterverkehrs kann es nur absolut als 'dreist' bezeichnet werden, dass die Bahn das Maximum fast bei der Hälfte des Mittelwerts ansetzt. Dies war mutmaßlich auch der Hintergrund, dass diese Größe zunächst auch dem Auditor vorenthalten wurde.
Es ist ein ausgesprochener Zynismus, wenn die Bahn ausgerechnet die Verspätungsspitzen aus der Simulation herausnimmt, die laut vielfacher Beteuerungen der Bahn (und des Auditors) gerade das reale Störungsgeschehen abbilden sollen (.... Quellen). Die umfassende Informationszurückhaltung, ja die definitive Falschdarstellung in der Abschlussdokumentation der Bahn und auch durch den Auditor in den Prämissengesprächen, die Nicht-Beantwortung entsprechender Fragen, sprechen für eine absichtsvolle Täuschung der Öffentlichkeit in dieser Frage. Es wurden alle Maßnahmen getroffen um den Betrug zu verdecken.
Für die extreme Kappung der für die Simulation so enorm wichtigen Urverspätungen in Form der Haltezeitverlängerungen gibt es keine Rechtfertigung. Eine solche wurde auch an keiner Stelle von der Bahn oder der SMA gegeben. Die Richtlinie gibt an keiner Stelle Raum für einen solch umfassenden Eingriff in die Verspätungsstatistik. Wenn die wesentlichen Stressparameter teilweise um mehr als einen Faktor 2 falsch dargestellt werden in einer Unterlage, die eine Milliardeninvestition rechtfertigen soll, dann rückt dieser Fehler schon stark in Richtung Betrug. Es ehrt die SMA, dass sie diese Manipulation (wenn auch nur versteckt, quasi in einer Randnote) öffentlich machte. Es wirft aber ein sehr zweifelhaftes Licht auf den Auditor, wenn dieser dabei die Abweichung von dem Bahn-Regelwerk und diesen erheblichen Manipulationseingriff nicht erkannte, ja die Auswirkung dieser eigens für die Stresstest-Simulation eingeführten Parameter gar nicht prüfte. Die gekappten Verspätungen zählen zu den quantitativ größten Fehlern in der Simulation. Die Verheimlichung dieser Parameter durch die Bahn – zeitweise sogar vor dem Auditor – könnte den Eindruck verstärken, dass hier kriminelle Energie im Spiel war.
Man kann nachvollziehen, dass die Berücksichtigung des Güterverkehrs unter realistischen Bedingungen enorme Schwierigkeiten in der Simulation verursachen würde. Dies könnte auch eine Erklärung liefern für die so vollkommen unsinnige Sensitivitätsbetrachtung ohne Güterverkehr, zu der die SMA schreibt:
- "DB Netz AG hat eine Sensitivitätsbetrachtung ohne SGV durchgeführt. Ein Betriebsprogramm ohne Güterverkehr ist nicht realistisch. Da dieser Zustand einen fiktiven Fall darstellt, wird er hier nicht detailliert kommentiert. Die Sensitivitätsprüfung zeigt einen deutlichen Effekt des Güterverkehrs in der Simulation. Zwischen Einbruchbetriebsstelle und Ausbruchbetriebsstelle können gut 40 Sekunden mehr Verspätung als in der Grundvariante abgebaut werden." (Audit SI-07 S. 7 / Bl. 181)
Da die Berechnung einer Sensitivität ohne Güterverkehr so vollkommen unsinnig ist, stellt sich die Frage, wozu diese Untersuchung gemacht wurde. Es kann nur spekuliert werden, ob man nach der extremen Kappung der Haltezeitverlängerung und damit der Reduktion der Urverspätungen im Güterverkehr um mehr als die Hälfte nicht mehr sicher war, ob sich der Güterverkehr überhaupt noch signifikant in der Simulation bemerkbar macht. In diesem Fall hätte das Ergebnis eines immer noch "deutlichen Effekts" des Güterverkehrs für die Verantwortlichen des Eingriffs in die Simulationsparameter eine Beruhigung sein können.
Angesichts der besonders großen Verfälschung beim Güterverkehr durch die Kappung der Verspätungen hat das folgende Fazit der SMA zum Güterverkehr einen besonders bitteren Klang und erscheint als einer der kapitalsten Fehler im Audit: "Beim Güterverkehr sind keine Anpassungen erforderlich." (Audit FP-09 S. 3 / Bl. 115)
Fahrzeitüberschüsse voll im Verspätungsabbau
Simulation: Nutzung von 100 % Fahrzeitreserven
Der Stresstest geht im Unterschied dazu davon aus, dass im Verspätungsfall die Haltezeit der Züge bis auf eine Mindesthaltezeit reduziert werden kann, d.h. dass die Haltezeitreserven vollständig zum Verspätungsabbau eingesetzt werden können, ebenso wie die Fahrzeitreserven. Diese für den Stresstest wesentlichen Annahmen sind nicht in der Stresstest-Dokumentation dargestellt. Ebensowenig wie die Mindesthaltezeiten selbst oder andere Annahmen zum Verspätungsabbau.Erst in den Prämissengesprächen wurden die Bedingungen des Verspätungsabbaus offenbart. Allerdings ohne den Hinweis darauf, dass die Richtlinie nur die Nutzung von 50 % der Reserven zum Verspätungsabbau zulässt. Im Audit wird im Steckbrief FP-03 auf die Haltzeiten eingegangen (Audit FP-03 S. 1 / Bl. 67 ff). Dort findet sich auch die folgende Tabelle:
Die Planhaltezeiten werden im Fahrplan der Grundversion noch in einigen Fällen unterschritten (Doku. Teil 1 S. 26). Angeblich sind sie in der zuletzt gerechneten Sensitivität zumindest im Hauptbahnhof beseitigt (Audit SI-08 S. 5 / Bl. 190 f). Allerdings ist der entsprechend Fahrplan unbekannt. Unbekannt ist auch, welche Pufferzeitverletzungen dadurch ggf. hinzukamen.
Die SMA weist bei der Darstellung der Reserven (Audit ff FP-05 S. 1 / Bl. 80) zwar hin: "Die Reserven, die zum Verspätungsabbau genutzt werden können, sind eher hoch." ....
Richtlinie: Maximal 50 % Fahrzeitreserven
Laut Richtlinie 405 dürfen insbesondere bei der Bewertung der Betriebsqualität (wenn es um "wirtschaftlich optimal" oder "Premium" geht) Bauzuschläge und Haltezeitüberschüsse nur zum Teil, in der Regel nur zu 50 %, genutzt werden. Fahrzeitüberschüsse sollten ggf. ganz unberücksichtigt bleiben:
- "Simulationsmethoden erlauben die Abbildung von Verspätungsabbau, wobei i.d.R. der Abbau der Hälfte des Bauzuschlags und der im zu Grunde liegenden Fahrplan enthaltenen planmäßigen Wartezeiten im Betrachtungsraum zugelassen wird. Die Nutzung von Fahrzeitzuschlägen zum Abbau von Verspätungen kann toolgebunden unterbunden werden." (Richtlinie 405.0202 S. 11 / Bl. 161)
In der Definition der Betriebsqualität wird vielfach auf folgende Fußnote verwiesen, die jedoch sowhl von der Bahn in der Stresstest-Dokumentation (Doku. Teil 1 S. 23) als auch von der SMA im Audit (Audit SI-02 S. 2 / Bl. 176) unterschlagen wird:
- "Hierbei wird angenommen, dass entsprechend den Bedingungen in der Praxis ein Teil der in der Regel erforderlichen planmäßigen Wartezeiten und der bei der Fahrplanerstellung üblicherweise eingearbeiteten Zeitzuschläge zum Verspätungsabbau genutzt werden kann." (Richtlinie 405.0104 S. 6 / Bl. 94)
Erstere Formulierung ist nicht ganz eindeutig, der Satz am Anfang könnte so gelesen werden, dass nur die Hälfte des Bauzuschlags und die Wartezeiten (insbes. auch die Haltezeiten im Bahnhof) voll zum Verspätungsaufbau genutzt werden könnten (wenn der Genitiv der Wartezeiten sich auf "Abbau" und nicht auf "Hälfte" beziehen würde). Wäre dies so gemeint, hätte die Richtlinie das präziserweise mit einer zusätzlichen Formulierung wie 'der Abbau der vollen [...] enthaltenen planmäßigen Wartezeiten' klarstellen müssen. Dass sich die Hälfte sowohl auf Bauzuschlag wie auch auf die planmäßigen Wartezeiten bezieht, wird durch die vorausgehend genannte Passage der Richtlinie klar. Aber insbesondere ist es die einzig logische Interpretation. Denn es ist nicht zu erkennen, warum im Verspätungsfall andere Störungen aufgrund von Bautätigkeiten, Ausfällen der Technik oder Problemen mit Personen ausgeschaltet sein sollten.
Nach den im vorausgehenden Absatz zitierten Aussagen der Richtlinien dürfen auch Fahrzeitüberschüsse nicht zu 100 % sondern nur zum Teil, in der Regel zu 50 % zum Verspätungsabbau verwendet werden. Sie sollen nach der Richtlinie sogar gegebenenfalls ganz unberücksichtigt bleiben. D.h. die Simulation der "Grundversion", die die Basis des Stresstest-Ergebnisses ist, und offenbar im Unterschied zu den "Sensitivitäten" die einzige Vollsimulation mit 100 simulierten Tagen ist, beruht somit auch bezüglich der Verwendung der Fahrzeitüberschüsse auf unzulässigen Parametern.
Usw, usf.
Einzelnachweise
In Klammern gesetzte (Quellenangaben) ohne Fußnote beziehen sich zumeist auf wesentliche Unterlagen zum Stresstest, die im Artikel "Dokumente" beschrieben werden.
- ↑ 21.06.2011, stuttgarter-zeitung.de, "Bahn hält die Vorgaben für «irreal»"
- ↑ 19.07.2011, 3. Prämissengespräch, Thorsten Schaer, DB Netz AG. In der Diskussion im Anschluss an Frage 48 (wirtschaftlich optimale Qualität) erläuterte beim Vergleich der Sensitivität zur Qualität in der Spitzenstunde von 7 bis 8 Uhr mit der Grundsimulation, dass die wirtschaftlich optimale Betriebsqualität "nach oben bis zu 1 Minute Verspätungsaufbau" reiche (Protokoll).
- ↑ 29.07.2011, Stresstest-Präsentation, 14:58 Uhr, Boris Palmer
- ↑ 19.07.2011, 3. Prämissengespräch, Thorsten Schaer, DB Netz. Herr Schaer sagte laut dem Protokoll, dass laut Regelwerk ab 1 Sek. Verspätungsabbau Premiumqualität vorliegt, die DB aber erst ab 5 Sekunden Premium vergibt. Dabei ist unklar, wie die 1 Sek. laut Regelwerk dem dort geforderten "deutlichen" Verspätungsabbau entsprechen soll.
- ↑ 19.07.2011, 3. Prämissengespräch im Stuttgarter Rathaus, Protokoll. Thorsten Schaer, DB Netz, sinngemäß zu Chart 67 der Abschlussdokumentation: Die Haltezeitverkürzung von 2,77 auf 2,0 Minuten kann kein Entscheidungskriterium für den Verspätungsabbau sein.
- ↑ 29.07.2011, Stresstest-Präsentation, 13:54 Uhr, Werner Stohler: "[...] das Modell kennt gute Tage und schlechte Tage [...]"
- ↑ U. Martin et al., "Vergleich der Leistungsfähigkeiten und des Leistungsverhaltens des neuen Durchgangsbahnhofes (S21) und einer Variante umgestalteter Kopfbahnhof (K21)". In: Landeshauptstadt Stuttgart (Hrsg.): Stuttgart 21 – Diskurs, Stuttgart 2007, S. 2287–2369 (das-neue-herz-europas.de, PDF).
- ↑ 06.04.2006, Verwaltungsgerichtshof Baden-Württemberg 5. Senat, Aktenzeichen 5 S 848/05 (landesrecht-bw.de)
- ↑ 29.10.2010, 2. Tag der Faktenschlichtung, ab 15:18 Uhr, Ingulf Leuschel
- ↑ 12.03.2011, stuttgarter-zeitung.de, "Bundesamt hält Fildertrasse für grenzwertig"
- ↑ 29.07.2011, Stresstest-Präsentation, 16:40 Uhr, Dr. Volker Kefer
- ↑ 29.07.2011, Stresstest-Präsentation, 16:40 Uhr, Dr. Volker Kefer
- ↑ 29.07.2011, Stresstest-Präsentation, 13:54 Uhr, Werner Stohler: "[...] das Modell kennt gute Tage und schlechte Tage [...]"
- ↑ 30.11.2010, Schlichterspruch Heiner Geißlers, 17:22 Uhr
- ↑ 29.07.2011, Stresstest-Präsentation, 13:51 Uhr (s.a. 14:04 Uhr), Werner Stohler, CEO von SMA