Jüngste Großschadenslagen [1,2,3] verdeutlichen, wie entscheidend die korrekte Zuordnung der Sichtungskategorien (SK) entsprechend der Behandlungs- und Transportpriorität (Tab. 1) für das Überleben und die Lebensqualität der Patienten ist [4]. Das Prinzip der Sichtung Schwerkranker und -verletzter hat sich über Jahrhunderte entwickelt und bewährt [5, 6]. In Deutschland erfolgte eine intensivere Auseinandersetzung mit dem Thema Sichtung seit 2002 in Vorbereitung auf die Fußballweltmeisterschaft 2006 [7, 8].

Tab. 1 Kennzeichnung, Beschreibung und Konsequenzen der Sichtungskategorien nach 6. Sichtungskonsensuskonferenz 2015 [8]

Klarer Konsens besteht dabei auch im Bereich der Vorsichtung durch nichtärztliches Personal, da ärztliches Personal am Notfallort für die Sichtung nicht oder nicht ausreichend zur Verfügung steht. Dies wurde in mehreren Konsensuskonferenzen unterstrichen und auch von der Bundesärztekammer bestätigt [7,8,9,10]. Vorsichtung wird definiert als [11]:

Schnellstmögliche Identifizierung der vital bedrohten Patienten, die lagebedingt als erste eindeutig gekennzeichnet werden. Es handelt sich um eine vorläufige Zustandsbeurteilung, die von Ärzten und Nichtärzten durchgeführt und von einer ärztlichen Sichtung gefolgt wird.

Die Vorsichtung ersetzt dabei keinesfalls eine ärztliche Sichtung. Lageabhängig kann der zeitliche Aufschub bis zur definitiven ärztlichen Sichtung unter Berücksichtigung der Behandlungs- und Transportpriorität bedeuten, dass die erste ärztliche Sichtung erst im Krankenhaus stattfinden kann [8, 10]. In diesen Fällen werden präklinisch Entscheidungen hinsichtlich der Behandlungsprioritäten de facto ausschließlich durch nichtärztliches Personal gefällt. Hierzu müssen geeignete Algorithmen zur Verfügung stehen [8, 11].

In den vergangenen Jahrzehnten sind differenzierte Algorithmen mit dem Ziel entwickelt worden, Versorgungsdefizite zu vermeiden und eine frühzeitige Gesamtlageeinschätzung zu ermöglichen [11,12,13,14]. Bekannte Limitationen aller Algorithmen stellen die Über- und die Untertriagierung dar [7, 15,16,17,18]. Während eine Übertriagierung zum ungezielten Ressourceneinsatz führt, verhindert eine Untertriagierung den Zugang der Patienten zu individuell notwendigen Behandlungsressourcen (Tab. 2). Beide Formen der Fehleinstufung können eine akute Patientengefährdung zur Folge haben. Die Übertriagierung geht aufgrund der Verschwendung von Behandlungsressourcen mit einem linearen Anstieg der Letalität einher [22].

Tab. 2 Zuordnungsmöglichkeiten und Gütekriterien am Beispiel der Sichtungskategorie (SK) I

In der Folge der 5. Sichtungskonsensuskonferenz wurde unter Federführung der Deutschen Gesellschaft für Katastrophenmedizin (DGKM) ein Vorsichtungsverfahren „Primäres Ranking zur Initialen Orientierung im Rettungsdienst“ (PRIOR) entwickelt, mit dem Ziel, gleichermaßen für chirurgische und internistische Patienten geeignet zu sein [12], was in bisherigen Algorithmen nicht ausreichend abgebildet wurde. Neuere Untersuchungen legen einen höheren Anteil von nichtchirurgischen Patienten bei Großschadenslagen nahe [19], aber auch einen geringeren Anteil von Schwerstverletzten als bis dahin angenommen.

Alle Vorsichtungsverfahren wurden bis dato nur unzureichend an einem in der Praxis relevanten Patientengut validiert (quantitativ und qualitativ; [8, 11, 20]). Die vorliegende Studie wurde konzipiert und durchgeführt, um diese Lücke zu schließen.

Methodik

Nach Genehmigung durch die Ethikkommission der Medizinischen Fakultät Dresden (EK DD 270062015) wurden 500 konsekutive Einsätze der Luftrettungsstation Dresden („Christoph 38“, Deutsche Rettungsflugwacht gemeinnützige Stiftung (DRF)), im Zeitraum vom 01.08.2014 bis zum 31.12.2014 erfasst und retrospektiv ausgewertet. Dazu wurde sowohl die elektronische (MEDAT, DRF-Einsatzdokumentationssystem) als auch die handschriftliche Einsatzdokumentation (DIVIDOK-Version EPRO 4.2) herangezogen. Zur Kategorisierung wurden die aktuellen Definitionen der SK entsprechend der 6. Sichtungskonsensuskonferenz verwendet (Tab. 1; [8]).

Die Eingruppierung und Bewertung der Protokolle als Vergleichsgrundlage für die Sichtungsalgorithmen erfolgten durch 19 unabhängige Notfallmediziner (Anästhesie (n = 16), Unfallchirurgie (n = 2) und Allgemeinmedizin (n = 1)), davon 6 leitende Notärzte, 6 Notärzte aus dem Luftrettungsdienst und 7 bodengebunden tätige Notärzte. Nach Ausschluss von 8 primär verstorbenen Patienten konnten 492 Einsatzprotokolle auf jeweils 3 Sichter verteilt werden. Entsprechend wurde jedes Einsatzprotokoll ohne Verwendung von Vorsichtungsalgorithmen 3‑fach unabhängig begutachtet. Somit wurden 1476 Sichtungsvorgänge durchgeführt. Der Erfahrungsgrad der Notfallmediziner wurde bei der Auswertung berücksichtigt, indem leitende Notärzte in ihrer Einschätzung ein 3‑faches Bewertungsgewicht, Notärzte mit mindestens 3‑jähriger Erfahrung/Luftrettungsdienst ein 2‑faches und Notärzte mit bis zu 3‑jähriger Erfahrung ein einfaches Bewertungsgewicht in der Auswertung erhielten. Die auf diese Weise gewichteten Mittelwerte der Kategorieeinschätzung wurden im Bedarfsfall auf eine gemeinsame Kategorie gerundet und als Vergleichsmaßstab für die diagnostische Güte der untersuchten Vorsichtungsalgorithmen herangezogen.

Die Vorsichtungsverfahren PRIOR [12], mSTaRT („modified Simple Triage and Rapid Treatment“) [14], FTS („Field Triage Score“) [21], ASAV (Amberg-Schwandorf Algorithmus für die Vorsichtung), STaRT („Simple Triage and Rapid Treatment“), Care Flight und Triage Sieve [11] wurden als Abfragesequenzen über die erstellte Datenbank (Excel, MS-Office Standard 2010, Version 14.0; Fa. Microsoft, Redmond, USA) programmiert, die für alle Patienten die SK und die Anzahl der notwendigen Algorithmusschritte bis zur Festlegung der jeweiligen SK I–IV lieferte (Zusatzmaterial online: Tab. 6 und 7). Die Ausnahme hiervon bilden die Algorithmen PRIOR und FTS, die das Ergebnis SK IV nicht berücksichtigen. Um aber die Güte in der Identifikation der Schwerverletzten zwischen allen Algorithmen vergleichen zu können, wurde die SK I mit der SK IV gemeinsam gewertet. Da die SK IV (blau) bei der nichtärztlichen Vorsichtung nicht angewendet werden darf [8], ist die kombinierte Auswertung von SK I und SK IV zudem hier besonders praxisrelevant und unterschätzt damit nicht systematisch die Güte der Verfahren mit möglichem SK-IV-Ausgang [22].

Neben den kategorialen Ergebnissen Sensitivität (SE) und Spezifität (SP) wurden die Abweichungen der Kohorten hinsichtlich Über- oder Untertriage betrachtet und nach SK ausgewertet. Die Darstellung der durchschnittlichen Abweichung der Sichtungskategorie (∆SK) der Algorithmen von der Referenzmessung ermöglicht analog der Bland-Altman-Darstellung [23] in Ergänzung zu SE und SP eine anschauliche Beschreibung der Richtung und des Ausmaßes der Abweichung (mögliche Wertespanne −2 bis +2). Dabei sind die Nachkommastellen der ∆SK nicht als Zehntelgenauigkeit in der Bestimmung der SK eines einzelnen Patienten zu interpretieren, sondern in Bezug auf die gesamte Kohorte. So bedeutet eine ∆SK + 0,5, dass jeder 2. Patient um eine SK zu hoch oder jeder 4. Patient um 2 SK zu hoch eingestuft wurde.

Systematik und Folgen der unterschiedlichen Fehleinschätzungsmöglichkeiten zeigt Tab. 2. Die Einteilung der notfallmedizinischen Leitprobleme erfolgte entsprechenden der ABCDE-Regel [15]: Atemwege (A), Belüftung der Lungen (B), „circulation“ (C), neurologische Defizite (D) und periphere Verletzungen (E). Als Leitproblem wurde beim Bestehen mehrerer gleichzeitiger Probleme immer das höherwertige im Sinne „treat first what kills first“ (A vor B vor C …; [15]) definiert.

Statistische Verfahren

Die deskriptive Statistik wurde mit der Pivot-Tabellenfunktion von MS Excel erstellt. Die Güte der Sichtungsverfahren wurde via SE (Richtig-Positive von allen der entsprechenden SK) und SP (Richtig-Negative von allen, die nicht der SK angehören; Tab. 2) bestimmt.

Normalverteilte Daten werden mit Mittelwert (MW) und der Standardabweichung des Mittelwerts (SE) angegeben, die bei fehlender Überlappung überschlägig auf statistische Signifikanz hinweisen. Aufgrund der multiplen Vergleichsmöglichkeiten und der daraus resultierenden unkontrollierbaren α‑Fehler-Inflation wurden weitere inferenzstatistische Analysen unterlassen.

Ergebnisse

In der Kohorte von 492 ausgewerteten Luftrettungspatienten zeigte sich eine demografische Verteilung laut Tab. 3.

Tab. 3 Demografische Daten der untersuchten Kohorte

Sichtungskategorie und führendes notfallmedizinisches Problem

Die Verteilung der ermittelten tatsächlichen SK, aufgeteilt nach notfallmedizinischen Leitproblem (ABCDE) und nach chirurgischer bzw. internistischer Ursache, zeigt Abb. 1 und gibt einen Eindruck vom Gewicht der einzelnen Leitprobleme in der Gesamtsicht. Während jedes ABCDE-Problem [15] die Klassifizierung in die SK I (rot) zwar in Einzelfällen rechtfertigen kann, zeigt Abb. 1, dass eine Zuordnung zu SK I (rot) mit insgesamt 10 % der Fälle analog [19] vergleichsweise selten vorkommt. Insgesamt zeigt Abb. 1 auch, dass die SK mit dem ABCDE-Leitproblem korreliert, dass deutliche Unterschiede zwischen chirurgischen und internistischen Patienten bestehen, dass aber das Vorhandensein von B‑ bis E‑Ursachen [15] selbst als Leitproblem keinesfalls selbstverständlich die Einteilung in SK I rechtfertigt.

Abb. 1
figure 1

Sichtungskategorien (SK) in chirurgischen und internistischen Patienten, abhängig vom notfallmedizinischen Leitproblem. Angabe in Prozent aller Patienten. Chir chirurgisch, Int internistisch

Anzahl der Diskriminanten bis zur Eingruppierung in Sichtungskategorie

Ziel von Vorsichtungsverfahren ist es, die Schwersterkrankten und -verletzten möglichst frühzeitig und richtig zu erkennen. Ohne Berücksichtigung der Eingruppierungsrichtigkeit durch den jeweiligen Algorithmus zeigt Abb. 2 die Anzahl der Verfahrensschritte bis zur Einordung in die SK I–IV. Eine Zuordnung von Patienten in die SK I (rot) im PRIOR-Algorithmus erfolgt demnach mindestens einen Schritt schneller als bei mSTaRT. Besonders auffällig ist auch, dass der PRIOR-Algorithmus zur Identifikation der unkritischsten SK-III(grün)-Patienten die meisten Algorithmusschritte benötigt.

Abb. 2
figure 2

Notwendige Schritte (Mittelwerte ± SE) im jeweiligen Algorithmus bis die Eingruppierung in eine Sichtungskategorie feststeht. PRIOR Primäres Ranking zur Initialen Orientierung im Rettungsdienst, mSTaRT „modified Simple Triage and Rapid Treatment“, FTS „Field Triage Score“, STaRT „Simple Triage and Rapid Treatment“, ASAV Amberg-Schwandorf Algorithmus für die Vorsichtung

Testqualität der Sichtungsalgorithmen

Abhängig von chirurgisch oder internistischen Patienten zeigt Abb. 3 die Entscheidungsgüte von Vorsichtungsverfahren zur Identifikation der Schwerverletzten/-erkrankten. Je weiter unten ein Verfahren in Abb. 3 angesiedelt ist, umso eher untertriagiert es (fehlendes Erkennen der entsprechenden Patienten (falsch-negativ)). Je weiter rechts ein Verfahren dargestellt ist, umso eher übertriagiert es (falsch-positive Zuordnung in die SK I/rot). Das bedeutet, dass die geeignetsten Verfahren links oben zur Darstellung kommen. In Abb. 3 ist die Zusammenlegung der Algorithmenergebnisse I (rot) und IV (blau) dargestellt, die in der nichtärztlichen Vorsichtung nicht unterschieden werden. Alle vergleichsrelevanten Testgütekriterien der Verfahren in den Sichtungskategorien und Patientenkohorten zeigt Tab. 4.

Abb. 3
figure 3

Testqualität von Vorsichtungsverfahren für die Erkennung von Schwerverletzten/-erkrankten (kombinierte Sichtungskategorien SK I/IV). Gesamtkohorte (Rauten), chirurgische Patienten (Quadrate), internistische Patienten (Dreiecke). Sensitivität: Anteil korrekter Einschlüsse, Spezifität: Anteil korrekter Ausschlüsse

Tab. 4 Testgüte der Vorsichtungsverfahren in Prozent

Genauso wenig wie für einen nichtärztlichen Vorsichter die Einstufung eines Patienten in die SK IV infrage kommt, so wenig kann der Tod eines Patienten durch einen Nichtarzt konstatiert werden. Damit ergibt sich für die Betrachtung der Eignung und Güte von Vorsichtungsverfahren für die Anwendung durch Nichtärzte die Notwendigkeit der kombinierten Betrachtung der Schwerverletzten und Verstorbenen (SK I + SK IV + EX). Sowohl die SE der Identifikation von Schwerverletzten/-erkrankten als auch die SP in der Detektion von SK II/III zeigten marginale Abweichungen mit und ohne Berücksichtigung der bei Eintreffen bereits Verstorbenen 8 der 500 Patienten. Beispielsweise steigt die SE bei PRIOR von 90 auf 91 % in der SK I bei unveränderter Spezifität. Die Gütevergleiche zwischen den Algorithmen werden durch die Berücksichtigung der verstorbenen Patienten letztlich nicht beeinflusst.

Die Fehleinstufungen anhand der ∆SK der Vorsichtungsalgorithmen von den Referenzsichtern veranschaulicht Abb. 4. Die deutlichste Übertriage zeigt sich in der SK III mit dem PRIOR-Verfahren, insbesondere bei internistischen Patienten (Abb. 4, rechts). Die ∆SK von +1,1 für internistische Patienten der SK III kann so interpretiert werden, dass jeder SK III Patient vom PRIOR-Algorithmus als SK-II-Patient deklariert wird und zusätzlich jeder 10. SK-III-Patient gar eine Einstufung in die SK I erhält. Umgekehrt ist der FTS mit einem ∆SK von +0,1 am besten in der Lage, chirurgische SK-III-Patienten zu identifizieren, denn nur jeder 10. SK-III-Patient wird fälschlich in die SK II eingestuft. Die Probleme zeigen sich jedoch beim FTS in der erheblichen Tendenz zur Untertriage, in dem er 90 % der chirurgischen SK-I-Patienten in die SK II einstuft.

Abb. 4
figure 4

Über- bzw. Untertriage durch Vorsichtungsverfahren nach Sichtungskategorien und Fachabteilungen. Angegeben sind die Differenzen (∆SK) [Mittelwerte ± SE] der vom Vorsichtungsalgorithmus festgelegten Sichtungskategorie von der ärztlichen Referenzsichtung

Erfahrungsgrad der Sichter bei der algorithmenunabhängigen Sichtung

Dass notärztliche Anfänger und Fortgeschrittene, die keine aktiven leitenden Notärzte sind, eine Untertriage um 0,4 SK für die SK I, und von 0,2 für die SK II vornehmen, zeigt Tab. 5. Die geringfügige Unterschätzung bei den SK-II-Patienten sowie die marginale Überschätzung um 0,1 SK bei der SK III muss in diesem Zusammenhang als klinisch von untergeordneter Bedeutung angesehen werden.

Tab. 5 Mittelwerte der Abweichungen der individuellen Sichtungen sowie Testgütekriterien der ärztlichen Sichter in Prozent nach Erfahrungsgrad (±SE)

Diskussion

Die erfolgreiche Bewältigung von Großschadenslagen bedingt eine Priorisierung der Behandlungsmaßnahmen mit frühestmöglicher Rückkehr zu individualmedizinischen Behandlungsprinzipien [15, 24]. Dabei ist die Verfügbarmachung von Behandlungskapazitäten in Großschadenslagen auch eine ethisch-moralische Diskussion, die sich zwischen dem medizinisch Wünschenswerten, dem logistisch Machbaren und dem politisch Opportunen bewegt [6]. Lange Zeit stand die ungenügende Identifikation von Schwerverletzten/-erkrankten (Untertriage) mit der Folge einer Unterversorgung dieser Patienten im Fokus der Verbesserungs- und Schulungsaktivitäten [7, 15,16,17]. Hieraus erwuchsen auch Projekte zur Verbesserung bzw. Neuentwicklung von Vorsichtungsverfahren, um eine prioritätengerechtere Versorgung der Patienten auch in Großschadenslagen unabhängig von der Art der Verletzung/Erkrankung (chirurgisch/internistisch) zu ermöglichen [12].

Einsätze mit Luftrettungsmitteln bieten sich aufgrund der Einsatzfrequenz mit höheren Erkrankungs- und Verletzungsschweregraden (Tab. 3) an, eine Untersuchung zur Qualität von Vorsichtungsverfahren durchzuführen, auch wenn diese Kohorte nicht explizit einer Großschadenslage entstammt. Dabei ist die Verteilung der Schweregrade der Patienten für den Fokus der Arbeit, nämlich den standardisierten Vergleich von Vorsichtungsalgorithmen, von untergeordneter Bedeutung, solange eine ausreichende Anzahl von Patienten aller Schweregrade vorhanden ist. Diese Bedingung ist mit 67 chirurgischen bzw. 132 internistischen Patienten mit einem NACA Score ≥ 4 erfüllt. Aufgrund der Variabilität in der Realität ist eine solche Kohorte darüber hinaus besser zur Prüfung der Feldtauglichkeit von Vorsichtungsverfahren geeignet als Mimen oder Simulationspatienten [18], die aus methodisch/didaktischen Gründen leichter einstufbar gemacht sind [25]. Die an Patienten aus dem regulären Rettungsdienst erhobene Güte der Vorsichtungsverfahren steht im Einklang mit anderen Untersuchungen [14, 26], auch nach Großschadenslagen [22]. Es kann angenommen werden, dass die gefundenen Stärken und Schwächen aus der vorliegenden Computersimulation der Algorithmen (Zusatzmaterial online: Tab. 6 und 7) in Großschadenslagen ebenso zutage treten werden, wenn sie durch Einsatzkräfte angewendet werden. Die Stärke der Computersimulation besteht in diesem Kontext v. a. aber darin, dass Unzulänglichkeiten der Algorithmen selbst, durch den klinischen Blick der Einsatzkräfte nicht ausgeglichen werden können und somit die reine Logik der Algorithmen verglichen wird.

Kongruent mit Abb. 2 zeigte eine Evaluierungsstudie des PRIOR-Algorithmus [26], dass die Zeitdauer für die Sichtung chirurgischer Patienten der SK III mit 42 s sowohl gegenüber den anderen SK als auch dem mSTaRT-Algorithmus am längsten war. Der Zeitbedarf für den reinen Sichtungsvorgang wurde für PRIOR mit SK I/II/III mit 27/28/42 s und für mSTaRT mit 35/20/10 s angegeben. Werden Zeitansätze verglichen, muss die Verteilung der SK in der betrachteten Kohorte miteinfließen. Eine einfache Modellrechnung ergibt, dass bei einer Patientenverteilung SK I/II/III/EX von 15 %/20 %/60 %/5 % bei 100 Patienten, die nach PRIOR vorgesichtet werden, Zeitaufwände für die Sichtung der SK III von 42 min entstehen. Im Vergleich dazu liegt der Zeitaufwand bei mSTaRT für diese Kategorie bei 10 min. Verschiebt sich die Patientenverteilung noch weiter zugunsten der SK III wie bei der von Brüne [19] gefundenen Gesamtverteilung bei MANV (SK I/II/III von 7 %/19 %/74 %), dann werden mit dem PRIOR-Verfahren 81 % der Sichtungszeit bei Leichtverletzten verwendet.

Die Bindung von Kräften für die Vorsichtung schiebt die Sicherstellung der medizinischen Erstversorgung in den Patientenablagen auf. Damit ist ein Verfahren, das bei vergleichbarer Präzision z. B. durch Limitierung der Diskriminanten schneller ist, zu favorisieren. Neben den Effekten, die allein durch die Konstruktion des Algorithmus bestehen, müssen Erfahrung und Routine im Umgang mit dem Algorithmus zusätzlich berücksichtigt werden. Bei einer Behandlungsplatzübung der 24. Medizinischen Task Force (MTF) des Bundes wurden 4‑mal 25 dynamische Simulationspatienten [27] mit SK I/II/III von 40/28/32 nach PRIOR und nach mSTaRT von Ärzten mit unterschiedlicher notfallmedizinischer Erfahrung standardisiert gesichtet [28]. Der mittlere Zeitbedarf für einen PRIOR-Sichtungsvorgang lag unabhängig von der Sichtungskategorie bei 23 ± 13 s (mSTaRT 31 ± 23 s). Bei dem erfahrenen Sichter lag der Zeitbedarf unabhängig vom Algorithmus bei 19 ± 11 s (Unerfahrener 36 ± 22 s) je Sichtung.

Im Vergleich zu den Modellrechnungen mit üblicherweise zu erwartenden Patientenverteilungen zeigt sich, dass PRIOR seine zeitlichen Stärken v. a. dann ausspielen kann, wenn ein hoher Anteil von Patienten der SK I (rot) vorhanden ist und der Algorithmus entsprechend früher mit dem entsprechenden Ergebnis abgebrochen werden kann. Der Erfahrungsgrad bestimmt die Zeitdauer allerdings entscheidend mit. Für Patientenverteilungen, wie sie von Brüne [19] für übliche MANV-Lagen beschrieben sind, bleibt der überwältigende Zeitaufwand bei PRIOR allerdings für die Patienten der SK III (grün) bestehen.

Im Umfeld von größeren Schadenslagen lässt sich präklinisch mittlerweile die Tendenz erkennen, dass Patienten im Zweifel in eine höhere SK klassifiziert werden, um eine Unterversorgung und damit potenzielle Lebensbedrohung zu vermeiden (Übertriage). Am Beispiel des Busunfalls mit letztlich 11 Verstorbenen und 69 Verletzten 2014 in Dresden war die bei Klinikaufnahme am Universitätsklinikum nachweisbare SK mit 2,5 ± 0,3 um 0,4 SK tatsächlich weniger kritisch, als sie vom Rettungsdienst übergeben wurde (2,1 ± 0,2). Von 10 Patienten wurden hier also 4 Patienten in der Präklinik um eine SK höher eingeschätzt, als sie tatsächlich waren [29]. Insofern muss die NACA-Klassifikation der Einsätze durch den Notarzt selbst kritisch hinterfragt werden und kann nicht 1:1 in SK übertragen werden. Zur Validierung sowohl der präklinischen Einschätzung als auch der Eingruppierung nach SK wäre das nachgelagerte Scoring im Krankenhaus nach SAPS II oder ISS (nur traumatologische Patienten) interessant gewesen, lag aber aufgrund der heterogenen Zielkliniken im Einzugsbereich des RTH nicht durchgehend vor. Unabhängig davon wird das eigentliche Studienziel hierdurch kaum beeinflusst, weil sowohl für die Sichter als auch die Algorithmen gleiche Bedingungen und somit Vergleichbarkeit herrschten.

Die Sterblichkeit in einer MANV-Lage hängt auch maßgeblich vom Grad der Übertriage ab: Die Daten von Frykberg [30] zeigen, dass die Mortalität für jedes Prozent Übertriage um knapp 0,5 % steigt. Durch Übertriage wird Behandlungsressource an nichtdringliche Fälle (SK II/III) verschwendet und steht SK-I-Patienten somit nicht mehr zur Verfügung [30]. Umgekehrt führt Untertriage aufgrund zu geringer SE zur fehlenden Einordnung des Patienten in die korrekte, schwerere Kategorie und unterbindet seinen Zugang zu den notwendigen Behandlungsressourcen dieser Kategorie (Tab. 2; [18]).

In einer Evaluierungsstudie bei chirurgischen Mimen und Simulationskartenpatienten [27] konnte für die SK I (rot) für PRIOR eine SE von 99 % bei einer SP von 45 % gefunden werden. Für mSTaRT ergab sich in dieser SK eine SE von 55 % bei einer SP von 93 % [26]. Paul et al. zeigten an chirurgischen Patienten aus dem Regelrettungsdienst für mSTaRT eine SE von 50 % und eine SP von 97 % [14]. Diese Daten stehen im Einklang mit den hier gefundenen Ergebnissen in Abb. 3 und Tab. 4.

Der PRIOR-Algorithmus erfasst somit zwar nahezu alle SK-I-Patienten (SE 90 %), allerdings um den Preis einer hohen Übertriage (SP 50 %) mit den zuvor genannten Problemen der Behandlungsressourcenverschwendung und mutmaßlichen Letalitätssteigerung (Tab. 2; [18, 30]).

Anders als in den Voruntersuchungen, die die SK IV als Schwerverletzte unberücksichtigt gelassen hatten, zeigt der mSTaRT-Algorithmus mit einer SE von 95 % bei chirurgischen Patienten in dieser Untersuchung deutlich bessere Werte. Der methodisch inhaltliche Vorteil dieser kombinierten Betrachtung der Einstufung Schwerverletzter wurde im Methodenteil erläutert.

Die Güte der Einstufung der Leichtverletzten SK III (grün) wurden für den PRIOR-Algorithmus an chirurgischen Mimen und Patientensimulationskarten [27] mit einer SE von 97 % und einer SP von 96 % beschrieben, während mSTART eine SE von 97 % und eine SP von 82 % aufwies [26]. Dagegen zeigt die vorliegende Untersuchung im chirurgischen Vergleichskollektiv bei ähnlicher SE für PRIOR lediglich eine SP von 65 %. Ursächlich könnte dabei sein, dass Mimen und Patientensimulationskarten aus didaktischen Gründen eine klare vorab definierte SK besitzen. Die in dieser Studie durch reale Patienten gegebene größere Variabilität der Symptombilder stellt höhere Ansprüche an die Trennschärfe der Algorithmen und erlaubt damit eine realistischere Einschätzung ihrer Güte [31].

Diejenigen Verfahren, die die Gehfähigkeit als Kriterium für die Kategorisierung Leichtverletzter und -erkrankter (SK III) heranziehen, zeigen alle übereinstimmend eine SE von 67 % und eine SP von 53 %. Die chirurgischen Patienten liegen dabei in der SE mit 62 % niedriger, dafür in der SP mit 63 % höher. Ein umgekehrtes Bild ergibt sich bei den internistischen Patienten mit einer höheren SE (71 %) und einer geringeren SP (47 %). Ursache hierfür können die nichtgehfähigen (chirurgischen Patienten) mit leichten Verletzungen an der unteren Extremität sein, die aufgrund ihrer fehlenden Gehfähigkeit übertriagiert werden [14]. Zusammenfassend stellt „gehfähig“ keine gute Diskriminante dar, ist jedoch exzellent geeignet, um in unübersichtlichen Lagen eine schnelle, allerdings grobe Einteilung von Patienten vorzunehmen. Nichtgehfähige Patienten müssen hier umgehend aus dem Gefahrenbereich gerettet werden. Für nachgeschaltete exakte Sichtung und Allokation der Behandlungsdringlichkeit ist die Diskriminante „gehfähig“ allerdings ungeeignet.

Die Nutzung der motorischen Komponente des GCS als Entscheidungskriterium scheint dabei zwar wie beim FTS den größeren Teil der tatsächlich nur Leichtverletzten einzuschließen (SE 83 %), aber die schwerer Verletzten und Erkrankten nicht ausreichend sicher von der SK III auszuschließen (SP 36 %). Zieht man die Fläche unter der Kurve (AUC) als Qualitätsmerkmal heran, so liegen die Verfahren, die sich an der Gehfähigkeit orientieren, mit kargen 0,36 am besten, wo Werte zwischen 0,9 und 1 angestrebt werden müssten. Insgesamt ist ein solcher AUC-Wert für diagnostische Tests unbefriedigend. Somit ist die Diskriminante „gehfähig“, für sich betrachtet, aus unserer Sicht allein ungeeignet für eine valide Zuordnung in eine der SK. Für die verbleibende SK II (gelb) zeigen sich für nahezu alle Verfahren Testgütewerte, die kaum über die eines Münzwurfs hinausgehen (Tab. 4).

Bei der Bewertung der algorithmenunabhängigen SK-Einstufung durch die 19 Sichter sind die Dimensionen Zugehörigkeit zu einer Fachabteilung und Erfahrungsgrad interessant. Da die wenigen nichtanästhesiologischen Sichter der LNA-Gruppe angehören, wäre eine Aufschlüsselung nach Fachabteilungen kreuzkorreliert mit dem Erfahrungsgrad und damit nicht aussagekräftig.

Während die Gruppe der LNA erwartungsgemäß über hohe SE und SP in der Festlegung der SK I verfügt (Tab. 5), die auch allen Vorsichtungsverfahren überlegen sind, ist die SE in den beiden Nicht-LNA-Gruppen niedriger, als sie für STaRT, mSTaRT und ASAV in Abb. 3 dargestellt wird. Während in diesen beiden Gruppen also der Ausschluss Nichtschwerverletzter gut und auf gleichem Niveau wie bei den LNA zu funktionieren scheint, lässt sich aber ein relevantes Maß an Untertriage (Falsch-Negative) erkennen. Ein interessanter Aspekt ergibt sich durch die geringfügig höhere Testgüte für die Festlegung der SK I bei den Anfängern gegenüber den fortgeschrittenen Notärzten ohne LNA-Qualifikation. Über die Ursachen und die tatsächliche klinische Wertigkeit dieser Beobachtung kann nur spekuliert werden: Notarzteinsteiger könnten aus berechtigter Unsicherheit und kompensatorischer Genauigkeit heraus eine höhere Eingruppierung (richtig-positiv) vornehmen, ohne dabei aber zu falsch-positiven Ergebnissen zu kommen (korrekter Ausschluss gelingt).

Aus der Zusammenschau von Tab. 5; Abb. 3 und 4 mit den Einschränkungen der zugrunde liegenden Gruppengröße der Sichter ist abzuleiten, dass sich Notärzte, die sich nicht intensiv mit dem Thema Sichtung beschäftigt haben, in der Einschlussentscheidung zu SK I eher an den oben genannten Vorsichtungsalgorithmen orientieren sollten, um eine Untertriage zu vermeiden.

Bei diagnostischen Tests in der Medizin sind 2‑stufige Verfahren durchaus üblich, um die Stärken mehrerer Testverfahren zu bündeln und damit die Schwächen zu eliminieren. Übertragen auf die richtige Eingruppierung Leichtverletzter ohne Übersehen von Begleiterkrankungen könnte für diese Patienten ein initial an der Gehfähigkeit orientierter Algorithmus zum Schnellüberblick über einen Schadensraum sinnvoll sein. Aufgrund der mangelnden Testqualität muss jedoch nachgelagert (2. Sichtung) ein Algorithmus mit Erfassung physiologischer Paramater durchgeführt werden [18].

Wie diese Arbeit empirisch zeigt, unterscheiden sich chirurgische und internistische Krankheitsbilder hinsichtlich der erreichbaren Trennschärfe in den jeweiligen SK. Eine Ursache hierfür könnte darin liegen, dass die in den Algorithmen festgelegten „Cut-off“-Werte (Trennwerte) der physiologischen Parameter für internistische Patienten zu rigide ausgelegt sind. Beispielsweise wird eine hypertensive Krise oder ein Schlaganfall von vielen Verfahren in die SK III eingestuft. Ebenso sind Algorithmen, die v. a. anatomische Diskriminanten verwenden (spritzende Blutung, instabiles Becken etc.), bei internistischen Krankheitsbildern unwirksam. Priorisierungsalgorithmen, die im medizinischen Bevölkerungsschutz verwendet werden, müssen dennoch auch eine Nutzbarkeit für nichtchirurgische Patienten bieten [8]. Mit dem möglichen Einsatzauftrag, ein Behelfskrankenhaus darzustellen, muss eine MTF mit den zur Verfügung stehenden Mitteln des Sanitätsdienstes Priorisierungsentscheidungen treffen, die auch Schlaganfälle beinhalten, von denen 22 in die vorliegende Studie eingingen. Dies unterstützt die Forderung nach einer Adjustierung der Sichtungsdiskriminanten unter angemessener Berücksichtigung internistischer Erkrankungen. Diese nach wie vor ungelöste Problematik haftet auch den Verfahren an, die in Tab. 4 die beste Testgüte zeigten. Die hier führenden Verfahren START, ASAV und mSTaRT liegen mit einer AUC von ≤0,65 für die Gesamtkohorte bei allen erwähnten Schwierigkeiten weit unter den Werten, die von einem diagnostischen Test erwartet werden müssen. Allerdings findet sich selbst mit den diagnostischen Fähigkeiten einer großen zentralen Notaufnahme eine deutlich bessere Übereinstimmung chirurgischer Aufnahmediagnosen mit den Entlassungsdiagnosen als bei internistischen Patienten [32]. Diese Beobachtung ist möglicherweise ein Hinweis darauf, dass diese Unterschiede in der diagnostischen Präzision chirurgischer und nichtchirurgischer Patienten unauflösbar in der Natur der Sache liegen und umso mehr für die eingeschränkten Möglichkeiten präklinisch gelten.

Multiparametrische „early warning scores“ (MEWS), die Messwertabweichungen mehrstufig, sowohl nach oben als auch nach unten, bei der Einstufung berücksichtigen [33], könnten zur Lösung des SE-Problems insbesondere bei den internistischen Patienten beitragen. Der mit der manuellen Erhebung verbundene Aufwand macht diese MEWS zumindest für den ersten Sichtungsvorgang im medizinischen Bevölkerungsschutz unbrauchbar. Ähnliches gilt für WLAN basierte kommerziell verfügbare automatisierte MEWS-Systeme [34], insbesondere in räumlich ausgedehnten Lagen. Ähnlich wie der PRIOR-Algorithmus könnten MEWS eine hohe Zahl falsch-positiver Einstufungen nach sich ziehen. Die Eignung von MEWS für eine Zweitsichtung in einer nach Gehfähigkeit gebildeten Patientenablage SK III zur Vermeidung einer Untertriage muss in Folgestudien untersucht werden.

Schlussfolgerungen

Nach bisheriger Datenlage ist die Zielsetzung anzuerkennen, dass mit der Optimierung von Vorsichtungsalgorithmen die Patienten der SK I (rot) und hier insbesondere nichtchirurgische Patienten zuverlässiger erkannt werden müssen. Möglicherweise liegt aber die geringere diagnostische Güte bei nichtchirurgischen Patienten in der höheren Komplexität dieser Patienten begründet und ist präklinisch insbesondere in Großschadenslagen nicht auflösbar. Eine Fortentwicklung von Algorithmen muss insgesamt im Sinne der Patienten trotzdem den Regeln folgen, die auch für andere diagnostischen Testverfahren in der Medizin gelten. Es darf nicht der Wunsch im Vordergrund stehen, aus einem in der individualmedizinischen Schwerverletztenversorgung bestens etablierten Verfahren mit hoher SE für die prioritätengerechte Entdeckung und Behandlung von Verletzungen [15] ein Priorisierungsverfahren für den Massenanfall von Verletzten oder Erkrankten abzuleiten, das die notwendige SP außer Acht lässt. Wie die vorliegende Untersuchung zeigt, ist ein Verfahren wie PRIOR zwar aufgrund der vielen Einschlussmöglichkeiten hoch sensitiv für die Zuordnung in die SK I (rot), kategorisiert jedoch sehr viele falsch-positive Entscheidungen (Übertriage), sodass an der Eignung zur schnellen und zuverlässigen Identifikation Schwerverletzter beim MANV gezweifelt werden muss. Vielmehr besteht bei diesem Grad von Übertriage Anlass zur Sorge, dass mit einer erhöhten Mortalität der SK-I-Patienten, bei Anwendung als Vorsichtungsverfahren in der Patientenablage, gerechnet werden muss. Dies gilt in besonderem Maß, wenn der Anteil an SK-I-Patienten, wie von Brüne beschrieben [19], je nach Schadenslage nur zwischen 3 und 14 % variiert und trotzdem der größte Zeitanteil der Vorsichtung der Patienten in der SK III benötigt wird.

Bei hoher Verfügbarkeit von Kräften und Mitteln sowohl des Rettungsdienstes als auch der weiterversorgenden Einrichtungen (z. B. im Großstadtbereich) wird sich ein sehr sensitives Verfahren mit eingeschränkter SP wie PRIOR [12] weniger negativ im Sinne einer steigenden Sterblichkeit der Opfer [30] auswirken als in einem Flächenland. Dennoch ist es aus dem Blickwinkel der Einsatzleitung und der nachgelagerten Versorgungseinrichtungen vorteilhafter, Patienten in klar abgegrenzter Kenntnis der tatsächlichen SK zu priorisieren und zu verteilen als mit einer hohen Unschärfe in der Kategorisierung.

Insbesondere unter Berücksichtigung eines Szenarios, in dem eine ärztliche Sichtung erst nachgelagert im Krankenhaus erfolgen kann und die Entscheidungen vor Ort v. a. von Nichtärzten algorithmenbasiert erfolgen, darf die SK IV (blau) in der Vorsichtung keine Rolle spielen. Etablierte Vorsichtungsverfahren weisen für chirurgische Krankheitsbilder gute SE und SP auf und können zur Anwendung kommen.

Obwohl funktionierende Vorsichtungskonzepte existieren, ist es letztlich erfolgsentscheidend, dieses Wissen beim Rettungsdienstpersonal aller Berufsgruppen jederzeit abrufbar und anwendungsbereit zu halten.