Anmerkungen zur Datenauswertung in der Dissertation

Diskussionsbeiträge zur Dissertation von Frau Dr. Christina Werner

Auf Wunsch der Betreuer der Dissertation von Frau Dr. Werner, der Kollegen Prof. Dr. Sundrum und Prof. Dr. Sobiraj, stelle ich hier in schwarzer Schrift Stellungnahmen zu meinem "Kommentar zur Dissertation von Frau Dr. Werner" ins Web, wobei ich mir erlaubt habe, zur Verdeutlichung der unterschiedlichen Standpunkte und Abkürzung des Verfahrens diese Stellungnahmen meinerseits in blauer Schrift zu kommentieren. G.W.Bruhn

Teil 1: Dipl. Stat. Rainer Lüdtke: "Anmerkungen zur Datenauswertung in der Dissertation . . . " (nachfolgend)

Teil 2: Stellungnahme der Betreuer der Dissertation, über diesen Link.

Rainer Lüdtke (Karl und Veronica Carstens-Stiftung)

Anmerkungen zur Datenauswertung in der Dissertation von Dr. C. Werner:
Klinische Kontrollstudie zum Vergleich des homöopathischen und chemotherapeutischen Behandlungsverfahrens bei der akuten katarrhalischen Mastitis des Rindes"
und der im Internet von Prof. Bruhn geäußerten Kritik daran

Die Auswertung klinischer Studien – egal ob am Menschen oder am Tier – ist im Vergleich zu physikalischen oder chemischen Laborexperimenten, oft vergleichsweise schwierig. Dieses liegt in der Regel an ethischen (und rechtlichen) Implikationen, die ein Menschen- oder Tierexperiment mit sich bringt. So dürfen Menschen jederzeit, ohne Angabe von Gründen und ohne, dass ihnen dadurch ein Nachteil entsteht, die experimentelle Situation verlassen. Gleichzeitig haben sie das Recht, einzelne Messungen zu verweigern (z.B. indem sie zum vereinbarten Untersuchungstermin nicht erscheinen), die Behandlung abzubrechen oder Begleittherapien anzuwenden, die ihnen geeignet erscheinen, unabhängig davon, ob diese Begleittherapien im Studienprotokoll erlaubt waren oder nicht. Ähnliche Rechte werden auch Tieren zugestanden. Das führt zu zwei in der Laborforschung deutlich seltener zu findenden Phänomenen:

1.) es fehlen gehäuft Messwerte, 2.) die vorhandenen Messwerte sind u.U. von weiteren Faktoren beeinflusst, die außerhalb der Kontrollmöglichkeiten des Experimentators liegen.

Schon in den 1980er Jahren wurde klar, dass es nicht sinnvoll ist, Patienten (Tiere), bei denen diese Phänomene auftreten, aus der Auswertung auszuschließen. In aller Regel werden die Therapiegruppen nämlich durch Randomisation gebildet – basieren also auf dem Zufallsprinzip. Nur die Randomisation gewährleistet, dass die Gruppen zu Studienbeginn miteinander (im statistischen Sinne) vergleichbar sind, also im Mittelwert die gleiche Prognose zum Krankheitsverlauf aufweisen. Schlösse man nun einzelne Patienten (Tiere) aus der Auswertung aus, so würde man die prognostische Vergleichbarkeit der Gruppen aufheben, die statistischen Tests wären ungültig (sie halten unter Umständen nicht mehr das Signifikanzniveau ein). Aus diesem Grund gilt das intention-to-treat-Prinzip – das besagt, dass jeder einmal randomisierte Patient (Tier) in der Gruppe ausgewertet werden muss, in die er (es) randomisiert wurde – als eines der Grundprinzipien der Biometrie. Die Europäische Zulassungsbehörde für Arzneimittel EMEA formuliert es so: “complete case analysis violates the intention to treat principle. More importantly it is subject to bias, and thus cannot be recommended as the primary analysis in a confirmatory trial” ¹)

Eine besondere Herausforderung für die statistische Auswertung klinischer Studien ist es, wenn a.) die Größe des Messwerts von externen Faktoren abhängt oder b.) die Tatsache, dass ein Messwert fehlt, mit der Größe des Messwerts zusammenhängt, sie also nicht – wie Statistiker formulieren – zufällig zustandekommen („missing at random“). In diesem Fall birgt jeder fehlende Wert, bzw. jeder zusätzlich beeinflusste Messwert, eine nicht zu vernachlässigende Zusatzinformation.

Soweit einverstanden.

Es gibt bisher keine allgemein akzeptierte oder empfohlene Vorgehensweise, wie diesem Problem zu begegnen ist.

So ist es.

Standardmethoden existieren nur für den Fall, dass fehlende oder beeinflusst Werte die missing at random-Voraussetzung erfüllen (d.h. dass die Tatsache ob ein Messwert fehlt oder beeinflusst ist, vollständig aus der Geschichte des Patienten (Tieres) erklärt werden kann), hier kommen vor allem multiple Imputationen nach Rubin oder die Verwendung von GEE-Schätzgleichungen in Frage. Im Falle nicht-zufälliger fehlender Werte gibt es im Prinzip zwei Möglichkeiten: a.) die statistische Modellierung der Effekte und b.) die Verwendung plausibler ad-hoc Verfahren, die eine konservative Abschätzung der Ergebnisse ermöglichen.

Statistische Modellierungsverfahren werden oft unter dem Begriff des „informative Censoring“ zusammengefasst. Der Modellierungsprozess ist dabei enorm aufwändig, ebenso die Lösungen, da sie nicht in statistischen Standardprogrammen zusammengefasst sind. Hinzu kommen besondere Probleme, wenn Patienten (Tiere) zu einer Therapie wechseln, die in einer Vergleichsgruppe angeboten wird. In diesem Fall sind die Schätzer zweier Effekte (Effekt als First-Line-Therapie, Effekt als Second-Line-Therapie) stark miteinander korreliert, was oft zu numerischen Problemen (sog. Multikollinearitätsproblem) führt. Zudem sind die erhaltenen Ergebnisse stark abhängig vom gewählten Modell, also den getroffenen statistischen Modellannahmen (Verteilungsannahme, Zusammenwirken der modellierten Effekte etc.) und sensitiv gegenüber kleinen Veränderungen in den Daten. Was mit anderen Worten nichts anderes heißt, dass die so erhaltenen Ergebnisse oft unzuverlässig sind und ein hohes Risiko für Bias tragen. In der Praxis wird daher oft auf ad-hoc Verfahren zurückgegriffen, die zwar selten vollständig untersucht und verstanden sind, aber eine augenscheinliche Validität besitzen. Diese Verfahren sind in der Regel ebenfalls mit einem hohen Bias-Risiko behaftet. Sie werden daher möglichst so ausgewählt, dass die Richtung des Bias vorhersagbar ist und z.B. die Wirksamkeit einer aktiven Therapie gegenüber einer Kontrolltherapie unterschätzen, bei einem Signifikanztest also seltener auf Wirksamkeit entschieden als eigentlich notwendig (sog. konservatives Vorgehen).

Für ein solches Vorgehen haben wir uns in der Studie von Frau Werner entschieden, indem wir die Messwerte von Tieren, bei denen die Therapie gewechselt wurde, möglichst schlecht gewählt haben. Dabei sind wir – ähnlich wie Prof. Bruhn in seiner Kritik – von der Überlegung ausgegangen, dass die Chemotherapie bei der Behandlung der bovinen Mastitis nachweisbar wirksam ist, der Beginn einer zusätzlichen chemotherapeutischen Behandlung also wahrscheinlich einen Wendepunkt in den Messwerten des Tiers markiert. Die Fortschreibung des letzten Wertes vor Beginn der Chemotherapie (lastobservation-carried-forward) ersetzt demzufolge relativ günstige Messwerte durch relativ schlechte und ist daher im obigen Sinn konservativ.

Eben nicht! s. meine Bemerkungen zu den Abbruchkriterien in Teil 2 der Diskussion

Gleichzeitig ist auch der Vergleich der homöopathischen Therapiegruppe mit der Placebogruppe konservativ, da man unter der Nullhypothese (also der für die Berechnung des p-Werts rechnerisch relevanten Bedingung), dass Wirksamkeit der homöopathischen Therapie nicht über eine Placebowirkung hinausgeht, in beiden Therapiegruppen überwiegend Tiere erwarten würde, in denen eine Chemotherapie als Notfalltherapie eingesetzt werden muss, womit in beiden Gruppen nahezu identische Werte eingesetzt würden und zufällig auftretende Gruppenunterschiede im Wesentlichen ausgeschlossen wären.

Die Kritik von Prof. Bruhn an der Auswertung der hier zur Disposition stehenden Studie zielt zentral auf dieses Verfahren („Durch derartige Manipulationen an den Gruppenzugehörigkeiten (u.U. sogar mehrfach) wird die Wirksamkeit der jeweiligen Behandlungsmethoden verschleiert.“ ²). In seiner Wortwahl ist er dabei leider etwas unpräzise. Wie oben dargelegt, stimmt es nicht, dass „Bei Gruppenwechsel [...] die Gruppenzugehörigkeit nicht mehr eindeutig definiert“ ist. Das Gegenteil ist der Fall: dadurch, dass jedes Tier wurde genau in der Gruppe ausgewertet, in die es randomisiert wurde, ist jedem Tier genau eine Behandlungsgruppe zugeordnet. Allerdings kann jedes Tier mit mehreren Behandlungsmethoden therapiert sein. Ob deren Wirksamkeit verschleiert wird, hängt von der Interpretation dieses Wortes ab. Prof. Bruhn verwendet es augenscheinlich in dem Sinne, dass sie unmöglich gemacht wird. Wie oben dargelegt, wird sie nach unserer Auffassung aber bewusst und systematisch unterschätzt. Und bietet daher durchaus die Möglichkeit, eine (begrenzte) Wirksamkeitsaussage zu treffen.

Und genau die (erforderlichen) ein- oder mehrfachen Behandlungswechsel sind das Problem:
Die angewendete locf-Methode belässt das Testobjekt zwar nominell in der ursprünglichen Behandlungsgruppe (Frau Dr. Werner verwendet dennoch den Term „Gruppenwechsler“), benutzt aber den vor Therapiewechsel bestehenden Zwischenzustand als Endzustand. Das ist Datenmanipulation (zunächst in der wertfreien Bedeutung dieses Terms). Die Notwendigkeit von erforderlichen geänderten Folgebehandlungen bei Erreichung von Toleranzgrenzen (etwa zur Behebung von Notsituationen s.o.) wird damit ignoriert: Durch den Therapiewechsel wird ein sonst u.U. katastrophaler weiterer Ablauf verhindert, der eigentlich an Stelle des noch minder kritischen Zwischenzustandes in der Endauswertung hätte berücksichtigt werden müssen. In der Endauswertung soll ja schließlich die statistische Wirksamkeit von Behandlungsmethoden ermittelt werden.
Was demnach durch die locf-Methode „unterschätzt“ wird, ist der ohne Behandlungswechsel eintretende (u.U. katastrophale) Endzustand, der durch den gerade noch tolerablen Zwischenzustand vor „Gruppenwechsel“ (Dr. Werner) ersetzt wird. Deshalb spreche ich von „Verschleierung“. Mehr dazu in meinen Bemerkungen zu den Abbruchkriterien in Teil 2 der Diskussion

Auch in seinen Vorschlägen, wie diese Studie auszuwerten sei, bleibt Prof. Bruhn leider etwas vage. In einer ersten Version forderte er, nur die Tiere auszuwerten, in denen keine Behandlungswechsel vorkamen („Um zu brauchbaren Aussagen zu kommen, müssen sämtliche Kontrollgruppenwechsel aus Ihren Erhebungen entfernt werden und die verbleibenden Restdaten erneut ausgewertet werden.“ ³). Dieses ist – wie oben gezeigt – keine Option, da unkontrollierbare Verzerrungen möglich sind.

Sehr richtig! Und deshalb hatte ich diesen Vorschlag zur Heilung des Verfahrensfehlers, der ja immerhin nur tatsächlich erhobene Daten benutzt, sofort wieder zurückgezogen, da auf unzulässige Datenselektion hinauslaufend: Gerade die dabei eliminierten Fälle enthalten wesentliche Informationen, die so unterdrückt würden. In dieser Hinsicht besteht volle Übereinstimmung.

Prof. Bruhn schlägt derzeit vor, die Daten überhaupt nicht auszuwerten („Leider sehe ich daher keine Möglichkeit mehr, die von Ihnen erhobenen Daten zur Beantwortung Ihrer Aufgabenstellung "Homöopathika besser als Placebos" auszuwerten.“ ⁴). Auch dieses ist in der Praxis keine wirkliche Option: Die Anwendung von nicht im Protokoll vorgesehenen Therapien ist eher die Regel als die Ausnahme (Begleittherapien werden aus logistischen Gründen oft nur nicht so genau erfasst) und gehört zum Recht eines jeden Patienten (Tieres). Würde man Prof. Bruhns Vorschlägen also folgen, dürften die meisten klinischen Studien nicht ausgewertet werden.

Oder anders gesagt: Wenn man sich, um auf Biegen und Brechen zu Ergebnissen zu kommen, dennoch der locf-Methode bedient, verlässt man den Boden gesicherter statistischer Aussagen. Was zu zeigen war. S. dazu meine Bemerkungen zu den Abbruchkriterien in Teil 2 der Diskussion.

Ich halte daher, die von mir vorgeschlagene Methode der Datenauswertung für adäquat und sehe nicht – dass die „vorgelegte Vergleichsstudie [...] durch derartige Datenmanipulationen wertlos“ ⁵) wird, wenn sie auf der Basis der zugrundegelegten Modellannahmen und der Vor- und Nachteile des Verfahrens interpretiert wird.

Den Boden gesicherter statistischer Aussagen hat man mit einer Vergleichsstudie auf dieser Basis jedenfalls verlassen. Deshalb bezeichne ich das Ergebnis als wertlos. Ich folge damit den Autoren K. Meyer und J. Windeler, Institut für Medizinische Biometrie und Informatik der Ruprecht-Karls-Universität Heidelberg. Diese schreiben zu der Frage "Ist 'Last observation carried forward' sinnvoll?": ". . . Insbesondere bei stetigen Zielgrößen wird häufig nach der `last observation carried forward' (LOCF) Methode vorgegangen, d.h. der letzte von einem Patienten vorliegende Wert wird für die Endauswertung verwendet. Eine Begründung für dieses Vorgehen wird in aller Regel nicht gegeben, und die möglichen Konsequenzen sind bisher nur sehr unzureichend untersucht." GWB.

Dipl. Stat. Rainer Lüdtke
Karl und Veronica Carstens-Stiftung
Am Deimelsberg 36
45276 Essen

Fußnoten

1 European Agency for the Evaluation of Medicinal Products (EMEA):Points to consider on missing data.

2 http://www2.mathematik.tu-darmstadt.de/~bruhn/WernerDissKomm.html, Zugriff am 7.9.2010

3 E-Mail von Prof. Bruhn an Dr. Werner, Datum unbekannt

4 E-Mail von Prof. Bruhn an Dr. Werner, 30.7.2010

5 http://www2.mathematik.tu-darmstadt.de/~bruhn/WernerDissKomm.html, Zugriff am 7.9.2010

Links

Dissertation
Zu Teil 2 der Diskussion
Zum Kommentar von G.W.Bruhn

Zur Homöopathie-Seite