Genau zwischen die Augen: Das schmutzige kleine Geheimnis

31. August 2016 von Gastautor: Dr. Rainer Schneider
(121 votes, average: 4,94 out of 5)
Loading...

31. August 2016 (von Dr. Rainer Schneider, RECON, Freiburg) Gemäß dem Positivismus wird Erkenntnis durch Empirie erlangt, also Erfahrung, die sich durch Beobachtung und Wiederholung bestätigen läßt. In der Wissenschaft werden empirische Daten durch Experimente und klinische Studien gewonnen. Hierfür bietet die Wissenschaftsmethodik Kriterien, die die Aussagekraft, Richtigkeit und Güte der Ergebnisse garantieren. Man kann Erkenntnis auch auf andere Weisen gewinnen (z.B. durch meditative Innenschau), aber in der Forschung sind verläßliche, gültige, wiederholbare und objektive Belege eine wichtige, wenn nicht unabdingbare Prämisse für den Erkenntnisgewinn.

Damit sind wir beim Thema. Wie steht es eigentlich um den Erkenntnisgewinn z.B. in der klinisch-medizinischen Forschung? Dieser ist für unsere Gesundheit, unser Wohlergehen und die Entwicklung der Menschheit ganz allgemein ja nicht ganz unbedeutend.

Es steht nicht gut, gar nicht gut!

Im Jahre 2013 zog die Herausgeberin des renommierten New England Journal of Medicine im Editorial eine für die meisten Leser sicherlich überraschende Bilanz, da sie schrieb, daß der Mehrheit der klinischen Studien nicht (mehr) geglaubt werden könne. Lesen Sie diesen Satz gerne noch einmal. Nicht Lieschen Müller stellte diese für das Gesundheitssystem vernichtende Behauptung auf. Nein, die Verlegerin eines der medizinwissenschaftlichen Publikations-Flaggschiffe tat das. Klappe zu, Affe tot. Wozu noch Arzt oder Apotheker fragen? Die erzählen Ihnen doch nur, was der Pharmareferent als neuste Errungenschaft verkauft oder was die Ärzte- oder Apothekerkammer von oben diktieren.

Labor ErlenmayerkolbenFür Insider ist diese Nachricht nicht wirklich überraschend. Interessant ist aber, daß wir in einer Zeit leben, in der uns immer mehr solcher Hiobsbotschaften erreichen. Besonders brisant ist, daß nicht „Verschwörungstheoretiker“ solche Informationen liefern, sondern Insider. Es vergeht kaum eine Woche, da nicht von pharmazeutisch-medizinischen Skandalen zu lesen ist. In klinischen Studien etwa wird betrogen, gefälscht, beschönigt und weggelassen, daß sich die Balken biegen. Das Problem ist hausgemacht. Unabhängige Forschung gibt es kaum. Forschungsprojekte kosten Geld, multizentrische Zulassungsstudien können schon mal in die Millionen gehen. Der Druck, Auftraggeber nicht zu „enttäuschen“, ist groß. Es gilt das Motto: Wes Brot ich ess‘, des Lied ich sing.

Natürlich ist nicht die gesamte klinische Forschung korrupt. Es gibt sie, die integren und objektiven Erkenntnissucher, die ergebnisoffen arbeiten und bereit sind, auch unbequeme Ergebnisse zu liefern (und zu publizieren). Aber der Erkenntnisstand gerade in der klinischen Forschung ist erschreckend beliebig geworden. Wen wundert‘s, wenn in 50% der Fälle rauskommt, was rauskommen soll.

Dabei ist unredliches Forschen nicht einmal der Hauptgrund für die Misere. Etwa 60% der publizierten wissenschaftlichen Arbeiten ziehen falsche Schlußfolgerungen, schlicht aufgrund wissenschaftsmethodischer Mängel. Hier ist nicht der Vorsatz des Täuschens das Problem, sondern mangelndes Wissen.

Es gibt seit etwa 15 Jahren ein intensives Bemühen, klinische Studien methodisch sauberer, transparenter und damit aussagefähiger zu machen. Im sog. EQUATOR-Netzwerk (Enhancing the Quality and Transparency of Health Research) allein werden über 200 Richtlinien für die Durchführung und Publikation von klinischen Untersuchungen gelistet. Ob damit das grundsätzliche Problem mangelnder Integrität der Forscher beseitigt ist, sei dahin gestellt. Interessanterweise wird aber ein gravierender methodischer Fehler, der für einen jahrzehntlangen Mißstand bei Studien verantwortlich ist, auch von speziellen, statistischen Richtlinien des EQUATOR-Netzwerks kaum thematisiert.

Die Rede ist vom schmutzigen kleinen Geheimnis, das seinen Ursprung in der Psychologie nahm und in all jene empirische Wissenschaftszweige hineingetragen wurde, die den Erkenntnisgewinn auf Wahrscheinlichkeitsstatistik gründen. Es ist seit etwa siebzig (!) Jahren bekannt, wurde aber die meiste Zeit bequemerweise einfach ignoriert. Dieses Geheimnis dreht sich um den Gebrauch (besser Mißsbrauch) der sogenannten Signifikanzprüfung. Sie haben diesen Begriff sicher schon einmal gehört. Wenn etwas bewiesen ist, ist es signifikant. In klinischen Prüfungen muß ein Medikament z.B. eine Wirküberlegenheit gegenüber einem Placebo zeigen, sonst wird es nicht zugelassen. Wenn also Medikament Y signifikant bessere Resultate erbringt als die Behandlung mit Placebo, ist der Überlegenheitsbeweis erbracht. Zumindest mit einer gewissen Irrtumswahrscheinlichkeit, die entweder mit 5 % (signifikant) oder 1 % („hoch signifikant“) belegt wird.

Generationen von Akademikern, Wissenschaftlern, Statistikern und Methodikern hinterfragen diese Pseudologik bis heute kaum. Hochschulische Indoktrination und unkritische Übernahme wirken bestens. So kommt es, daß nicht einmal Experten in der Lage sind, richtig zu definieren, was ein signifikantes Ergebnis statistisch und inhaltlich eigentlich bedeutet. Es gibt Umfragen, die zeigen, daß 90% derer, die Signifikanztestungen bei sogenannten Nullhypothesenprüfungen anwenden (diese wird den meisten Untersuchung zugrunde gelegt), einer falschen Logik aufsitzen.

Um es klar zu machen: Wenn wissenschaftliche Evidenz (Beleg, Nachweis) allein auf der Signifikanzprüfung und den damit verbundenen P-Werten (P = Probability [Wahrscheinlichkeit]) gestützt wird, erzeugt das Pseudoevidenz und keinen Erkenntnisgewinn. Leider gehört die Formel „Signifikanz = Beweis“ nach wie vor zum unumstürzlichen Glaubensbekenntnis der klinischen Forschung.

Um die Tragweite der Misere zu erläutern, möchte ich ein paar grundsätzliche Probleme der Signifikanztestung erläutern, ohne Sie mit allzu vielen statistischen Details zu langweilen. Wichtig ist zu verstehen, wie irreführend Signifikanzberechnungen sind.

1. Ein signifikantes Ergebnis allein sagt überhaupt nichts über die Relevanz eines Ergebnisses aus. Die meisten der selbst „hoch signifikanten“ Ergebnisse sind von eher geringer praktischer oder klinischer Relevanz, weil die zugrunde liegenden Effekte unbedeutend bis klein sind.

2. Es ist ein Leichtes, signifikante Ergebnisse durch geschickte Manipulation bestimmter Faktoren des experimentellen Designs zu erzeugen. Man muß z.B. nur die Stichprobe hinreichend groß machen oder die Untersuchungsgruppen besonders homogen.

3. Statistische Simulationen zeigen, daß selbst völlig sinnfremde Zusammenhänge signifikant werden, so lange man nur munter irgendwelche Variablen zusammenwürfelt. Egal, was man rechnet, irgendetwas wird immer signifikant.

4. Der zugrunde liegende fundamentale Fehler bei der Signifikanztestung ist die Verknüpfung des Wahrscheinlichkeitswerts (p) mit der Fehlerschätzung (α). Beide sind mathematisch nicht miteinander assoziiert. Lehrbücher und universitäre Curricula tradieren dies aber seit Jahrzehnten als Fakt.

5. Viele Wissenschaftler, die Signifikanztests rechnen, haben das Prinzip der bedingten Wahrscheinlichkeit nicht verstanden. Formal lässt sich ein statistisches Ergebnis darstellen als p = (D|H0), d.h. die Wahrscheinlichkeit der Daten bei Gültigkeit der Nullhypothese (diese wird der Berechnung zugrundegelegt und ist immer 1). Dies ist nicht identisch mit p = (H0|D), also der Wahrscheinlichkeit der Nullhypothese bei gegebener Datenlage. Genau das macht die Logik der Signifikanztestung: Sie verkehrt bei „signifikantem“ Ergebnis die Verhältnisse und stellt das in Frage (die Hypothese), auf dessen Grundlage sie die Daten berechnet. Man kann das besser verstehen, wenn man D und H0 einmal mit „Regen“ und „Wolken“ ersetzt. Die Wahrscheinlichkeit von Regen bei Vorhandsein von Wolken ist eine andere als die von Wolken bei Vorhandensein von Regen.

6. Generell muß man anzweifeln, wie realistisch die Annahme einer Nullhypothese überhaupt ist. Zwischen zwei Testgruppen gibt es immer eine nahezu unendliche Zahl von Faktoren, die mitwirken, und zur Unterschiedlichkeit von Gruppen beitragen.

Die Lage ist, das sollte deutlich gemacht werden, prekär. Man darf Zweifel daran hegen, über welches gesichertes Wissen viele wissenschaftliche Disziplinen überhaupt verfügen. Zugleich wird klar, warum man an dieser pseudowissenschaftlichen Praxis so vehement festhält: So manches Paradigma und so manche Theorie würden wie ein Kartenhaus zusammenfallen, wenn man die Implikationen dieses Mißstands ernst nähme.

Worauf sollte man die statistische Beweisführung stattdessen gründen?

StatistikEine Alternative bieten Effektmaße und Vertrauensintervalle als Grundlage der Bestimmung der Evidenz. Effektmaße sind dimensionslos und daher (von Studie zu Studie) direkt miteinander vergleichbar. Bei der Bestimmung ihrer Höhe orientiert man sich zwar auch an Konventionen, sie vermitteln jedoch wesentlich direkter die klinische oder praktische Bedeutsamkeit eines Befundes. Effektmaße sichert man durch die Wahrscheinlichkeitsbestimmung von Vertrauensintervallen ab, bei denen die untere und obere Grenze eines Effektmaßes festgelegt wird. Effektmaße werden auch in Metaanalysen gerechnet, in denen möglichst viele zu einem Sachverhalt erhältliche Studienergebnisse in einer Analyse bewertet werden. Das macht die Einschätzung eines einzelnen Studienergebnisses wesentlich einfacher.

In meinem Forschungsunternehmen RECON führe ich viele unterschiedliche Studien durch, deren Ziel es ist, die Wirkung oder Wirksamkeit eines neuen Verfahrens auf den wissenschaftlichen Prüfstand zu stellen. Die Bandbreite reicht von Aromatherapie über biophysikalische Therapieverfahren, Nahrungsergänzungsmitteln bis hin zu informationsmedizinischen Methoden. Wie gesagt, erlaubt die Berechnung von Effektstärken, die praktische und ggfls. klinische Relevanz eines Verfahrens direkt einzuschätzen. Das ist eine hilfreiche empirische Standortbestimmung, die jeder Signifikanzprüfung (ungeachtet ihres unsinnigen Gebrauchs) überlegen ist. Nicht immer entsprechen die Effekte den Erwartungen der Hersteller der getesteten Verfahren. Oft zeichnen Erfahrungsberichte und sog. anekdotische Evidenz ein verzerrtes positives Bild. Aber manchmal übertreffen die Ergebnisse sogar die Erwartungen der Skeptiker, den Forschungsleiter eingeschlossen.

Ich möchte dies an einem Beispiel aus der Informationsmedizin illustrieren. In zwei Schmerzstudien zur Wirkung des sog. Vita Chip (vita-chip.de), einem kleinen mit Heilinformationen informierten, aus Mikrokristallen bestehenden Chip, wurden Personen mit chronischen Schmerzen einmal gegen die natürliche Kontrolle (keine Behandlung) und einmal gegen ein Pseudoplacebo getestet. Die Probanden klebten den Vita Chip auf ihr Handy und legten dieses für die Dauer von mindestens einer Stunde auf die Schmerzstelle, wann immer sie den Schmerz verspürten (das Handy hatte dabei die Funktion der Frequenzverstärkung). Die Probanden taten dies für jeweils eine Woche immer dann, wenn der Schmerz auftrat. Als Zielvariable dienten die Schmerzintensität, die Latenz bis zur spürbaren Schmerzlinderung, die Schmerzdauer und das allgemeine Wohlbefinden.

https://i.vimeocdn.com/video/538697025_295x166.jpgIn beiden Studien sank der Schmerz unter Einsatz des Vita Chip von durchschnittlich stark auf gering. Dieser Effekt war mit d = 1,4 selbst nach klinischen Maßstäben sehr groß (von einem großen Effekt spricht man bei d = 0,8). Auch die zeitlichen Parameter waren gegenüber den Kontrollgruppen deutlich verbessert, so daß der Schmerz kürzer anhielt und die schmerzlindernde Wirkung schneller eintrat.

Es ist wichtig zu betonen, daß es bei Studien dieser Art nicht um die Frage geht, wie ein Verfahren wirkt. Es geht darum, ob es wirkt. Es ist auch völlig belanglos, ob die vom Hersteller postulierten Wirkprinzipien stimmen oder nicht. Mein Interesse liegt in erster Linie an der Wirk(samkeits)prüfung: Wenn ein praktisch relevanter Effekt besteht, muß er sich empirisch zeigen lassen. Dies ist der erste Schritt der wissenschaftlich begründeten Standortbestimmung und des Erkenntnisgewinns, auf dem weitere Schritte folgen können. Im Fall des Vita Chip hat die Fachzeitschrift Neuroscience and Biomedical Engineering die Ergebnisse der Studien veröffentlicht und damit dem wissenschaftlichen Fachkreis zur Verfügung gestellt – ganz ohne Pseudoevidenz der Signifikanztestung.

Effekte wie die des Vita Chip sind auch ohne großes statistisches Brimborium erkennbar. Tatsächlich gibt es sogar eine Beziehung zwischen der Komplexität der Statistik und der Studieneffekte. Kritiker sprechen hier vom „Fischen nach Signifikanzen“. Je wirkschwächer eine Maßnahme ist, desto mehr statistische Verrenkungen (d.h. Berechnungen) müssen unternommen werden, damit ein „bedeutsames“ Ergebnis gefunden wird. Hinzu kommt, daß statistische Signifikanzen in den meisten Fällen eben dazu dienen, eher unbedeutende Effekte bedeutsam erscheinen zu lassen. Praktisch relevante Ergebnisse sind hingegen in der Regel mit bloßem Auge sichtbar. Bereits vor mehr als 50 Jahren haben amerikanische Methodiker eine – durchaus auch humoristisch gemeinte – Alternative der Beweisführung vorgeschlagen, die sie „interocular traumatic test” nannten (zu Deutsch etwa: der Zwischen-Augen-Trauma-Test). Damit meinten sie, daß jeder klare Effekt einen genau zwischen die Augen trifft, wenn man ihn graphisch darstellt.

Photo

Dr. phil. Dipl. Psych. Rainer Schneider

Kontakt zum Autor: www.recon-freiburg.biz info@recon-freiburg.biz