Evidenzbasierte Medizin

Evidenz-basierte Medizin: Evidenz ohne Basis

 

Von Georg Ivanovas Milatos

GR-72400 Neapoli

Griechenland/Kreta

 

Quelle: Ärztezeitschrift für Naturheilverfahren 45, 3 (2004), März 2004

 

Evidenz-basierte Medizin gilt so­zusagen als Goldstandard der Medizin. Sie wird der
klini­schen Praxis jedoch nicht gerecht. Hier sollen einige Gründe aufgezeigt werden, weshalb der statistischen Medizin ein eher untergeordneter Rang zusteht.

 

Evidenz-basierte Medizin (EBM) und Placebo

Wird in einer Studie festgestellt, dass ein Mittel nicht wirksamer ist als ein Placebo, so heißt das nicht, dass das Mittel unwirksam ist, sondern nur, dass es unter den Untersuchungsbe­dingungen nicht wirksam ist oder nicht sehr oft oder nicht in der Weise, wie gemessen wird. Solche Studien haben dann meist zur Folge, dass sol­che Mittel nicht mehr verordnet wer­den dürfen oder privat bezahlt werden müssen. Damit ist aber nichts gewon­nen. Bei milden Therapeutika, wie vielen Phytopharmaka, ist eine große Differenz zum Placebo von Anfang an nicht zu erwarten. Es werden statt­dessen "wirkungsvollere", d.h. neben­wirkungsreichere und teurere Medi­kamente verordnet. Da aber auch bei vielen "wirksamen" Medikamenten der Unterschied zum Placebo nicht allzu groß ist, wie beispielsweise bei den Antidepressiva (10,14), oder durch Tricks (17) und obskure Prozentan­gaben geschönt wird (8, 9), könnte man EBM als eine inquisitorische Methode betrachten, an welches Pla­cebo der niedergelassene Arzt glauben darf. Fazit: EBM ist in weiten Be­reichen weder für den Patienten hilf­reich, noch ist sie kostengünstiger.

Da nützt es nichts, über die Zu­stände zu klagen oder eine rationale Medizin (11) einzufordern, denn auch die Wissenschaftlichkeit von EBM ist in vieler Hinsicht fraglich.

 

Die Wissenschaft der Wahrscheinlichkeiten

Radikale Kritiker (3) stellen der Wis­senschaftlichkeit medizinischer For­schung ein Armutszeugnis aus: "For­schung unter (Fünf-Prozent-) Niveau". Aus Gründen der Wahrscheinlich­keitsrechnung ließe sich die Irrtums­wahrscheinlichkeit klinischer Studien gar nicht berechnen und sei zudem recht hoch. Statistik sei eine "Sack­gasse für die Forschung". Diese Art von Zweifel, auch von anderen Statis­tikern geäußert (8), ist für Praktiker nur schwer verständlich. Aber selbst wenn man annimmt, dass Statistiken in ihren Aussagen halbwegs zuver­lässig sind, gibt es noch genug andere Einwände.

 

Von der Willfährigkeit der Statistiken

Ganz abgesehen von offensichtlichen Fälschungen (5, 9) sind es die Abhän­gigkeit der Studien von der Industrie und das Bedürfnis der Forscher, sich zu profilieren, die Anlass zur Kritik geben (15). Selten werden solche Ex­treme bekannt, dass unerwünschte Ergebnisse von der Industrie unter­drückt werden sollen (1). Die Speku­lation darüber, wie groß der Eisberg unter solchen Spitzen ist, bleibt jedem selbst überlassen. Das Thema der viel­fältigen Einflussnahme der Pharma­industrie war erst kürzlich das Schwer­punktthema einer Ausgabe des British Medical Journal (4).

Zu glauben, dass medizinische Forschung dem Erwerb von wahrer Erkenntnis verpflichtet ist, ist genauso blauäugig wie zu glauben, dass Sexua­lität ein Ausdruck von wahrer Liebe sei. Statistische Medizin ist begrenzt durch die Redlichkeit der Forscher. Da Statistiken besonders anfällig für Manipulationen sind, können sie allenfalls mit Vorbehalt akzeptiert werden. Aber auch formale Gründe setzen statistischer Forschung enge Grenzen.

 

Kleine Studien ­großes Leid

Kleine Studien haben das Problem der begrenzten Fallzahl und der kurzen Dauer. So konnte in einer (kleinen) Studie über die Therapie der Epicon­dylitis (22) gezeigt werden, dass eine Injektion mit Kortison kurzfristig eine deutliche Verbesserung des Krank­heitsbildes mit sich bringt. Langfristig ist sie aber der Physiotherapie oder dem reinen Abwarten erheblich unter­legen. Durch das Spiel mit dem Zeit­rahmen lässt sich also beweisen, was immer man will. Das zeigen die lang­fristigen Untersuchungen, die in letz­ter Zeit vermehrt publiziert werden. Hochkalorische Ernährung von Früh­geborenen (große Studie) führt nach 13-16 Jahren zu erhöhter Insulin­resistenz, ist also langfristig gesund­heitlich ungünstiger (21). Gestillte Kinder weisen höhere TC- und LDL­-Werte auf (große Studie), im Erwach­senenalter sind ihre Werte jedoch niedriger als bei Nichtgestillten (16). Allein die Dauer solcher Untersuchun­gen sprengt den zeitlichen Rahmen fast aller Studien, auf die wir unser "Wissen" gründen. Wenn das Prinzip "hilft kurzfristig - schadet langfristig" weiter verbreitet wäre, dann wären kurze Studien sozusagen eine Anlei­tung zur Schädigung.

Dazu kommt manchmal ein Un­verständnis des Prozesses. Als Ende der 80er NaF die Standardtherapie bei Osteoporose war, kam fast jede Woche eine neue Studie auf unsere Schreibtische, die die überlegene Wir­kung dieser Therapie bewies. In einer großen Studie (18) wurde später nach­gewiesen, dass der Knochen unter NaF zwar dichter, aber brüchiger wird. Der Surrogatparameter "Knochen­dichte" war eben nur sehr einge­schränkt zur Diagnosestellung der Osteoporose tauglich.

Dies ist kein Einzelfall. Groß­studien bringen regelmäßig solche Überraschungen, die zur Abkehr von Verschreibungsgepflogenheiten füh­ren. Häufig eingesetzte Mittel werden dann wegen einschneidender Neben­wirkungen in ihrer Indikation einge­schränkt. Die CAST-Studie (7) wies vermehrt Todesfälle durch Anti­arrhythmika nach, die WHI-Studie dasselbe durch die übliche Hormon­therapie, wie sie jahrzehntelang evi­denzgeprüft empfohlen wurde. Manch­mal ist es erst die langjährige Praxis, die, wie bei Baycol/Lipobay, schwer wiegende Nebenwirkungen zeigt. Da solche Komplikationen in der Praxis aber nur dann bemerkt werden, wenn sie häufig auftreten, muss man von einer Vielzahl seltener, schwer wie­gender Nebenwirkungen ausgehen, die niemals mit einer bestimmten Medikation in Verbindung gebracht werden, weil diese Art der Kompli­kation für dieses Mittel bisher nicht beschrieben ist und/oder weil sie erst nach langer Arzneimitteleinnahme auftritt.

Dieses strukturelle Problem jeder Arzneimitteltherapie lässt sich im Prinzip nur durch mehrere, große, lang dauernde Studien einigermaßen in den Griff bekommen. Allein dieses Vorgehen dürfte sich EBM nennen. Jede andere Form der Evidenz führt zu keiner sichereren und gesünderen Arzneimittelverordnung.

Andererseits haben Großstudien das Problem, dass aufgrund ihrer In­homogenität oft nicht klar ist, ob die gefundenen Aussagen auch auf den aktuellen Patienten angewandt werden können. "Große Zahlen liefern ein statistisch gesehen genaues Ergebnis, von dem man nicht weiß, auf wen es zutrifft. Kleine Zahlen liefern ein statistisch gesehen unbrauchbares Er­gebnis, von dem man aber besser weiß, auf wen es zutrifft. Schwer zu entscheiden, welche dieser Arten von Unwissen die nutzlosere ist." (3)

 

Willkürliche Evidenz

Außerdem lösen Großstudien nicht das logische Problem der kausalen Beziehung. Statistiken erzeugen Werte und Korrelationen, aber keine Kausalitäten. Welche Art der Relation einer Korrelation zu Grunde liegt, da­rüber kann eine Statistik nichts aus­sagen. Das beliebteste Beispiel in der statistischen Literatur ist die Korre­lation der Abnahme der Storchen­population, die signifikant mit dem Geburtenrückgang korreliert. Eine noch bessere Korrelation zeigt die Abnahme des Kartoffelkonsums mit der Zunahme des Stromverbrauches (19). Obwohl dieser Zusammenhang statistisch unbestreitbar besteht, so muss man doch recht komplexe Erklä­rungsmuster bemühen, diese beiden Werte in Beziehung zu setzen. Was machen wir aber nun aus der Caer­philly-Studie (6), wo bei 2.438 Män­nern, die über 20 Jahre beobachtet wurden, bei jenen Männern, die sich seltener als einmal täglich rasierten, eine um 70 % erhöhte Inzidenz an Schlaganfällen und eine um 30 % erhöhte Mortalität festgestellt wurde. Nach üblicher Forschungslogik müs­sen wir eine kausale Beziehung an­nehmen und Konsequenzen ziehen. Zunächst müssen Rasierapparate per Kassenrezept verordnet werden. Dann muss es Aufklärungs-kampagnen über den Wert des Rasierens geben. Man müsste sich überlegen - und in klei­nen Studien prüfen -, ob Enthaarungs­cremes das Problem vielleicht lösen, denn kein Bart - kein Rasierproblem!

Was sich zunächst wie eine Satire anhört, stellt sich schnell als die Real­satire der medizinischen Forschung heraus.

Viele therapeutische Strategien, die aus statistischer "Erkenntnis" ab­geleitet werden, bewegen sich genau auf diesem logischen Niveau. Da es sich dabei jedoch meist um Diabetes oder rheumatoide Arthritis handelt, fällt es nicht so auf.

 

Das wissenschaftstheoretische Problem liegt darin, dass die Bewer­tung der Korrelationen nach einem gewissen Gutdünken erfolgt. Es gibt schlicht kein anderes Verfahren. Sta­tistiken erzeugen niemals" wahre" Aussagen und statistische Evidenz ist in gewisser Weise immer eine "Evi­denz aus Offensichtlichkeit". Statisti­ken können nur das ergeben, was eine von außen kommende Logik zulässt. Thesen können sich als wahrschein­licher oder unwahrscheinlicher zei­gen. Zu glauben, dass Statistiken neues Wissen erzeugen, ist wie das "Suchen von Ostereiern, die man selbst versteckt hat" (20).

Doch damit nicht genug. Um über die Wirksamkeit von Therapien zu urteilen, die nach statistischer Er­kenntnis erdacht wurden, vergehen weitere zehn Jahre. Bis dorthin sind diese Therapien durch neuere Medika­mente ersetzt, die sich, wie modeme Antipsychotika, im Nachhinein (Meta­Analyse) als auch nicht wirksamer herausstellen als die alten (13). Zu­mindest nicht nach EBM-Kriterien.

 

Wertlose Messung

Hinter der willkürlichen Bedeutungs­konstruktion einer Statistik verbirgt sich ein zentrales Problem der Wis­senschaftstheorie. Eine Information hat keine Bedeutung aus sich selbst heraus. Ihren Wert erhält sie erst durch den Kontext (2). Dieses seltsame Phänomen spielt in der Medizin eine große Rolle. So sagt ein positiver HIV-Test zunächst nicht sehr viel aus, vor allem nichts darüber, ob der Pa­tient an AIDS erkrankt ist oder nicht (8). Es ist dies eine dieser statistischen Kniffeleien: Die Wahrscheinlichkeit, ob ein HIV-Positiver wirklich er­krankt ist, hängt davon ab, welchen "Umgang" er hat. Die einzelne Mes­sung ist per se nichts sagend. Erst durch die Evaluierung der indivi­duellen Charakteristika des Patienten bekommt sie ihren Wert.

Auch der Wert des Mammografie­Screenings ist umstritten. Gerade Sta­tistiker sind eher zurückhaltend, was deren Nutzen betrifft (8). Ob ein flä­chendeckender Einsatz in Deutsch­land wirklich zu einer Senkung der Mortalität führt (12), wird sich erst in Jahrzehnten herausstellen. Natürlich hängt die Antwort sehr stark davon ab, ob man die Mortalität an Brustkrebs untersucht, die Mortalität an diagnosti­ziertem Brustkrebs oder gar die Mor­talität allgemein. Man könnte statt­dessen - bei begrenzten finanziellen Ressourcen - dieses Geld zur Adiposi­tas-Prophylaxe einsetzen, deren Wert gesichert ist. Wie würde dann die Sta­tistik der Gesamtmortalität aussehen? Statistik ist sozusagen eine große Spielwiese für die verschiedensten Interessen. Statistisch sinnvolle Be­wertungen hinken den Gegebenheiten immer Jahrzehnte hinterher.

 

Magie der Grenzwerte

Aus Messwerten wird nach bestimm­ten Berechnungen, die zukünftigen Generationen vielleicht einmal als Zahlenmystik erscheinen mögen, heute aber Standardabweichung ge­nannt werden, ein Grenzwert festge­legt. Aus der mathematischen Darstel­lung einer Verteilung, einer beschrei­benden Gesetzmäßigkeit, werden Interventionspunkte geschaffen. Diese stecken, unabhängig vom Einzelfall, das Territorium von Krankheit und Gesundheit ab. Es sind vorschreiben­de Gesetze geworden. Wie bei der Übertretung der Höchstgeschwindig­keit ein Bußgeld oder ein Strafver­fahren fällig wird, so zieht ein Über­- oder Unterschreiten dieser Grenz­werte eine therapeutische Intervention nach sich. Es sei denn, Polizist oder Doktor drücken mal ein Auge zu. Aber im Gegensatz zur Polizei darf der Doktor auch schon einschreiten, wenn jemand schon in die Nähe der Grenze kommt ("Ihre Werte sind ziemlich hoch!" - das heißt normal), sozusagen eine prophylaktische Strafe.

Diese "Magie der Grenzwerte" ist nicht rationaler als die Medizin ver­gangener Jahrhunderte.

 

Vom Kollektiv zum Individuum

Natürlich gehen die meisten Thera­peuten flexibel mit solchen Grenz­werten um und betrachten den Einzel­fall. Das ist weitgehend ein Ausdruck von Erfahrung. Erfahrung ermöglicht es, eine Vielzahl von Komponenten zu einem sinnvollen Ganzen zu ver­knüpfen und über statistische und Lehrbuchangaben hinaus zu indivi­duellen Schluss-folgerungen zu kom­men. Durch ein besseres Verständnis individueller Ausprägungen könnten Therapieverläufe besser interpretiert werden. Wenn eine Therapie, wie meistens, nur einem geringen Teil der Patienten nützt, zum Beispiel nur jedem Zehnten, so könnten wir bei einem besseren Verständnis indivi­dueller Reaktionen eventuell heraus­finden, wem es nützt oder wem es eventuell schadet. Ein solches Vor­gehen bleibt derzeit weitgehend der "Ärztlichen Intuition" überlassen. Das mag in gewisser Weise notwendig sein, ist aber wissenschaftlich nicht befriedigend. Denn "manche bezeich­nen die Fehler, die sie seit 30 Jahren machen, als Erfahrung". Was fehlt, sind nachvollziehbare und nachprüf­bare Kriterien, die eine individuelle Beurteilung erlauben. Dabei gibt es in der Systemtheorie dafür durchaus ein wissenschaftliches Werkzeug. Es hat in der Psychotherapie bereits wert­volle Dienste geleistet. Auch in man­chen naturheilkundlichen Verfahren wie der Kurmedizin gibt es durchaus Ansätze, aus individuellen Reaktionen ein größeres Reaktionsmuster zu er­schließen.

Natürlich könnte die Wirksamkeit eines solchen Vorgehens nur statis­tisch erfolgen. Ob das aber aussage­kräftig wäre?

 

 

Literatur

1. Baird P, Downie, Thompson J: Clinical Trials and Industry. Science 2002; 297: 2211

2. Bateson G: Ökologie des Geistes. Frank­furt: Suhrkamp, 1990

3. Beck-Bornholdt HP, Dubben HH: Der Schein der Weisen. Reinbek bei Hamburg: Rowohlt 2003

4. BJM 2003; 326 (31. Mai)

5. DiTrocchio F: Der große Schwindel. Frankfurt, New York: Campus 1995

6. Ebrahim S, Smith G, May M, Yarnell J: Shaving, coronary heart disease, and strake. Am J Epidemiol 2003; 157: 234-238.

7. Echt OS, Liebson PR, Mitchell LB et al.: Mortality and morbidity in patients re­ceiving encainide, flecainide, or placebo. The Cardiac Arrhythmia Suppression Trial. NEJM 1991: 324: 781-788

8. Gigerenzer G: Das Einmaleins der Skepsis - Über den richtigen Umgang mit Zahlen und Risiken. Berlin: Berlin

9. Haffner P, Luczak H: Und ewig lockt der Ruhm. GEO 2003; 3: 120-138

10. Kirsch I, Sapirstein G. (1998): Listening to Prozac hut Hearing Placebo: A Meta­Analysis of Antidepressant Medication. Prevention &  Treatment 1998; Vol I. Article 0002a

11. Koch K: Therapieentscheidung wider bes­seres Wissen: Warum Ärzte gegen Viren mit Antibiotika vorgehen. Deutsches Ärzte­blatt 1999; 96: A-1822 (Heft 27)

12. Köhler A, Gibis B, Mühlich A: Mammo­grafie-Screening: Flächendeckendes An­gebot bereits im Jahr 2005. Dtsch Arztebl 2003; 100: A 1240-1243 (Heft 19)

13. Leucht S, Wahlbeck K, Hamann J, Kissling W: New generation antipsychotics versus low-potency conventional antipsychotics: a systematic review and meta-analysis. Lancet 2003; 361: 1581-89

14. Leuchter A, Cook I, Wille E, Morgan M, Abrams M: Changes in Brain Function of Depressed Subjects During Treatment With Placebo. Am J Psychiatry 2002; 159: 122­129

15. Mertens S: Medizinische Publikationen: Viel heiße Luft. Dtsch Arztebl 200 I; 98: A­3021 (Heft 46)

16. OwenCG, WhincupPH,OdokiK,GilgJA, PhD, Cook DG, PhD: Infant feeding and blood cholesterol. Pediatrics 2002; 110: 597-608

17. Pirisi A: Antidepressant drug trials exclude most "real" patients. Lancet 2002; 9308: 767

18. Riggs BL, Hodgson SF, O'Falion WM: Effect of fluoride treatment on the fracture rate in postmenopausal women with osteo­porosis. N   Engl J Med 1990; 322: 802-809

19. Schwarze J: Grundlagen der Statistik. Herne, Berlin: Neue Wirtschafts-Briefe 2001,S. 18

20. Simon FB: Unterschiede, die Unterschiede machen. Frankfurt: Suhrkamp 1993, S. 31

21. Singhai A, Fewtrell M, Cole TI, Lucas A: Low nutrient intake and early growth for later insulin resistance in adolescents born term. Lancet 2003; 361: 1089-1097

22. Smidt N, vaTI der Windt DAWM, Assen­delft WJJ, Deville WLJM, Korthals-de Bos IBC, Bouter LM: Corticosteroid injections,  physiotherapy, or a wait-and-see policy für lateral epicondylitis: a randomised con­trolled trial. Lancet 2002; 359: 657c662