KI kann Krankheiten genauso gut diagnostizieren wie Menschen

Die erste systematische Überprüfung und Metaanalyse dieser Art ergab, dass künstliche Intelligenz (KI) eine Krankheit auf der Grundlage eines medizinischen Bildes genauso gut diagnostizieren kann wie Angehörige der Gesundheitsberufe. Es sind jedoch qualitativ hochwertigere Studien erforderlich.

KI und Angehörige der Gesundheitsberufe sind bei der Diagnose von Krankheiten auf der Grundlage der medizinischen Bildgebung gleichermaßen wirksam, wie neue Forschungsergebnisse belegen.

In einem neuen Artikel werden die vorhandenen Beweise untersucht, um festzustellen, ob KI Krankheiten genauso effektiv diagnostizieren kann wie Angehörige der Gesundheitsberufe.

Nach Kenntnis der Autoren - das heißt eines großen Forscherteams unter der Leitung von Professor Alastair Denniston vom NHS Foundation Trust der Universitätskliniken Birmingham in Großbritannien - ist dies die erste systematische Überprüfung, bei der die KI-Leistung mit medizinischen Fachkräften für alle Krankheiten verglichen wird.

Prof. Denniston und sein Team durchsuchten mehrere medizinische Datenbanken nach allen Studien, die zwischen dem 1. Januar 2012 und dem 6. Juni 2019 veröffentlicht wurden. Das Team veröffentlichte die Ergebnisse ihrer Analyse in der Zeitschrift Die Lancet Digital Health.

KI auf Augenhöhe mit Angehörigen der Gesundheitsberufe

Die Forscher suchten nach Studien, in denen die diagnostische Wirksamkeit von Deep-Learning-Algorithmen mit denen von Angehörigen der Gesundheitsberufe verglichen wurde, als sie eine Diagnose auf der Grundlage der medizinischen Bildgebung gestellt hatten.

Sie untersuchten die Qualität der Berichterstattung in diesen Studien, ihren klinischen Wert und das Studiendesign.

Darüber hinaus untersuchten die Forscher bei der Bewertung der diagnostischen Leistung der KI im Vergleich zu der von Angehörigen der Gesundheitsberufe zwei Ergebnisse: Spezifität und Sensitivität.

"Empfindlichkeit" definiert die Wahrscheinlichkeit, dass ein Diagnosewerkzeug bei Menschen mit dieser Krankheit ein positives Ergebnis erzielt. Die Spezifität bezieht sich auf die Genauigkeit des Diagnosetests, der das Sensitivitätsmaß ergänzt.

Das Auswahlverfahren ergab nur 14 Studien, deren Qualität hoch genug war, um in die Analyse einbezogen zu werden. Prof. Denniston erklärt: „Wir haben über 20.500 Artikel geprüft, aber weniger als 1% davon waren in Bezug auf Design und Berichterstattung ausreichend robust, sodass unabhängige Gutachter ein hohes Vertrauen in ihre Behauptungen hatten.“

"Darüber hinaus haben nur 25 Studien die KI-Modelle extern validiert (unter Verwendung medizinischer Bilder aus einer anderen Population), und nur 14 Studien haben die Leistung von KI- und Angehörigen der Gesundheitsberufe mit derselben Testprobe verglichen."

„In dieser Handvoll qualitativ hochwertiger Studien haben wir festgestellt, dass Deep Learning tatsächlich Krankheiten, die von Krebs bis zu Augenkrankheiten reichen, genauso genau erkennen kann wie Angehörige der Gesundheitsberufe. Es ist jedoch wichtig anzumerken, dass die KI die menschliche Diagnose nicht wesentlich übertroffen hat. "

Prof. Alastair Denniston

Insbesondere ergab die Analyse, dass KI in 87% der Fälle Krankheiten korrekt diagnostizieren kann, während die Erkennung durch medizinisches Fachpersonal eine Genauigkeitsrate von 86% ergab. Die Spezifität für Deep-Learning-Algorithmen betrug 93%, verglichen mit 91% beim Menschen.

Vorurteile können die KI-Leistung übertreiben

Prof. Denniston und Kollegen machen auch auf einige Einschränkungen aufmerksam, die sie in Studien zur Untersuchung der AI-Diagnoseleistung festgestellt haben.

Erstens untersuchen die meisten Studien die diagnostische Genauigkeit von KI und medizinischem Fachpersonal in einer isolierten Umgebung, die die reguläre klinische Praxis nicht nachahmt - zum Beispiel, indem Ärzten zusätzliche klinische Informationen entzogen werden, die sie normalerweise für eine Diagnose benötigen würden.

Zweitens, sagen die Forscher, verglichen die meisten Studien nur Datensätze, während eine qualitativ hochwertige Forschung zur diagnostischen Leistung solche Vergleiche bei Menschen erfordern würde.

Darüber hinaus litten alle Studien nach Angaben der Autoren unter einer schlechten Berichterstattung, wobei die Analyse keine Informationen berücksichtigte, die in diesen Datensätzen fehlten. "Die meisten [Studien] berichteten nicht, ob Daten fehlten, welchen Anteil dies darstellte und wie fehlende Daten in der Analyse behandelt wurden", schreiben die Autoren.

Zusätzliche Einschränkungen sind inkonsistente Terminologie, nicht eindeutige Festlegung eines Schwellenwerts für die Sensitivitäts- und Spezifitätsanalyse und das Fehlen einer Validierung außerhalb der Stichprobe.

"Es besteht eine inhärente Spannung zwischen dem Wunsch, neue, möglicherweise lebensrettende Diagnostika einzusetzen, und der Notwendigkeit, qualitativ hochwertige Beweise so zu entwickeln, dass Patienten und Gesundheitssysteme in der klinischen Praxis davon profitieren können", kommentiert der Erstautor Dr. Xiaoxuan Liu von der Universität von Birmingham.

„Eine wichtige Lehre aus unserer Arbeit ist, dass in der KI - wie in jedem anderen Teil des Gesundheitswesens - gutes Studiendesign wichtig ist. Ohne sie können Sie leicht Verzerrungen einführen, die Ihre Ergebnisse verzerren. Diese Vorurteile können zu übertriebenen Leistungsansprüchen für KI-Tools führen, die sich nicht in die reale Welt übertragen lassen. “

Dr. Xiaoxuan Liu

"Der Nachweis, wie KI-Algorithmen die Patientenergebnisse verändern, muss durch Vergleiche mit alternativen diagnostischen Tests in randomisierten kontrollierten Studien erbracht werden", fügt Co-Autorin Dr. Livia Faes vom Moorfields Eye Hospital, London, Großbritannien, hinzu.

"Bisher gibt es kaum solche Studien, in denen diagnostische Entscheidungen, die von einem KI-Algorithmus getroffen werden, getroffen werden, um festzustellen, was dann mit Ergebnissen geschieht, die für Patienten wirklich wichtig sind, wie z. B. rechtzeitige Behandlung, Zeit bis zur Entlassung aus dem Krankenhaus oder sogar Überlebensraten."

none:  Parkinson-Krankheit Kosmetikmedizin - Plastische Chirurgie Ergänzungen