Klinik für Allgemein- und Unfallchirurgie

Funktionsbereich Theoretische Chirurgie


MEDWIS Arbeistkreis "Evaluation"

- Leitfaden zur Evaluierung von Wissensbasen-


Datum: 26.1.1996

Version: 4

Verantwortliche: Prof. Dr. C. Ohmann

G. Belenky

Klinik für Allgemein- und Unfallchirurgie
Heinrich-Heine-Universität
Moorenstr. 5, 40225 Düsseldorf
Tel.: 0211/81-16142, 16149, 17403
Fax: 0211/316978

Copyright (c) Ohmann/Belenky/Keim/Otterbeck 1996, Heinrich-Heine-Universität Düsseldorf

E-mail: Prof. C. Ohmann
WWWhttp://www.uni-duesseldorf.de/WWW/MedFak/TheoChir/ak_eval/Welcome.html

Unter Mitarbeit von:
Dr. B. Puppe, Institut für Informatik, Universität Würzburg
K. Steinfatt, Technische Universität Hamburg-Harburg
R. Schmidt, Institut für Medizinische Informatik, Rostock

Inhaltsverzeichnis

0. Vorbemerkungen und Allgemeines

1. Verifizierung

2. Validierung

3. Beurteilung von Funktionalität und Benutzerfreundlichkeit

4. Beurteilung des klinischen Nutzens

5. Informationsquellen

0. Vorbemerkungen

In dem MEDWIS-Programm werden wissensbasierte Systeme unterschiedlichen Typs und mit verschiedenem Ziel und Inhalt erarbeitet. Dies umfaßt Wissensbasen, bei denen primär das Auffinden medizinischer Details anhand von Suchkriterien im Vordergrund steht, Lernhilfen mit dem Ziel des Trainierens von Nutzern durch Fakten und Erklärungen und Entscheidungshilfen zur konkreten Unterstützung bei der Lösung von Patientenproblemen unter Einbeziehung von Beratung, Vorschlägen und Kritiken (1). Die wissensbasierten Systeme unterscheiden sich hinsichtlich der Arbeitsfunktionen (z.B. Dolmetscher, Lotse, Lehrer, Stellvertreter, Schiedsrichter, Wachhund, Erinnerer, Simulator) aber auch im Hinblick auf die medizinischen Aufgaben, wobei fachübergreifende medizinische Themen (Lehr- und Tutoringsysteme, operative Therapie), spezielle klinische Themen (Stoffwechselkrankheiten, neurologische Krankheitsbilder) und die Unterstützung spezieller diagnostischer Leistungsbereiche (Bildverarbeitung, Labormedizin) und therapeutischer Leistungsbereiche (Arzneimittel, Intensivmedizin) im MEDWIS-Programm Berücksichtigung finden (2). Bei der Evaluierung muß selbstverständlich der Typ der Informationstechnologie, die evaluiert werden soll, berücksichtigt werden. Die Ziele der Evaluierung, die verwendeten Methoden und Instrumente unterscheiden sich beispielsweise bei einem PACS-System im Vergleich zu einer Chipkarte, einem Entscheidungsunterstützungssystem oder einem Informationssystem (3). In dem Leitfaden werden vornehmlich Aspekte der Evaluierung behandelt, die für alle Arten von wissensbasierten Systemen von Bedeutung sind. Spezielle Forderungen, die nur bestimmte Arten von Wissensbasen betreffen, werden als solche gekennzeichnet.

Allgemeines

Bei der Evaluierung wissensbasierter Systeme sollen folgende Grundsätze beachtet werden:

a) Evaluierungsprotokoll

Das methodische Vorgehen bei der Evaluierung ist als einzuhaltende Vorgabe im Rahmen der Projektplanung festzulegen. Die detaillierte Durchführung sollte, wie bei einer klinischen Therapiestudie, in einem Protokoll festgelegt werden (4). Wird kein Protokoll verwendet, so kann die Evaluierungsstudie allenfalls der Hypothesenfindung dienen. Eine Hypothesentestung ist nur bei einem vorher festgelegten Protokoll möglich. Darüberhinaus ist eine biometrische Konsultation zu empfehlen. Bei der Evaluierung des klinischen Nutzens eines wissensbasierten Systems sollte dieses Protokoll, wenn nötig, der Ethikkommission vorgelegt werden. Zu den Inhalten des Evaluierungsprotokolles gehören:

(i) Fragestellung, Ziel

(ii) Patienten

(iii) Methodik

(iv) Interventionen

(v) Zielkriterien

(vi) Untersuchungen und Beobachtungsparameter

(vii) Biometrie

(viii) Studienablauf am einzelnen Patienten

(ix) Ethik, einschl. Datenschutz

(x) Verantwortlichkeiten

b) Strategie

Wesentliches Merkmal der Evaluierung ist der Vergleich von Qualitätskriterien (z.B. Responsezeit, Richtigkeit) mit einem Referenzwert. Dabei sollten vorhandene Standards in der Literatur oder mindestens quasi-Standards verwendet werden. Durch den Vergleich soll überprüft werden, ob die gestellten Anforderungen erreicht werden (8, 9).

c) Phaseneinteilung

Die Evaluierung sollte sich an folgender Phaseneinteilung orientieren (7, 8):

(i) Verifizierung
(ii) Validierung
(iii) Beurteilung von Funktionalität und Benutzerfreundlichkeit
(iv) Beurteilung des klinischen Nutzens

Bei der Verifizierung steht die Demonstration der Konsistenz, Vollständigkeit und Richtigkeit der Software im Vergleich zur Spezifikation im Vordergrund. Bei der Validierung wird die Qualität und Eignung des Gesamtsystems unter Einbeziehung aller Komponenten (z.B. Wissenserwerb, Wissensbasis, Inferenzmaschine) im Hinblick auf das klinische Problem untersucht. Die Testung der Funktionalität und Benutzeroberfläche umfaßt Aspekte wie die Benutzbarkeit, die Akzeptanz, die Sicherheit, die Effizienz, die Zuverlässigkeit, die Flexibilität, die Modularität und die Portabilität. Die Evaluierung des klinischen Nutzens erfordert die Ermittlung der Auswirkungen des Systems auf Struktur, Prozeß und Ergebnis der Krankenversorgung.

d) Iterativer Prozeß

Die Evaluierung ist ein iterativer und zyklischer Prozeß ("spiral life-cycle model" (5, 6). Immer dann, wenn ein Prototyp entwickelt oder modifiziert wurde, muß er reevaluiert werden, um mögliche Fehler zu entdecken. Diese Reevaluierung sollte entsprechend der Phaseneinteilung erfolgen. Sie sollte mit Verifizierung beginnen, an die sich Validierung, Evaluierung von Funktionalität und Benutzerfreundlichkeit und ggf. die Evaluierung des klinischen Nutzens anschließen sollte. Wegen der Komplexität des Evaluierungsprozesses sollte dabei ökonomisch vorgegangen werden. Nur solche Module, die signifikant verändert wurden, bedürfen einer vollständigen Reevaluierung.

e) Evaluierer

Der Evaluierungsprozeß muß Systementwickler, klinische Experten und potentielle zukünftige Nutzer einbeziehen. Die Rolle der verschiedenen Personengruppen bei den unterschiedlichen Phasen und Aspekten der Evaluierung muß spezifiziert werden.

f) Evaluierungsumgebung

Die Evaluierung sollte logische Testung, Laborstudien und Feldstudien umfassen (5). Wissensbasierte Systeme, die in der Klinik zur Anwendung kommen sollen, müssen unbedingt im klinischen Umfeld getestet werden. Laborstudien sind nicht ausreichend (8).

1. Verifizierung

Bei der konventionellen Softwareerstellung versteht man unter Verifizierung die Untersuchung, ob ein Produkt in einer bestimmten Phase der Softwareentwicklung die Spezifikationen erfüllt oder nicht, die vorher festgelegt wurden (10). Verifizierung dient dazu, Fehler in der Software zu eliminieren und bestätigt, daß das Produkt entsprechend den Spezifikationen entwickelt wurde (11). Durch Verifizierung läßt sich die Frage "Bauen wir das System richtig?" beantworten (12). Im Zusammenhang mit wissensbasierten Systemen erfährt der Begriff Verifizierung eine Erweiterung. Zusätzlich zur Überprüfung, ob ein Produkt die festgelegten Spezifikationen erfüllt, dient die Verifizierung der Überprüfung der internen Konsistenz (6, 13). Verifizierung erfolgt während der Entwicklung eines wissensbasierten Systems. Es wird dabei als eine "gläserne Box" betrachtet.

a) Softwareengineering

Basierend auf den Wünschen und Anforderungen der Nutzer werden ein Anforderungsprofil und eine Systemspezifikation erarbeitet (8). Durch Verifizierung wird ermittelt, ob eine gegebene Entwicklungskomponente des wissensbasierten Systems die Spezifikation erfüllt oder nicht (13). Diese Definition der Verifizierung setzt voraus, daß ein wissensbasiertes System entsprechend vorgegebener Spezifikationen entwickelt werden sollte. Bei dem Softwareengineering sollte auf aktuelle Modelle (z.B. Spiralmodell, V-Modell) zurückgegriffen werden. Das V-Modell (Vorgehensmodell), welches vom Bundesministerium für Verteidigung und vom Bundesministerium des Inneren empfohlen wird, regelt die Softwareentwicklung mittels einer einheitlichen und verbindlichen Vorgabe von Aktivitäten (Tätigkeiten) und Produkten (Ergebnissen). Es umfaßt vier Submodelle: die Softwareerstellung, die Qualitätssicherung, das Konfigurationsmanagement und das Projektmanagement (35). Das Projektmanagement plant, kontrolliert und informiert die anderen drei Submodelle. Die Qualitätssicherung gibt Qualitätsanforderungen, Prüffälle und -kriterien vor und kontrolliert sowohl die Produkte als auch die Einhaltung der Standards. Das Konfigurationsmodell verwaltet die in den Submodellen erzeugten Produkte.

b)Interne Konsistenz

Ein wissensbasiertes System kann nur verfiziert werden, wenn die Wissensbasis zugänglich ist. Ein Experte muß in der Lage sein, auf einzelne Wissensmodule zugreifen zu können (13).

Bei regelbasierten Systemen sollten folgende Checks durchgeführt werden:

(ii) syntaktische Überprüfung von Einzelregeln
(iii) strukturelle Überprüfung des Regelwerkes
(i) semantische Überprüfung von Einzelregeln

Jede einzelne Regel sollte dahingehend überprüft werden, ob die vorgegebene Syntax erfüllt ist und ob sie überhaupt anwendbar ist. Besser als die nachträgliche Überprüfung eingegebener Regeln auf ihre syntaktische Konsistenz ist eine graphische Eingabemaske, die nur syntaktisch richtige Regeln akzeptiert bzw. bei fehlerhaften oder unvollständigen Regeln den Wissensbasis-Architekten sofort auf die Mängel aufmerksam macht. Dadurch ist die syntaktische Richtigkeit sichergestellt. Gleichzeitig erspart man sich den großen Aufwand einer nachträglichen Überprüfung. Tests, mit deren Hilfe fehlerhafte oder inkonsistente Regeln entdeckt werden, sind der strukturellen Überprüfung zuzuordnen (13). Strukturelle Überprüfungen können durchgeführt werden, ohne die Bedeutung einzelner Regeln und Fakten zu kennen. Hierzu zählen unter anderem die Entdeckung von redundanten Regeln, von logischen Inkonsistenzen, von Zyklen und von Subsumierungen (6, 13). Darüber hinaus sollten ebenfalls Überprüfungen hinsichtlich der Vollständigkeit des Regelwerkes stattfinden. Unerwünscht sind Situationen, in denen das regelbasierte System nicht in der Lage ist, Schlußfolgerungen aufgrund der vorhandenen Daten zu ziehen (mangelnde Kompetenz). Die Identifikation von Kombinationen von Parametern, die mit den vorhandenen Regeln nicht abgedeckt werden, weisen auf fehlende Regeln hin. Je höher der Strukturierungsgrad der Regeln eines wissensbasierten Systems ist, um so anspruchsvoller kann die strukturelle Überprüfung sein. Besteht das System nur aus Einfachregeln (wenn Einzelsymptom X, dann Diagnose Y), kann überprüft werden, ob es für jedes Symptom der Wissensbasis eine zugehörige Regel gibt. Bei komplexer Regelsyntax (mehr oder weniger komplexe Verknüpfungen von Symptomen in der Regelvorbedingung) kann sich die Überprüfung auch auf höhere Strukturierungsprinzipien beziehen. Allerdings sind Struktur und Semantik sehr eng aufeinander bezogen, so daß formalen Prüfungen enge Grenzen gesetzt sind. Bei einer Vielzahl von Variablen läßt sich aufgrund der kombinatorischen Explosion ein solcher automatischer Check nicht mehr durchführen, dann sind bestimmte Methoden einzusetzen (6). Die semantische Testung dient der Identifkation von nicht zulässigen Werten bei Variablen und ähnlichen Fehlern. Hierbei handelt es sich ausschließlich um formale Fehler, die Einschätzung einer einzelnen Regel oder eines regelbasierten Systems im Hinblick auf den klinischen Wert ist Teil der Validierung.

Die Kosistenztestung bei fallbasierten Systemen umfaßt die folgenden Maßnahmen:

  1. syntaktische Überprüfung von Einzelfalldaten
  2. strukturelle Überprüfung der Fallsammlung
  3. semantische Überprüfung von Fallvergleich und Retrieval

zu (1): Jeder einzelne Fall in der Fallsammlung des Systems muß auf Vollständigkeit und Konsistenz der Falldaten überprüft werden. Man kann sich die nachträgliche Prüfung sparen, wenn die Falldaten über eine Datenerfassungsmaske eingegeben werden, welche die erforderlichen Checks sofort ausführt und sich bei Eingabefehlern oder fehlerhaften bzw. unvollständigen Daten meldet. Werden Fälle aus Datenbanken übernommen, ist die syntaktische Konsistenzprüfung besonders wichtig.

zu (2): Wenn sich die Fallsammlung über einen längeren Zeitraum erstreckt, kann sich die Schwierigkeit ergeben, daß der medizinische Fortschritt (neue Methoden, Diagnosen, Befunde etc.) Änderungen der Befunddokumentation bewirkt, was zur Inkonsistenz der Daten von alten und neuen Fällen führt. Die Inkonsistenzen können durch Abbildung der Daten alter Fälle auf das neue Befunddokumentationsschema (falls möglich), oder umgekehrt durch die Abbildung der Daten neuer Fälle auf das alte Schema der Befunddokumentation beseitigt werden. Dies ist jedoch mühsam und ohne Abstriche an der Datenqualität kaum durchführbar.

Für jede zu stellende Diagnose muß überprüft werden, ob es in der Fallsammlung eine bestimmte Mindestzahl von Fällen gibt, die dem Retrieval zur Verfügung stehen.

Zu (3): Vorab sollte spezifiziert werden, welchen Bedingungen die vom Retrieval ausgewählten Fälle genügen sollen. Dann ist zu überprüfen, in wie weit das Retrieval diese Spezifikation erfüllt. Abhängig vom gewählten Schema des Fallvergleichs ist zu überprüfen, ob die Fallvergleichskriterien über alle Befunde und Diagnosen konsistent implementiert wurden. Da die Semantik zahlreiche Besonderheiten und Ausnahmen bedingt, sind formalen Prüfmethoden dabei enge Grenzen gesetzt.

2. Validierung

Bei dem klassischen Softwaredesign versteht man unter Validierung den Prozeß der Software-Evaluierung am Ende des Entwicklungsprozesses mit dem Ziel, die Übereinstimmung mit den Anforderungen sicherzustellen (10). Die Validierung bestätigt, daß die Wissensbasis korrekt ist und daß die vorgesehenen Aufgaben erfüllt werden können. Durch die Validierung läßt sich die Frage "Bauen wir das richtige System?" beantworten (12). Im wesentlichen dient die Validierung also dazu, die Richtigkeit und Zuverlässigkeit des in der Wissensbasis enthaltenen Wissens zu überprüfen (6). Um die Entwicklung unbrauchbarer Programme zu verhindern, sollte die Validierung schon während des Entwicklungsprozesses einsetzen, um gegebenenfalls Korrekturen vornehmen zu können. Selbstverständlich kann an einen klinischen Einsatz nur gedacht werden, wenn die endgültige Wissensbasis umfassend validiert wurde.

Für die Validierung lassen sich die folgenden Grundsätze formulieren:

a) Programmunabhängige Wissenstestung

Das wissensbasierte System sollte unabhängig von der konkreten Implementation unter Negierung von Aspekten wie Funktionalität und Benutzerfreundlichkeit getestet werden. Dabei sollte ausschließlich die Qualität des Wissens anhand der Ergebnisse gemessen werden. Eine programmunabhängige Wissenstestung setzt jedoch voraus, daß der Kontext, in dem Wissen verwendet wird, berücksichtigt werden kann.

b) Schrittweises Vorgehen

Die Validierung sollte schrittweise duchgeführt werden, beginnend mit der Beurteilung einzelner Wissensmodulen, dann der Untersuchung von logischen Beziehungen zwischen Modulen und schließlich einer Überprüfung des gesamten wissensbasierten Systems.

c) Bewertungsmaßstab

Wesentliches Element der Validierung ist der Vergleich der vom System erzielten Ergebnisse mit einem Referenzwert, dem sogenannten Goldstandard (8, 9). Dieser Standard sollte möglichst weitgehend mit der Wirklichkeit übereinstimmen. Für die Ermittlung eines Goldstandards gibt es, abhängig vom Problem, unterschiedliche Vorgehensweisen. Bei Diagnosesystemen sollte eine möglichst hohe Diagnosesicherheit angestrebt werden. Die Diagnosesicherheit kann beispielsweise anhand des folgenden Schlüssels erfaßt werden:

C1: Standarddiagnostik, C2: Spezielle Diagnostik (z..B. Ultraschall), C3: Operation, C4: Pathologie, C5: Autopsie (14). Bei andersgearteten Problemstellungen, etwa bei Therapieempfehlungen, gibt es häufig keinen objektiven Standard. In solchen Situationen sollte man versuchen Quasi-Standards zu verwenden. Ist das nicht möglich, so sollten klinische Experten zur Bewertung hinzugezogen werden. Um zu verhindern, daß die Einschätzung mit Fehlern behaftet ist, sollte dies von externen Experten vorgenommen werden (15). Der Bewertungsmaßstab sollte unbedingt vor einer Evaluierung des wissensbasierten Systems festgelegt werden, um weitere Fehlerbildungen zu vermeiden.

Bei der Bewertung durch externe Experten sollte die Variabilität der Einschätzung, gemessen an der Test-Retest-, der Intrabeobachter- und der Interbeobachtervariabilität erfaßt werden. Standardmaße der Übereinstimmung, wie z.B. die k-Statistik, sollten dabei Anwendung finden (6). Um den Grad der Beobachtervariation zu reduzieren, empfiehlt sich die Durchführung von Gruppenprozessen, wie z.B. die Delphi-Technik oder nominale Gruppenprozesse (5, 16).

d) Ort der Validierung

Die Validierung des wissensbasierten Systems sollte sowohl im Labor als auch in der klinischen Anwendung erfolgen. Letzteres sollte in prospektiven Studien unter kontrollierten Bedingungen durchgeführt werden und reproduzierbare Ergebnisse liefern. Der Sinn der Validierung in einer Feldstudie liegt darin zu überprüfen, ob die im Labor unter experimentellen Bedingungen erzielten Ergebnisse bei Anwendung in der Klinik reproduziert werden können. Die Übertragbarkeit vom Labor in die Klinik oder von einer Klinik in die andere ist nicht immer gegeben, nicht zuletzt wegen der Unterschiede in der Terminologie, im Patientengut, der Datensammlung und der Organisationsstruktur.

e) Testfälle

Die Testung der gesamten Wissensbasis erfolgt am sinnvollsten mit Testfällen. Um aussagekräftig zu sein, müssen die Testfälle bestimmten Qualitätskriterien genügen (6, 13). Die Testfälle sollten aus dem klinischen Anwendungsgebiet stammen. Es sollte sich wenn möglich um tatsächliche klinische Fälle handeln, wobei eine prospektive Datensammlung unter qualitätskontrollierten Bedingungen vorzuziehen ist. Sollte dies nicht möglich sein, sollten die Fälle durch unvoreingenommene Experten erzeugt worden sein. Darüberhinaus sollten die Testfälle einen unterschiedlichen Schwierigkeitsgrad besitzen und möglichst viele Aspekte des Systems testen (13). Um den Wert einer Validierung einschätzen zu können, bedarf es einer genauen Beschreibung des Testdatensatzes, z.B. mit Fallzahl, Art der Datensammlung (prospektiv, retrospektiv), Art und Umfang der zur Anwendung gekommenen Regeln (bzw. Wissensmodule bei anderen Wissensdarstellungen) und die Verteilung des Zielkriteriums (z.B. Diagnosen).

e) Durchführung der Validierung

Optimistisch verfälschte Ergebnisse sind zu erwarten, wenn Lernfälle, mit denen das wissensbasierte System aufgebaut wurde, auch bei der Testung verwendet werden (17). Eine klare Trennung von Trainings- und Testfällen ist daher ein unbedingtes Muß bei der abschließenden Validierung, eine Mehrfachbenutzung eines Falles ist nicht zulässig. Darüberhinaus sollte die Validierung unbedingt von unabhängigen Experten durchgeführt werden. Selbstverständlich sollte die Validierung prospektiv und unter kontrollierten Bedingungen erfolgen.

f) Auswertung

Für die Auswertung der Validierung sollten statistische Methoden herangezogen werden. Die Vorhersagen aufgrund des wissensbasierten Systems sollten mit dem Standard verglichen werden und anhand von Standardmaßen (z.B. Sensitivität, Spezifität, Richtigkeit, prädiktiver Wert) beurteilt werden. Für die Einschätzung der Variabilität sollten Konfidenzintervalle hinzugezogen werden. Wann immer möglich sollten ebenfalls statistische Tests durchgeführt werden, z.B. zum Vergleich der Richtigkeit der Vorhersage des Arztes und des wissensbasierten Systems.

3. Evaluierung von Funktionalität und Benutzerfreundlichkeit

Eine umfassende Evaluierung der Funktionalität und Benutzerfreundlichkeit ist unbedingte Voraussetzung für die erfolgreiche Anwendung wissensbasierter Systeme in der klinischen Routine. Die grundsätzliche Vorgehensweise besteht darin, zur Charakterisierung der Qualität eines Softwareproduktes einzelne Qualitätsmerkmale zu definieren und dann separat zu testen. Für die Evaluierung einzelner Aspekte gibt es unterschiedliche Vorgehensweisen, Studientypen und Instrumente, die im folgenden beschrieben werden:

a) Allgemeines Vorgehen

Die Evaluierung von Funktionalität und Benutzerfreundlichkeit sollte sowohl im Labor als auch in der klinischen Anwendung erfolgen. Sie sollte während der Entwicklung, unmittelbar vor Einführung in die Klinik und bei routinemäßiger Anwendung durchgeführt werden.

b) Merkmale der Evaluierung

Zwei Gruppen von Merkmalen können unterschieden werden. Zum einen sind dies Qualitätsmerkmale, deren Bewertung primär Sache der zukünftigen Nutzer ist. Hierzu zählen:

(i) Benutzerfreundlichkeit

Dies umfaßt vor allen Dingen die Benutzeroberfläche, aber auch Aspekte der Implementation, der Operabilität, der Gewöhnung, der Kommunikativität, des Verhältnisses von Input/Output und der Einheitlichkeit der Datendarstellung (4). Zur Benutzerfreundlichkeit gehört auch die Verständlichkeit mit Merkmalen wie Selbstbeschreibungsfähigkeit, d.h. die Bereitstellung ausreichender Information für die Benutzer um die Ziele, die Voraussetzungen, die Umgebungsbedingungen, den Input, den Output, die Komponenten und den Status erkennen zu können, die Kürze der Darstellung unter Vermeidung der Präsentation von exzessiver Information und die Leserlichkeit der Information (12). Standards für die Erstellung von Bildschirmmasken und Dialogen sollten unbedingt verwendet werden (z.B. 18, 19). Dabei sollte auf "style guidelines" der verschiedenen Platformen und auf allgemeine Richtlinien und Normen (z.B. DIN 66234) Rücksicht genommen werden.

(ii) Effizienz

Einen besonders kritischen Punkt bei der klinischen Anwendung wissensbasierter Systeme stellt die Reaktionszeit dar. Es ist notwendig die Ausführungszeit für bestimmte Funktionen und Eingaben quantitativ zu ermitteln. Dies umfaßt auch den Zeitaufwand, der vom Nutzer benötigt wird, um auf bestimmte Programmkomponenten, Funktionen oder Bildschirme zugreifen zu können (4).

(iii) Zuverlässigkeit

Die Zuverlässigkeit betrifft unter anderem Fehler in der Bedienungsanleitung, in den Bildschirmmasken und im Programm (4). Weitere Aspekte sind die Fehlertoleranz und -behandlung.

Darüberhinaus gibt es Qualitätsmerkmale, deren Testung die Einbeziehung von Softwareexperten erforderlich macht. Dies sind:

(iv) Testbarkeit

Die Fähigkeit zur Testbarkeit wissensbasierter Systeme basiert auf Eigenschaften wie Modularität, Einfachheit und Selbstbeschreibungsfähigkeit (21). Voraussetzung sind ein informatisches Konzept und Softwaredesign und -entwicklung basierend auf den anerkannten Methoden des Softwareengineering (z.B. 21, 22).

(v) Wartbarkeit

Hierunter versteht man Möglichkeiten, die Software funktionsfähig zu erhalten. Dies schließt auch die Fähigkeit zum Updaten der Software ein.

  1. Sicherheit und Datenschutz

Voraussetzung für den Einsatz in der klinischen Routine ist die Evaluierung des wissensbasierten Systems hinsichtlich der Sicherheit und der Einhaltung der für den medizinischen Bereich zutreffenden Datenschutzbestimmungen. Der Evaluierung des Systems geht die Ermittlung der Schutzbedürftigkeit der Daten, eine Bedrohungs- und Risikoanalyse voraus. Darauf aufbauend muß ein Sicherheitskonzept erstellt werden. Es wird empfohlen, nach dem IT-Sicherheitshandbuch des Bundesamtes für Sicherheit in der Informationstechnik vorzugehen. Der Datenschutzbeauftragte des Krankenhauses sollte bei der Erstellung eines Konzeptes zum Risikomanagement miteinbezogen werden. Sicherheitsvorkehrungen müssen verhältnismäßig und finanzierbar, aber auch für den Benutzer leicht handhabbar sein.

- Rechtliche Anforderungen

Der Umgang mit personenbezogenen Daten im medizinischen Bereich unterliegt zahlreichen gesetzlichen Bestimmungen. Bei der Evaluierung ist zu prüfen, ob diesen Bestimmungen Rechnung getragen wird. Dazu gehören das Bundesdatenschutzgesetz (BDSG), insbesondere die Anlage 1 zu § 9 (technischer Datenschutz), § 9 (technischer Datenschutz), § 203 StGB (Arztgeheimnis), das Sozialgesetzbuch V, das im jeweiligen Bundesland gültige Landesdatenschutzgesetz, Krankenhausgesetz und die Berufsordnung für Ärzte.
Zu den in der Anlage 1 zu den § 9 BDSG genannten "10 Geboten des Datenschutzes" gehören: Zugangskontrolle, Datenträgerkontrolle, Speicherkontrolle, Benutzerkontrolle, Zugriffskontrolle, Übermittlungskontrolle, Eingabekontrolle, Auftragskontrolle und die Organisationskontrolle. Bei der Verarbeitung sensibler medizinischer Daten kommen einer geeigneten Benutzer- und der Zugriffskontrolle besondere Bedeutung zu. Deshalb sind Verfahren zur Identifikation und Authentifikation der Benutzer vorzusehen. Flankiert werden diese Maßnahmen durch ein organisatorisches Umfeld, das z.B. Regelungen bei der Einstellung und beim Ausscheiden von Mitarbeitern festlegt.

- Zuverlässigkeit und Verfügbarkeit

Wird das wissensbasierte System in der klinischen Routine eingesetzt, so sind geeignete Maßnahmen zu treffen, die die Verfügbarkeit des Systems sicherstellen. Dazu gehört ein
Continuity-Planning mit einem Backup-Service.

- Integrität

Zur Gewährleistung der Integrität des Systems gehören geeignete Maßnahmen zur Abwehr von Viren, Würmern und trojanischen Pferden. Zum Sicherheitskonzept gehören Bestimmungen, wie bei dem Verdacht auf Angriffen vorzugehen ist. Bei Problemen mit Personal Computern kann das MicroBIT Virus Center an der Universität Karlsruhe oder das Virus Test Centrum an der Universität Hamburg um Rat gefragt werden. Bei Problemen im Bereich UNIX und Netze ist das Computer Emergency Response Team des DFN-Vereins (DFN-CERT) an der Universität Hamburg ein geeigneter Ansprechpartner. Ist das wissensbasierte System an ein Weitverkehrsnetz angeschlossen, sind Firewalls vorzusehen und zusätzliche Penetrationstests durchzuführen.

  1. Flexibilität

Bei der Bewertung der Flexibilität steht die Möglichkeit zur Anpassung des wissensbasierten Systems auf neue Umgebungen oder neue klinische Bereiche im Vordergrund. Die Flexibilität wird wesentlich bestimmt durch den Grad der Parametrierbarkeit der Software.

(viii) Portabilität

Die Portabilität wird charakterisiert durch den Grad der Hardwareunabhängigkeit.

Ein wissensbasiertes System muß bezüglich aller oben genannten Qualitätsaspekte evaluiert werden.

(ix) Interoperabilität

Hierbei soll festgestellt werden, in welchem Grade sich das wissensbasierte System in andere Systemumgebungen integrieren läßt. Es ist zu überprüfen, ob vorhandene Standards für
Schnittstellen (z.B. HLZ) berücksichtigt werden. Darüberhinaus ist von Interesse, ob Standards zum Wissensaustausch (z.B. ARDEN-Syntax) verwendet werden.

c) Studientypen

Für die Evaluierung von Aspekten der Funktionalität und Benutzerfreundlichkeit gibt es unterschiedliche Studientypen:

(i) Beobachtungsstudien

Hierunter versteht man die Beobachtung von Anwendern während der Benutzung des Systems. Sie sollte in allen Phasen der Systementwicklung im Labor und nach Abschluß im klinischen Anwendungsbereich erfolgen. Beobachtungsstudien sind ein wichtiges Instrument, um eine gute Softwarequalität zu erreichen (5). Beobachtungsstudien dienen der Erfassung von Bemerkungen, Kritiken und Empfehlungen durch Beobachter während der Lern- und Anwendungsphase von Nutzern. Sie sind geeignet die Benutzerfreundlichkeit aber auch Aspekte der Effizienz und Zuverlässigkeit einzuschätzen. Beobachtungsstudien sind prospektiv und setzen ein Protokoll voraus, in dem festgelegt wird was beobachtet werden soll und wie es beobachtet werden soll (16).

(ii) Logbuchstudien

Bei entsprechender Planung und Realisierung können gewisse Daten bei der Programmbenutzung automatisch erfaßt werden ("automatic data logging" (16)). Alle Nutzer- und Programmaktionen mit Zeiterfassung können aufgezeichnet werden. Logbuchstudien sollten Teil jeder Evaluierung sein und Aspekte wie Effizienz, Sicherheit und Zuverlässigkeit evaluieren. Dies sollte jedoch nicht dauerhaft stattfinden und vor allen Dingen anonymisiert durchgeführt werden.

(iii) Reaktionsstudien

Hierunter soll die Erfassung von Nutzerkommentaren durch zusätzliche Eingabemöglichkeiten im Programm verstanden werden (4). Damit können Kommentare erfaßt werden, ohne daß ein störender Beobachter notwendig ist. Um eine möglichst strukturierte und präzise Nutzerantwort zu erhalten, sollten an entsprechenden Stellen des Programmes verschiedene vorgegebene Eingabemöglichkeiten präsentiert werden und der Anwender sollte aufgefordert werden, die am ehesten zutreffende Aussage auszuwählen. Die Anwender sollten jedoch nicht durch zuviele zusätzliche Masken oder Tastatureingaben unnötig belästigt werden. Reaktionsstudien sollten sowohl bei der Bewertung von Benutzerfreundlichkeit, Sicherheit, Effizienz und Zuverlässigkeit Anwendung finden, können aber auch zur Unterstützung der Validierung eingesetzt werden. Wegen des Eingabeaufwandes sollten Reaktionsstudien zeitlich begrenzt durchgeführt werden.

(iv) Nutzerumfrage

Besonders nützlich ist die Erfassung der Benutzerfreundlichkeit und anderer Aspekte der Funktionalität in der klinischen Anwendung mit Hilfe einer Umfrage (5). Hier bieten sich Interviews oder Fragebogenaktionen an (16). Nutzerumfragen sind unabdingbarer Bestandteil jeder Evaluierung wissensbasierter Systeme. Sie setzen ein Studienprotokoll und die Verwendung evaluierter Instrumente mit standardisierten Antwortskalen voraus (23, 24, 9). Um den Aufwand zu begrenzen, sollten diese Umfragen in Zusammenarbeit mit Nutzern erfolgen.

d) Weitere Aspekte

Testbarkeit, Wartbarkeit, Sicherheit, Flexibilität, Portabilität und Interoperabilität sind vornehmlich Aspekte, die im Zusammenhang mit dem Design und der Struktur des wissensbasierten Systems zu sehen sind (4). Grundlage jeder Einschätzung sind eine adäquate Beschreibung von Design und Architektur des Produktes aus Sicht der Entwickler mit Hilfe der Entwicklungs- und Produktdokumentation. Darüberhinaus sollte angestrebt werden, bestimmte Softwareeigenschaften, wie z.B. Modularität, Selbstbeschreibungsfähigkeit und Einfachheit durch unabhängige Softwareexperten beurteilen zu lassen (4). Schließlich stellt die Beurteilung des Produktes aus Sicht des Anwenders hinsichtlich Support, Update, etc. ein wesentliches Element des Evaluierungsprozesses dar.

4. Evaluierung des klinischen Nutzens

Bei der Evaluierung des klinischen Nutzens werden Auswirkungen des Einsatzes von wissensbasierten Systemen auf die Anwender, die Organisation, die Gesundheitsversorgung, und die Qualität der Patientenversorgung untersucht (7, 8). Entsprechend den Grundsätzen der Qualitätssicherung werden zwischen Effekten auf die Struktur, den Prozeß und die Ergebnisse der Krankenversorgung unterschieden (9, 25). Der klinische Nutzen oder Schaden kann nur eingeschätzt werden, wenn Feldstudien im tatsächlichen klinischen Anwendungsbereich durchgeführt werden. Die Evaluierung des klinischen Nutzens stellt den mit Abstand schwierigsten Schritt im Evaluierungsprozeß dar. Es wird empfohlen Evaluierungsstudien zum klinischen Nutzen der zuständigen Ethikkommission vorzulegen.

a) Allgemeines Vorgehen

Die Evaluierung des klinischen Nutzens erfolgt nach Abschluß der Entwicklungsarbeiten, nachdem alle anderen Phasen der Evaluierung durchlaufen sind. Voraussetzung ist eine Feldstudie im klinischen Anwendungsbereich, die nach Möglichkeit als kontrollierte Studie durchgeführt werden sollte. Die Studie sollte bestimmte Qualitätskriterien erfüllen, vor allen Dingen sollte sie prospektiv sein und Fehler sowie Einflußfaktoren sollten kontrolliert werden.

4.1 Merkmale der Evaluierung

Eine vollständige Evaluierung des klinischen Nutzens umfaßt die folgende Aspekte:

(i) Strukturqualität

Die Strukturqualität der Krankenversorgung wird beeinflußt durch Faktoren wie Ausbildung, Fort- und Weiterbildung und Ausstattung des ärztlichen Arbeitsplatzes (Geräte, Infrastruktur). Im Rahmen der Evaluierung von wissensbasierten Systemen sollte daher untersucht werden, in welchem Maße sie die Strukturqualität im Krankenhaus verändern. Da der Einsatz von wissensbasierten Systemen häufig mit Lerneffekten verbunden ist, sind Effekte auf den Ausbildungsstand des Arztes durchaus denkbar. Ein anderer Effekt könnte darin bestehen, daß Informationen schneller, aktueller und mit besserer Qualität zur Verfügung gestellt werden.Im Zusammenhang mit der Strukturqualität sollte weiterhin untersucht werden, inwieweit das wissensbasierte System in die beabsichtigte Umgebung eingepaßt werden kann (9). Hierunter fallen Aspekte, wie z.B. die Frage, ob für den Einsatz des wissensbasierten Systems ausreichend Daten vorliegen, ob das wissensbasierte System im klinischen Ablauf zugänglich ist und wie das System mit anderen Quellen der Wissensbeschaffung integriert ist. In diesem Zusammenhang sollte darauf hingewiesen werden, daß Information selber in der Regel einen geringen Effekt auf das Verhalten des Arztes und auf die Qualität der Krankenversorgung hat (4). Medizinische Meinungsmacher oder eine strenge Führung des medizinischen Personals haben dagegen einen großen Einfluß. Bei Feldstudien zur Strukturqualität sollten daher unbedingt die Führungsrolle des Vorgesetzten und die verwendeten Kontrollmechanismen berücksichtigt werden.

(ii) Prozeßqualität

Den wesentlichen Punkt der Evaluierung des klinischen Nutzens stellen die Effekte auf den Prozeß der Krankenversorgung dar. Auswirkungen auf den Prozeß der Krankenversorgung sind Voraussetzung, um die Ergebnisse der Krankenversorgung verändern zu können. Während die Effekte eines wissensbasierten Systems auf die Ergebnisse der Krankenversorgung nur schwer und indirekt nachweisbar sind, lassen sich Änderungen im klinischen Ablauf eher nachweisen. Beispielsweise könnte der Effekt eines computerunterstützten Diagnosesystems durch die verbesserte Diagnosestellung, die Vermeidung zusätzlicher Untersuchungen, die schnellere Diagnosestellung und Therapiewahl nachgewiesen werden. Die Einschätzung der Prozeßqualität sollte klinische Aspekte (z.B. Auswirkungen auf Diagnosestellung und Therapiewahl), organisatorische Aspekte (z.B. Zufriedenheit des Personals, Arbeitsbelastung, Änderung der Tätigkeitsmerkmale), ökonomische Effekte (z.B. Kosten, Nutzen) und andere Aspekte, wie z.B. ethische und juristische Fragen umfassen (3). Entsprechend dem Typ des wissensbasierten Systems und der klinischen Fragestellung bedarf es der Aufstellung definierter Kriterien zur Messung der Prozeßqualität. Standards in der Literatur müssen dabei berücksichtigt werden.

(iii) Ergebnisqualität

Effekte auf die Ergebnisse der Krankenversorgung durch wissensbasierte Systeme sind von übergeordnetem Interesse, jedoch wegen vieler Einflußfaktoren sehr schwierig nachzuweisen (26). Die wichtigsten Maße der Ergebnisqualität sind folgende: Funktion bzw. Lebensqualität, Morbidität und Mortalität (3). Sollte ein wissensbasiertes System bis zur klinischen Serienreife gelangen, so ist der Nachweis der Ergebnisqualität zu fordern.

Im Zusammenhang mit der Ergebnisqualität sollte unbedingt zwischen "efficacy" und "effectiveness" unterschieden werden (27). "Efficacy" bezieht sich auf die Leistungsfähigkeit eines wissensbasierten Systems unter kontrollierten Studienbedingungen, "effectiveness" dagegen auf die Leistungsfähigkeit in der klinischen Routine.

4.2 Stör- und Einflußgrößen

Wissenschaftlicher Standard für den Nachweis von Therapieeffekten ist die randomisierte kontrollierte klinische Studie. Dieses Studiendesign wirft jedoch bei wissensbasierten Systemen erhebliche Probleme auf, da hier eine Vielzahl möglicher Fehler und Einflußgrößen zu berücksichtigten sind (9, 28). Die wichtigsten Stör- und Einflußgrößen sind (9):

(i) Voreingenommenheit

Um den Einfluß positiver bzw. negativer Einstellungen gegenüber wissensbasierten Systemen einzuschränken, sollte wenn möglich eine weitgehende Verblindung stattfinden. Die Beurteilung von Krankheitsverläufen sollte beispielsweise von unabhängigen Beobachtern durchgeführt werden, ohne daß Kenntnis darüber besteht, ob das wissensbasierte System eingesetzt wurde oder nicht.

(ii) Enthusiasmus

Da wissensbasierte Systeme häufig am Ort der Entwicklung eingesetzt werden, besteht die Gefahr durch besonderes Engangement der Entwickler (z.B. 24-Std.-Service) die Ergebnisse zu verfälschen. Enthusiasmus ist eine häufige Fehlerquelle und sollte daher unbedingt kontrolliert werden (29). Eine einfache Möglichkeit ist die Testung des wissensbasierten Systems in neuen klinischen Umgebungen.

(iii) Zirkularität

Zirkularität stellt meist dann ein Problem dar, wenn die Entwicklung und Evaluierung durch das gleiche Team vorgenommen wird. Ein klassischer Fehler, der unbedingt vermieden werden muß, ist das Trainieren und Testen auf dem gleichen Datensatz. Die Folge sind optimistisch verfälschte Ergebnisse (17). Zirkularität entsteht auch dann, wenn diagnostische Parameter, die als Input für ein wissensbasiertes System verwendet werden, auch zur Festlegung der endgültigen Diagnose dienen. Gefordert werden muß eine von den Entwicklern unabhängige Evaluierung eines wissensbasierten Systems.

(iv) Statistische Fehler

Für die Evaluierung des klinischen Nutzens wissensbasierter Systeme gelten bezüglich der Fallzahlschätzung die gleichen Regeln wie für randomisierte Therapiestudien.- und ß-Fehler müssen im Rahmen der Studienplanung festgelegt und aufgrund verfügbarer Daten muß der Stichprobenumfang festgelegt werden.

(v) Hawthorne-Effekt

Allein die Tatsache, daß eine Evaluierungsstudie durchgeführt wird und die Ärzte sowie das Pflegepersonal unter Beobachtung stehen, führt in der Regel zu einer Verbesserung der Ergebnisse (30). Um eine Abschätzung des Hawthorne-Effektes vornehmen zu können, empfiehlt sich die Durchführung einer Basisphase vor Einsatz des wissensbasierten Systems, wobei dies möglichst ohne Wissen der Ärzte durchgeführt werden sollte.

(vi) Checklist-Effekt

Der Einsatz wissensbasierter Systeme führt häufig zu einer vollständigeren und besseren Datensammlung. Dieser Checklist-Effekt allein kann die Ergebnisse signifikant verbessern (31) und muß kontrolliert werden. Eine Möglichkeit besteht darin, die Datensammlung in allen Studiengruppen zu standardisieren oder bei einer Gruppe von Patienten nur die Datensammlung durchzuführen, um den quantitativen Einfluß abschätzen zu können.

(vii) Carry-over-Effekt

Der Carry-over-Effekt entsteht durch den Umgang der Nutzer mit dem wissensbasierten System. Durch die Aus- und Weiterbildung mit dem computerunterstützten System sind Übertragungseffekte möglich, auch wenn das wissensbasierte System bei einem Patienten nicht zur Anwendung kommt (32). Carry-over-Effekte sollten ebenfalls kontrolliert werden, beispielsweise durch die Randomisierung von Ärzten anstelle von Patienten.

(viii) Sekulare Trends

Durch eine lange Studiendauer, aber auch durch historische Vergleichsgruppen besteht die Gefahr, daß abgesehen vom eigentlich interessierenden wissensbasierten System andere signifikante Einflußfaktoren (z.B. organisatorische Änderungen, neue Technologie) zur Anwendung kommen. Durch die Vermeidung historischer Kontrollen und durch kurze Laufzeiten muß dieser Fehler verhindert werden.

(ix) Feedback/Audit

Durch die Durchführung eines systematischen Feedbacks mit Information der Ärzte über Erfolge bzw. Mißerfolge in der Diagnostik und Behandlung, lassen sich bekanntermaßen die Ergebnisse signifikant verbessern (31). Durch eine Gruppe mit und ohne Feedback läßt sich dieser Effekt quantifizieren.

4.3 Studientypen

Im folgenden sollen die verschiedenen Studientypen unter Berücksichtigung der Eignung für den Nachweis des klinischen Nutzens wissensbasierter Systeme dargestellt werden. Grundsätzlich sind die Qualitätsmerkmale von Therapiestudien auch auf Evaluierungsstudien übertragbar. Dies bedeutet: prospektiv besser als retrospektiv, kontrolliert besser als unkontrolliert, randomisiert besser als nicht randomisiert, gleichzeitige Kontrollen besser als historische Kontrollen, große Fallzahl besser als kleine Fallzahl und Verblindung besser als nicht verblindete Studien (33). Allerdings sind bei Evaluierungsstudien einige spezielle Aspekte zu berücksichtigen (9). Insgesamt fünf Studientypen lassen sich unterscheiden:

Randomisierte Studie

Prospektive Studie mit gleichzeitiger Kontrolle (nicht randomisiert)

Prospektive Studie mit historischer Kontrolle

Studie ohne Kontrollgruppe

Spezielle Studiendesigns

Zur Vereinfachung werden im folgenden nur Zwei-Gruppendesigns (Test- versus Kontrollgruppe) betrachtet.

4.3.1 Randomisierte Studie

Bei der Evaluierung von wissensbasierten Systemen können Patienten, Ärzte aber auch Abteilungen oder Funktionsbereiche Gegenstand der Randomisierung sein. Das klassische Vorgehen besteht in der Randomisierung von Patienten. Ein wesentliches Problem bei diesem Design ist der Carry-over-Effekt, der durch den Umgang mit dem wissensbasierten System entsteht und die Ergebnisse bei den Kontrollpatienten (kein wissensbasiertes System) beeinflußt. Einfache Randomisierung wurde bisher nur bei einigen Evaluierungsstudien durchgeführt und kann nur eingeschränkt empfohlen werden (32). Randomisiert man die Ärzte, so kann es vorkommen, daß sie die Randomisierung überhaupt nicht akzeptieren. Dennoch wurde dieses Design in einigen Studien erfolgreich durchgeführt und kann, wenn realisierbar, emphohlen werden (30). Eine Randomisierung von Kliniken scheidet wegen der Fallzahlproblematik in der Regel aus.

Compliance:

Ein wesentliches Problem bei randomisierten klinischen Studien zum Impakt stellt die Compliance dar. Mehr oder weniger häufig kommt das wissensbasierte System in der Testgruppe nicht zur Anwendung. Drei verschiedene Arten von Analyse sind dann möglich: "intention-to-treat", gemäß Protokoll, "as-treated" (Sheiner et al, Clin Pharm Ther, 95). Bei der "intention-to-treat"-Analyse werden die Gruppen wie sie ursprünglich randomisiert wurden miteinander verglichen. Die Analyse gemäß Protokoll bezieht nur solche Patienten in die Analyse ein, die tatsächlich korrekt nach Protokoll behandelt wurden. Bei der "as-treated-Analyse" werden die Patienten gemäß dem tatsächlichen Vorgehen gruppiert, d.h. z.B. Patienten, die der Testgruppe (wissensbasiertes System) zurandomisiert wurden, bei denen aber das System nicht zur Anwendung kam, werden der Kontrollgruppe zugeschlagen. Bei der "intention-to-treat"-Analyse besteht die Gefahr, daß durch eine schlechte Compliance in der Testgruppe Unterschiede nicht entdeckt oder unterschätzt werden. Umgekehrtes kann für die Analyse gemäß Protokoll gelten, wenn das wissensbasierte System nur bei solchen Patienten angewendet wird, wo es besonders vielversprechend ist. Fehlerhafte Ergebnisse erhält man ebenfalls bei der Analyse "as-treated". Je nachdem ob Patienten, bei denen das wissensbasierte System nicht zur Anwendung kommt, eine schechtere oder bessere Prognose besitzen, werden die Unterschiede unter- oder überschätzt. Um bei erheblicher Compliance die Effekte einer tatsächlichen Anwendung von wissensbasierten Systemen abschätzen zu können (sog. "method-effectiveness"), gibt es unterschiedliche modellbasierte methodische Ansätze.

Eine Randomisierung kann im Rahmen der folgenden Studiendesigns zur Anwendung kommen:

2-Gruppendesign mit Nachhermessung und Randomisierung

2-Gruppendesign mit Vorher/Nachhermessung und Randomisierung

Cross-over Design mit Randomisierung

4.3.1.1 Zwei-Gruppendesign mit Nachhermessung und Randomisierung

Bei diesem Design werden durch Randomisierung zwei Gruppen gebildet: eine Testgruppe, in der das wissensbasierte System zur Anwendung kommt, und eine Kontrollgruppe ohne Intervention oder mit einer Standardintervention (Beispiel 37).

4.3.1.2 Zwei-Gruppendesign mit Vorher-/Nachhermessung und Randomisierung

Dieses Design stellt eine Kombination eines historischen Vergleichs mit einer randomisierten Studie dar. Durch Randomisierung werden zwei Gruppen gebildet, eine Testgruppe und eine Kontrollgruppe. In der Testgruppe werden die Ergebnisse vor und nach Einführung des wissensbasierten Systems gemessen. In der Kontrollgruppe erfolgt dies analog im Hinblick auf eine Kontrollintervention (ggf. keine zusätzliche Intervention).

4.3.1.3. Cross-over Design mit Randomisierung

Bei diesem Design werden zwei Gruppen gebildet. In der einen Gruppe wird mit der Testung des wissensbasierten Systems begonnen, an die sich eine Kontrollphase ohne Einsatz des Systems anschließt. In der anderen Gruppe erfolgt dies umgekehrt.

4.3.2. Studie mit gleichzeitiger Kontrolle (nicht randomisiert)

Bei diesem Studiendesign werden eine Kontroll- und eine Testgruppe gleichzeitig untersucht. Im Gegensatz zur randomisierten Studie erfolgt die Zuteilung von Patienten, Ärzten oder Organisationseinheiten nicht randomisiert zu den verschiedenen Gruppen. Beispielsweise könnten computerinteressierte Ärzte der Intervention "computerunterstützte Diagnose" und die übrigen dem Computer negativ gegenüber eingestellten Ärzte der Kontrollgruppe zugeordnet werden. Eine nicht randomisierte Zuteilung führt in der Regel zu Fehlerbildungen, die einen Vergleich der Gruppen erschweren oder unmöglich machen. Ähnlich wie bei den randomisierten Studien sind folgende Designs denkbar:

2-Gruppendesign mit Nachhermessung ohne Randomisierung

2-Gruppendesign mit Vorher-/Nachhermessung ohne Randomisierung

Cross-over Design ohne Randomisierung

4.3.2.1 Zwei-Gruppendesign mit Nachhermessung ohne Randomisierung

Bei diesem Design werden durch nicht randomisierte Zuteilung zwei Gruppen gebildet: eine Testgruppe, in der das wissensbasierte System zur Anwendung kommt, und eine Kontrollgruppe ohne Intervention oder mit einer Standardintervention.

4.3.2.2 Zwei-Gruppendesign mit Vorher/Nachhermessung ohne Randomisierung

Dieses Design stellt eine Kombination eines historischen Vergleiches mit einer Studie mit gleichzeitiger Kontrolle dar. Durch nicht randomisierte Zuteilung werden zwei Gruppen gebildet, eine Testgruppe und eine Kontrollgruppe. In der Testgruppe werden die Ergebnisse vor und nach Einführung des wissensbasierten Systems gemessen. In der Kontrollgruppe erfolgt dies analog im Hinblick auf eine Kontrollintervention (ggf. keine zusätzliche Intervention).

4.3.2.3 Cross-over Design ohne Randomisierung

Bei diesem Design werden zwei Gruppen gebildet. In der einen Gruppe wird mit der Testung des wissensbasierten Systems begonnen, an die sich eine Kontrollphase ohne Einsatz des Systems anschließt. In der anderen Gruppe erfolgt dies umgekehrt. Die Zuteilung zu den Gruppen erfolgt nicht randomisiert.

4.3.3 Prospektive Studien mit historischer Kontrolle

Unter diesem Studientyp werden ausschließlich prospektive Studien, d.h. in die Zukunft geplante und durchgeführte Studien verstanden. Prospektive Untersuchungen von Interventionen, die mit retrospektiv erhobenen Daten aus Krankengeschichten verglichen werden, fallen nicht unter diesen Studientyp. Da bei diesem Design Test- und Kontrollgruppen zeitlich aufeinanderfolgend untersucht werden, handelt es sich um einen historischen Vergleich. Dieser Studientyp unterliegt dem Einfluß sekularer Trends. Es ist durchaus denkbar, daß die Gruppen nicht mehr vergleichbar sind, entweder durch Strukturungleichheiten im Patientengut oder durch Änderungen im Management.

4.3.3.1 Ein-Gruppendesign mit Vorher-/Nachhermessung

Bei diesem Design gibt es nur eine Gruppe. In dieser Gruppe werden die Ergebnisse vor und nach Einführung des wissensbasierten Systems untersucht.

4.3.3.2 Zeitreihendesign

Bei diesem Studiendesign gibt es nur eine Gruppe. Im einfachsten Fall wird der klinische Nutzen vor, während und nach dem Einsatz eines wissensbasierten Systems untersucht. Durch die Verwendung einer Postphase kann festgestellt werden, ob durch die Benutzung des wissensbasierten Systems ein Carry-over-Effekt entsteht.

4.3.3.3 Switch-on/switch-off-Design

Bei diesem Studiendesign wird in einer Gruppe mehrfach das wissensbasierte System eingeführt und entfernt. Damit ist eine Analyse des Carry-over-Effektes möglich.

4.3.4 Studie ohne Vergleichsgruppe

4.3.5 Sonstige Designs

4.3.6 Unkontrollierte Studie

Unkontrollierte Studien erlauben keinen Vergleich der Ergebnisse bei Einsatz eines wissensbasierten Systems mit einer Kontrollgruppe. Allenfalls ist eine Orientierung an Literaturergebnissen möglich. Dieser Studientyp sollte daher nicht zur Evaluierung des klinischen Nutzens herangezogen werden.

5. Informationsquellen (Literatur)

1. Wyatt J (1991)
Computer-based knowledge systems
Lancet 338: 1431-1436

2. Publikation MEDWIS-Program

3. Jorgensen T (1995)
Measuring effects
In: van Gennip EMSJ, Talmon JS (Eds)
Assessment and evaluation of information technologies
IOS Press, 99-109

4. Ohmann C, de Dombal FT, Winding O, and the International
Evaluation Panel (1994)
Evaluation procedure in the TELEGASTRO project
Theor Surg 9: 90-103

5. Preece AD (1990)
Towards a methodology for evaluating experts system
Expert Systems 7: 215-223

6. Engelbrecht R, Rector A, Moser W (1995)
Verification and validation
In: van Gennip EMSJ, Talmon JS (Eds)
Assessment and evaluation of information technologies
IOS Press, 51-66

7. Clark K, O'Moore R et al. (1991)
A methodology for evaluation of knowledge-based systems"
In: Adlassnig KP, Grabner G, Bengston S, Hansen R (Eds)
Lecture Notes in Medical Informatics 45: 361-370

8. Nykänen P, Chowdhury S, Wigertz O (1991)
Evaluation of decision support systems in medicine
Comput Methods Progr Biomed 34: 229-238

9. Wyatt J, Spiegelhalter D (1990)
Evaluating medical expert systems: what to test and how?
Med Inform 15: 205-217

10. ANSI/IEEE Standard 729-1983 (1983)
IEEE Standard Glossary of Engineering Terminology
New York: IEEE

11. O'Leary DE (1993)
Verifiying and validating expert systems: a survey.
Expert systems in buiseness and finance: issues and applications.
Chapter 12: 181-208

12. Boehm B, Brown JR, Kaspar H, Lipow M, MacLeod GJ, Merrit MJ (1978)
Characteristics of software quality
North Holland, Amsterdam

13. Suen CY, Grogono PD, Shinhai R, Coallier R (1990)
Verifying, validating and measuring the performance of expert systems
Expert Systems Applic 1: 93:102

14. Hermanek P, Sobin LH (Ed.) (1987)
TNM. Classifikation of malignant fumours
Springer Verlag, Berlin

15. Talmon J, Smeets R (1995)
Case acquisition for knowledge-based decision support system validation
In: van Gennip EMSJ, Talmon JS (Eds)
Assessment and evaluation of information technologies
IOS Press, 67-74

16. Jorgensen T (1995)
Methods for data acquisition
In: van Gennip EMSJ, Talmon JS (Eds)
Assessment and evaluation of information technologies
IOS Press, 111-116

17. Weiss SM, Kulikowski CA (1991)
Computer systems that learn.
Morgan Kaufman, Publishers, San Francisco

18. Lauter B (1987)
Software-Ergonomie in der Praxis
Oldenburg, München

19. Microsoft Programming Series (1992)
The windows interface. An application design guide
Microsoft Press, Redmond

20. Watts R (1987)
Measuring software quality.
NCC, Manchester

21. Timmers T, Blum BI (eds) (1991)
Software engineering in medical informatics
North-Holland, Amsterdam

22. Coad P, Yourdon E (1991)
Object-oriented design
Yourdan Press, Prentice Hall

23. O'Keefe RM (1989)
The evaluation of decision-aiding systems guidelines and methods
Information Management 17: 217-226

24. Rohrmann B (1978)
Empirische Studien zur Entwicklung von Antwortskalen für die
sozialwissenschaftliche Forschung
Z. Sozial Phsychol 9: 222-245

25. Donabedian A (1966)
Evaluating the quality of medical care
Millbank Memorial Quarterly 44: 166-206

26. Loop JW, Lusted LB (1978)
American college of radiology diagnostic efficacy studies
AJR 131: 173-179

27. Nohr C (1995)
From assessment to decision making.
In: van Gennip EMSJ, Talmon JS (Eds)
Assessment and evaluation of information technologies
IOS Press, 117-126

28. Ohmann C, Otterbeck R, Franke C, Röher HD (1994)
Evaluation of knowledge-based systems.
Workshop in cooperation and supported by the German MEDWIS programme,
11 March 1994 in Düsseldorf, Germany
Theor. Surg 9: 230-237

29. Gunn AA (1991)
The acute Abdomen: the role of computer-assisted diagnosis
Baillière's Clin Gastroenterol 5: 639-665

30. Wellwood J, Johannessen S, Spiegelhalter DJ (1992)
How does computer-aided diagnosis improve the management
of acute abdominal pain?
Ann Roy Coll Surg Engl 74: 40-46

31. Adams ID, Chan M, Clifford PC, Cooke WM, Dallos V,
de Dombal FT, Edwards MH, Hancock DM, Hewett DJ, McIntyre N,
Somerville PG, Spiegelhalter DJ, Wellwood J, Wilson DH (1986)
Computer-aided diagnosis of acute abdominal pain: a multicentre study
Br Med J 293: 800-804

32. Russel I, Grimshow (1992)
The effectiveness of referral guidelines:
a review of the methods and findings of published evaluations
In: Roland M, Coulter A (eds) Hospital referrals
Oxford University Press, Oxford, pp 179-211

33. Lorenz W, Ohmann C (1983)
Methodische Formen klinischer Studien in der Chirurgie:
Indikation und Bewertung
Chirurg 54: 189-195

34. van Gennip EMSJ (1995)
Approaches to experimental design
In: van Gennip EMSJ, Talmon JS (Eds)
Assessment and evaluation of information technologies
IOS Press, 75-85

35. Plögert K (1993)
Die SW-Entwicklung verlangt ein standardisiertes Vorgehen
Teil1: Aufbau, Inhalt und Verwendung des Vorgehensmodells
Computerwoche, Ausgabe 8 vom 19.2.95
Teil 2: Das Vorgehensmodell in der Praxis
Computerwoche, Ausgabe 9 vom 26.2.95

Index 29.1.96

Allgemeines

Anforderungsprofil (bei Softwareengineering)

Anforderungen, rechtliche (Datenschutz)

As-treated-Analyse

Auswertung (der Validierung)

automatic data logging (bei Logbuchstudien)

Bedienungsanleitung (Eigenschaften bzgl. Benutzerfreundlichkeit)

Beobachtungsstudien

Benutzerfreundlichkeit

Benutzerfreundlichkeit1 (als Qualitätsmerkmal bei Evaluierung)

Benutzerfreundlichkeit2 (Bewertung durch Reaktionsstudien)

Benutzerfreundlichkeit3 (Erfassung durch Umfragen)

Benutzeroberfläche

Checklist-Effekt (als Stör- u. Einflußgröße)

Carry-over-Effekt (als Stör- u. Einflußgröße)

Carry-over-Effekt1 (Problem d. randomisierten Studie)

Carry-over-Effekt2 (bei Switch-on/switch-off-Design)

Compliance

Continuity-Planning

Cross-over Design mit Randomisierung (als Studiendesign)

Cross-over Design ohne Randomisierung (als Studiendesign)

Datensammlung, prospektive

Datensammlung (Typen bei Testung d. Wissensbasis))

Datenschutz

Datenschutz, 10 Gebote

Delphi-Technik

Diagnosesicherheit (Schlüssel)

Diagnosestellung (vgl. Prozeßqualität)

Effizienz (wissensbasierter Systeme)

Effizienz1 (Bewertung durch Reaktionsstudien)

Ein-Gruppendesign mit Vorher-/Nachhermessung (als Studiendesign)

Einfachheit (als Softwareeigenschaft)

Entscheidungshilfen (=Wissensbasen)

Ethikkommission

Ethikkommission1

Enthusiasmus (als Stör- u. Einflußgröße)

Entwicklungs- und Produktdokumentation

Ergebnisqualität

Ergebnisse der Krankenversorgung

Evaluierer

Evaluierung (Grundsätze)

Evaluierung1 (Phasen)

Evaluierung2 (Bewertung v. Qualitätsmerkmalen durch Nutzer)

Evaluierungsprotokoll

Evaluierungsstudien

Evaluierungsumgebung

Experten (als Erzeuger v. Testfällen bzgl. Validierung)

Experten1 (als Durchführer d. Validierung)

fallbasierte Systeme (Konsistenztestung)

Fallzahl (bei Testung d. Wissensbasis)

Feedback/Audit

Fehlerbehandlung (Kriterium f. Zuverlässigkeit)

Fehlertoleranz (wissenbas. Systeme)

Feldstudie (Ort der Validierung)

Feldstudie0 (als Evaluierungsbestandteil)

Feldstudie1 (Evaluierung d. klin. Nutzens)

Feldstudie2 (zur Strukturqualität d. Krankenversorgung)

Flexibilität (wissensbasierter Systeme)

Flexibilität1

Fragebogenaktionen (bei Nutzerumfrage)

Fragen, ethische u. juristische

Funktionalität

Funktionalität1

Gemäß-Protokoll-Analyse

Goldstandard (= Referenzwert)

Gruppenprozesse (zur Reduktion d. Beobachtervariation)

Gruppenprozesse, nominale

Hawthorne-Effekt (als Stör- u. Einflußgröße)

Informationsquellen

Inkonsistenzen, logische

Integrität (Systemsicherheit, Virenabwehr)

Intention-to-treat-Analyse

Interoperabilität

Interoperabilität1

Interbeobachtervariabilität

Interne Konsistenz (wissensbasierter Systeme)

Intrabeobachtervariabilität

Iterativer Prozeß (=Evaluierung)

IT-Sicherheitshandbuch (Datenschutz)

k-Statistik

klinische Anwendung (= Ort d. Validierung)

klinische Anwendung1 (=Ort d. Evaluierung v. Funktionalität u. Benutzerfreundlichkeit)

klinischer Anwendungsbereich (Ort f. Beobachtungsstudien)

klinischer Nutzen

Konzept, informatisches (vgl. Testbarkeit wissensbas. Systeme)

Labor (Ort der Validierung)

Labor0 (Ort d. Evaluierung v. Funktionalität u. Benutzerfreundlichkeit)

Labor1 (Ort v. Beobachtungsstudien)

Laborstudie (als Evaluierungsbestandteil)

Lebensqualität (Maß f. Ergebnisqualität d. Krankenversorgung)

Lernfälle (bzgl. Durchführung d. Validierung)

Lernhilfen (=Wissensbasen)

Leserlichkeit (Merkmal f. Benutzerfreundlichkeit)

Logbuchstudien

MEDWIS-Programm

Method-effectiveness

Modularität (Kriterium f. Testbarkeit v. Wissensbasen)

Modularität1 (als Softwareeigenschaft)

Morbidität (Maß f. Ergebnisqualität d. Krankenversorgung)

Mortalität (Maß f. Ergebnisqualität d. Krankenversorgung)

Normen (DIN)

Nutzerkommentare (bei Reaktionsstudien)

Nutzerumfrage (als Bestandteil von Evaluierung)

Phaseneinteilung (der Evaluierung)

Portabilität

Portabilität1

programmunabhängige Wissenstestung

prospektive Studien mit historischer Kontrolle

Prototyp

Prozeß der Krankenversorgung

Prozeßqualität

Prozeßqualität1 (Merkmale d. Einschätzung)

Qualitätskriterien (u. deren Vergleich bzgl. Evaluierung)

Qualitätskriterien1 (für Feldstudien)

Qualitätsmerkmale (d. Software bzgl. Funktionalität/Benutzerfreundlichkeit)

Qualitätsmerkmale1 (von Evaluierungsstudien)

Qualitätssicherung

Quasi-Standards (statt objektive Standards)

randomisierte Studie

randomisierte kontrollierte klinische Studie

Reevaluierung

Referenzwert

Referenzwert1 (vgl. Goldstandard)

regelbasierte Systeme (Testung)

Regeln (Typen u. Umfang bei Testung d. Wissensbasis)

Regeln, fehlerhafte/inkonsistente

Regeln, redundante

Reaktionsstudien

Reaktionszeit (wissensbas. Systeme)

Richtigkeit (als Standardmaß bei Validierung)

Risikomanagement (Datenschutzkonzept)

Schnittstellen

sekulare Trends (vgl. Stör- u. Einflußgrößen)

sekulare Trends1 (bei prospekt. Studien mit histor. Kontrolle)

Selbstbeschreibungsfähigkeit (Merkmal f. Benutzerfreundlichkeit)

Selbstbeschreibungsfähigkeit1

semantische Überprüfung (bei regelbasierten Systemen)

semantische Überprüfung1 (bei fallbasierten Systemen)

Sensitivität (als Standardmaß bei Validierung)

Sicherheit (wissensbasierter Systeme)

Sicherheit0 (Bewertung durch Reaktionsstudien)

Sicherheit1

Softwaredesign

Softwareengineering

Softwareengineering1

Spezifikationen (bzgl. Verifizierung bei Softwareentwicklung)

Spezifität (als Standardmaß bei Validierung)

spiral life-cycle model

Spiralmodell

Standards (i.d. Literatur bzgl. Evaluierung)

Statistische Methoden (vgl. Auswertung d. Validierung)

Statistische Fehler (als Stör- u. Einflußgröße)

Statistische Tests (zur Auswertung d. Validierung)

Stör- und Einflußgrößen

Strategie (der Evaluierung)

Struktur der Krankenversorgung

Strukturqualität

Strukturqualität der Krankenversorgung (Faktoren)

strukturelle Überprüfung (bei regelbasierten Systemen)

strukturelle Überprüfung1 (bei fallbasierten Systemen)

Studie mit gleichzeitiger Kontrolle (nicht randomisiert)

style guidelines (f. Bildschirmmasken/Dialoge)

Subsumierungen (bei Testung v. wissensbas. Systemen auf interne Konsistenz)

support

Switch-on/switch-off-Design (als Studiendesign)

syntaktische Überprüfung (bei regelbasierten Systemen)

syntaktische Überprüfung1 (bei fallbasierten Systemen)

Systemspezifikation (bei Softwareengineering)

Testbarkeit (wissensbasierter Systeme)

Testbarkeit1

Testfälle (zur Testung d. Wissensbasis)

Test-Retestvariabilität

Testung, logische (als Evaluierungsbestandteil)

Therapiewahl (vgl. Prozeßqualität)

Übertragbarkeit (v. Ergebnissen in Labor/klin. Anwendung)

Unkontrollierte Studie

Update

Vergleichsgruppe, historische

Verifizierung

Verifizierung1

Verifizierung2

Verifizierung3

Verifizierung4

Verifizierung5

Verifizierung6

Verifizierung7

Verifizierung8

Verifizierung9

Validierung

Validierung1

Validierung2

Validierung3

Validierung4

Validierung5

Validierung6

Validierung7

Validierung8

Validierung9

Validierung10

Validierung11 (Durchführung)

Verfügbarkeit (wissensbas. Systeme in klin. Routine)

V-Modell

Vorbemerkungen

Voreingenommenheit (als Stör- u. Einflußgröße)

Wartbarkeit (der Software)

Wartbarkeit1

Wert, prädiktiver (als Standardmaß bei Validierung)

Wissensaustausch

Wissensbasis (Testung auf Korrektheit)

Wissensbasis1 (Testung mit Testfällen)

Wissensbasen

Wissensmodulen

Zeitaufwand (der Nutzung wissensbas. Systeme)

Zeitreihendesign

Zielkriterium (bei Testung d. Wissensbasis)

Zirkularität (als Stör- u. Einflußgröße)

Zuverlässigkeit (wissensbasierter Systeme)

Zuverlässigkeit1 (vgl. Sicherheit u. Datenschutz)

Zuverlässigkeit2 (Bewertung durch Reaktionsstudien)

Zwei-Gruppendesign mit Nachhermessung und Randomisierung

Zwei-Gruppendesign mit Vorher-/Nachhermessung und Randomisierung

Zwei-Gruppendesign mit Nachhermessung ohne Randomisierung

Zwei-Gruppendesign mit Vorher/Nachhermessung ohne Randomisierung

Zyklen (bei Testung v. wissensbas. Systemen auf interne Konsistenz)


AK_EVAL - Homepage