Reisensburg 1998: Abstract Köster
Statistical Computing '98 - Schloß Reisensburg

Ein Werkzeug zur Unterstützung epidemiologischer Untersuchungen, durch die automatisierte Hypothesenfindung in detaillierten, umfangreichen Datenbeständen

Frank Köster, Roland Radtke, Michael Sonnenschein

OFFIS
Universität Oldenburg

Die in dieser Arbeit vorgestellten Techniken unterstützen die Planung und Durchführung umweltepidemiologischer Studien. Hierzu werden globale Optimierungstechniken eingesetzt, um auf der Basis großer, insbesondere aus Zeitreihen bestehender Datenbestände Merkmale im Sinne statistischer Methoden herauszuarbeiten, indem Hypothesen generiert werden, die durch die Anwendung statistischer Methoden der Epidemiologie validiert werden können. Diese Merkmale sind aufgrund des verwendeten Optimierungsansatzes, der insbesondere auch komplexe Datenstrukturen, wie Berechnungsbäume und Automaten als Komponenten der entwickelten Hypothesen zuläßt, i.A. komplexer, als die durch die Anwendung üblicher statistischer Korrelationstests auffindbaren Zusammenhänge. Die Datenbasis auf die dieses Analyseverfahren angewendet wird, setzt sich aus, mit Hilfe individuenorientierter Modellierungs- und Simulationstechniken integrierter Daten einzelner epidemiologischer Untersuchungen und ebenfalls in die Modelle integriertem gefestigten Wissen zusammen. Auf diese Weise können Erkenntnisse aus dem Anwendungsbereich der Epidemiologie in die automatische Hypothesenfindung einbezogen werden. Die entwickelten und angewendeten Verfahren werden im Weiteren noch genauer erläutert.

Individuenorientierte Modelle [HH90] sind besonders dazu geeignet, von einer Position in der Umwelt abhängige, zeitlichen Schwankungen unterliegende und durch individuelle Verhaltensmuster beeinflußbare Aspekte, wie bspw. die individuelle Exposition, detailliert in ein Modell - dem sog. Simulationsmodell - zu integrieren bzw. in diesem zu bestimmen. Im Kontext der umweltepidemiologischen Studien ist die Integration von statischen Beschreibungen individueller Verhaltensweisen, die man unter anderem durch Umfragen gewinnen kann, und von zeitlich variierenden Schadstoffkonzentrationen in der Umwelt, die bspw. über Langzeitmessungen erhoben werden können, in einem solchen System möglich.

Aus der Beobachtung des dynamischen Verhaltens einer Simulation eröffnet sich eine sehr viel detailliertere Sicht auf das zu untersuchende System, wobei insbesondere die aus der Simulation solcher Modelle ableitbaren Historien einzelner Individuen die Eingangsgrößen für einen hier skizzierten Analyseansatz bilden, welcher ein Werkzeug zur Aufdeckung von Auffälligkeiten innerhalb detaillierter Datenbasen (Zeitreihen) darstellt.
Merkmalszusammenhänge aus umfangreichen Datenbasen herauszuarbeiten ist auf manuellem Weg eine mühselige und ab einem gewissen Datenvolumen praktisch nicht mehr handhabbare Aufgabe. Zur Lösung dieses Problems wird hier die Analyse auf Basis eines Genetischen Algorithmus [Mich92,Am95] verwendet, die, wie Neuronale Netze oder Neuro-Fuzzy-Ansätze, weitestgehend als model-free estimator [Kos92] bzgl. eines Anwendungsmodells verstanden werden kann. Genetische Algorithmen selbst basieren auf einem Berechnungsmodell, das sich an die Ideen der Evolutionstheorie von C. Darvin anlehnt [Dar68], d.h. hier, eine Population von Hypothesen hinsichtlich ihrer Vorhersagekraft sukzessive optimiert, indem fittere Hypothesen bessere "Überlebens-" und "Fortpflanzungschancen" haben und ihre positiven Merkmale von Generation zu Generation vererben. Zur Umsetzung in einen Algorithmus muß hierzu eine geeignet Kodierung der Hypothesen und auf diesen arbeitenden Operatoren zur Generierung, Mutation und Fortpflanzung entwickelt werden. Zur Präzisierung des Berechnungsmodells des Genetischen Algorithmus, muß lediglich noch ein Qualitätskriterium zur Formulierung eines Optimierungsziels definiert werden. Dies besteht hier in einer möglichst guten Approximation der Abbildung der durch ihre Historien charakterisierten Individuen auf eine vorgegebene bzw. generierte Klassenstruktur Krankheitsfälle/nicht-Krankheitsfälle oder detaillierter aufgeschlüsselte Klassenstrukturen. Das Verfahren arbeitet auf nicht bzw. schwach aggregierten Daten, um den Informationsverlust durch eine Aggregation zu eliminieren.
Das Resultat des Genetischen Algorithmus ist ein interpretierbarer Schlüssel, der zur Merkmalsbeschreibung klassengleicher Individuen herangezogen werden kann. Derart beschriebene Merkmale oder "kausale Abhängigkeiten" können hierüber innerhalb der Datenbasis charakterisiert, aufgefunden und bzgl. ihrer medizinischen Plausibilität geprüft werden. Insbesondere die Interpretierbarbeit der Resultate ist eine deutliche Verbesserung im Vergleich zu Cluster-Analyseverfahren, die auf Neuronalen Netzen und Neuro-Fuzzy-Sytemen basieren, deren "Fähigkeiten" meist in einer black-box verborgen bleiben.
Insbesondere könnten die hier motivierten Verfahren zur Unterstützung bei der Studienplanung und -auswertung aufgrund der Wiederverwertungs- und Planungswirkung eine ökonomischere Durchführung epidemiologischer Studien ermöglichen [Koe98]. Innerhalb dieser Arbeit wird insbesondere die Anwendung des vorgestellten Analyseansatzes anhand synthetischer Daten demonstriert.

Literatur:

  1. [Am95] M. Amos: An Introduction to Natural Computation, Department of Computer Science, Univerity of Warwick, Coventry CV4 7AL, England, 1995.
  2. [Dar68] C. Darwin: The Origin of Species: By Means of Natural Selection or The Preservation of Favoured Races in the Struggle for Life, Oxford Univ. Press, London, A reprint of the 6th ed., 1968.
  3. [HH90] P. Hogeweg and B. Hesper: Individual-Oriented Modeling in Ecology, In Mathl. Comput. Modeling, Vol. 13:6, pages 83-90, 1990.
  4. [KS98] F. Köster und M. Sonnenschein: Individual-Oriented Modeling and Simulation. An Approach to Support Epidemiological Research. In: 1998 Medical Sciences Simulation Conference, Dr. J. G. Anderson und Dr. M. Katzper (eds.), pp 73-78, SCS, 1998.
  5. [Kos92] B. Kosko: Neural Networks and Fuzzy Systems. A Dynamical Systems Approach to Machine Intelligence. Prentice-Hall International Editions, 1992.
  6. [Mich92] Z. Michalewicz: Genetic algorithms + data structures = evolution programs. Springer-Verlag, Berlin et al., 1992.


Vortragstermin bei 30. Statistical Computing '98 --- Adresse