Reisensburg 1998: Abstract Schuster
Statistical Computing '98 - Schloß Reisensburg

Gibbs Sampling zur Bestimmung von Startvektoren zur Faktorenanalyse

Ernst Schuster

Institut für Medizinische Informatik, Statistik und Epidemiologie
Universität Leipzig

Bekanntlich treten in der Faktorenanalyse mit Maximum-Likelihood-Ausgleich relativ häufig mehrere lokale Maxima auf (vgl. (2)). Im Vortrag wird die Möglichkeit untersucht mit computerintensiven statistischen Methoden insbesondere durch Gibbs Sampling mittels BUGS (3) Anfangsschätzungen für solche lokalen Maxima zu finden.

Exemplarisch wird ein Beispiel aus (4) zugrunde gelegt, das bei zwei Faktoren zwei lokale Maxima hat. Mit der in (4) angegebenen Korrelationsmatrix wurden multivariat normalverteilte Datensätze simuliert und standardisiert. Im BUGS-Modell sind die beiden Faktoren informativ standardnormalverteilt; während die Ladungsspalten nichtinformativ sind mit Erwartungswert Null und großer Varianz. Die Standardabweichungen der spezifischen Faktoren werden durch eine Pareto-Verteilung zwischen Null und Eins gleichverteilt modelliert, also auch nichtinformativ.

Nach einem langen 'burn in' von 5 Millionen Iterationen (benötigte Rechenzeit 2:22 h mit Pentium 200) ist die Markov-Kette weiterhin autokorreliert. Das ergab eine Analyse von 10 000 Werten mit CODA (vgl. (1)). Deshalb wurden weitere 3 Mill. Iterationen gerechnet, aber nur jede 300. ausgewählt. Die so entstandene Stichprobe vom Umfang 10 000 erwies sich natürlich als nicht autokorreliert und konnte deshalb analysiert werden. Da die Faktorenanalyse zwei lokale Maxima hat, wurden lokale Maxima der Verteilungsdichten der spezifischen Faktoren erwartet. Diese konnten auch experimentell bei 4 der 6 spezifischen Faktoren bestätigt werden. Einerseits ist es von theoretischem Interesse, daß sich eine Grenzverteilung mit mehr als einem Modalwert ergibt. Andererseits wurde zu jedem der 10 Modalwerte (aller 6 spezifischer Faktoren) ein zugehörender Wertesatz als Startwert einer Faktorenanalyse ausgewählt. Diese Startwerte konvergierten jeweils nach wenigen Iterationen zu einer der beiden Lösungen (jede 5 mal).

Damit konnte gezeigt werden, daß Gibbs Sampling prinzipiell in der Lage ist, geeignete Startwerte für eine Faktorenanalyse zu liefern. Allerdings wurde auch deutlich, daß der vorgeschlagene Weg sehr rechenintensiv ist.

Literatur:

  1. Best, N., Cowles, K.V. and Vines, K. (1996/97) CODA - Convergence Diagnosis and Output Analysis Software for Gibbs Sampling output Version 0.30 (0.40).
  2. Schuster, E. (1987) Ein Verfahren zur Bestimmung der Maximum-Likelihood-Schätzung in der Faktoranalyse. Z. gesamte Hyg, 33: 197-199.
  3. Spiegelhalter, D., Thomas, A., Best, N. and Gilks, W.(1996/97) BUGS 0.5 (0.6) Bayesian inference Using Gibbs Sampling Manual.
  4. Weber, E. (1980) Grundriß der biologischen Statisik. 8.Auflage, Jena, Gustav Fischer Verlag.


Vortragstermin bei 30. Statistical Computing '98 --- Adresse