Statistical Computing '99 - Schloß Reisensburg

Hochdimensionales Sortieren kategorieller Variablen & Anwendungen

Heike Hofmann
Lehrstuhl fuer Rechnerorientierte Statistik und Datenanalyse
Universität Augsburg

Der streng hierarchische Aufbau eines Mosaikplots legt der Reihenfolge, in der die Variablen angeordnet sind, besonders hohe Bedeutung bei. Fasst man die Zellen unter verschiedenen Gesichtspunkten zusammen, so spielt die Reihenfolge eine noch grössere Rolle. Die `optimale' Anordnung ist dabei von der Art der Darstellung und der untersuchten Fragestellung abhängig. Sind z.B. alle Zellen im Mosaik gleich gross, so ist das Auftreten von leerer/gefüllter Zelle von besonderem Interesse. Im folgenden wird basierend auf dem Algorithmus von Quine-McCluskey eine datengetriebene Methode vorgestellt, das Auftreten von Zellkombinationen im Mosaikplot zu minimieren. Varianten dieser Methode eröffnen im interaktiven Umgang mit multivariaten kategoriellen Variablen ein weites Spektrum neuer Analysetechniken.

Keywords: MANET, Interaktive Mosaikplots, Explorative Datenanalyse, (verallgemeinerter) Quine-McCluskey Algorithmus, multivariate Analyse kategorieller Daten.


Literatur:
1. Hartigan & Kleiner (1981). Mosaic for Contingency Tables. Computer Science and Statistics, Proceedings of the 13th Symposium on the Interface, 268-273.
2. Hofmann, H. (1998). Interactive Mosaicplots. to be published in Metrika.
3. Quine W. (1955). A way to simplify truth functions. American Mathematical Society, 62, 627-631.
4. Theus M., Wilhelm A. (1996). Analysing the Structure of Categorical Data using Interactive Mosaic Plots and the Minimisation of Boolean Functions. Proceedings in Computational Statistics `96, 119-120.
5. Unwin (1996). Interactive Graphics for Data Sets with Missing Values - MANET, Journal of Computational and Graphical Statistics 4 (6).


31. Statistical Computing '99