Sparsame Bayesianische Modellierung für kategoriale Prädiktoren
Sparse Bayesian modelling for categorical predictors
Wissenschaftsdisziplinen
Andere Sozialwissenschaften (60%); Informatik (40%)
Keywords
-
Sparse Bayesian Modelling,
Categorical Covariate,
Variable Selection,
MCMC,
Regression Model,
Effect Fusion
Eines der wichtigsten Probleme in Zusammenhang mit Regressionsmodellen ist Sparsamkeit der Modellierung und Variablenselektion, da in Anwendungen häufig sehr viele mögliche Prädiktoren für relativ wenige Subjekte zur Verfügung stehen. Die Schätzung von Regressionseffekten ist in derartigen Problemen ein schlecht gestelltes Problem: Die Schätzer haben typischerweise hohe Standardfehler, Schätzresultate sind nicht stabil und die angepassten Modelle haben keine guten Vorhersageeigenschaften. Zur Regularisierung des Schätzproblems und für Variablenselektion wurden viele Methoden entwickelt, die für metrische Kovariable adäquat sind. Die speziellen Probleme, die sich für kategoriale Kovariablen ergeben, fanden bisher in der Literatur wenig Beachtung. Ziel dieses Projektes ist es, Bayesianische Methoden zu entwickeln, die eine sparsame Modellierung des Effektes einer kategorialen Kovariablen in einem Regressionsmodell ermöglichen. Insbesondere in medizinischen und sozio- ökonomischen Anwendungen sind kategoriale Kovariablen, die auf einer ordinalen oder nominalen Skala gemessen werden, sehr häufig (z.B. Geschlecht, Bildungsstand, Gesundheitszustand). Metrische Variable, deren (lineare) Effekte durch jeweils einen Regressions-koeffizienten erfasst werden, werden aus dem Modell entfernt, indem der entsprechende Regressionskoeffizient auf den Wert Null restringiert wird. Im Gegensatz dazu wird der Effekt einer kategorialen Kovariablen mit k+1 verschiedenen möglichen Kategorien durch eine Gruppe von k Regressionskoeffizienten, einen für jede Kategorie abgesehen von der Referenzkategorie, beschrieben. Ein sparsames Modell kann nicht nur dadurch erzielt werden, dass die Variable aus dem Modell entfernt wird, d.h. alle k Regressionskoeffizienten null sind, sondern immer dann, wenn der Effekt des kategorialen Prädiktors durch weniger als k Koeffizienten beschrieben werden kann. Das ist der Fall, wenn einer oder mehrere Koeffizienten null sind oder wenn der Effekt von zwei oder mehr Kategorien auf die Zielvariable identisch ist. In diesem Fall würde eine sparsame Modellierung einen gemeinsamen Effekt für diese Kategorien verwenden, d.h. Effekte fusionieren. Besonders günstig wäre es, die Fusion gemeinsam mit der Schätzung durchzuführen, da dann die Frage, welche Kategorien denselben Effekt auf die Zielvariable haben, direkt aus dem Ergebnis der Schätzung beantwortet werden kann. In einem Bayes-Ansatz kann Sparsamkeit des Modells durch Wahl geeigneter Priori-Verteilungen erreicht werden. Priori-Verteilungen, die sehr häufig zur Bayesianischen Variablenselektion verwendet werden, könnten erweitert werden, um auch Selektion einer Gruppe von Regressionskoeffizienten und Fusion von Effekten zu ermöglichen. MCMC-Verfahren zur Bayes-Schätzung werden im Rahmen des Projektes entwickelt und in einer umfangreichen Simulationsstudie mit frequentistischen Methoden verglichen. Außerdem sollen die neu entwickelten Methoden in der freien Software Bayes-X (www.stat.uni-muenchen.de/~bayesx/) implementiert werden. Um die Nützlichkeit der entwickelten Verfahren in statistischen Anwendungen zu zeigen, werden sie zur Analyse von Daten aus EU-SILC bzw. der PISA-Studie eingesetzt.
ln diesem Projekt wurden Bayesianische Methoden entwickelt, die eine sparsame Modellierung des Effektes einer kategorialen Kovariablen in einem Regressionsmodell ermöglichen. lnsbesondere in medizinischen und sozio-ökonomischen Anwendungen stellt sich häufig das Problem, die Abhängigkeit einer Zielvariablen von kategorialen Kovariablen, die auf einer ordinalen oder nominalen Skala gemessen wurden, zu modellieren. Beispiele für derartige kategoriale Variable sind etwa Geschlecht, Bildungsstand oder Gesundheitszustand. Häufig umfassen die für die Modellierung der Zielvariablen zur Verfügung stehenden Daten nur relativ wenige Subjekte, Verfügung. jedoch viele potentielle Kovariable. Da für eine kategoriale Kovariable ein Effekt für jede Kategorie (mit Ausnahme der Referenzkategorie) geschätzt werden muss, sind die Schätzprobleme dann oft schlecht gestellt und die resultierenden Schätzer haben hohe Standardfehler, die Schätzresultate sind nicht stabil und die angepassten Modelle haben keine guten Vorhersageeigenschaften. Eine sparsamere Modellierung mit einer kleineren Zahl an zu schätzenden Effekten kann entweder dadurch erreicht werden, dass irrelevante Variable oder Kategorien aus dem Modell entfernt werden, oder durch Zusammenfassen von Kategorien, die den gleichen Effekt auf die Zielvariable haben. ln diesem Projekt wurde ein Bayesianischer Ansatz gewählt, um Sparsamkeit des Regressionsmodells hinsichtlich der Zahl der zu schätzenden Effekte zu gewährleisten. Dazu wurden zwei verschiedene Priori-Verteilungen für die Regressionseffekte entwickelt, die deren Fusionierung ermöglicht bzw. forciert: Die erste Priori Verteilung erweitert das in der Variablenselektion sehr erfolgreiche Spike und Slab- Konzept auf Fusionierung von Effekten; die zweite Priori ist eine finite Mischverteilung von Komponenten mit kleiner Varianz und ermöglicht so eine modellbasierte Clusterung der Effekte. Zur Anpassung der Modelle unter diesen Prioris wurden MCMC-Verfahren entwickelt. Aus deren Output können sowohl modelgemittelte Schätzer der Regressionseffekte bestimmt werden, als auch festgestellt werden, welche Kategorien praktisch keinen Effekt auf die Zielvariable haben und daher aus dem Modell entfernt werden können bzw. Welche Kategorien fusioniert werden können, da ihr Effekt auf die Zielvariable praktisch gleich ist. Die entwickelten Methoden sind für die beiden in praktischen Anwendungen wichtigsten Regressionsmodelle, nämlich lineare und logistische Regression im R-Paket effectFusion implementiert und stehen damit Statistikern und interessierten Anwendern kostenfrei zur Verfügung.
- Universität Linz - 100%
Research Output
- 14 Zitationen
- 2 Publikationen
-
2018
Titel Effect fusion using model-based clustering DOI 10.1177/1471082x17739058 Typ Journal Article Autor Malsiner-Walli G Journal Statistical Modelling Seiten 175-196 Link Publikation -
2016
Titel Discussion: Bayesian regularization and effect smoothing for categorical predictors DOI 10.1177/1471082x16642655 Typ Journal Article Autor Wagner H Journal Statistical Modelling Seiten 220-227