Projektdetail

Wissenschaftsdisziplinen

Andere Sozialwissenschaften (60%); Informatik (40%)

Keywords

Sparse Bayesian Modelling, Categorical Covariate, Variable Selection, MCMC, Regression Model, Effect Fusion

Abstract

Endbericht

Eines der wichtigsten Probleme in Zusammenhang mit Regressionsmodellen ist Sparsamkeit der Modellierung und Variablenselektion, da in Anwendungen häufig sehr viele mögliche Prädiktoren für relativ wenige Subjekte zur Verfügung stehen. Die Schätzung von Regressionseffekten ist in derartigen Problemen ein schlecht gestelltes Problem: Die Schätzer haben typischerweise hohe Standardfehler, Schätzresultate sind nicht stabil und die angepassten Modelle haben keine guten Vorhersageeigenschaften. Zur Regularisierung des Schätzproblems und für Variablenselektion wurden viele Methoden entwickelt, die für metrische Kovariable adäquat sind. Die speziellen Probleme, die sich für kategoriale Kovariablen ergeben, fanden bisher in der Literatur wenig Beachtung. Ziel dieses Projektes ist es, Bayesianische Methoden zu entwickeln, die eine sparsame Modellierung des Effektes einer kategorialen Kovariablen in einem Regressionsmodell ermöglichen. Insbesondere in medizinischen und sozio- ökonomischen Anwendungen sind kategoriale Kovariablen, die auf einer ordinalen oder nominalen Skala gemessen werden, sehr häufig (z.B. Geschlecht, Bildungsstand, Gesundheitszustand). Metrische Variable, deren (lineare) Effekte durch jeweils einen Regressions-koeffizienten erfasst werden, werden aus dem Modell entfernt, indem der entsprechende Regressionskoeffizient auf den Wert Null restringiert wird. Im Gegensatz dazu wird der Effekt einer kategorialen Kovariablen mit k+1 verschiedenen möglichen Kategorien durch eine Gruppe von k Regressionskoeffizienten, einen für jede Kategorie abgesehen von der Referenzkategorie, beschrieben. Ein sparsames Modell kann nicht nur dadurch erzielt werden, dass die Variable aus dem Modell entfernt wird, d.h. alle k Regressionskoeffizienten null sind, sondern immer dann, wenn der Effekt des kategorialen Prädiktors durch weniger als k Koeffizienten beschrieben werden kann. Das ist der Fall, wenn einer oder mehrere Koeffizienten null sind oder wenn der Effekt von zwei oder mehr Kategorien auf die Zielvariable identisch ist. In diesem Fall würde eine sparsame Modellierung einen gemeinsamen Effekt für diese Kategorien verwenden, d.h. Effekte fusionieren. Besonders günstig wäre es, die Fusion gemeinsam mit der Schätzung durchzuführen, da dann die Frage, welche Kategorien denselben Effekt auf die Zielvariable haben, direkt aus dem Ergebnis der Schätzung beantwortet werden kann. In einem Bayes-Ansatz kann Sparsamkeit des Modells durch Wahl geeigneter Priori-Verteilungen erreicht werden. Priori-Verteilungen, die sehr häufig zur Bayesianischen Variablenselektion verwendet werden, könnten erweitert werden, um auch Selektion einer Gruppe von Regressionskoeffizienten und Fusion von Effekten zu ermöglichen. MCMC-Verfahren zur Bayes-Schätzung werden im Rahmen des Projektes entwickelt und in einer umfangreichen Simulationsstudie mit frequentistischen Methoden verglichen. Außerdem sollen die neu entwickelten Methoden in der freien Software Bayes-X (www.stat.uni-muenchen.de/~bayesx/) implementiert werden. Um die Nützlichkeit der entwickelten Verfahren in statistischen Anwendungen zu zeigen, werden sie zur Analyse von Daten aus EU-SILC bzw. der PISA-Studie eingesetzt.

ln diesem Projekt wurden Bayesianische Methoden entwickelt, die eine sparsame Modellierung des Effektes einer kategorialen Kovariablen in einem Regressionsmodell ermöglichen. lnsbesondere in medizinischen und sozio-ökonomischen Anwendungen stellt sich häufig das Problem, die Abhängigkeit einer Zielvariablen von kategorialen Kovariablen, die auf einer ordinalen oder nominalen Skala gemessen wurden, zu modellieren. Beispiele für derartige kategoriale Variable sind etwa Geschlecht, Bildungsstand oder Gesundheitszustand. Häufig umfassen die für die Modellierung der Zielvariablen zur Verfügung stehenden Daten nur relativ wenige Subjekte, Verfügung. jedoch viele potentielle Kovariable. Da für eine kategoriale Kovariable ein Effekt für jede Kategorie (mit Ausnahme der Referenzkategorie) geschätzt werden muss, sind die Schätzprobleme dann oft schlecht gestellt und die resultierenden Schätzer haben hohe Standardfehler, die Schätzresultate sind nicht stabil und die angepassten Modelle haben keine guten Vorhersageeigenschaften. Eine sparsamere Modellierung mit einer kleineren Zahl an zu schätzenden Effekten kann entweder dadurch erreicht werden, dass irrelevante Variable oder Kategorien aus dem Modell entfernt werden, oder durch Zusammenfassen von Kategorien, die den gleichen Effekt auf die Zielvariable haben. ln diesem Projekt wurde ein Bayesianischer Ansatz gewählt, um Sparsamkeit des Regressionsmodells hinsichtlich der Zahl der zu schätzenden Effekte zu gewährleisten. Dazu wurden zwei verschiedene Priori-Verteilungen für die Regressionseffekte entwickelt, die deren Fusionierung ermöglicht bzw. forciert: Die erste Priori Verteilung erweitert das in der Variablenselektion sehr erfolgreiche Spike und Slab- Konzept auf Fusionierung von Effekten; die zweite Priori ist eine finite Mischverteilung von Komponenten mit kleiner Varianz und ermöglicht so eine modellbasierte Clusterung der Effekte. Zur Anpassung der Modelle unter diesen Prioris wurden MCMC-Verfahren entwickelt. Aus deren Output können sowohl modelgemittelte Schätzer der Regressionseffekte bestimmt werden, als auch festgestellt werden, welche Kategorien praktisch keinen Effekt auf die Zielvariable haben und daher aus dem Modell entfernt werden können bzw. Welche Kategorien fusioniert werden können, da ihr Effekt auf die Zielvariable praktisch gleich ist. Die entwickelten Methoden sind für die beiden in praktischen Anwendungen wichtigsten Regressionsmodelle, nämlich lineare und logistische Regression im R-Paket effectFusion implementiert und stehen damit Statistikern und interessierten Anwendern kostenfrei zur Verfügung.

Forschungsstätte(n)

Universität Linz - 100%

Research Output

14 Zitationen
2 Publikationen

Publikationen

Titel	Effect fusion using model-based clustering
DOI	10.1177/1471082x17739058
Typ	Journal Article
Autor	Malsiner-Walli G
Journal	Statistical Modelling
Seiten	175-196
Link	Publikation

Titel	Discussion: Bayesian regularization and effect smoothing for categorical predictors
DOI	10.1177/1471082x16642655
Typ	Journal Article
Autor	Wagner H
Journal	Statistical Modelling
Seiten	220-227

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

Sparsame Bayesianische Modellierung für kategoriale Prädiktoren

Sparse Bayesian modelling for categorical predictors

Wissenschaftsdisziplinen

Keywords

Research Output

Kontakt

Allgemeines

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

SOCIAL MEDIA

SCILOG

Sparsame Bayesianische Modellierung für kategoriale Prädiktoren

Sparse Bayesian modelling for categorical predictors

Wissenschaftsdisziplinen

Keywords

Research Output