Seltene Ereignisse genauer vorhersagen
Predicting Rare Events More Accurately (PREMA)
Bilaterale Ausschreibung: Slowenien
Wissenschaftsdisziplinen
Andere Humanmedizin, Gesundheitswissenschaften (50%); Biologie (50%)
Keywords
-
Class Imbalance,
Cross-Validation,
Logistic Regression,
Panalized Liklihood,
Prognostic Model,
Rare Events
Logistische Regression ist eine der in der medizinischen Forschung am häufigsten verwendeten statistischen Methoden zur Schätzung prognostischer Modelle, die den Zusammenhang zwischen einem binären Zielparameter (mit Kategorien Ereignis und kein Ereignis) und mehreren binären, kategoriellen oder kontinuierlichen erklärenden Variablen herstellen. Eine niedrige Prävalenz von Ereignissen, wie sie oft in klinischen oder epidemiologischen Studien, aber auch in empirischen Fragestellungen anderer Gebiete, vorkommt, führt zu Unterschätzung und Instabilität der Schätzer für die Ereigniswahrscheinlichkeit bei Subjekten mit Ereignis. Das liegt daran, dass die Analyse unverhältnismäßig stark von den Subjekten ohne Ereignis beeinflusst wird. Nähert sich die Anzahl der erklärenden Variablen an die Anzahl der Ereignisse an oder übersteigt diese, wird dieser Effekt sogar noch verstärkt. Für Analysen hochdimensionaler Variablenräume haben Pönalisierte-Likelihood-Methoden (PLM) an Bedeutung gewonnen. Diese reduzieren den mittleren quadratischen Vorhersagefehler indem sie die Schätzer für die Regressionskoeffizienten Richtung Null verzerren. Dennoch bleibt durch PLM das Problem der ungenauen Vorhersagen für Subjekte mit hoher Ereigniswahrscheinlichkeit bestehen. Das Hauptziel dieses Projektes ist es daher, PLM zu entwickeln, die sich besonders für die Analyse hochdimensionaler Variablenräume mit niedriger Ereignis-Prävalenz eignen. Dazu müssen neue Ansätze für die Schätzung der Regressionskoeffizienten, für die Wahl des involvierten Tuningkriteriums und für die abschließende Validierung der Modelle gefunden werden. Auf der Ebene der Modellschätzung sollen Gewichtungsmethoden, die die Anzahl der Ereignisse künstlich erhöhen, und vor allem verschiedene Typen von Likelihood-Pönalisierungen, etwa Kombinationen bekannter Pönalisierungen (Firth und LASSO oder Firth und ridge) oder Verallgemeinerungen der Firth-Pönalisierungen, untersucht werden. Weiters wird erwartet, dass die derzeit am häufigsten verwendeten Tuning-Kriterien zur Regulierung der Stärke der Pönalisierung, wie zum Beispiel Optimierung der kreuzvalidierten Devianz oder des Klassifizierungsfehlers, nicht für die Analyse seltener Ereignissen geeignet sind. Tuning-Kriterien, die Beobachtungen mit Ereignis stärker gewichten, sind eine vielversprechende Möglichkeit um akkuratere Schätzer für die Ereigniswahrscheinlichkeit zu erhalten. Auf ähnliche Weise sollen Maßzahlen für die Vorhersagegenauigkeit zur Modellvalidierung adaptiert werden, sodass sie größeren Wert auf die Vorhersagegenauigkeit bei Subjekten mit Ereignis legen. Die entwickelten Methoden sollen anhand von Beispielstudien und in umfassenden Simulationsstudien auf ihre Effizienz und praktische Anwendbarkeit hin untersucht werden. Ihre Implementierung in Softwarepakete wird den routinemäßigen Einsatz bei der Analyse hochdimensionaler Variablenräume mit niedriger Ereignis-Prävalenz ermöglichen, wie sie zum Beispiel häufig in epidemiologischen oder klinischen Fragestellungen vorkommen.
In diesem Projekt wurden neue statistische Verfahren zur Prognose seltener Ereignisse aufgrund von zum Prognosezeitpunkt verfügbarer Deskriptoren entwickelt. Diese Verfahren wurden im Hinblick auf ihre statistischen Eigenschaften untersucht und mit existierenden Methoden verglichen um Empfehlungen treffen zu können, wie effiziente statistische Analysen mit möglichst päzisen Vorhersagen erreicht werden kann. Der wesentlichste Beitrag des Projekts ist die Weiterentwicklung der logistischen Regressionsanalyse zu diesem Zweck. Mit den im Rahmen dieses Projektes entwickelten Verfahren FLIC und FLAC öffnen sich neue Wege zur präzisen Vorhersage von Wahrscheinlichkeiten seltener Ereignisse wie etwa Medikamentennebenwirkungen. Um die neuen Verfahren auch der internationalen Forschung zur Verfügung zu stellen, wurden entsprechende Computerprogramme entwickelt, die frei zugänglich sind.
- Lara Lusa, University of Ljubljana - Slowenien
- Robin Henderson, University of Newcastle upon Tyne - Vereinigtes Königreich
Research Output
- 679 Zitationen
- 29 Publikationen
- 1 Policies
- 2 Software
- 1 Disseminationen
- 5 Wissenschaftliche Auszeichnungen
-
2021
Titel To tune or not to tune, a case study of ridge logistic regression in small or sparse datasets DOI 10.48550/arxiv.2101.11230 Typ Preprint Autor Šinkovec H -
2021
Titel On resampling methods for model assessment in penalized and unpenalized logistic regression DOI 10.48550/arxiv.2101.07640 Typ Preprint Autor Geroldinger A -
2021
Titel Firth's logistic regression with rare events: accurate effect estimates AND predictions? DOI 10.48550/arxiv.2101.07620 Typ Preprint Autor Puhr R -
2021
Titel Solutions to problems of nonexistence of parameter estimates and sparse data bias in Poisson regression DOI 10.1177/09622802211065405 Typ Journal Article Autor Joshi A Journal Statistical Methods in Medical Research Seiten 253-266 Link Publikation -
2021
Titel The roles of predictors in cardiovascular risk models - a question of modeling culture? DOI 10.1186/s12874-021-01487-4 Typ Journal Article Autor Wallisch C Journal BMC Medical Research Methodology Seiten 284 Link Publikation -
2022
Titel An investigation of penalization and data augmentation to improve convergence of generalized estimating equations for clustered binary outcomes DOI 10.1186/s12874-022-01641-6 Typ Journal Article Autor Geroldinger A Journal BMC Medical Research Methodology Seiten 168 Link Publikation -
2022
Titel Additional file 1 of An investigation of penalization and data augmentation to improve convergence of generalized estimating equations for clustered binary outcomes DOI 10.6084/m9.figshare.20046960.v1 Typ Other Autor Blagus R Link Publikation -
2022
Titel Additional file 1 of An investigation of penalization and data augmentation to improve convergence of generalized estimating equations for clustered binary outcomes DOI 10.6084/m9.figshare.20046960 Typ Other Autor Blagus R Link Publikation -
2019
Titel "Bring More Data!" – A Good Advice? Removing Separation in Logistic Regression by Increasing Sample Size DOI 10.20944/preprints201910.0321.v1 Typ Preprint Autor Šinkovec H Link Publikation -
2019
Titel Interrelations of Sphingolipid and Lysophosphatidate Signaling with Immune System in Ovarian Cancer DOI 10.1016/j.csbj.2019.04.004 Typ Journal Article Autor Meshcheryakova A Journal Computational and Structural Biotechnology Journal Seiten 537-560 Link Publikation -
2019
Titel Bring More Data!—A Good Advice? Removing Separation in Logistic Regression by Increasing Sample Size DOI 10.3390/ijerph16234658 Typ Journal Article Autor Šinkovec H Journal International Journal of Environmental Research and Public Health Seiten 4658 Link Publikation -
2021
Titel To tune or not to tune, a case study of ridge logistic regression in small or sparse datasets DOI 10.1186/s12874-021-01374-y Typ Journal Article Autor Šinkovec H Journal BMC Medical Research Methodology Seiten 199 Link Publikation -
2021
Titel Additional file 1 of To tune or not to tune, a case study of ridge logistic regression in small or sparse datasets DOI 10.6084/m9.figshare.16714206.v1 Typ Other Autor Heinze G Link Publikation -
2021
Titel Additional file 1 of To tune or not to tune, a case study of ridge logistic regression in small or sparse datasets DOI 10.6084/m9.figshare.16714206 Typ Other Autor Heinze G Link Publikation -
2021
Titel Additional file 2 of The roles of predictors in cardiovascular risk models - a question of modeling culture? DOI 10.6084/m9.figshare.17284181.v1 Typ Other Autor Agibetov A Link Publikation -
2021
Titel Additional file 2 of The roles of predictors in cardiovascular risk models - a question of modeling culture? DOI 10.6084/m9.figshare.17284181 Typ Other Autor Agibetov A Link Publikation -
2021
Titel Additional file 1 of The roles of predictors in cardiovascular risk models - a question of modeling culture? DOI 10.6084/m9.figshare.17284178.v1 Typ Other Autor Agibetov A Link Publikation -
2021
Titel Additional file 3 of The roles of predictors in cardiovascular risk models - a question of modeling culture? DOI 10.6084/m9.figshare.17284184.v1 Typ Other Autor Agibetov A Link Publikation -
2021
Titel Additional file 1 of The roles of predictors in cardiovascular risk models - a question of modeling culture? DOI 10.6084/m9.figshare.17284178 Typ Other Autor Agibetov A Link Publikation -
2021
Titel Additional file 3 of The roles of predictors in cardiovascular risk models - a question of modeling culture? DOI 10.6084/m9.figshare.17284184 Typ Other Autor Agibetov A Link Publikation -
2019
Titel Hotspots of vascular plant endemism in a global biodiversity hotspot in Southwest Asia suffer from significant conservation gaps DOI 10.1016/j.biocon.2019.07.005 Typ Journal Article Autor Noroozi J Journal Biological Conservation Seiten 299-307 Link Publikation -
2022
Titel An Investigation of Penalization and Data Augmentation to Improve Convergence of Generalized Estimating Equations for Clustered Binary Outcomes DOI 10.21203/rs.3.rs-1369776/v1 Typ Preprint Autor Geroldinger A Link Publikation -
2023
Titel Leave-one-out cross-validation, penalization, and differential bias of some prediction model performance measures—a simulation study DOI 10.1186/s41512-023-00146-0 Typ Journal Article Autor Geroldinger A Journal Diagnostic and Prognostic Research Seiten 9 Link Publikation -
2021
Titel sj-docx-1-smm-10.1177_09622802211065405 - Supplemental material for Solutions to problems of nonexistence of parameter estimates and sparse data bias in Poisson regression DOI 10.25384/sage.17697919 Typ Other Autor Geroldinger A Link Publikation -
2020
Titel Tuning in ridge logistic regression to solve separation DOI 10.48550/arxiv.2011.14865 Typ Preprint Autor Šinkovec H -
2020
Titel Selection of variables for multivariable models: Opportunities and limitations in quantifying model stability by resampling DOI 10.1002/sim.8779 Typ Journal Article Autor Wallisch C Journal Statistics in Medicine Seiten 369-381 Link Publikation -
2017
Titel Separation in Logistic Regression: Causes, Consequences, and Control DOI 10.1093/aje/kwx299 Typ Journal Article Autor Mansournia M Journal American Journal of Epidemiology Seiten 864-870 Link Publikation -
2017
Titel Firth's logistic regression with rare events: accurate effect estimates and predictions? DOI 10.1002/sim.7273 Typ Journal Article Autor Puhr R Journal Statistics in Medicine Seiten 2302-2317 Link Publikation -
2022
Titel A comparison of full model specification and backward elimination of potential confounders when estimating marginal and conditional causal effects on binary outcomes from observational data DOI 10.1002/bimj.202100237 Typ Journal Article Autor Luijken K Journal Biometrical Journal Seiten 2100237 Link Publikation
-
2020
Titel Systematic Review of COVID-19 prediction models DOI 10.1136/bmj.m1328 Typ Membership of a guideline committee
-
2017
Titel Keynote at Young Statisticians Meeting Typ A talk or presentation
-
2021
Titel Guest Editor of Special Issue in the International Journal of Environmental Research and Public Health Typ Appointed as the editor/advisor to a journal or book series Bekanntheitsgrad Continental/International -
2019
Titel Poster prize of the Austro-Swiss region of the International Biometric Society Typ Poster/abstract prize Bekanntheitsgrad Regional (any country) -
2019
Titel Associate Editor of Statistics in Medicine Typ Appointed as the editor/advisor to a journal or book series Bekanntheitsgrad Continental/International -
2018
Titel Associate Editor of Diagnostic and Prognostic Research Typ Appointed as the editor/advisor to a journal or book series Bekanntheitsgrad Continental/International -
2018
Titel Keynote speaker at the BMS-ANed (Dutch Biometric Society) 2018 Spring Meeting Typ Personally asked as a key note speaker to a conference Bekanntheitsgrad Regional (any country)