Effiziente Verfahren für ABC Design
Efficient Methods for ABC Design
Wissenschaftsdisziplinen
Mathematik (100%)
Keywords
-
Bayesian experimental design,
Approximate Bayesian Computation,
Intractable Likelihoods,
Gaussian processes,
Expectation Propagation,
Parallel Computing
Bei der optimalen Versuchsplanung (engl.: design of experiments) geht es darum, die Einflussfaktoren eines statistischen Experiments bezüglich eines bestimmten statistischen Ziels (Schätzung, Vorhersage, Modell- wahl) basierend auf geeigneten Designkriterien optimal zu wählen, bevor das Experiment durchgeführt wird. Auf diese Weise kann der experimentelle Aufwand beträchtlich reduziert werden. Viele hochentwickelte statistische Modelle, die zum Beispiel in der Biogenetik, Epidemiologie oder Geostatistik eingesetzt werden, besitzen jedoch keine analytische Form, wodurch es nicht möglich ist, die Designkriterien auf einfache Art zu berechnen. Eine Möglichkeit, um eine Schätzung dieser Designkriterien zu erhalten, besteht im Einsatz einer Technik namens approximative bayessche Berechnung (engl: approxi- mate Bayesian computation (ABC)), die darauf beruht, viele Beobachtungen aus dem statistischen Modell zu simulieren. Demzufolge wurden Verfahren der Versuchsplanung (engl.: design), die diese Designkriterien mittels ABC schätzen, unter dem Titel approximate Bayesian computation design (ABCD) zusammengefasst. Die ABCD-Verfahren, die bisher entwickelt wurden, sind sehr simulations- und speicherintensiv, weshalb sie nur für einfache und niedrig-dimensionale Versuchspläne eingesetzt werden können. Um die Effizienz und demzufolge auch die Einsetzbarkeit von ABCD zu erhöhen, werden im Rahmen dieses Projekts viele Erweiterungen von ABCD untersucht und neue Verfahren entwickelt, die auf den neuesten Fortschritten bei ABC und in der simulationsbasierten Versuchsplanung aufbauen. So wird zum Beispiel der Einsatz effizienterer ABC-Algorithmen geprüft, des Weiteren werden Approximationen des Modells oder der Designkriterien verwendet. Wenn es gelingt, die Effizienz von ABCD genügend zu erhöhen, dann ist es auch möglich, Versuchspläne für Situationen zu bestimmen, in denen angenommen werden kann, dass das wahre Modell in einer Reihe von möglichen Modellen enthalten ist, aber nicht bekannt ist, welches davon das wahre Modell ist. Außerdem werden in großem Umfang parallele Computerarchitekturen eingesetzt, um so beträchtliche Einsparungen der Rechenzeiten zu erzielen. Im Rahmen dieses Projekts werden Methoden und Algorithmen entwickelt und implementiert, die anhand mehrerer geeigneter Beispiele und Anwendungen hinsichtlich ihrer Nützlichkeit, Angemessenheit und Effizienz eingehend getestet werden. Eine Anwendung, der besondere Aufmerksamkeit geschenkt wird, ist die Bestimmung optimaler Versuchspläne für Modelle der kollektiven Zellverbreitung, die zum Verständnis von Wundheilung und Tumorwachstum hilfreich sind.
Die sorgfältige Planung der kontrollierbaren Faktoren eines Experiments vor dessen Durchführung kann die Menge an gewonnenen Informationen über den zugrunde liegenden Prozess beträchtlich erhöhen. Ein Designkriterium kodiert das Ziel der statistischen Analyse. Das Kriterium wird dann in Bezug auf den Versuchsplan (engl. Design) optimiert. Viele statistische Modelle sind jedoch so komplex, dass die Designkriterien nicht analytisch berechnet werden können. Wir schlagen eine simulationsbasierte Vorgehensweise vor, bei der Methoden aus dem Machine Learning genutzt werden, um diese Kriterien auf effiziente Weise zu schätzen. Optimiert man über diese geschätzten Kriterien, erhält man den optimalen Versuchsplan. Frühere simulationsbasierte Verfahren benötigten vergleichsweise sehr große simulierte Stichproben und eigneten sich deshalb nicht für komplexere Versuchsplanungsprobleme. Bei der von uns vorgeschlagenen Methode werden simulierte Daten aus den Modellen benutzt, um eine Machine-Learning-Methode an den Daten zu trainieren. Dadurch erhält man Schätzungen der Vorhersagefunktionen der Modellparameter abhängig vom Output des Modells. Diese Vorhersagefunktionen können in der Folge dazu benutzt werden, um rasch den erwarteten Informationszugewinn über die Parameter für jeden Versuchsplan zu schätzen. Es gibt zwei Voraussetzungen, die erfüllt sein müssen, damit unsere Methode gut funktioniert. Erstens muss es möglich sein, effizient aus den betrachteten Modellen zu simulieren. Zweitens muss die verwendete Machine-Learning-Methode schnell sein und trotzdem hinreichend genaue Vorhersagen liefern. Außerdem soll sie relativ einfach handzuhaben sein. Wir zeigen, dass diese Voraussetzungen für einige der standardmäßig verfügbaren Machine-Learning-Methoden für die von uns betrachteten Beispiele zutreffen. Unsere Methode kann deshalb von Personen in der Praxis relativ einfach implementiert und eingesetzt werden. Neben der effizienten Schätzung der Parameter eines bestimmten Modells ist ein weiters übliches statistisches Ziel, auf möglichst effiziente Weise herauszufinden, welches Modell aus einer Reihe von Kandidatenmodellen am wahrscheinlichsten die beobachteten Daten generiert hat. Insbesondere für dieses Ziel haben wir eine Reihe von Beispielen betrachtet. Eine ziemlich praktische Anwendung ist z.B. die Bestimmung der optimalen Beobachtungszeitpunkte eines Zellexperiments, das durchgeführt wird, um herauszufinden, welches von drei möglichen Modellen die Entwicklung der Anzahl von Bakterien in Fresszellen am besten erklären kann. Das Modell bestimmt den Mechanismus, der für die beobachteten Unterschiede in der Dynamik der Bakterienreproduktion in den Zellen verantwortlich ist. In einem anderen Beispiel wollen wir die optimalen Beobachtungszeitpunkte finden, um zwischen verschiedenen epidemiologischen Modellen zu unterscheiden, welche die Anzahl an infizierten Individuen über die Zeit beschreiben. In einem weiteren von uns verwendeten Beispiel geht es darum, die optimalen Messstellen im zweidimensionalen Raum zu finden, um zwischen Prozessen zu unterscheiden, welche die Verteilung von Extrembeobachtungen bestimmen. Wie man sieht, kann unsere Methode verwendet werden, um den optimalen Versuchsplan für viele interessante Modelle zu finden.
- David Woods, Ohio State University - Vereinigte Staaten von Amerika
- Antony Overstall, University of Glasgow - Vereinigtes Königreich
Research Output
- 34 Zitationen
- 6 Publikationen
- 1 Datasets & Models
- 1 Disseminationen
-
2019
Titel Sequential Experimental Design for Predator-Prey Functional Response Experiments DOI 10.48550/arxiv.1907.02179 Typ Preprint Autor Moffat H -
2018
Titel ABC model selection for spatial extremes models applied to South Australian maximum temperature data DOI 10.1016/j.csda.2018.06.019 Typ Journal Article Autor Lee X Journal Computational Statistics & Data Analysis Seiten 128-144 Link Publikation -
2020
Titel Sequential experimental design for predator–prey functional response experiments DOI 10.1098/rsif.2020.0156 Typ Journal Article Autor Moffat H Journal Journal of the Royal Society Interface Seiten 20200156 Link Publikation -
2022
Titel Optimal Bayesian design for model discrimination via classification DOI 10.1007/s11222-022-10078-2 Typ Journal Article Autor Hainy M Journal Statistics and Computing Seiten 25 Link Publikation -
2022
Titel A convex approach to optimum design of experiments with correlated observations DOI 10.1214/22-ejs2071 Typ Journal Article Autor Pázman A Journal Electronic Journal of Statistics Link Publikation -
2021
Titel A convex approach to optimum design of experiments with correlated observations DOI 10.48550/arxiv.2103.02989 Typ Preprint Autor Pázman A