Repräsentation von Raum-Zeit und Videobasierte Erkennung
Space-Time Representation and Recognition in Computer Vision
Wissenschaftsdisziplinen
Informatik (100%)
Keywords
-
Computer Vision,
Space-Time Representation,
Dynamic Scene Recognition,
Action/Activity Recognition,
Space-time object category model
Dieses Projekt liefert einen Beitrag in der Grundlagenforschung. Es hat das Ziel, zu einem besseren Verständnis und einer besseren Repräsentation von visueller Raum-Zeit beizutragen. Die Arbeitshypothese ist, dass es unter geschickter Ausnutzung bestehender, sowie Entwicklung neuer Verfahren der Computer Vision gelingen kann, komplexe räumlich- zeitliche Zusammenhänge, und dadurch Ereignisse in Videos zu erkennen. In diesem Bereich der Videoanalyse in der Computer Vision wollen wir eine neue Repräsentation entwickeln, die auffälligen Raum-Zeit Volumina (engl.: space-time volumes of interest VOI). VOIs sollen im gesamten Projekt konsistent benutzt werden um verschiedenste Ereignisse in Videodaten zu repräsentieren, beispielsweise unabhängige Bewegung im Vordergrund, Bewegungsmuster im Hintergrund, oder sich in Raum und Zeit wiederholende Muster. Diese Ereignisse sollen mit erweiterten, in Raum und Zeit orientierten Filtern (engl.: space-time oriented energy filters) beschrieben werden. Die resultierenden Beschreibungen sollen sodann für die Kategorisierung von Video-Texturen, dynamischen Szenen, Arten der Kamerabewegung, unabhängig im Vordergrund bewegten Objekten, sowie Aktivitäten genutzt werden. Die zugrundeliegenden Repräsentations-Elemente, also die einzelnen VOIs, sollen in einem weiteren Schritt zu komplexen Modellen der Raum-Zeit zusammengesetzt werden. Diese Modelle sollen letztlich an bestimmte Orte in Raum und Zeit zeigen können, in verschiedenen räumlichen und zeitlichen Maßstäben. Das Projekt ist grob in vier Arbeitspakete strukturiert. Diese umfassen die VOI Repräsentation, die Berechnung von lokalen räumlich-zeitlichen Beschreibungen, Lernen von komplexen Modellen und gröberen räumlich-zeitlichen Zusammenhängen, sowie die Detektion und Kategorisierung in Videos. Die in diesem Projekt entwickelten neuen Konzepte werden sowohl eine Vielfalt weiterer Grundlagenforschung, als auch neue Anwendungen in der Videoanalyse, der Überwachung, und für autonome Systeme ermöglichen.
Was passiert wo und wann in einem Video? Wie werden die nötigen Zusammenhänge erfasst, repräsentiert und klassifiziert? Und was kann man mit derartigen Methoden erreichen? Diesen Kernfragen hat sich das Forschungsprojekt im Zeitraum August 2014 Juli 2017 gewidmet. Das Projekt fiel in einen sehr spannenden Zeitraum, in dem ein Paradigmenwechsel weg von expliziter Repräsentation und spezifischer Algorithmik hin zu impliziter Repräsentation in tiefen neuronalen Netzen vollzogen wurde, mit teilweise bahnbrechenden Verbesserungen in der Leistung der Systeme. Damit direkt verbunden ist auch eine Veränderung des Fokus weg von Algorithmen hin zu Netzwerk-Architekturen und zu Techniken des maschinellen Lernens, sowie zur Erfassung und Annotation der für das Training nötigen Bild- und Videodatenbanken. In enger Zusammenarbeit mit der Universität York in Toronto (explizite Repräsentation von Raum-Zeit mittels space-time oriented energies) und der Universität Oxford (implizite Repräsentation in deep convolutional networks - ConvNets, speziell two stream architectures) wurden einige bemerkenswerte Ergebnisse erzielt. So wurde eine neue Video-Datenbank zum Trainieren und Testen sogenannter dynamischer Szenen erstellt, und verschiedene ConvNet Architekturen entwickelt. Im Rahmen dieses Projektes wurde auf verschiedenen benchmark Datensätzen jeweils der aktuelle state-of-the-art eingestellt oder sogar wesentlich verbessert. Die verschiedenen Anwendungen unserer Verfahren reichen vom Erkennen dynamischer Szenen über das Erkennen von menschlichen Handlungen und Aktionen in Videos, bis zur Erkennung und Verfolgung verschiedenster bewegter Objekte. Im Rahmen dieses Grundlagen Forschungsprojektes lag der Fokus vor allem auf der Entwicklung völlig neuer Verfahren. Es wurden nicht nur überdurchschnittlich viele, sondern auch qualitativ besonders hochwertige Publikationen in Top-Medien der Computer Vision Literatur erzielt. Dennoch gibt es eine Vielzahl von höchst relevanten praktischen Anwendungen für diese Verfahren: autonomes Fahren, automatische Video Analyse und Annotation, Video-Überwachung, neue Medien, und viele mehr. Gegen Projektende gelang auch noch ein wichtiger Durchbruch in Bezug auf das Verständnis und die Analyse von Vorgängen in tiefen neuronalen Netzen. Erstmalig können nun auch zeitliche Zusammenhänge und deren Repräsentation in den verschiedenen Ebenen der Netze anschaulich visualisiert werden. Dies ermöglicht neben einem besseren Verständnis (was wurde gelernt, wann werden welche Zellen im Netz stark aktiviert, etc.) auch zu einer vertieften Analyse von Problem- und Fehlerfällen.
- Technische Universität Graz - 100%
- Richard Wildes, York University - Kanada
Research Output
- 3888 Zitationen
- 18 Publikationen
-
2019
Titel Deep Insights into Convolutional Networks for Video Recognition DOI 10.1007/s11263-019-01225-w Typ Journal Article Autor Feichtenhofer C Journal International Journal of Computer Vision Seiten 420-437 Link Publikation -
2018
Titel What have we learned from deep representations for action recognition? DOI 10.48550/arxiv.1801.01415 Typ Preprint Autor Feichtenhofer C -
2017
Titel Spatiotemporal Multiplier Networks for Video Action Recognition DOI 10.1109/cvpr.2017.787 Typ Conference Proceeding Abstract Autor Feichtenhofer C Seiten 7445-7454 -
2017
Titel Temporal Residual Networks for Dynamic Scene Recognition DOI 10.1109/cvpr.2017.786 Typ Conference Proceeding Abstract Autor Feichtenhofer C Seiten 7435-7444 -
2016
Titel Spatiotemporal Residual Networks for Video Action Recognition DOI 10.48550/arxiv.1611.02155 Typ Preprint Autor Feichtenhofer C -
2016
Titel Convolutional Two-Stream Network Fusion for Video Action Recognition DOI 10.48550/arxiv.1604.06573 Typ Preprint Autor Feichtenhofer C -
2016
Titel Spatiotemporal Residual Networks for Video Action Recognition. Typ Conference Proceeding Abstract Autor Feichtenhofer C Konferenz Proc. NIPS, 2016 -
2018
Titel What have we learned from deep representations for action recognition? DOI 10.1109/cvpr.2018.00818 Typ Conference Proceeding Abstract Autor Feichtenhofer C Seiten 7844-7853 Link Publikation -
2017
Titel Detect to Track and Track to Detect DOI 10.1109/iccv.2017.330 Typ Conference Proceeding Abstract Autor Feichtenhofer C Seiten 3057-3065 Link Publikation -
2017
Titel Detect to Track and Track to Detect. Typ Conference Proceeding Abstract Autor Feichtenhofer C Konferenz Proc. ICCV, 2017 -
2017
Titel Temporal Residual Networks for Dynamic Scene Recognition. Typ Conference Proceeding Abstract Autor Feichtenhofer C Konferenz Proc. CVPR, 2017 -
2017
Titel Spatiotemporal Multiplier Networks for Video Action Recognition. Typ Conference Proceeding Abstract Autor Feichtenhofer C Konferenz Proc. CVPR, 2017 -
2017
Titel Detect to Track and Track to Detect DOI 10.48550/arxiv.1710.03958 Typ Preprint Autor Feichtenhofer C -
2016
Titel Dynamic Scene Recognition with Complementary Spatiotemporal Features DOI 10.1109/tpami.2016.2526008 Typ Journal Article Autor Feichtenhofer C Journal IEEE Transactions on Pattern Analysis and Machine Intelligence Seiten 2389-2401 -
2016
Titel Convolutional Two-Stream Network Fusion for Video Action Recognition DOI 10.1109/cvpr.2016.213 Typ Conference Proceeding Abstract Autor Feichtenhofer C Seiten 1933-1941 Link Publikation -
2016
Titel Convolutional Two-Stream Network Fusion for Video Action Recognition. Typ Conference Proceeding Abstract Autor Feichtenhofer C Konferenz Proc. CVPR, 2016 -
2015
Titel Dynamically Encoded Actions Based on Spacetime Saliency DOI 10.1109/cvpr.2015.7298892 Typ Conference Proceeding Abstract Autor Feichtenhofer C Seiten 2755-2764 -
2015
Titel Dynamically Encoded Actions based on Spacetime Saliency. Typ Conference Proceeding Abstract Autor Feichtenhofer C Konferenz Proc. CVPR, 2015