• Zum Inhalt springen (Accesskey 1)
  • Zur Suche springen (Accesskey 7)
FWF — Österreichischer Wissenschaftsfonds
  • Zur Übersichtsseite Entdecken

    • Forschungsradar
      • Historisches Forschungsradar 1974–1994
    • Entdeckungen
      • Emmanuelle Charpentier
      • Adrian Constantin
      • Monika Henzinger
      • Ferenc Krausz
      • Wolfgang Lutz
      • Walter Pohl
      • Christa Schleper
      • Elly Tanaka
      • Anton Zeilinger
    • Impact Stories
      • Verena Gassner
      • Wolfgang Lechner
      • Georg Winter
    • scilog-Magazin
    • Austrian Science Awards
      • FWF-Wittgenstein-Preise
      • FWF-ASTRA-Preise
      • FWF-START-Preise
      • Auszeichnungsfeier
    • excellent=austria
      • Clusters of Excellence
      • Emerging Fields
    • Im Fokus
      • 40 Jahre Erwin-Schrödinger-Programm
      • Quantum Austria
      • Spezialforschungsbereiche
    • Dialog und Diskussion
      • think.beyond Summit
      • Am Puls
      • Was die Welt zusammenhält
      • FWF Women’s Circle
      • Science Lectures
    • Wissenstransfer-Events
    • E-Book Library
  • Zur Übersichtsseite Fördern

    • Förderportfolio
      • excellent=austria
        • Clusters of Excellence
        • Emerging Fields
      • Projekte
        • Einzelprojekte
        • Einzelprojekte International
        • Klinische Forschung
        • 1000 Ideen
        • Entwicklung und Erschließung der Künste
        • FWF-Wittgenstein-Preis
      • Karrieren
        • ESPRIT
        • FWF-ASTRA-Preise
        • Erwin Schrödinger
        • doc.funds
        • doc.funds.connect
      • Kooperationen
        • Spezialforschungsgruppen
        • Spezialforschungsbereiche
        • Forschungsgruppen
        • International – Multilaterale Initiativen
        • #ConnectingMinds
      • Kommunikation
        • Top Citizen Science
        • Wissenschaftskommunikation
        • Buchpublikationen
        • Digitale Publikationen
        • Open-Access-Pauschale
      • Themenförderungen
        • AI Mission Austria
        • Belmont Forum
        • ERA-NET HERA
        • ERA-NET NORFACE
        • ERA-NET QuantERA
        • ERA-NET TRANSCAN
        • Ersatzmethoden für Tierversuche
        • Europäische Partnerschaft Biodiversa+
        • Europäische Partnerschaft BrainHealth
        • Europäische Partnerschaft ERA4Health
        • Europäische Partnerschaft ERDERA
        • Europäische Partnerschaft EUPAHW
        • Europäische Partnerschaft FutureFoodS
        • Europäische Partnerschaft OHAMR
        • Europäische Partnerschaft PerMed
        • Europäische Partnerschaft Water4All
        • Gottfried-und-Vera-Weiss-Preis
        • netidee SCIENCE
        • Projekte der Herzfelder-Stiftung
        • Quantum Austria
        • Rückenwind-Förderbonus
        • WE&ME Award
        • Zero Emissions Award
      • Länderkooperationen
        • Belgien/Flandern
        • Deutschland
        • Frankreich
        • Italien/Südtirol
        • Japan
        • Luxemburg
        • Polen
        • Schweiz
        • Slowenien
        • Taiwan
        • Tirol–Südtirol–Trentino
        • Tschechien
        • Ungarn
    • Schritt für Schritt
      • Förderung finden
      • Antrag einreichen
      • Internationales Peer-Review
      • Förderentscheidung
      • Projekt durchführen
      • Projekt beenden
      • Weitere Informationen
        • Integrität und Ethik
        • Inklusion
        • Antragstellung aus dem Ausland
        • Personalkosten
        • PROFI
        • Projektendberichte
        • Projektendberichtsumfrage
    • FAQ
      • Projektphase PROFI
      • Projektphase Ad personam
      • Auslaufende Programme
        • Elise Richter und Elise Richter PEEK
        • FWF-START-Preise
  • Zur Übersichtsseite Über uns

    • Leitbild
    • FWF-Film
    • Werte
    • Zahlen und Daten
    • Jahresbericht
    • Aufgaben und Aktivitäten
      • Forschungsförderung
        • Matching-Funds-Förderungen
      • Internationale Kooperationen
      • Studien und Publikationen
      • Chancengleichheit und Diversität
        • Ziele und Prinzipien
        • Maßnahmen
        • Bias-Sensibilisierung in der Begutachtung
        • Begriffe und Definitionen
        • Karriere in der Spitzenforschung
      • Open Science
        • Open-Access-Policy
          • Open-Access-Policy für begutachtete Publikationen
          • Open-Access-Policy für begutachtete Buchpublikationen
          • Open-Access-Policy für Forschungsdaten
        • Forschungsdatenmanagement
        • Citizen Science
        • Open-Science-Infrastrukturen
        • Open-Science-Förderung
      • Evaluierungen und Qualitätssicherung
      • Wissenschaftliche Integrität
      • Wissenschaftskommunikation
      • Philanthropie
      • Nachhaltigkeit
    • Geschichte
    • Gesetzliche Grundlagen
    • Organisation
      • Gremien
        • Präsidium
        • Aufsichtsrat
        • Delegiertenversammlung
        • Kuratorium
        • Jurys
      • Geschäftsstelle
    • Arbeiten im FWF
  • Zur Übersichtsseite Aktuelles

    • News
    • Presse
      • Logos
    • Eventkalender
      • Veranstaltung eintragen
      • FWF-Infoveranstaltungen
    • Jobbörse
      • Job eintragen
    • Newsletter
  • Entdecken, 
    worauf es
    ankommt.

    FWF-Newsletter Presse-Newsletter Kalender-Newsletter Job-Newsletter scilog-Newsletter

    SOCIAL MEDIA

    • LinkedIn, externe URL, öffnet sich in einem neuen Fenster
    • , externe URL, öffnet sich in einem neuen Fenster
    • Facebook, externe URL, öffnet sich in einem neuen Fenster
    • Instagram, externe URL, öffnet sich in einem neuen Fenster
    • YouTube, externe URL, öffnet sich in einem neuen Fenster

    SCILOG

    • Scilog — Das Wissenschaftsmagazin des Österreichischen Wissenschaftsfonds (FWF)
  • elane-Login, externe URL, öffnet sich in einem neuen Fenster
  • Scilog externe URL, öffnet sich in einem neuen Fenster
  • en Switch to English

  

Repräsentation von Raum-Zeit und Videobasierte Erkennung

Space-Time Representation and Recognition in Computer Vision

Axel Pinz (ORCID: 0000-0001-7914-619X)
  • Grant-DOI 10.55776/P27076
  • Förderprogramm Einzelprojekte
  • Status beendet
  • Projektbeginn 01.08.2014
  • Projektende 31.07.2017
  • Bewilligungssumme 157.920 €
  • Projekt-Website

Wissenschaftsdisziplinen

Informatik (100%)

Keywords

    Computer Vision, Space-Time Representation, Dynamic Scene Recognition, Action/Activity Recognition, Space-time object category model

Abstract Endbericht

Dieses Projekt liefert einen Beitrag in der Grundlagenforschung. Es hat das Ziel, zu einem besseren Verständnis und einer besseren Repräsentation von visueller Raum-Zeit beizutragen. Die Arbeitshypothese ist, dass es unter geschickter Ausnutzung bestehender, sowie Entwicklung neuer Verfahren der Computer Vision gelingen kann, komplexe räumlich- zeitliche Zusammenhänge, und dadurch Ereignisse in Videos zu erkennen. In diesem Bereich der Videoanalyse in der Computer Vision wollen wir eine neue Repräsentation entwickeln, die auffälligen Raum-Zeit Volumina (engl.: space-time volumes of interest VOI). VOIs sollen im gesamten Projekt konsistent benutzt werden um verschiedenste Ereignisse in Videodaten zu repräsentieren, beispielsweise unabhängige Bewegung im Vordergrund, Bewegungsmuster im Hintergrund, oder sich in Raum und Zeit wiederholende Muster. Diese Ereignisse sollen mit erweiterten, in Raum und Zeit orientierten Filtern (engl.: space-time oriented energy filters) beschrieben werden. Die resultierenden Beschreibungen sollen sodann für die Kategorisierung von Video-Texturen, dynamischen Szenen, Arten der Kamerabewegung, unabhängig im Vordergrund bewegten Objekten, sowie Aktivitäten genutzt werden. Die zugrundeliegenden Repräsentations-Elemente, also die einzelnen VOIs, sollen in einem weiteren Schritt zu komplexen Modellen der Raum-Zeit zusammengesetzt werden. Diese Modelle sollen letztlich an bestimmte Orte in Raum und Zeit zeigen können, in verschiedenen räumlichen und zeitlichen Maßstäben. Das Projekt ist grob in vier Arbeitspakete strukturiert. Diese umfassen die VOI Repräsentation, die Berechnung von lokalen räumlich-zeitlichen Beschreibungen, Lernen von komplexen Modellen und gröberen räumlich-zeitlichen Zusammenhängen, sowie die Detektion und Kategorisierung in Videos. Die in diesem Projekt entwickelten neuen Konzepte werden sowohl eine Vielfalt weiterer Grundlagenforschung, als auch neue Anwendungen in der Videoanalyse, der Überwachung, und für autonome Systeme ermöglichen.

Was passiert wo und wann in einem Video? Wie werden die nötigen Zusammenhänge erfasst, repräsentiert und klassifiziert? Und was kann man mit derartigen Methoden erreichen? Diesen Kernfragen hat sich das Forschungsprojekt im Zeitraum August 2014 Juli 2017 gewidmet. Das Projekt fiel in einen sehr spannenden Zeitraum, in dem ein Paradigmenwechsel weg von expliziter Repräsentation und spezifischer Algorithmik hin zu impliziter Repräsentation in tiefen neuronalen Netzen vollzogen wurde, mit teilweise bahnbrechenden Verbesserungen in der Leistung der Systeme. Damit direkt verbunden ist auch eine Veränderung des Fokus weg von Algorithmen hin zu Netzwerk-Architekturen und zu Techniken des maschinellen Lernens, sowie zur Erfassung und Annotation der für das Training nötigen Bild- und Videodatenbanken. In enger Zusammenarbeit mit der Universität York in Toronto (explizite Repräsentation von Raum-Zeit mittels space-time oriented energies) und der Universität Oxford (implizite Repräsentation in deep convolutional networks - ConvNets, speziell two stream architectures) wurden einige bemerkenswerte Ergebnisse erzielt. So wurde eine neue Video-Datenbank zum Trainieren und Testen sogenannter dynamischer Szenen erstellt, und verschiedene ConvNet Architekturen entwickelt. Im Rahmen dieses Projektes wurde auf verschiedenen benchmark Datensätzen jeweils der aktuelle state-of-the-art eingestellt oder sogar wesentlich verbessert. Die verschiedenen Anwendungen unserer Verfahren reichen vom Erkennen dynamischer Szenen über das Erkennen von menschlichen Handlungen und Aktionen in Videos, bis zur Erkennung und Verfolgung verschiedenster bewegter Objekte. Im Rahmen dieses Grundlagen Forschungsprojektes lag der Fokus vor allem auf der Entwicklung völlig neuer Verfahren. Es wurden nicht nur überdurchschnittlich viele, sondern auch qualitativ besonders hochwertige Publikationen in Top-Medien der Computer Vision Literatur erzielt. Dennoch gibt es eine Vielzahl von höchst relevanten praktischen Anwendungen für diese Verfahren: autonomes Fahren, automatische Video Analyse und Annotation, Video-Überwachung, neue Medien, und viele mehr. Gegen Projektende gelang auch noch ein wichtiger Durchbruch in Bezug auf das Verständnis und die Analyse von Vorgängen in tiefen neuronalen Netzen. Erstmalig können nun auch zeitliche Zusammenhänge und deren Repräsentation in den verschiedenen Ebenen der Netze anschaulich visualisiert werden. Dies ermöglicht neben einem besseren Verständnis (was wurde gelernt, wann werden welche Zellen im Netz stark aktiviert, etc.) auch zu einer vertieften Analyse von Problem- und Fehlerfällen.

Forschungsstätte(n)
  • Technische Universität Graz - 100%
Internationale Projektbeteiligte
  • Richard Wildes, York University - Kanada

Research Output

  • 3888 Zitationen
  • 18 Publikationen
Publikationen
  • 2019
    Titel Deep Insights into Convolutional Networks for Video Recognition
    DOI 10.1007/s11263-019-01225-w
    Typ Journal Article
    Autor Feichtenhofer C
    Journal International Journal of Computer Vision
    Seiten 420-437
    Link Publikation
  • 2018
    Titel What have we learned from deep representations for action recognition?
    DOI 10.48550/arxiv.1801.01415
    Typ Preprint
    Autor Feichtenhofer C
  • 2017
    Titel Spatiotemporal Multiplier Networks for Video Action Recognition
    DOI 10.1109/cvpr.2017.787
    Typ Conference Proceeding Abstract
    Autor Feichtenhofer C
    Seiten 7445-7454
  • 2017
    Titel Temporal Residual Networks for Dynamic Scene Recognition
    DOI 10.1109/cvpr.2017.786
    Typ Conference Proceeding Abstract
    Autor Feichtenhofer C
    Seiten 7435-7444
  • 2016
    Titel Spatiotemporal Residual Networks for Video Action Recognition
    DOI 10.48550/arxiv.1611.02155
    Typ Preprint
    Autor Feichtenhofer C
  • 2016
    Titel Convolutional Two-Stream Network Fusion for Video Action Recognition
    DOI 10.48550/arxiv.1604.06573
    Typ Preprint
    Autor Feichtenhofer C
  • 2016
    Titel Spatiotemporal Residual Networks for Video Action Recognition.
    Typ Conference Proceeding Abstract
    Autor Feichtenhofer C
    Konferenz Proc. NIPS, 2016
  • 2018
    Titel What have we learned from deep representations for action recognition?
    DOI 10.1109/cvpr.2018.00818
    Typ Conference Proceeding Abstract
    Autor Feichtenhofer C
    Seiten 7844-7853
    Link Publikation
  • 2017
    Titel Detect to Track and Track to Detect
    DOI 10.1109/iccv.2017.330
    Typ Conference Proceeding Abstract
    Autor Feichtenhofer C
    Seiten 3057-3065
    Link Publikation
  • 2017
    Titel Detect to Track and Track to Detect.
    Typ Conference Proceeding Abstract
    Autor Feichtenhofer C
    Konferenz Proc. ICCV, 2017
  • 2017
    Titel Temporal Residual Networks for Dynamic Scene Recognition.
    Typ Conference Proceeding Abstract
    Autor Feichtenhofer C
    Konferenz Proc. CVPR, 2017
  • 2017
    Titel Spatiotemporal Multiplier Networks for Video Action Recognition.
    Typ Conference Proceeding Abstract
    Autor Feichtenhofer C
    Konferenz Proc. CVPR, 2017
  • 2017
    Titel Detect to Track and Track to Detect
    DOI 10.48550/arxiv.1710.03958
    Typ Preprint
    Autor Feichtenhofer C
  • 2016
    Titel Dynamic Scene Recognition with Complementary Spatiotemporal Features
    DOI 10.1109/tpami.2016.2526008
    Typ Journal Article
    Autor Feichtenhofer C
    Journal IEEE Transactions on Pattern Analysis and Machine Intelligence
    Seiten 2389-2401
  • 2016
    Titel Convolutional Two-Stream Network Fusion for Video Action Recognition
    DOI 10.1109/cvpr.2016.213
    Typ Conference Proceeding Abstract
    Autor Feichtenhofer C
    Seiten 1933-1941
    Link Publikation
  • 2016
    Titel Convolutional Two-Stream Network Fusion for Video Action Recognition.
    Typ Conference Proceeding Abstract
    Autor Feichtenhofer C
    Konferenz Proc. CVPR, 2016
  • 2015
    Titel Dynamically Encoded Actions Based on Spacetime Saliency
    DOI 10.1109/cvpr.2015.7298892
    Typ Conference Proceeding Abstract
    Autor Feichtenhofer C
    Seiten 2755-2764
  • 2015
    Titel Dynamically Encoded Actions based on Spacetime Saliency.
    Typ Conference Proceeding Abstract
    Autor Feichtenhofer C
    Konferenz Proc. CVPR, 2015

Entdecken, 
worauf es
ankommt.

Newsletter

FWF-Newsletter Presse-Newsletter Kalender-Newsletter Job-Newsletter scilog-Newsletter

Kontakt

Österreichischer Wissenschaftsfonds FWF
Georg-Coch-Platz 2
(Eingang Wiesingerstraße 4)
1010 Wien

office(at)fwf.ac.at
+43 1 505 67 40

Allgemeines

  • Jobbörse
  • Arbeiten im FWF
  • Presse
  • Philanthropie
  • scilog
  • Geschäftsstelle
  • Social Media Directory
  • LinkedIn, externe URL, öffnet sich in einem neuen Fenster
  • , externe URL, öffnet sich in einem neuen Fenster
  • Facebook, externe URL, öffnet sich in einem neuen Fenster
  • Instagram, externe URL, öffnet sich in einem neuen Fenster
  • YouTube, externe URL, öffnet sich in einem neuen Fenster
  • Cookies
  • Hinweisgeber:innensystem
  • Barrierefreiheitserklärung
  • Datenschutz
  • Impressum
  • IFG-Formular
  • Social Media Directory
  • © Österreichischer Wissenschaftsfonds FWF
© Österreichischer Wissenschaftsfonds FWF