Situiertes Sehen zur Erfassung von Objektform und Affordanzen
Situated Vision to Perceive Object Shape and Affordances
DACH: Österreich - Deutschland - Schweiz
Wissenschaftsdisziplinen
Elektrotechnik, Elektronik, Informationstechnik (40%); Informatik (60%)
Keywords
-
Computer Vision,
Cognitive Vision,
Robotics,
Attention,
Shape,
Affordances
Das Ziel dieses Forschungsprojekts ist es, Modelle und Methoden zu erarbeiten, um die dreidimensionale Form und Affordanzen von alltäglichen Objekten zu erfassen und zu kategorisieren. Zur Lösung entwickeln wir das Paradigma des "situierten Sehens" - die 3D Wahrnehmung der Umgebung aus der Sicht der Aufgabe des Roboters. Dieser Ansatz verwendet neue Erkenntnisse der Kognitions- und Neurowissenschaften: durch die Fusion von qualitativen und quantitativen 2D und 3D Bildmerkmalen wird es möglich, 3D Formelemente zu extrahieren und zu gruppieren und sie in Relation zu Affordanzkategorien zu stellen. Die Ausnutzung visueller Aufmerksamkeit und aufgabenorientierter Suche lassen den Roboter elementare Bewegungen ausführen, die die wahrgenommen Affordanzen ausnützen. Die Analyse der Formelemente wird verwendet, um semantische 3D Konzepte wahrzunehmen, wie zum Beispiel stellbare Fläche oder begrenzende Fläche. Aus diesen räumlichen Konzepten kann gelernt werden welche Elemente Affordanzkategorien bilden. Wir zeigen die allgemeine Gültigkeit des Ansatzes anhand einer Evaluierung in drei Wohnungen und variieren die Komplexität mit der Anzahl der verschiedenen Objekte um die Zielobjekte. Zur Lösung dieser Aufgabe ist Wissen aus verschiedenen Bereichen notwendig, sodass sich vier Forschungsgruppen für dieses Vorhaben zusammengeschlossen haben: visuelle Aufmerksamkeit (Uni Bonn), Kategorisierung (RWTH Aachen), Wahrnehmung von Form (TU Wien) und Lernen (IDIAP) sind notwendig um diesen Ansatz als neues Paradigma der Wahrnehmung für kognitive Systeme eingehend zu erforschen.
Erklärtes Ziel im Projekt Vision@Home ist das Entwickeln von Algorithmen zur Beschreibung bzw. Detektion von Objekten und deren Funktionalitäten. Dazu werden bildgebende Sensoren verwendet welche zusätzlich zu den Farbbildern auch Tiefeninformation liefern. Im Weiteren werden funktionelle Aspekte von Objekten auch als Affordanzen oder Affordanzmerkmale bezeichnet. Zum Beispiel erlaubt die Wahrnehmung eines konkaven Containers als Teil eines Bechers durch einen Menschen den Schluss dass sich innerhalb der zylindrischen Grenzen feste oder flüssige Substanzen befinden können. Umgekehrt erlaubt das Erkennen dieser Affordanz den Schluss dass es sich um einen Becher, eine Tasse oder im allgemeinen Fall um ein Gefäß handelt. Ähnlich, wie eben beschrieben können eine Vielzahl von geometrischen Formen zur Beschreibung von Funktionalitäten von Objekten verwendet werden. Im Zuge dieses Projekts wurden an der TU Wien Algorithmen entwickelt, welche es erlauben in Farb- und 3D-Bildern Objektteile zu detektieren, um durch deren Geometrien Funktionalitäten dieser Teile und folglich der Objekte zu ermitteln. Durch einen konkreten und rigorosen Ansatz zur Definition von Affordanzen und durch die Entwicklung von Algorithmen zur Detektion dieser, ist es nun erstmals möglich Funktionen in einer direkten Art und Weise zu erfassen. Neben den entwickelten Algorithmen wurde eine öffentlich zugängige Datenbank mit über 200 typischen Haushaltsobjekten, deren Geometrien und Funktionsmerkmalen, beschrieben mit nur 35 Affordanztypen erstellt. In diesem Projekt wurde der Grundstein für weiterführende und nachhaltige Forschung gelegt. Der kognitive Ansatz zum Verstehen von Szenen und deren Objekten als Schlüssel zu künstlichen intelligenten Systemen erlaubt es kognitive Probleme in realistischen von Menschen gestalteten Umgebungen zu lösen. Diese Technologie ermöglicht die Entwicklung von Roboterassistenten sowohl für Szenarien in Wohnungen als auch für industrielle Umgebungen. Im Weiteren unterstützt die Betrachtungsweise von Objekten charakterisiert durch deren Form und Funktionen die Designphilosophie Form folgt Funktion und erlaubt dadurch Schlussfolgerungen Anwendbar in Architektur und im Bauingenieurswesen.
- Technische Universität Wien - 100%
- Bastian Leibe, RWTH Aachen - Deutschland
- Barbara Caputo, Politecnico di Torino - Italien
Research Output
- 525 Zitationen
- 20 Publikationen
-
2012
Titel Segmentation of Unknown Objects in Indoor Environments DOI 10.1109/iros.2012.6385661 Typ Conference Proceeding Abstract Autor Richtsfeld A Seiten 4791-4796 -
2011
Titel k-TR: Karmic Tabula Rasa - A Theory of Visual Perception. Typ Conference Proceeding Abstract Autor Varadarajan Km Konferenz Conference of the International Society of Psychophysics - ISP, Herzliya, Israel -
2011
Titel Object Part Segmentation and Classification in Range Images for Grasping DOI 10.1109/icar.2011.6088647 Typ Conference Proceeding Abstract Autor Varadarajan K Seiten 21-27 -
2011
Titel Object Part Segmentation and Classification in Range Images for Grasping. Typ Conference Proceeding Abstract Autor Varadarajan Km -
2013
Titel Parallel Deep Learning with Suggestive Activation for Object Category Recognition DOI 10.1007/978-3-642-39402-7_36 Typ Book Chapter Autor Varadarajan K Verlag Springer Nature Seiten 354-363 -
2013
Titel Localizing and Segmenting Objects with 3D Objectness. Typ Conference Proceeding Abstract Autor Aldoma Buchaca A Konferenz Computer Vision Winter Workshop (CVWW), 2013 -
2013
Titel AfNet: The Affordance Network DOI 10.1007/978-3-642-37331-2_39 Typ Book Chapter Autor Varadarajan K Verlag Springer Nature Seiten 512-523 -
2013
Titel Gaussian-weighted Jensen–Shannon divergence as a robust fitness function for multi-model fitting DOI 10.1007/s00138-013-0513-1 Typ Journal Article Autor Zhou K Journal Machine Vision and Applications Seiten 1107-1119 Link Publikation -
2013
Titel MRF Guided Anisotropic Depth Diffusion for Kinect Range Image Enhancement DOI 10.1007/978-3-642-37484-5_19 Typ Book Chapter Autor Varadarajan K Verlag Springer Nature Seiten 223-235 -
2013
Titel Probabilistic Cue Integration for Real-Time Object Pose Tracking DOI 10.1007/978-3-642-39402-7_26 Typ Book Chapter Autor Prankl J Verlag Springer Nature Seiten 254-263 -
2013
Titel Interactive object modelling based on piecewise planar surface patches DOI 10.1016/j.cviu.2013.01.010 Typ Journal Article Autor Prankl J Journal Computer Vision and Image Understanding Seiten 718-731 Link Publikation -
2014
Titel 4D Space-Time Mereotopogeometry-Part Connectivity Calculus for Visual Object Representation DOI 10.1109/icpr.2014.740 Typ Conference Proceeding Abstract Autor Varadarajan K Seiten 4316-4321 -
2014
Titel Learning of perceptual grouping for object segmentation on RGB-D data DOI 10.1016/j.jvcir.2013.04.006 Typ Journal Article Autor Richtsfeld A Journal Journal of Visual Communication and Image Representation Seiten 64-73 Link Publikation -
2014
Titel Attention-Driven Object Detection and Segmentation of Cluttered Table Scenes using 2.5D Symmetry DOI 10.1109/icra.2014.6907584 Typ Conference Proceeding Abstract Autor Potapova E Seiten 4946-4952 -
2013
Titel Geometric data abstraction using B-splines for range image segmentation DOI 10.1109/icra.2013.6630569 Typ Conference Proceeding Abstract Autor Morwald T Seiten 148-153 -
2013
Titel Multimodal Cue Integration through Hypotheses Verification for RGB-D Object Recognition and 6DOF Pose Estimation DOI 10.1109/icra.2013.6630859 Typ Conference Proceeding Abstract Autor Aldoma A Seiten 2104-2111 -
2012
Titel A Global Hypotheses Verification Method for 3D Object Recognition DOI 10.1007/978-3-642-33712-3_37 Typ Book Chapter Autor Aldoma A Verlag Springer Nature Seiten 511-524 Link Publikation -
2012
Titel Real-time Quadric Fitting for Point Cloud Parametrization using Particle Convergence. Typ Conference Proceeding Abstract Autor Varadarajan Km -
2012
Titel Segmentation of Unknown Objects in Indoor Environments. Typ Conference Proceeding Abstract Autor Richtsfeld A -
2014
Titel Find my mug: Efficient object search with a mobile robot using semantic segmentation DOI 10.48550/arxiv.1404.5765 Typ Preprint Autor Wolf D