Automatische Segmentierung und Charakterisierung von Audio Streams
Automatic Segmentation, Labelling, and Characterisation of Audio Streams
Wissenschaftsdisziplinen
Elektrotechnik, Elektronik, Informationstechnik (10%); Informatik (85%); Kunstwissenschaften (5%)
Keywords
-
Music Information Retrieval (MIR),
Machine Learning,
Audio and Music Classification
Ziel des Projekts ist die Entwicklung von Computertechnologien für die automatische Segmentierung und Interpretation von Audio-Dateien oder Audio-Streams aus verschiedenen Teilen der Medienwelt: Musikdatenbanken, Radio-Streams (Web-basiert oder terrestrisch), TV-Übertragungen etc. Unser spezielles Augenmerk gilt Anwendungen, bei denen Musik im Mittelpunkt steht. Die zu entwickelnden Technologien sollen im wesentlichen folgende Probleme lösen können: (1) automatische Segmentierung von Audiostreams (mit oder ohne Hintergrundinformation) in kohärente oder sonst "sinnvolle" Einheiten (anhand allgemeiner Klang- oder Rhythmus-Ähnlichkeit oder -Homongenität, anhand verschiedener Arten von Inhalt (z.B. Musik, Sprache, Applaus), anhand wiederholten Auftretens ähnlicher Passagen, etc.); (2) die automatische Kategorisierung solcher Segmente in Klassen, und das Assoziieren von Segmenten und Klassen mit Meta-Daten (die beispielsweise auch aus dem Web gewonnen werden); und (3) die automatische Charakterisierung von Audiosegmenten und Sound-Objekten mit Beschreibungen, die für Menschen intuitiv verständlich sind. Zu diesem Zweck müssen Computermethoden entwickelt bzw. verbessert und optimiert werden, die Audiostreams analysieren, verschiedene Arten von Audio-Content erkennen (z.B. Musik, Gesang, Sprache, Applaus, Werbung, ...), Grenzen und Übergänge zwischen Songs detektieren, und Musikstücke und andere Segmente verschiedenen Kategorien zuordnen können; die zu diesem Zwecke Informationen aus verschiedensten Quellen zusammenführen (aus dem Audiosignal selbst, aus Datenbanken, dem Internet) und damit die Segmentierung verfeinern bzw. Meta- Information zu Segmenten gewinnen; die automatisch Audiofeatures entwickeln und optimieren, mit deren Hilfe genauere Segmentierung und Klassifikation möglich sind; und die lernen, intuitiv verständliche Beschreibungen von Audioinhalten aus solchen Audiofeatures abzuleiten (mittels Methoden des maschinellen Lernens). Die Motivation für diese Forschung liegt in einer großen Zahl von anspruchsvollen Anwendungen in der Medienwelt, die effiziente und robuste Audiosegmentierung und -klassifikation erfordern. Solche Anwendungsszenarien sind etwa Audio-Streaming-Services, Web-Stream-Analyse, automatisches Medien- Monitoring, inhalts- und beschreibungsbasierte Suche in großen Multimedien-Datenbanken, und auch künstlerische Anwendungen. Das starke und sehr konkrete Interesse an solchen Methoden dokumentiert sich u.a. darin, dass mehrere Firmen aus der internationalen Medienwelt bereit sind, unsere Forschung in diesem Projekt mit großen Mengen echter Daten und wertvoller Meta-Information zu unterstützen.
Ziel dieses Projektes war es, Techniken für die automatische Segmentierung und Interpretation von Audiodateien und -streams aus verschiedenen Medienwelten zu entwickeln: Musiksammlungen, Radioaufzeichnungen, TV-Sendungen etc. Ein besonderer Schwerpunkt lag dabei auf Aufnahmen, in denen Musik eine wichtige Rolle spielt. Wir haben in diesem Bereich sowohl Grundlagenforschung betrieben als auch kommerzielle Anwendungen entwickelt. Die Kerntechnologie in diesem Projekt bildeten Convolutional Neural Networks (CNNs), ein relativ neues und leistungsfähiges Werkzeug im Bereich des maschinellen Lernens, das wir als eine der ersten Forschungsgruppen für Musikaufnahmen eingesetzt haben. Im einzelnen haben wir damit die Probleme der Onset-Erkennung (Ermittlung des Anfangszeitpunktes beliebiger Musiknoten), der Musiksegmentierung (Ermittlung der Grenzen zwischen Teilen eines Musikstücks), der Gesangserkennung (Ermittlung der Bereiche eines Musikstückes, in denen Gesang vorkommt), und der Taktdetektion (Ermittlung der metrischen Struktur eines Musikstücks) behandelt. Unsere Arbeiten dienten als Inspiration für andere ForscherInnen und zeigen, wie vielseitig sich auf Spektrogrammen trainierte CNNs einsetzen lassen. Dies stellt die Notwendigkeit manuell entwickelter Algorithmen zur Audioanalyse in Frage. In allen von uns betrachteten Problemen haben wir den Stand der Technik übertroffen. Die größten Verbesserungen konnten wir dabei für die Musiksegmentierung erzielen, ein zentrales Anliegen für dieses Projekt. Wir konnten auch zeigen, dass sowohl für die Musiksegmentierung als auch für die Bestimmung der Ähnlichkeit zweier Musikstücke der Stand der Technik beinahe die Obergrenze erreicht hat, die sich aus der Mehrdeutigkeit der Problemstellung oder der Subjektivität menschlicher Wahrnehmung ergibt. Auf der Suche nach Lernmethoden, die auch mit wenigen Beispielen umgehen können, haben wir Verfahren zur automatischen Erweiterung von Trainingsdaten ("data augmentation") und der Verarbeitung grob annotierter Daten entwickelt. Im Sinne des Projektziels haben wir außerdem Forschungsrichtungen mit hoher Anwendungsorientierung verfolgt: Wir haben Deep Learning verwendet, um einen existierenden Algorithmus für Musikempfehlungen auf die Größenordnung kommerzieller Sammlungen hin zu beschleunigen, wir haben Musikempfehlungen mit einer aus der Sprachverarbeitung entlehnten Technik verbessert, wir haben eine neue Methode zur Identifikation von Musikstücken entwickelt, die robust gegenüber Änderungen der Tonhöhe und des Tempos ist, und wir haben Methoden zur Erkennung von Gesang, Musik, Sprache und Applaus in Echtzeit entwickelt. Mehrere dieser Methoden werden bereits kommerziell verwendet oder getestet. Außerdem haben wir an einem internationalen Wettbewerb zur Erkennung von Vogelrufen in Audioaufnahmen teilgenommen und ihn gewonnen. Das zeigt, dass die von uns für Musikanalyse verwendete Methodik auch für Audioverarbeitung im allgemeinen einsetzbar ist.
Research Output
- 394 Zitationen
- 18 Publikationen
-
2016
Titel The Problem of Limited Inter-rater Agreement in Modelling Music Similarity DOI 10.1080/09298215.2016.1200631 Typ Journal Article Autor Flexer A Journal Journal of New Music Research Seiten 239-251 Link Publikation -
2015
Titel Exploring Data Augmentation for Improved Singing Voice Detection with Neural Networks. Typ Conference Proceeding Abstract Autor Grill T Konferenz Proceedings of the 16th International Society for Music Information Retrieval Conference (ISMIR), Malaga, Spain -
2015
Titel Music Boundary Detection Using Neural Networks on Combined Features and Two-Level Annotations. Typ Conference Proceeding Abstract Autor Grill T Konferenz Proceedings of the 16th International Society for Music Information Retrieval Conference (ISMIR), Malaga, Spain -
2015
Titel A Low-Latency, Real-Time-Capable Singing Voice Detection Method with Lstm Recurrent Neural Networks DOI 10.1109/eusipco.2015.7362337 Typ Conference Proceeding Abstract Autor Lehner B Seiten 21-25 Link Publikation -
2015
Titel Music Boundary Detection Using Neural Networks on Spectrograms and Self-Similarity Lag Matrices DOI 10.1109/eusipco.2015.7362593 Typ Conference Proceeding Abstract Autor Grill T Seiten 1296-1300 Link Publikation -
2017
Titel Two Convolutional Neural Networks for Bird Detection in Audio Signals DOI 10.23919/eusipco.2017.8081512 Typ Conference Proceeding Abstract Autor Grill T Seiten 1764-1768 Link Publikation -
2016
Titel Learning To Pinpoint Singing Voice From Weakly Labeled Examples. DOI 10.5281/zenodo.1417650 Typ Other Autor Schlüter J Link Publikation -
2016
Titel Learning To Pinpoint Singing Voice From Weakly Labeled Examples. DOI 10.5281/zenodo.1417651 Typ Other Autor Schlüter J Link Publikation -
2016
Titel Learning to Pinpoint Singing Voice from Weakly Labeled Examples. Typ Conference Proceeding Abstract Autor Schlüter J Konferenz Proceedings of the 17th International Society for Music Information Retrieval Conference (ISMIR), New York, USA -
2014
Titel On the Reduction of False Positives in Singing Voice Detection DOI 10.1109/icassp.2014.6855054 Typ Conference Proceeding Abstract Autor Lehner B Seiten 7480-7484 -
2014
Titel Improved Musical Onset Detection with Convolutional Neural Networks DOI 10.1109/icassp.2014.6854953 Typ Conference Proceeding Abstract Autor Schlüter J Seiten 6979-6983 -
2014
Titel On World Construction, Variation: Duoddaris. Typ Conference Proceeding Abstract Autor Grill T Konferenz Proceedings of the Second conference on Computation, Communication, Aesthetics and X (xCoax), Porto, Portugal -
2015
Titel A Low-Latency, Real-Time-Capable Singing Voice Detection Method With Lstm Recurrent Neural Networks DOI 10.5281/zenodo.38849 Typ Other Autor Böck S Link Publikation -
2015
Titel Robust Quad-Based Audio Fingerprinting DOI 10.1109/taslp.2015.2509248 Typ Journal Article Autor Sonnleitner R Journal IEEE/ACM Transactions on Audio, Speech, and Language Processing Seiten 409-421 -
2013
Titel Musical Onset Detection with Convolutional Neural Networks. Typ Conference Proceeding Abstract Autor Böck S Konferenz 6th International Workshop on Machine Learning and Music (MML) in conjunction with the European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECML/PKDD), Prague, Czech Republic -
2013
Titel Learning Binary Codes for Efficient Large-Scale Music Similarity Search. Typ Conference Proceeding Abstract Autor Schlüter J Konferenz Proceedings of the 14th International Society for Music Information Retrieval Conference (ISMIR), Curitiba, Brazil -
2015
Titel Improving Voice Activity Detection in Movies. Typ Conference Proceeding Abstract Autor Lehner B Konferenz Proceedings of the 16th Annual Conference of the International Speech Communication Association (INTERSPEECH 2015), Dresden, Germany. -
2014
Titel Boundary Detection in Music Structure Analysis using Convolutional Neural Networks. Typ Conference Proceeding Abstract Autor Grill T Et Al Konferenz Proceedings of the 15th International Society for Music Information Retrieval Conference (ISMIR), Taipei, Taiwan