Projektdetail

Wissenschaftsdisziplinen

Elektrotechnik, Elektronik, Informationstechnik (10%); Informatik (85%); Kunstwissenschaften (5%)

Keywords

Music Information Retrieval (MIR), Machine Learning, Audio and Music Classification

Abstract

Endbericht

Ziel des Projekts ist die Entwicklung von Computertechnologien für die automatische Segmentierung und Interpretation von Audio-Dateien oder Audio-Streams aus verschiedenen Teilen der Medienwelt: Musikdatenbanken, Radio-Streams (Web-basiert oder terrestrisch), TV-Übertragungen etc. Unser spezielles Augenmerk gilt Anwendungen, bei denen Musik im Mittelpunkt steht. Die zu entwickelnden Technologien sollen im wesentlichen folgende Probleme lösen können: (1) automatische Segmentierung von Audiostreams (mit oder ohne Hintergrundinformation) in kohärente oder sonst "sinnvolle" Einheiten (anhand allgemeiner Klang- oder Rhythmus-Ähnlichkeit oder -Homongenität, anhand verschiedener Arten von Inhalt (z.B. Musik, Sprache, Applaus), anhand wiederholten Auftretens ähnlicher Passagen, etc.); (2) die automatische Kategorisierung solcher Segmente in Klassen, und das Assoziieren von Segmenten und Klassen mit Meta-Daten (die beispielsweise auch aus dem Web gewonnen werden); und (3) die automatische Charakterisierung von Audiosegmenten und Sound-Objekten mit Beschreibungen, die für Menschen intuitiv verständlich sind. Zu diesem Zweck müssen Computermethoden entwickelt bzw. verbessert und optimiert werden, die Audiostreams analysieren, verschiedene Arten von Audio-Content erkennen (z.B. Musik, Gesang, Sprache, Applaus, Werbung, ...), Grenzen und Übergänge zwischen Songs detektieren, und Musikstücke und andere Segmente verschiedenen Kategorien zuordnen können; die zu diesem Zwecke Informationen aus verschiedensten Quellen zusammenführen (aus dem Audiosignal selbst, aus Datenbanken, dem Internet) und damit die Segmentierung verfeinern bzw. Meta- Information zu Segmenten gewinnen; die automatisch Audiofeatures entwickeln und optimieren, mit deren Hilfe genauere Segmentierung und Klassifikation möglich sind; und die lernen, intuitiv verständliche Beschreibungen von Audioinhalten aus solchen Audiofeatures abzuleiten (mittels Methoden des maschinellen Lernens). Die Motivation für diese Forschung liegt in einer großen Zahl von anspruchsvollen Anwendungen in der Medienwelt, die effiziente und robuste Audiosegmentierung und -klassifikation erfordern. Solche Anwendungsszenarien sind etwa Audio-Streaming-Services, Web-Stream-Analyse, automatisches Medien- Monitoring, inhalts- und beschreibungsbasierte Suche in großen Multimedien-Datenbanken, und auch künstlerische Anwendungen. Das starke und sehr konkrete Interesse an solchen Methoden dokumentiert sich u.a. darin, dass mehrere Firmen aus der internationalen Medienwelt bereit sind, unsere Forschung in diesem Projekt mit großen Mengen echter Daten und wertvoller Meta-Information zu unterstützen.

Ziel dieses Projektes war es, Techniken für die automatische Segmentierung und Interpretation von Audiodateien und -streams aus verschiedenen Medienwelten zu entwickeln: Musiksammlungen, Radioaufzeichnungen, TV-Sendungen etc. Ein besonderer Schwerpunkt lag dabei auf Aufnahmen, in denen Musik eine wichtige Rolle spielt. Wir haben in diesem Bereich sowohl Grundlagenforschung betrieben als auch kommerzielle Anwendungen entwickelt. Die Kerntechnologie in diesem Projekt bildeten Convolutional Neural Networks (CNNs), ein relativ neues und leistungsfähiges Werkzeug im Bereich des maschinellen Lernens, das wir als eine der ersten Forschungsgruppen für Musikaufnahmen eingesetzt haben. Im einzelnen haben wir damit die Probleme der Onset-Erkennung (Ermittlung des Anfangszeitpunktes beliebiger Musiknoten), der Musiksegmentierung (Ermittlung der Grenzen zwischen Teilen eines Musikstücks), der Gesangserkennung (Ermittlung der Bereiche eines Musikstückes, in denen Gesang vorkommt), und der Taktdetektion (Ermittlung der metrischen Struktur eines Musikstücks) behandelt. Unsere Arbeiten dienten als Inspiration für andere ForscherInnen und zeigen, wie vielseitig sich auf Spektrogrammen trainierte CNNs einsetzen lassen. Dies stellt die Notwendigkeit manuell entwickelter Algorithmen zur Audioanalyse in Frage. In allen von uns betrachteten Problemen haben wir den Stand der Technik übertroffen. Die größten Verbesserungen konnten wir dabei für die Musiksegmentierung erzielen, ein zentrales Anliegen für dieses Projekt. Wir konnten auch zeigen, dass sowohl für die Musiksegmentierung als auch für die Bestimmung der Ähnlichkeit zweier Musikstücke der Stand der Technik beinahe die Obergrenze erreicht hat, die sich aus der Mehrdeutigkeit der Problemstellung oder der Subjektivität menschlicher Wahrnehmung ergibt. Auf der Suche nach Lernmethoden, die auch mit wenigen Beispielen umgehen können, haben wir Verfahren zur automatischen Erweiterung von Trainingsdaten ("data augmentation") und der Verarbeitung grob annotierter Daten entwickelt. Im Sinne des Projektziels haben wir außerdem Forschungsrichtungen mit hoher Anwendungsorientierung verfolgt: Wir haben Deep Learning verwendet, um einen existierenden Algorithmus für Musikempfehlungen auf die Größenordnung kommerzieller Sammlungen hin zu beschleunigen, wir haben Musikempfehlungen mit einer aus der Sprachverarbeitung entlehnten Technik verbessert, wir haben eine neue Methode zur Identifikation von Musikstücken entwickelt, die robust gegenüber Änderungen der Tonhöhe und des Tempos ist, und wir haben Methoden zur Erkennung von Gesang, Musik, Sprache und Applaus in Echtzeit entwickelt. Mehrere dieser Methoden werden bereits kommerziell verwendet oder getestet. Außerdem haben wir an einem internationalen Wettbewerb zur Erkennung von Vogelrufen in Audioaufnahmen teilgenommen und ihn gewonnen. Das zeigt, dass die von uns für Musikanalyse verwendete Methodik auch für Audioverarbeitung im allgemeinen einsetzbar ist.

Forschungsstätte(n)

ÖFAI - Österreichisches Forschungsinstitut für Artifical Intelligence - 100%

Research Output

394 Zitationen
18 Publikationen

Publikationen

Titel	The Problem of Limited Inter-rater Agreement in Modelling Music Similarity
DOI	10.1080/09298215.2016.1200631
Typ	Journal Article
Autor	Flexer A
Journal	Journal of New Music Research
Seiten	239-251
Link	Publikation

Titel	Exploring Data Augmentation for Improved Singing Voice Detection with Neural Networks.
Typ	Conference Proceeding Abstract
Autor	Grill T
Konferenz	Proceedings of the 16th International Society for Music Information Retrieval Conference (ISMIR), Malaga, Spain

Titel	Music Boundary Detection Using Neural Networks on Combined Features and Two-Level Annotations.
Typ	Conference Proceeding Abstract
Autor	Grill T
Konferenz	Proceedings of the 16th International Society for Music Information Retrieval Conference (ISMIR), Malaga, Spain

Titel	A Low-Latency, Real-Time-Capable Singing Voice Detection Method with Lstm Recurrent Neural Networks
DOI	10.1109/eusipco.2015.7362337
Typ	Conference Proceeding Abstract
Autor	Lehner B
Seiten	21-25
Link	Publikation

Titel	Music Boundary Detection Using Neural Networks on Spectrograms and Self-Similarity Lag Matrices
DOI	10.1109/eusipco.2015.7362593
Typ	Conference Proceeding Abstract
Autor	Grill T
Seiten	1296-1300
Link	Publikation

Titel	Two Convolutional Neural Networks for Bird Detection in Audio Signals
DOI	10.23919/eusipco.2017.8081512
Typ	Conference Proceeding Abstract
Autor	Grill T
Seiten	1764-1768
Link	Publikation

Titel	Learning To Pinpoint Singing Voice From Weakly Labeled Examples.
DOI	10.5281/zenodo.1417650
Typ	Other
Autor	Schlüter J
Link	Publikation

Titel	Learning To Pinpoint Singing Voice From Weakly Labeled Examples.
DOI	10.5281/zenodo.1417651
Typ	Other
Autor	Schlüter J
Link	Publikation

Titel	Learning to Pinpoint Singing Voice from Weakly Labeled Examples.
Typ	Conference Proceeding Abstract
Autor	Schlüter J
Konferenz	Proceedings of the 17th International Society for Music Information Retrieval Conference (ISMIR), New York, USA

Titel	On the Reduction of False Positives in Singing Voice Detection
DOI	10.1109/icassp.2014.6855054
Typ	Conference Proceeding Abstract
Autor	Lehner B
Seiten	7480-7484

Titel	Improved Musical Onset Detection with Convolutional Neural Networks
DOI	10.1109/icassp.2014.6854953
Typ	Conference Proceeding Abstract
Autor	Schlüter J
Seiten	6979-6983

Titel	On World Construction, Variation: Duoddaris.
Typ	Conference Proceeding Abstract
Autor	Grill T
Konferenz	Proceedings of the Second conference on Computation, Communication, Aesthetics and X (xCoax), Porto, Portugal

Titel	A Low-Latency, Real-Time-Capable Singing Voice Detection Method With Lstm Recurrent Neural Networks
DOI	10.5281/zenodo.38849
Typ	Other
Autor	Böck S
Link	Publikation

Titel	Robust Quad-Based Audio Fingerprinting
DOI	10.1109/taslp.2015.2509248
Typ	Journal Article
Autor	Sonnleitner R
Journal	IEEE/ACM Transactions on Audio, Speech, and Language Processing
Seiten	409-421

Titel	Musical Onset Detection with Convolutional Neural Networks.
Typ	Conference Proceeding Abstract
Autor	Böck S
Konferenz	6th International Workshop on Machine Learning and Music (MML) in conjunction with the European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECML/PKDD), Prague, Czech Republic

Titel	Learning Binary Codes for Efficient Large-Scale Music Similarity Search.
Typ	Conference Proceeding Abstract
Autor	Schlüter J
Konferenz	Proceedings of the 14th International Society for Music Information Retrieval Conference (ISMIR), Curitiba, Brazil

Titel	Improving Voice Activity Detection in Movies.
Typ	Conference Proceeding Abstract
Autor	Lehner B
Konferenz	Proceedings of the 16th Annual Conference of the International Speech Communication Association (INTERSPEECH 2015), Dresden, Germany.

Titel	Boundary Detection in Music Structure Analysis using Convolutional Neural Networks.
Typ	Conference Proceeding Abstract
Autor	Grill T Et Al
Konferenz	Proceedings of the 15th International Society for Music Information Retrieval Conference (ISMIR), Taipei, Taiwan

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

Automatische Segmentierung und Charakterisierung von Audio Streams

Automatic Segmentation, Labelling, and Characterisation of Audio Streams

Wissenschaftsdisziplinen

Keywords

Research Output

Kontakt

Allgemeines

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

SOCIAL MEDIA

SCILOG

Automatische Segmentierung und Charakterisierung von Audio Streams

Automatic Segmentation, Labelling, and Characterisation of Audio Streams

Wissenschaftsdisziplinen

Keywords

Research Output