• Zum Inhalt springen (Accesskey 1)
  • Zur Suche springen (Accesskey 7)
FWF — Österreichischer Wissenschaftsfonds
  • Zur Übersichtsseite Entdecken

    • Forschungsradar
      • Historisches Forschungsradar 1974–1994
    • Entdeckungen
      • Emmanuelle Charpentier
      • Adrian Constantin
      • Monika Henzinger
      • Ferenc Krausz
      • Wolfgang Lutz
      • Walter Pohl
      • Christa Schleper
      • Elly Tanaka
      • Anton Zeilinger
    • Impact Stories
      • Verena Gassner
      • Wolfgang Lechner
      • Georg Winter
    • scilog-Magazin
    • Austrian Science Awards
      • FWF-Wittgenstein-Preise
      • FWF-ASTRA-Preise
      • FWF-START-Preise
      • Auszeichnungsfeier
    • excellent=austria
      • Clusters of Excellence
      • Emerging Fields
    • Im Fokus
      • 40 Jahre Erwin-Schrödinger-Programm
      • Quantum Austria
      • Spezialforschungsbereiche
    • Dialog und Diskussion
      • think.beyond Summit
      • Am Puls
      • Was die Welt zusammenhält
      • FWF Women’s Circle
      • Science Lectures
    • Wissenstransfer-Events
    • E-Book Library
  • Zur Übersichtsseite Fördern

    • Förderportfolio
      • excellent=austria
        • Clusters of Excellence
        • Emerging Fields
      • Projekte
        • Einzelprojekte
        • Einzelprojekte International
        • Klinische Forschung
        • 1000 Ideen
        • Entwicklung und Erschließung der Künste
        • FWF-Wittgenstein-Preis
      • Karrieren
        • ESPRIT
        • FWF-ASTRA-Preise
        • Erwin Schrödinger
        • doc.funds
        • doc.funds.connect
      • Kooperationen
        • Spezialforschungsgruppen
        • Spezialforschungsbereiche
        • Forschungsgruppen
        • International – Multilaterale Initiativen
        • #ConnectingMinds
      • Kommunikation
        • Top Citizen Science
        • Wissenschaftskommunikation
        • Buchpublikationen
        • Digitale Publikationen
        • Open-Access-Pauschale
      • Themenförderungen
        • AI Mission Austria
        • Belmont Forum
        • ERA-NET HERA
        • ERA-NET NORFACE
        • ERA-NET QuantERA
        • ERA-NET TRANSCAN
        • Ersatzmethoden für Tierversuche
        • Europäische Partnerschaft BE READY
        • Europäische Partnerschaft Biodiversa+
        • Europäische Partnerschaft BrainHealth
        • Europäische Partnerschaft ERA4Health
        • Europäische Partnerschaft ERDERA
        • Europäische Partnerschaft EUPAHW
        • Europäische Partnerschaft FutureFoodS
        • Europäische Partnerschaft OHAMR
        • Europäische Partnerschaft PerMed
        • Europäische Partnerschaft Water4All
        • Gottfried-und-Vera-Weiss-Preis
        • LUKE – Ukraine
        • netidee SCIENCE
        • Projekte der Herzfelder-Stiftung
        • Quantum Austria
        • Rückenwind-Förderbonus
        • WE&ME Award
        • Zero Emissions Award
      • Länderkooperationen
        • Belgien/Flandern
        • Deutschland
        • Frankreich
        • Italien/Südtirol
        • Japan
        • Korea
        • Luxemburg
        • Polen
        • Schweiz
        • Slowenien
        • Taiwan
        • Tirol–Südtirol–Trentino
        • Tschechien
        • Ungarn
    • Schritt für Schritt
      • Förderung finden
      • Antrag einreichen
      • Internationales Peer-Review
      • Förderentscheidung
      • Projekt durchführen
      • Projekt beenden
      • Weitere Informationen
        • Integrität und Ethik
        • Inklusion
        • Antragstellung aus dem Ausland
        • Personalkosten
        • PROFI
        • Projektendberichte
        • Projektendberichtsumfrage
    • FAQ
      • Projektphase PROFI
      • Projektphase Ad personam
      • Auslaufende Programme
        • Elise Richter und Elise Richter PEEK
        • FWF-START-Preise
  • Zur Übersichtsseite Über uns

    • Leitbild
    • FWF-Film
    • Werte
    • Zahlen und Daten
    • Jahresbericht
    • Aufgaben und Aktivitäten
      • Forschungsförderung
        • Matching-Funds-Förderungen
      • Internationale Kooperationen
      • Studien und Publikationen
      • Chancengleichheit und Diversität
        • Ziele und Prinzipien
        • Maßnahmen
        • Bias-Sensibilisierung in der Begutachtung
        • Begriffe und Definitionen
        • Karriere in der Spitzenforschung
      • Open Science
        • Open-Access-Policy
          • Open-Access-Policy für begutachtete Publikationen
          • Open-Access-Policy für begutachtete Buchpublikationen
          • Open-Access-Policy für Forschungsdaten
        • Forschungsdatenmanagement
        • Citizen Science
        • Open-Science-Infrastrukturen
        • Open-Science-Förderung
      • Evaluierungen und Qualitätssicherung
      • Wissenschaftliche Integrität
      • Wissenschaftskommunikation
      • Philanthropie
      • Nachhaltigkeit
    • Geschichte
    • Gesetzliche Grundlagen
    • Organisation
      • Gremien
        • Präsidium
        • Aufsichtsrat
        • Delegiertenversammlung
        • Kuratorium
        • Jurys
      • Geschäftsstelle
    • Arbeiten im FWF
  • Zur Übersichtsseite Aktuelles

    • News
    • Presse
      • Logos
    • Eventkalender
      • Veranstaltung eintragen
      • FWF-Infoveranstaltungen
    • Jobbörse
      • Job eintragen
    • Newsletter
  • Entdecken, 
    worauf es
    ankommt.

    FWF-Newsletter Presse-Newsletter Kalender-Newsletter Job-Newsletter scilog-Newsletter

    SOCIAL MEDIA

    • LinkedIn, externe URL, öffnet sich in einem neuen Fenster
    • , externe URL, öffnet sich in einem neuen Fenster
    • Facebook, externe URL, öffnet sich in einem neuen Fenster
    • Instagram, externe URL, öffnet sich in einem neuen Fenster
    • YouTube, externe URL, öffnet sich in einem neuen Fenster

    SCILOG

    • Scilog — Das Wissenschaftsmagazin des Österreichischen Wissenschaftsfonds (FWF)
  • elane-Login, externe URL, öffnet sich in einem neuen Fenster
  • Scilog externe URL, öffnet sich in einem neuen Fenster
  • en Switch to English

  

Automatische Segmentierung und Charakterisierung von Audio Streams

Automatic Segmentation, Labelling, and Characterisation of Audio Streams

Gerhard Widmer (ORCID: 0000-0003-3531-1282)
  • Grant-DOI 10.55776/TRP307
  • Förderprogramm Translational-Research-Programm
  • Status beendet
  • Projektbeginn 01.02.2013
  • Projektende 30.06.2017
  • Bewilligungssumme 447.716 €

Wissenschaftsdisziplinen

Elektrotechnik, Elektronik, Informationstechnik (10%); Informatik (85%); Kunstwissenschaften (5%)

Keywords

    Music Information Retrieval (MIR), Machine Learning, Audio and Music Classification

Abstract Endbericht

Ziel des Projekts ist die Entwicklung von Computertechnologien für die automatische Segmentierung und Interpretation von Audio-Dateien oder Audio-Streams aus verschiedenen Teilen der Medienwelt: Musikdatenbanken, Radio-Streams (Web-basiert oder terrestrisch), TV-Übertragungen etc. Unser spezielles Augenmerk gilt Anwendungen, bei denen Musik im Mittelpunkt steht. Die zu entwickelnden Technologien sollen im wesentlichen folgende Probleme lösen können: (1) automatische Segmentierung von Audiostreams (mit oder ohne Hintergrundinformation) in kohärente oder sonst "sinnvolle" Einheiten (anhand allgemeiner Klang- oder Rhythmus-Ähnlichkeit oder -Homongenität, anhand verschiedener Arten von Inhalt (z.B. Musik, Sprache, Applaus), anhand wiederholten Auftretens ähnlicher Passagen, etc.); (2) die automatische Kategorisierung solcher Segmente in Klassen, und das Assoziieren von Segmenten und Klassen mit Meta-Daten (die beispielsweise auch aus dem Web gewonnen werden); und (3) die automatische Charakterisierung von Audiosegmenten und Sound-Objekten mit Beschreibungen, die für Menschen intuitiv verständlich sind. Zu diesem Zweck müssen Computermethoden entwickelt bzw. verbessert und optimiert werden, die Audiostreams analysieren, verschiedene Arten von Audio-Content erkennen (z.B. Musik, Gesang, Sprache, Applaus, Werbung, ...), Grenzen und Übergänge zwischen Songs detektieren, und Musikstücke und andere Segmente verschiedenen Kategorien zuordnen können; die zu diesem Zwecke Informationen aus verschiedensten Quellen zusammenführen (aus dem Audiosignal selbst, aus Datenbanken, dem Internet) und damit die Segmentierung verfeinern bzw. Meta- Information zu Segmenten gewinnen; die automatisch Audiofeatures entwickeln und optimieren, mit deren Hilfe genauere Segmentierung und Klassifikation möglich sind; und die lernen, intuitiv verständliche Beschreibungen von Audioinhalten aus solchen Audiofeatures abzuleiten (mittels Methoden des maschinellen Lernens). Die Motivation für diese Forschung liegt in einer großen Zahl von anspruchsvollen Anwendungen in der Medienwelt, die effiziente und robuste Audiosegmentierung und -klassifikation erfordern. Solche Anwendungsszenarien sind etwa Audio-Streaming-Services, Web-Stream-Analyse, automatisches Medien- Monitoring, inhalts- und beschreibungsbasierte Suche in großen Multimedien-Datenbanken, und auch künstlerische Anwendungen. Das starke und sehr konkrete Interesse an solchen Methoden dokumentiert sich u.a. darin, dass mehrere Firmen aus der internationalen Medienwelt bereit sind, unsere Forschung in diesem Projekt mit großen Mengen echter Daten und wertvoller Meta-Information zu unterstützen.

Ziel dieses Projektes war es, Techniken für die automatische Segmentierung und Interpretation von Audiodateien und -streams aus verschiedenen Medienwelten zu entwickeln: Musiksammlungen, Radioaufzeichnungen, TV-Sendungen etc. Ein besonderer Schwerpunkt lag dabei auf Aufnahmen, in denen Musik eine wichtige Rolle spielt. Wir haben in diesem Bereich sowohl Grundlagenforschung betrieben als auch kommerzielle Anwendungen entwickelt. Die Kerntechnologie in diesem Projekt bildeten Convolutional Neural Networks (CNNs), ein relativ neues und leistungsfähiges Werkzeug im Bereich des maschinellen Lernens, das wir als eine der ersten Forschungsgruppen für Musikaufnahmen eingesetzt haben. Im einzelnen haben wir damit die Probleme der Onset-Erkennung (Ermittlung des Anfangszeitpunktes beliebiger Musiknoten), der Musiksegmentierung (Ermittlung der Grenzen zwischen Teilen eines Musikstücks), der Gesangserkennung (Ermittlung der Bereiche eines Musikstückes, in denen Gesang vorkommt), und der Taktdetektion (Ermittlung der metrischen Struktur eines Musikstücks) behandelt. Unsere Arbeiten dienten als Inspiration für andere ForscherInnen und zeigen, wie vielseitig sich auf Spektrogrammen trainierte CNNs einsetzen lassen. Dies stellt die Notwendigkeit manuell entwickelter Algorithmen zur Audioanalyse in Frage. In allen von uns betrachteten Problemen haben wir den Stand der Technik übertroffen. Die größten Verbesserungen konnten wir dabei für die Musiksegmentierung erzielen, ein zentrales Anliegen für dieses Projekt. Wir konnten auch zeigen, dass sowohl für die Musiksegmentierung als auch für die Bestimmung der Ähnlichkeit zweier Musikstücke der Stand der Technik beinahe die Obergrenze erreicht hat, die sich aus der Mehrdeutigkeit der Problemstellung oder der Subjektivität menschlicher Wahrnehmung ergibt. Auf der Suche nach Lernmethoden, die auch mit wenigen Beispielen umgehen können, haben wir Verfahren zur automatischen Erweiterung von Trainingsdaten ("data augmentation") und der Verarbeitung grob annotierter Daten entwickelt. Im Sinne des Projektziels haben wir außerdem Forschungsrichtungen mit hoher Anwendungsorientierung verfolgt: Wir haben Deep Learning verwendet, um einen existierenden Algorithmus für Musikempfehlungen auf die Größenordnung kommerzieller Sammlungen hin zu beschleunigen, wir haben Musikempfehlungen mit einer aus der Sprachverarbeitung entlehnten Technik verbessert, wir haben eine neue Methode zur Identifikation von Musikstücken entwickelt, die robust gegenüber Änderungen der Tonhöhe und des Tempos ist, und wir haben Methoden zur Erkennung von Gesang, Musik, Sprache und Applaus in Echtzeit entwickelt. Mehrere dieser Methoden werden bereits kommerziell verwendet oder getestet. Außerdem haben wir an einem internationalen Wettbewerb zur Erkennung von Vogelrufen in Audioaufnahmen teilgenommen und ihn gewonnen. Das zeigt, dass die von uns für Musikanalyse verwendete Methodik auch für Audioverarbeitung im allgemeinen einsetzbar ist.

Forschungsstätte(n)
  • ÖFAI - Österreichisches Forschungsinstitut für Artifical Intelligence - 100%

Research Output

  • 394 Zitationen
  • 18 Publikationen
Publikationen
  • 2016
    Titel The Problem of Limited Inter-rater Agreement in Modelling Music Similarity
    DOI 10.1080/09298215.2016.1200631
    Typ Journal Article
    Autor Flexer A
    Journal Journal of New Music Research
    Seiten 239-251
    Link Publikation
  • 2015
    Titel Exploring Data Augmentation for Improved Singing Voice Detection with Neural Networks.
    Typ Conference Proceeding Abstract
    Autor Grill T
    Konferenz Proceedings of the 16th International Society for Music Information Retrieval Conference (ISMIR), Malaga, Spain
  • 2015
    Titel Music Boundary Detection Using Neural Networks on Combined Features and Two-Level Annotations.
    Typ Conference Proceeding Abstract
    Autor Grill T
    Konferenz Proceedings of the 16th International Society for Music Information Retrieval Conference (ISMIR), Malaga, Spain
  • 2015
    Titel A Low-Latency, Real-Time-Capable Singing Voice Detection Method with Lstm Recurrent Neural Networks
    DOI 10.1109/eusipco.2015.7362337
    Typ Conference Proceeding Abstract
    Autor Lehner B
    Seiten 21-25
    Link Publikation
  • 2015
    Titel Music Boundary Detection Using Neural Networks on Spectrograms and Self-Similarity Lag Matrices
    DOI 10.1109/eusipco.2015.7362593
    Typ Conference Proceeding Abstract
    Autor Grill T
    Seiten 1296-1300
    Link Publikation
  • 2017
    Titel Two Convolutional Neural Networks for Bird Detection in Audio Signals
    DOI 10.23919/eusipco.2017.8081512
    Typ Conference Proceeding Abstract
    Autor Grill T
    Seiten 1764-1768
    Link Publikation
  • 2016
    Titel Learning To Pinpoint Singing Voice From Weakly Labeled Examples.
    DOI 10.5281/zenodo.1417650
    Typ Other
    Autor Schlüter J
    Link Publikation
  • 2016
    Titel Learning To Pinpoint Singing Voice From Weakly Labeled Examples.
    DOI 10.5281/zenodo.1417651
    Typ Other
    Autor Schlüter J
    Link Publikation
  • 2016
    Titel Learning to Pinpoint Singing Voice from Weakly Labeled Examples.
    Typ Conference Proceeding Abstract
    Autor Schlüter J
    Konferenz Proceedings of the 17th International Society for Music Information Retrieval Conference (ISMIR), New York, USA
  • 2014
    Titel On the Reduction of False Positives in Singing Voice Detection
    DOI 10.1109/icassp.2014.6855054
    Typ Conference Proceeding Abstract
    Autor Lehner B
    Seiten 7480-7484
  • 2014
    Titel Improved Musical Onset Detection with Convolutional Neural Networks
    DOI 10.1109/icassp.2014.6854953
    Typ Conference Proceeding Abstract
    Autor Schlüter J
    Seiten 6979-6983
  • 2014
    Titel On World Construction, Variation: Duoddaris.
    Typ Conference Proceeding Abstract
    Autor Grill T
    Konferenz Proceedings of the Second conference on Computation, Communication, Aesthetics and X (xCoax), Porto, Portugal
  • 2015
    Titel A Low-Latency, Real-Time-Capable Singing Voice Detection Method With Lstm Recurrent Neural Networks
    DOI 10.5281/zenodo.38849
    Typ Other
    Autor Böck S
    Link Publikation
  • 2015
    Titel Robust Quad-Based Audio Fingerprinting
    DOI 10.1109/taslp.2015.2509248
    Typ Journal Article
    Autor Sonnleitner R
    Journal IEEE/ACM Transactions on Audio, Speech, and Language Processing
    Seiten 409-421
  • 2013
    Titel Musical Onset Detection with Convolutional Neural Networks.
    Typ Conference Proceeding Abstract
    Autor Böck S
    Konferenz 6th International Workshop on Machine Learning and Music (MML) in conjunction with the European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECML/PKDD), Prague, Czech Republic
  • 2013
    Titel Learning Binary Codes for Efficient Large-Scale Music Similarity Search.
    Typ Conference Proceeding Abstract
    Autor Schlüter J
    Konferenz Proceedings of the 14th International Society for Music Information Retrieval Conference (ISMIR), Curitiba, Brazil
  • 2015
    Titel Improving Voice Activity Detection in Movies.
    Typ Conference Proceeding Abstract
    Autor Lehner B
    Konferenz Proceedings of the 16th Annual Conference of the International Speech Communication Association (INTERSPEECH 2015), Dresden, Germany.
  • 2014
    Titel Boundary Detection in Music Structure Analysis using Convolutional Neural Networks.
    Typ Conference Proceeding Abstract
    Autor Grill T Et Al
    Konferenz Proceedings of the 15th International Society for Music Information Retrieval Conference (ISMIR), Taipei, Taiwan

Entdecken, 
worauf es
ankommt.

Newsletter

FWF-Newsletter Presse-Newsletter Kalender-Newsletter Job-Newsletter scilog-Newsletter

Kontakt

Österreichischer Wissenschaftsfonds FWF
Georg-Coch-Platz 2
(Eingang Wiesingerstraße 4)
1010 Wien

office(at)fwf.ac.at
+43 1 505 67 40

Allgemeines

  • Jobbörse
  • Arbeiten im FWF
  • Presse
  • Philanthropie
  • scilog
  • Geschäftsstelle
  • Social Media Directory
  • LinkedIn, externe URL, öffnet sich in einem neuen Fenster
  • , externe URL, öffnet sich in einem neuen Fenster
  • Facebook, externe URL, öffnet sich in einem neuen Fenster
  • Instagram, externe URL, öffnet sich in einem neuen Fenster
  • YouTube, externe URL, öffnet sich in einem neuen Fenster
  • Cookies
  • Hinweisgeber:innensystem
  • Barrierefreiheitserklärung
  • Datenschutz
  • Impressum
  • IFG-Formular
  • Social Media Directory
  • © Österreichischer Wissenschaftsfonds FWF
© Österreichischer Wissenschaftsfonds FWF