OATAO - Open Archive Toulouse Archive Ouverte Open Access Week

Localisation sonore par attention et apprentissage profond semi-supervisé

Moreaux, Marc and Garcia Ortiz, Michaël and Ferrané, Isabelle and Lerasle, Frédéric Localisation sonore par attention et apprentissage profond semi-supervisé. (2018) In: Congrès Francophone de Reconnaissance des Formes et Intelligence Artificielle (RFIA), 26 June 2018 - 28 June 2018 (Marne-la-Vallée, France).

[img]
Preview
(Document in French)

PDF (Author's version) - Requires a PDF viewer such as GSview, Xpdf or Adobe Acrobat Reader
226kB

Official URL: https://rfiap2018.ign.fr/sites/default/files/ARTICLES/RFIAP_2018/RFIAP_2018_Moreaux_Localisation.pdf

Abstract

Afin d’interagir avec l’humain et son environnement, un robot de service doit pouvoir percevoir des informations visuelles et sonores de la scène qu’il observe ou à laquelle il participe. Il doit notamment être capable de repérer des éléments saillants dans les différents signaux captés : localisation spatiale dans une image ou temporelle dans un flux audio. L’aspect "datavore"des méthodes dites d’apprentissage profond, et le coût considérable de l’annotation des données, militent pour l’utilisation de méthodes semi-supervisées, capables d’une part d’extraire de l’information de manière supervisée, et d’autre part de prédire l’organisation spatiale ou temporelle des événements présents dans le signal traité. Dans le domaine de la vision, ce concept a été utilisé à plusieurs reprises pour effectuer de la localisation spatiale d’objet ou d’activité sur des images [1, 2, 3] à partir des signaux 2D bruts (pixels). Au niveau audio, la tendance consistant à s’affranchir des représentations bas niveau de type MFCC [4] a fait son apparition, permettant ainsi un traitement direct du signal audio brut [5, 6, 7, 8] et laissant aux réseaux de neurones la tâche d’extraire les caractéristiques représentatives optimales des signaux traités. Dans cet article,nous proposons un réseau convolutionnel, associé à un mécanisme d’attention, permettant l’exploitation du signal audio brut,afin non seulement de classifier, mais aussi de localiser temporellement un événement sonore présent dans le flux traité, et ce de manière semi-supervisé.

Item Type:Conference or Workshop Item (Paper)
HAL Id:hal-02289999
Audience (conference):National conference proceedings
Uncontrolled Keywords:
Institution:French research institutions > Centre National de la Recherche Scientifique - CNRS (FRANCE)
Université de Toulouse > Institut National Polytechnique de Toulouse - Toulouse INP (FRANCE)
Other partners > Softbank Robotics Europe (FRANCE)
Université de Toulouse > Université Toulouse III - Paul Sabatier - UT3 (FRANCE)
Université de Toulouse > Université Toulouse - Jean Jaurès - UT2J (FRANCE)
Université de Toulouse > Université Toulouse 1 Capitole - UT1 (FRANCE)
Laboratory name:
Statistics:download
Deposited On:10 Sep 2019 12:34

Repository Staff Only: item control page