Moreaux, Marc and Garcia Ortiz, Michaël and Ferrané, Isabelle
and Lerasle, Frédéric
Localisation sonore par attention et apprentissage profond semi-supervisé.
(2018)
In: Congrès Francophone de Reconnaissance des Formes et Intelligence Artificielle (RFIA), 26 June 2018 - 28 June 2018 (Marne-la-Vallée, France).
|
(Document in French)
PDF (Author's version) - Requires a PDF viewer such as GSview, Xpdf or Adobe Acrobat Reader 226kB |
Official URL: https://rfiap2018.ign.fr/sites/default/files/ARTICLES/RFIAP_2018/RFIAP_2018_Moreaux_Localisation.pdf
Abstract
Afin d’interagir avec l’humain et son environnement, un robot de service doit pouvoir percevoir des informations visuelles et sonores de la scène qu’il observe ou à laquelle il participe. Il doit notamment être capable de repérer des éléments saillants dans les différents signaux captés : localisation spatiale dans une image ou temporelle dans un flux audio. L’aspect "datavore"des méthodes dites d’apprentissage profond, et le coût considérable de l’annotation des données, militent pour l’utilisation de méthodes semi-supervisées, capables d’une part d’extraire de l’information de manière supervisée, et d’autre part de prédire l’organisation spatiale ou temporelle des événements présents dans le signal traité. Dans le domaine de la vision, ce concept a été utilisé à plusieurs reprises pour effectuer de la localisation spatiale d’objet ou d’activité sur des images [1, 2, 3] à partir des signaux 2D bruts (pixels). Au niveau audio, la tendance consistant à s’affranchir des représentations bas niveau de type MFCC [4] a fait son apparition, permettant ainsi un traitement direct du signal audio brut [5, 6, 7, 8] et laissant aux réseaux de neurones la tâche d’extraire les caractéristiques représentatives optimales des signaux traités. Dans cet article,nous proposons un réseau convolutionnel, associé à un mécanisme d’attention, permettant l’exploitation du signal audio brut,afin non seulement de classifier, mais aussi de localiser temporellement un événement sonore présent dans le flux traité, et ce de manière semi-supervisé.
Item Type: | Conference or Workshop Item (Paper) |
---|---|
HAL Id: | hal-02289999 |
Audience (conference): | National conference proceedings |
Uncontrolled Keywords: | |
Institution: | French research institutions > Centre National de la Recherche Scientifique - CNRS (FRANCE) Université de Toulouse > Institut National Polytechnique de Toulouse - Toulouse INP (FRANCE) Other partners > Softbank Robotics Europe (FRANCE) Université de Toulouse > Université Toulouse III - Paul Sabatier - UT3 (FRANCE) Université de Toulouse > Université Toulouse - Jean Jaurès - UT2J (FRANCE) Université de Toulouse > Université Toulouse 1 Capitole - UT1 (FRANCE) |
Laboratory name: | |
Statistics: | download |
Deposited On: | 10 Sep 2019 12:34 |
Repository Staff Only: item control page