OATAO - Open Archive Toulouse Archive Ouverte Open Access Week

Comparaison de systèmes automatiques de reconnaissance grand vocabulaire appliqué à de la parole pathologique

Farinas, Jérome and Pellegrini, Thomas and Pinquier, Julien Comparaison de systèmes automatiques de reconnaissance grand vocabulaire appliqué à de la parole pathologique. (2019) In: 8e Journees de Phonetique Clinique (JPC 2019), 14 May 2019 - 16 May 2019 (Mons, Belgium).

[img]
Preview
(Document in French)

PDF (Author's version) - Requires a PDF viewer such as GSview, Xpdf or Adobe Acrobat Reader
142kB

Abstract

Les performances actuelles des systèmes automatiques de reconnaissance de la parole grand vocabulaire permettent d'envisager des applications dans le domaine de la santé. Cela permettrait d'envisager des automatisations de divers tests (par exemple la fluence verbale) mais également d'apporter des informations objectives d'assez haut niveau issues de la voix (par exemple des mesures d'intelligibilité). Mais comment se comportent ces systèmes automatiques de reconnaissance de la parole sur des voix pathologiques ? Une solution entièrement automatique est- elle envisageable ? Dans le cadre d'une étude financée par la Société d'Accélération et de Transfert Technologique Toulouse Tech Transfert, une évaluation de systèmes de transcription académiques et industriels a été menée sur un corpus de parole de 385 minutes. Les données sont issues d'enregistrements produits dans différentes conditions : différents styles de parole, environnements bruités, locuteurs avec accents régionaux, personnes atteintes de cancers des voix aériennes supérieures présentant différents degrés de sévérité (extraits du corpus PARALOTHEQUE/C2SI (Astesano 2018)) et également des enregistrements de parole simulant différents degrés de presbyacousie (projet ARCHEAN/Projet AGILE IT (Fontan 2017)). Dix systèmes ont ainsi été évalués : Authôt (société française), Bing de Microsoft, Google, IBM ViaVoice, Nuance, Speechmatics, Sphinx, Wit ainsi que les laboratoires de recherche LIA et IRIT. Aucune adaptation particulière n'a été effectuée sur ce type de données. En effet, une phase d'adaptation permettrait de mettre en meilleure adéquation les modèles (acoustiques et de langage) utilisés par les systèmes de reconnaissance et les enregistrements qui leur sont soumis. Les performances ne sont bien évidemment pas aussi bonnes que celles obtenues sur des enregistrements de parole en conditions normales: environ 94 % de bonnes reconnaissances sur un corpus de 12.500 h d'entrainement (Chiu, 2018). Par exemple, le meilleur système atteint seulement 38 % de taux de reconnaissance de mots sur des voix cancer. Les résultats présentés ici sont donc « bruts » mais permettent d'avoir une vue sur les performances que nous pouvons obtenir directement en utilisant ces services/systèmes. Cela permet également de mesurer l'effort à fournir pour collecter et annoter des données en quantité suffisante pour adapter et rendre pleinement utilisables de tels systèmes afin de traiter des données de voix pathologique.

Item Type:Conference or Workshop Item (Paper)
HAL Id:hal-02421557
Audience (conference):International conference proceedings
Uncontrolled Keywords:
Institution:Université de Toulouse > Institut National Polytechnique de Toulouse - Toulouse INP (FRANCE)
French research institutions > Centre National de la Recherche Scientifique - CNRS (FRANCE)
Université de Toulouse > Université Toulouse III - Paul Sabatier - UT3 (FRANCE)
Université de Toulouse > Université Toulouse - Jean Jaurès - UT2J (FRANCE)
Université de Toulouse > Université Toulouse 1 Capitole - UT1 (FRANCE)
Laboratory name:
Statistics:download
Deposited On:13 Dec 2019 12:20

Repository Staff Only: item control page