Mozilla a créé Deep Speech, un moteur de machine learning open source et Common Voice, la plus grande base de données vocales collaborative pour le développement de technologies vocales et assistants vocaux open source.

Deep Speech est un moteur de machine learning permettant de développer soi-même une solution vocale ou un assistant vocal open source. Common Voice est une plateforme participative, publique et accessible qui enregistre et met à disposition des données vocales de haute qualité à l’attention des développeurs de technologies à commande vocale. En d’autres termes, Deep Speech est le moteur qui fait fonctionner la technologie vocale et Common Voice permet d’apprendre à la machine comment parlent les humains.

Reconnaissance vocale – DeepSpeech et Common Voice

Pourquoi développer un assistant vocal open source ?

La voix devient de plus en plus importante dans nos technologies or actuellement, ces technologies vocales sont détenues très majoritairement par les GAFAM comme Amazon Alexa, Google Assistant, Apple Siri ou encore Microsoft. Les petits acteurs du vocal comme les développeurs d’assistants vocaux et solutions de tous types n’ont donc d’autres choix que de développer leurs assistants à partir des plateformes des géants du web. A savoir que les jeux de données vocales enregistrées par Google ou Amazon par exemple sont leurs propriétés exclusives. On ne peut donc pas y avoir accès pour développer sa propre solution vocale.

Quelles sont les difficultés pour créer un assistant vocal open source ?

  • Les gros jeux de données sont privés et détenus par les sociétés grands acteurs du web.
  • L’accès aux bases de données vocales commerciales coûtent chères et la dépendance aux services tiers peuvent être problématiques sur le long terme.
  • La reconnaissance vocale n’est accessible que pour les langues dont les marchés sont rentables.

Pour résoudre cette problématique, Mozilla a créé Common Voice pour créer la plus grande base de données open source accessible et participative pour permettre de ne pas laisser les technologies vocales exclusivement aux mains des GAFAM. Le téléchargement de données vocales open source permettraient aux startups vocales et développeurs de s’approprier la technologie tout en diversifiant les solutions vocales. Mozilla est une fondation à but non lucratif dont l’objectif est de se battre pour la liberté des utilisateurs sur internet et l’ouverture d’internet à tous.

Comment fonctionne Common Voice ?

Deep Speech est un système de reconnaissance vocale basé sur la technologie du machine learning. Pour que la reconnaissance vocale soit qualitative, il est nécessaire d’entrainer le système de machine learning avec un grand de jeu de données vocales et textuelles et ce pour chaque langue. Ainsi pour que DeepSpeech fonctionne correctement, il faut beaucoup d’extraits vocaux enregistrés et de transcriptions correspondantes. Le problème est qu’il y a peu d’ensembles de données publiques d’échelle suffisante. On estime qu’il faut 10 000 heures d’enregistrements vocaux par langue pour une reconnaissance vocale qualitative.

Pour ce faire, Mozilla a donc créé Common Voice, une plateforme web permettant d’enregistrer les données vocales de tous les contributeurs et contributrices afin d’enrichir ce jeu de données. Voyons maintenant comment fonctionne Common Voice ?

  1. Enregistrez votre voix en lisant des phrases issues de banque de phrases Creative Commons.
  2. Des contributeurs écoutent les enregistrements audios et vérifient la bonne locution et la qualité de ces échantillons. L’échantillon est approuvé ou refusé.
  3. Si l’enregistrement vocal obtient deux validations, il est intégré au jeu de données Common Voice.
  4. Si l’enregistrement vocal obtient deux refus, il est placé dans le cimetière des échantillons.
  5. Téléchargez le jeu de données vocales validé ou refusé dans Jeux de données.

Contribuer à Common Voice et télécharger les jeux de données vocales

Vous pouvez participer à création de jeux de données vocales sur le site web Common Voice accessible sur ordinateur ou smartphone. L’interface, très intuitive, vous permettra d’enregistrer votre voix ou valider les enregistrements des autres participants.

Interface Common Voice – Parler ou Ecouter

L’idée est d’avoir une interface très simple et facile d’utilisation pour favoriser l’accessibilité à tous. L’objectif : avoir la plus grande diversité de locution dans une même langue pour aboutir à une reconnaissance vocale fiable. La diversité de locution implique les hommes, femmes, enfants, personnes en situation de handicap, personnes âgées mais aussi les personnes avec un accent du sud ou du nord. En bref, toutes les manières de communiquer au sein d’une communauté parlant la même langue. Les données sont bien sûr anonymisées et non rattachées aux enregistrements.

Pour créer la base de données la plus riche et représentative d’une langue, il est recommandé de renseigner son profil sur Common Voice. En effet, en renseignant votre âge, genre et origine, cela permet d’obtenir des statistiques sur les variétés d’extraits enregistrés, et permet de savoir le type d’enregistrements qu’il manque. Vous pourrez par la suite enregistrer votre voix et valider les enregistrements des autres contributeurs.

Comment créer un compte Common Voice ?

  1. Aller sur voice.mozilla.org/fr
  2. Cliquez sur Se connecter/ S’inscrire
  3. Une fenêtre de création de compte s’ouvre alors, vous pouvez vous connecter grâce à une adresse mail, votre compte Firefox, GitHub ou Google. Suivez les consignes.
  4. Dans votre profil, renseignez votre nom d’utilisateur, votre fourchette d’âge, votre genre, votre langue maternelle ainsi que votre accent.
  5. Ajoutez si vous le souhaitez une photo d’avatar. Vous pourrez plus tard modifier vos informations comme souhaité.
Créer un compte sur Common Voice

Comment enregistrer sa voix sur Common Voice ?

  1. Cliquez sur Parler
  2. Une phrase à lire s’affiche. Vous pouvez la passer en cliquant sur Passer en bas à droite si elle ne vous convient pas.
  3. Si la phrase qui s’affiche vous convient, cliquez sur le micro. Une petite fenêtre d’activation de votre micro s’ouvre. Cliquez sur Accepter.
  4. Vous êtes maintenant prêt à participer ! Il ne vous reste plus qu’à appuyer sur le micro pour lancer l’enregistrement puis sur l’icône Stop une fois votre diction terminée.
  5. Vous pouvez aussi réécouter votre extrait pour le valider ou le supprimer avant de passer au suivant.
  6. Chaque session dure 5 extraits. Vous pouvez en faire autant que vous le souhaitez.
Enregistrer sa voix sur Common Voice

Comment valider des enregistrements vocaux sur Common Voice ?

  1. Cliquez sur Écouter
  2. Une phrase à lire s’affiche. Vous pouvez la passer en cliquant sur Passer en bas à droite si elle ne vous convient pas.
  3. Si la phrase qui s’affiche vous convient, cliquez sur Play pour l’écouter.
  4. Si la phrase dictée est exacte et bien audible à la phrase écrite cliquez sur Oui.
  5. Si la phrase dictée est incompréhensible et différente du texte ou inaudible, cliquez sur Non.
  6. Chaque session dure 5 extraits. Vous pouvez en faire autant que vous le souhaitez.
Valider les extraits vocaux sur Common Voice

Comment télécharger le jeu de données vocales Common Voice ?

Depuis 2017, Common Voice a enregistré jusqu’à ce jour 3 600 heures d’enregistrements vocaux validés à partir de plus de 42 000 contributeurs, toutes langues confondues. En anglais, le jeu de données contient 1 400 heures d’enregistrement pour 1 100 heures validées.

Le jeu de données français quant à lui est de 366 heures d’enregistrement pour 309 heures validées à ce jour. Il reste encore beaucoup d’enregistrements vocaux à faire pour aboutir à la maturité de la technologie vocale. Pour télécharger les jeux de données vocales, c’est très simple :

  1. Rendez-vous sur le site: voice.mozila.org/fr
  2. Cliquez sur Jeux de données
  3. Dans l’onglet Langue, sélectionnez la langue choisie parmi les 29 langues disponibles.
  4. Saisissez votre adresse électronique pour accéder au téléchargement
  5. Cliquez sur Télécharger
Télécharger les jeux de données Common Voice

Que peut-on créer avec DeepSpeech et Common Voice ?

À ce jour, Deep Speech est capable de convertir en direct et avec précision les paroles en texte – Speech To Text. Il peut être utilisé en open source par exemple pour transcrire des conférences, appels téléphoniques ou podcasts. Il serait aussi possible de créer des assistants vocaux pour réaliser des actions telles qu’expliquées dans notre guide complet de l’assistant vocal.

Jusqu’à présent, Deep Speech a déjà permis l’émergence de projets non-Mozilla comme :

  • Mycroft, un assistant vocal open source.
  • Leon, un assistant personnel open source.
  • FusionPBX, un système de commutation téléphonique installé dans une organisation privée et servant à transcrire des messages téléphoniques.

À l’avenir, Deep Speech sera disponible sur les smartphones, enceinte connectée, télévision et autres appareils connectés en ligne et hors ligne et non Mozilla. Avec Deep Speech et Common Voice, Mozilla poursuit sa mission de valorisation de l’open source et l’open innovation.


Qu’est-ce que Deep Speech ?

Deep Speech est un moteur de machine learning open source utilisable pour créer un Assistant vocal ou une solution vocale.

Qu’est-ce que Common Voice ?

Common Voice est un jeu de données vocales open source utilisable pour développer sa propre technologie vocale.

Combien de langues sont disponibles sur Common Voice ?

29 langues sont disponibles sur Common Voice.

Combien d’heures d’extraits vocaux faut-il pour créer un système de reconnaissance vocale ?

Il faut 10 000 heures pour d’audio pour créer un système de reconnaissance vocale de qualité.

Les jeux de données vocales Common Voice sont-ils open source ?

Oui, les jeux de données vocales Common Voice sont libres d’utilisation en Creative Commons 0.

Qu’est-ce qu’une licence CC0 ?

La licence Creative Commons 0 est une licence libre du domaine public.

D’où proviennent les textes de Common Voice ?

Les textes proviennent de contributeurs, de débats de l’Assemblée Nationale, de pièces de théâtre en licence libre CC0.

2 Shares:
Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

You May Also Like
Assistant vocal Bixby sur Samsung Galaxy
Lire

Samsung lance sa marketplace Bixby

Bixby, l’assistant pour vos services personnalisés Bixby est la marketplace de l’assistant conversationnel Samsung conçue pour aider les…