Qu’est-ce qu’un assistant vocal ?

Commande vocale, assistant vocal, assistant conversationnel, assistant intelligent, smartbot, talkbot, voicebot, chatterbot, bot, interactive agent, conversational interface… De nombreuses appellations pour ces systèmes qui fonctionnent sur le principe de la technologie vocale.

La technologie vocale qu’on pourrait aussi appeler reconnaissance vocale ou traitement du langage naturel fait partie d’une branche de l’intelligence artificielle. Elle consiste à utiliser un système informatique nous permettant d’entretenir un dialogue avec un ordinateur par le biais d’un système appelé Assistant Conversationnel ou Assistant vocal.

Comment dialoguer avec un assistant vocal ?

Il y a encore peu de temps, les systèmes traditionnels nécessitaient des entrées structurées et prévisibles pour fonctionner correctement, ce qui obligeait l’utilisateur à se conformer à la machine. Ce système similaire à la commande vocale rendait l’expérience interactive difficile si les utilisateurs n’avaient pas connaissance au préalable des chemins de conversations possibles. Cependant grâce aux avancées technologiques récentes en Intelligence Artificielle dans ce domaine, nous voyons apparaître des logiciels dits conversationnels qui permettent une bien meilleure interaction homme/machine en permettant à l’utilisateur de parler comme il parlerait à une autre personne.

Le terme “Assistant Vocal” revient le plus souvent. Un Assistant Vocal ou Assistant Conversationnel désigne une application utilisant la reconnaissance vocale et l’intelligence artificielle pour offrir un service automatisé fondé sur l’interaction vocale. Il a 2 bénéfices notables:

  • Interagir sans écran
  • Obtenir une réponse instantannée

Il y a 2 moyens pour communiquer avec un Assistant Vocal, soit à l’écrit ou bien à l’oral. Il est aussi possible de s’adresser à l’Assistant par la voix et recevoir la réponse par écrit.

Comment fonctionne un Assistant Vocal ?

Pour pouvoir dialoguer et comprendre le langage naturel, les systèmes conversationnels fonctionnent grâce à un puissant moteur d’Intelligence Artificielle. Lorsqu’on parle de langage en Intelligence artificielle, nous avons 3 acronymes principaux qui la compose:

  1. NLP – Natural Language Processing
  2. NLU – Natural Language Understanding
  3. NLG – Natural Language Generation

Comme c’est le cas pour les échanges humains, ces 3 systèmes complémentaires permettent de faire fonctionner ce système conversationnel selon ces 4 étapes.

  1. L’utilisateur parle ou écrit au travers d’un appareil connecté intégrant un assistant vocal
  2. NLP intègre et balise la requête textuelle ou vocale de l’utilisateur en transformant le son en phrase compréhensible pour l’ordinateur
  3. NLU analyse et comprend le sens des informations de la requête et détermine les actions
  4. NLG génère l’action et exécute la réponse qui peut être soit une réponse textuelle à une question (réponse conversationnelle), soit une action physique comme allumer une ampoule (Internet Of Things)
Fonctionnement d'un moteur de traitement et compréhension vocal
Moteur

Natural Language Processing

Natural Language Processing (ou Traitement Automatique du Langage Naturel) intègre le contenu non structuré d’une phrase énoncée ou écrite par un utilisateur et le transforme en une structure de données compréhensible par le système conversationnel en utilisant un algorithme. Après que l’utilisateur ait émis une requête vocale ou textuelle au système, le NLP intègre l’information et le texte est décortiqué, balisé et classifié pour savoir quelle est l’intention de l’utilisateur.

analyse et balisage de phrase

Cette première étape d’analyse peut déjà rencontrer quelques erreurs de conversion selon les types de logiciels utilisés plus ou moins évolués. Les erreurs les plus courantes à ce stade proviennent souvent du fait de:

  • Erreur de conversion du parlé à l’écrit (Speach To Text)
  • Erreur de compréhension textuelle (Faute d’orthographe)
  • Langage non reconnu par le système
  • Manière de parler (accents, lenteur, rapidité de locution, …)
  • Structures lexicales et de grammaire spécifique
  • Originalité humaine dans le parlé et l’écrit

Partant du principe que vous ayez été bien conseillé pour votre logiciel, le traitement de l’information à été réalisée sans soucis. Pour le moment, le système n’a pas encore établi le sens de la phrase. C’est à ce moment que va intervenir le système de compréhension.

Natural Language Understanding

Une fois la phrase structurée et balisée, le NLU (ou Compréhension du Langage Naturel) va comprendre et interpréter le sens de la phrase dans son contexte (context) et ses entités (entity) qui correspondent au sujet, verbe, date, lieux, nombre, unité,…

Comment fonctionne la compréhension vocale
NLU

C’est l’étape la plus délicate et compliquée en IA de réussir à comprendre le sens réel de l’intention du locuteur.

Les erreurs d’ambiguïté fréquentes dans le langage

  • Homonymie phonétique
    • “Cet homme a des vis / vices”
  • Homonymie lexicale
    • “J’ai un bon avocat” – Le professionnel ou le fruit ?
  • Polysémique
    • “Paul sent la rose”
    • Son parfum sent la rose ?
    • Paul hume la rose ?
    • Paul effleure la rose ?
  • Syntaxique
    • “Elle emporte les clefs de la maison au garage”
    • (Les clefs [de la maison]¹ sont emportées [de la maison]² au garage)
  • Référentielle pronominale:
    • Lise alla vers Léa… L’une dit à l’autre: “je suis heureuse”
    • Qui est heureuse ?
  • Ainsi que les erreurs provenant d’une mauvaise orthographe ou syntaxe

Partant du principe qu’on soit passé au travers des problèmes de compréhension possibles, notre phrase à donc été décortiquée, balisée et analysée. Notre système de NLU sait maintenant quelle réponse informative donner il doit encore créer la réponse formelle.

Natural Language Generation

Ayant tous les éléments de compréhension nécessaires, le NLG (ou Génération Automatique de Langage Naturel) est maintenant en mesure de générer la réponse relative à la requête de l’utilisateur !

Comment fonctionne la génération automatique de langage
NLP

Quelles réponses peut me donner un Assistant vocal ?

  1. Réponse vocale synthétique (SSML)
  2. Réponse vocale enregistrée (audio)
  3. Réponse Textuelle (TTS)
  4. Rich response (images, urls, carousel, vidéo, podcast, …)

Avant d’avancer dans la personnalisation de vos réponses il faudra vérifier qu’elles respectent certaines contraintes énoncées ci-dessous. Si vous remplissez la check-list ci-dessous vous pourrez vous lancer dans la personnalisation des différents types de réponses.

Check-list d’une réponse vocale optimisée

  • Absence d’ambiguïté
  • Cohérence du propos et du champs lexical
  • Bonne rhétorique
  • Prise en compte des contraintes sociales, discursives et pragmatiques
  • Adaptation des formats textuels, audio et graphiques au spécificités techniques des logiciels et appareils connectés

Afin de rendre l’expérience conversationnelle optimale et attractive, nous verrons les bonnes questions à se poser pour définir la personnalité de son Assistant afin qu’il s’adapte au mieux à l’image de marque et aux message vocal et visuel qu’il véhicule.

Article coming soon

0 Shares:
Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

You May Also Like