Assistant virtuel utilisant Python

Assistant virtuel utilisant Python – Un travail de projet de dernière année

Un projet de dernière année sur « l’assistant virtuel utilisant Python » a été soumis par Kavya Damarla (du Chalapathi Institute Of Engineering And Technology, Guntur, Andhra Pradesh) à extrudesign.com.

Abstrait

Dans cette ère moderne, la vie quotidienne est devenue plus intelligente et liée à la technologie. Nous connaissons déjà certaines assistances vocales comme google, Siri. etc. Désormais, dans notre système d’assistance vocale, il peut servir de prescripteur médical de base, de rappel d’horaire quotidien, de rédacteur de notes, de calculatrice et d’outil de recherche. Ce projet fonctionne sur l’entrée vocale et donne une sortie par la voix et affiche le texte à l’écran. L’agenda principal de notre assistance vocale rend les gens intelligents et donne des résultats instantanés et calculés. L’assistance vocale prend l’entrée vocale via notre microphone (Bluetooth et microphone filaire) et convertit notre voix en un langage compréhensible par l’ordinateur, donne les solutions requises et les réponses demandées par l’utilisateur. Cette assistance se connecte au World Wide Web pour fournir des résultats que l’utilisateur a interrogés. L’algorithme de traitement du langage naturel aide les machines informatiques à communiquer en utilisant le langage humain naturel sous de nombreuses formes.

Introduction

Aujourd’hui, le développement de systèmes d’intelligence artificielle (IA) capables d’organiser une interaction homme-machine naturelle (par la voix, la communication, les gestes, les expressions faciales, etc.) gagne en popularité. L’un des plus étudiés et populaires était la direction de l’interaction, basée sur la compréhension de la machine par la machine du langage humain naturel. Ce n’est plus un humain qui apprend à communiquer avec une machine, mais une machine apprend à communiquer avec un humain, en explorant ses actions, ses habitudes, son comportement et en essayant de devenir son assistant personnalisé.

Les assistants virtuels sont des logiciels qui vous aident à faciliter vos tâches quotidiennes, telles que l’affichage de bulletins météo, la création de soldes, la création de listes de courses, etc. Ils peuvent prendre des commandes par texte (chatbots en ligne) ou par la voix. Les assistants intelligents basés sur la voix ont besoin d’un mot d’invocation ou d’un mot de réveil pour activer l’auditeur, suivi de la commande. Nous avons tellement d’assistants virtuels, tels que Siri d’Apple, Alexa d’Amazon et Cortana de Microsoft.

Ce système est conçu pour être utilisé efficacement sur les ordinateurs de bureau. Les logiciels d’assistants personnels améliorent la productivité de l’utilisateur en gérant les tâches de routine de l’utilisateur et en fournissant à l’utilisateur des informations à partir d’une source en ligne.

Ce projet a été lancé en partant du principe qu’il existe une quantité suffisante de données et d’informations librement disponibles sur le Web qui peuvent être utilisées pour créer un assistant virtuel qui a accès à la prise de décisions intelligentes pour les activités de routine des utilisateurs.

Mots-clés : Assistant virtuel utilisant Python, AI, Assistance numérique, Assistance virtuelle, Python

II. Travaux connexes

Chaque développeur d’entreprise de l’assistant intelligent applique ses propres méthodes et approches de développement, ce qui à son tour affecte le produit final. Un assistant peut synthétiser la parole de manière plus qualitative, un autre peut effectuer des tâches de manière plus précise et sans explications ni corrections supplémentaires, d’autres peuvent effectuer une gamme de tâches plus restreinte, mais avec plus de précision et selon les souhaits de l’utilisateur. De toute évidence, il n’y a pas d’assistant universel qui effectuerait toutes les tâches aussi bien. L’ensemble des caractéristiques d’un assistant dépend entièrement du domaine auquel le développeur a prêté plus d’attention. Étant donné que tous les systèmes sont basés sur des méthodes d’apprentissage automatique et utilisent pour leur création d’énormes quantités de données collectées à partir de diverses sources puis formées sur celles-ci, un rôle important est joué par la source de ces données, qu’il s’agisse de systèmes de recherche, de diverses sources d’informations ou de réseaux sociaux. réseaux. La quantité d’informations provenant de différentes sources détermine la nature de l’assistant, ce qui peut en résulter. Malgré les différentes approches de l’apprentissage, les différents algorithmes et techniques, le principe de construction de tels systèmes reste approximativement le même. La figure 1 montre les technologies qui sont utilisées pour créer des systèmes intelligents d’interaction avec un humain par son langage naturel. Les principales technologies sont l’activation vocale, la reconnaissance automatique de la parole, l’apprentissage par la parole, la biométrie vocale, le gestionnaire de dialogue, la compréhension du langage naturel et la reconnaissance d’entités nommées.

Technologie vocale Technologie du cerveau
Activation vocale Biométrie vocale
Reconnaissance vocale automatique (ASR) Gestion des dialogues
(Teach-To-Speech (TTS) Compréhension du langage naturel (NLU)

Reconnaissance d’entité nommée NER)

Fig. 1. Technologies pour construire des systèmes intelligents d’interaction avec un humain par le langage naturel

III. Plan de travail proposé

Le travail a commencé par l’analyse des commandes audio données par l’utilisateur via le microphone. Cela peut être n’importe quoi comme obtenir des informations, exploiter les fichiers internes d’un ordinateur, etc. Il s’agit d’une étude qualitative empirique, basée sur la lecture de la littérature mentionnée ci-dessus et sur le test de leurs exemples. Les tests sont effectués par programmation selon des livres et des ressources en ligne, dans le but explicite de trouver les meilleures pratiques et une compréhension plus avancée de Voice Assistant.

Assistant virtuel utilisant Python
Fig.2. Flux de travail de base

La figure 2 montre le flux de travail du processus de base de l’assistant vocal. La reconnaissance vocale est utilisée pour convertir l’entrée vocale en texte. Ce texte est ensuite transmis au processeur central qui détermine la nature de la commande et appelle le script correspondant pour exécution.

Mais, les complexités ne s’arrêtent pas là. Même avec des centaines d’heures de saisie, d’autres facteurs peuvent jouer un rôle énorme dans la capacité du logiciel à vous comprendre. Le bruit de fond peut facilement faire dérailler un appareil de reconnaissance vocale. En effet, il n’a pas intrinsèquement la capacité de distinguer les sons ambiants qu’il «entend» d’un chien qui aboie ou d’un hélicoptère volant au-dessus de votre voix. Les ingénieurs doivent programmer cette capacité dans l’appareil ; ils collectent des données sur ces sons ambiants et « disent » à l’appareil de les filtrer. Un autre facteur est la façon dont les humains modifient naturellement la hauteur de leur voix pour s’adapter aux environnements bruyants ; les systèmes de reconnaissance vocale peuvent être sensibles à ces changements de hauteur.

IV. Méthodologie de l’assistant virtuel utilisant Python

Assistant virtuel utilisant Python
Fig 3 Flux de travail détaillé

Module de reconnaissance vocale

Le système utilise le système de reconnaissance vocale en ligne de Google pour convertir les entrées vocales en texte. La saisie vocale Les utilisateurs peuvent obtenir des textes à partir des corpus spéciaux organisés sur le serveur du réseau informatique du centre d’information à partir du microphone qui est temporairement stocké dans le système qui est ensuite envoyé au cloud Google pour la reconnaissance vocale. Le texte équivalent est alors reçu et transmis au processeur central.

Serveur Python :

Le backend python obtient la sortie du module de reconnaissance vocale, puis identifie si la commande ou la sortie vocale est un appel API et une extraction de contexte. La sortie est ensuite renvoyée au backend python pour donner la sortie requise à l’utilisateur.

Appels d’API

API signifie Application Programming Interface. Une API est un intermédiaire logiciel qui permet à deux applications de communiquer entre elles. En d’autres termes, une API est un messager qui transmet votre demande au fournisseur auprès duquel vous la demandez, puis vous renvoie la réponse.

Extraction de contenu

L’extraction de contexte (CE) est la tâche d’extraire automatiquement des informations structurées à partir de documents lisibles par machine non structurés et/ou semi-structurés. Dans la plupart des cas, cette activité concerne le traitement de textes en langage humain à l’aide du traitement du langage naturel (TAL). Les activités récentes dans le traitement de documents multimédias comme l’annotation automatique et l’extraction de contenu à partir d’images/audio/vidéo pourraient être considérées comme des RÉSULTATS DE TEST d’extraction de contexte.

Module de synthèse vocale

Text-to-Speech (TTS) fait référence à la capacité des ordinateurs à lire du texte à haute voix. Un moteur TTS convertit le texte écrit en une représentation phonémique, puis convertit la représentation phonémique en formes d’onde pouvant être émises sous forme de son. Des moteurs TTS avec différentes langues, dialectes et vocabulaires spécialisés sont disponibles auprès d’éditeurs tiers.

V. Conclusion

Dans cet article « Assistant virtuel utilisant Python », nous avons discuté de la conception et de la mise en œuvre de l’assistance numérique. Le projet est construit à l’aide de modules logiciels open source avec le soutien de la communauté PyCharm qui peut accueillir toutes les mises à jour sous peu. La nature modulaire de ce projet rend plus flexible et plus facile l’ajout de fonctionnalités supplémentaires sans perturber les fonctionnalités actuelles du système.

Il fonctionne non seulement sur les commandes humaines, mais donne également des réponses à l’utilisateur en fonction de la requête posée ou des mots prononcés par l’utilisateur, tels que les tâches et les opérations d’ouverture. Il accueille l’utilisateur de la manière dont il se sent plus à l’aise et se sent libre d’interagir avec l’assistant vocal. L’application devrait également éliminer tout type de travail manuel inutile requis dans la vie de l’utilisateur pour effectuer chaque tâche. L’ensemble du système fonctionne sur l’entrée verbale plutôt que sur la suivante.

Les références

  • [1] R. Belvin, R. Burns et C. Hein, «Développement du système de dialogue de navigation de route HRL», dans Actes de l’ACL-HLT, 2001
  • [2] V. Zue, S. Seneff, JR Glass, J. Polifroni, C. Pao, TJHazen et L. Hetherington, « JUPITER : une interface de conversation téléphonique pour les informations météorologiques», IEEE Transactions on Speech and Audio Processing, vol. 8, non. 1, p. 85-96, 2000.
  • [3] M. Kolss, D. Bernreuther, M. Paulik, S. St¨ucker, S. Vogel et A. Waibel, « Reconnaissance et traduction de la parole en domaine ouvert : conférences et discours», dans Actes de l’ICASSP, 2006.
  • [4] DRS Caon, T. Simonnet, P. Sendorek, J. Boudy et G. Chollet, «vAssist : l’assistant interactif virtuel pour les soins à domicile quotidiens», dans Actes de pHealth, 2011.
  • [5] Crevier, D. (1993). IA : la recherche tumultueuse de l’intelligence artificielle. New York, NY: Basic Books, ISBN 0-465-02997-3.
  • [6] Sadun, E., & Sande, S. (2014). Parler à Siri : maîtriser le langage de l’assistant intelligent d’Apple.

Crédit: Ce projet « Assistant virtuel utilisant Python » a été réalisé par Damarla Kavya, Daddanala Suvarna, Javisetti Srinivas et Chintha Venkata Ramaiah du Département d’ingénierie électronique et de communication, Chalapathi Institute Of Engineering And Technology, Guntur, Andhra Pradesh.

Articles similaires

Commencez à saisir votre recherche ci-dessus et pressez Entrée pour rechercher. ESC pour annuler.

Retour en haut