Python de reconeixement de veu: com es tradueix la veu a text?



Aquest bloc cobreix el concepte de reconeixement de veu en python amb un programa de mostra que tradueix la parla en text mitjançant el reconeixement de veu.

La parla és el mitjà de comunicació més comú a tot el món. La majoria de la població del món confia en la parla per comunicar-se entre ells. Suposem que estem construint un model i, en lloc d’un enfocament escrit, volem que el nostre sistema respongui al discurs, es fa força difícil i requereix un munt de dades per processar-les. Un sistema de reconeixement de veu supera aquesta barrera traduint la veu a text. En aquest bloc, passarem pel reconeixement de veu mòdul en python . Aquí teniu la llista del mateix:

Com funciona el reconeixement de veu?

El sistema de reconeixement de veu tradueix bàsicament les expressions orals a text. Hi ha diversos exemples de la vida real del sistema de reconeixement de veu. Per exemple, siri, que pren el discurs com a entrada i el tradueix a text.





L’avantatge d’utilitzar un sistema de reconeixement de veu és que supera la barrera de l’alfabetització. Un model de reconeixement de veu també pot servir tant a públics alfabetitzats com analfabets, ja que se centra en enunciats parlats.

mysql_fetch_array

També podem fer un inventari de totes les llengües en perill d’extinció a tot el món mitjançant un sistema de reconeixement de veu. Tot i que sembla bastant intrigant i gens complex, un sistema de reconeixement de veu s’enfronta a molts reptes.



Desafiaments davant d’un reconeixement de la parla Sistema

Es fa difícil fer un sistema de reconeixement de veu perquè tenim moltes fonts de variabilitat a l’hora de parlar.

Estil de parlar

Cada persona té un estil de parlar variat, inclosos els accents. Com tots sabem, també tenim diferents accents per parlar anglès. Hi ha anglès americà, anglès britànic i tants altres accents a l’hora de parlar l’idioma més comú del món. La pronunciació també dificulta que un sistema de reconeixement de veu tradueixi completament el discurs.



Medi ambient

L’entorn també afegeix molt de soroll de fons al sistema. Una sala aïllada en comparació amb un auditori tindrà una gran variabilitat en els sorolls de fons. Fins i tot el ressò també pot afegir molt de soroll al sistema.

Característiques dels altaveus

La veu d’una persona gran pot no ser la mateixa que la d’un nadó. Les característiques del discurs d’una persona depenen de molts factors, inclosa la duresa i la claredat.

Restriccions lingüístiques

Alguns enunciats parlats poden no tenir un significat viable quan es tracta de traducció.

Després de superar aquests reptes, és bastant assolible que qualsevol sistema de reconeixement de veu tradueixi la parla a text. Ara que ja sabem com funciona el reconeixement de veu, fem una ullada a diferents aspectes que estan disponibles per al reconeixement de veu en python.

Paquets disponibles per al reconeixement de veu en python

  • apiai

  • Reconeixement de veu

  • Google_speech_cloud

  • assemblyai

  • Pocketphinx

  • Watson_developer_cloud

  • blanc

Anem a revisar els detalls del paquet SpeechRecognition en aquest bloc, també fem una ullada pel carril de la memòria per entendre com han evolucionat els sistemes de reconeixement de veu al llarg dels anys.

java què és un testimoni

El primer prototip del reconeixement de veu va ser de fet una joguina, anomenada ràdio rex que va arribar cap als anys vint. Tenia un gos assegut en una casa per a gossos que sortiria tan aviat com algú va pronunciar la paraula rex.

L'únic problema amb el model era que la molla estava fixada a un electroimant que era sensible a l'energia que oscil·lava al voltant de 500 Hz. En ser purament un detector de freqüència, es podria anomenar remotament com un model de reconeixement de veu.

El 1962, IBM va crear un caixa de sabates model que era capaç de reconèixer paraules aïllades i també realitzar algunes operacions aritmètiques.

Després va venir HARPY de CMU, que era capaç de reconèixer la parla connectada a partir d’un vocabulari de 1000 paraules. Cap als anys vuitanta, la gent va començar a utilitzar models estadístics i un dels paradigmes d’aprenentatge automàtic més utilitzat va ser el model ocult de markov.

Després de la introducció de xarxes neuronals profundes, la majoria dels models de reconeixement de veu funcionen a les xarxes neuronals. Les possibilitats són inimaginables amb les xarxes neuronals, el vocabulari pot arribar fins a 10.000 paraules i molt més.

Com instal·lar SpeechRecognition a Python?

Per instal·lar SpeechRecognition, el paquet és python, executeu l'ordre següent al terminal i s'instal·larà al vostre sistema.

instal·lació-reconeixement de veu python-edureka

Un altre enfocament a això, pot ser afegir el paquet de l'intèrpret del projecte si ho feu servir

El paquet té una classe Recognizer que és bàsicament on passa la màgia. Bàsicament és una classe que s’utilitza per reconèixer el discurs. A continuació es detallen set mètodes que permeten llegir diverses fonts d’àudio mitjançant diferents API.

  • recogn_bing ()
  • recogn_google ()
  • recogn_google_cloud ()
  • recogn_houndify ()
  • recogn_ibm ()
  • recogn_wit ()
  • recogn_sphinx ()

Ara, recogn_sphinx també es pot utilitzar per executar el sistema de reconeixement de veu sense connexió. Requereix la instal·lació de Pocketsphinx.

importar reconeixement de veu com a sr #instància de la classe de reconeixement r = sr.Recognizer ()

Presa d’entrada de micròfons

Per utilitzar els micròfons, també haurem d’instal·lar el mòdul pyaudio. Utilitzem la classe de micròfon per obtenir el discurs d’entrada del micròfon en lloc de qualsevol altre mètode d’entrada, com ara un fitxer d’àudio.

Per a la majoria dels projectes, podem utilitzar els micròfons predeterminats. Però si no voleu utilitzar el micròfon per defecte,podeu obtenir la llista de noms de micròfons mitjançant el mètode list_microphone_names.

Per capturar l'entrada del micròfon utilitzem el mètode d'escolta.

importar reconeixement de veu com sr r = sr.Recognizer () amb sr.Microphone () com a font: audio = sr.listen (font)

Com instal·lar Pyaudio a Python?

Per instal·lar Pyaudio a Python, executeu l'ordre següent al terminal o, si utilitzeu pycharm, afegiu el paquet de l'intèrpret del projecte a la configuració.

tipus de dades de data en sql

Cas d'ús

Farem un programa mitjançant el mòdul de reconeixement de veu en python per reconèixer la veu i executar el següent:

  1. converteix el discurs en text
  2. obriu una URL mitjançant el mòdul navegador web
  3. feu una consulta mitjançant el reconeixement de veu per fer una cerca a l'URL

A continuació es mostra el programa per a la declaració de problema anterior:

importar reconeixement de veu com sr importar navegador web com wb r1 = sr.Recognizer () r2 = sr.Recognizer () r3 = sr.Recognizer () amb sr.Microphone () com a font: print ('[cerca edureka: cerca a youtube]') print ('parla ara') àudio = r3.listen (font) si 'edureka' a r2.recognize_google (audio): r2 = sr.Recognizer () url = 'https://www.edureka.co/' amb sr .Microphone () com a font: print ('cerca la vostra consulta') audio = r2.listen (source) try: get = r2.recognize_google (audio) print (get) wb.get (). Open_new (url + get) excepte sr.UnknownValueError: print ('error') excepte sr.RequestError com a e: print ('failed'.format (e)) si' video 'a r1.recognize_google (audio): r1 = sr.Recognizer () url =' https://www.youtube.com/results?search_query= 'amb sr.Microphone () com a font: imprimir (' cercar un vídeo ') audio = r2.listen (font) try: get = r1.recognize_google (audio ) print (get) wb.get (). open_new (url + get) excepte sr.UnknownValueError: print ('no s'ha pogut entendre') excepte sr.RequestError com a e: print (no s'ha pogut obtenir els resultats '. format (e) )

Obtindreu la sortida tal com es mostra a la imatge. Si dieu edureka, us demanarà que digueu la consulta que voleu cercar a l'URL edureka que hem escrit a la variable URL. Si dieu python, obtindreu la següent pàgina web oberta al navegador.

En aquest bloc, hem parlat de com podem utilitzar el reconeixement de veu a Python per traduir la veu a text mitjançant el paquet de reconeixement de veu. s'ha convertit en la necessitat de l 'hora per a conceptes com el reconeixement de parla o la dejecció d' objectes, amb el que ofereixen possibilitats inimaginables als sistemes de reconeixement de veu en els quals podem entrenar i provar enormes dades de parla per construir un sistema. per a xarxes neuronals profundes per dominar les vostres habilitats i iniciar el vostre aprenentatge.

teniu cap consulta? mencioneu-los als comentaris, us respondrem.