Sistema offline de reconocimiento de comandos de voz para raspberry pi usando aprendizaje automático

Resumen

Con el auge exponencial de la computación en la nube cada vez son más los sistemas que la adoptan sin tener en cuenta la latencia producida en la internet, el reconocimiento de voz es uno de los campos donde comúnmente se hace uso de la nube dado el volumen de datos que usa para tal fin. En el presente documento se propuso el desarrollo de un sistema de reconocimiento de voz offline orientado a comandos de desplazamiento terrestre en idioma español para un robot construido sobre arquitecturas de bajo costo como Raspberry Pi y la aceleradora USB Coral. Se usaron las redes neuronales convolucionales para el entrenamiento del modelo, así como dos conjuntos de datos obtenidos a través de voluntarios y usuarios del sistema en cuestión. En alineación con la modalidad del proyecto (desarrollo tecnológico), se utilizó la metodología ágil SCRUM para sostener una mejor comunicación y alineación con el cliente. El sistema de reconocimiento de voz alcanzó una eficiencia promedio expresada en tiempo de 0.31 segundos necesarios para realizar la acción solicitada, la eficacia del sistema medida en precisión fue del 86% considerada alta para el contexto. Estos resultados fueron obtenidos en entornos sin ruidos externos y con usuarios que hicieron parte del entrenamiento del modelo. El estudio mostró cómo se pueden desarrollar sistemas de reconocimiento de voz desconectados de internet y con buen desempeño.

Descripción

Abstract

With cloud computing's exponential rise, more and more systems are using it without considering the latency generated, for speech recognition the cloud is generally used because of the amount of data. In the present paper, a system of speech command recognition in Spanish was proposed to perform land displacement operations in a robot built with low-cost tools like Raspberry Pi and USB Accelerator Google Cora. A Neural network convolutional was used to train two datasets obtained through forms and a module developed for this purpose. According to project mode (technological development), the agile SCRUM methodology was used to have better communication with the project client. The system reached an efficiency (response time) average of 0.31 seconds, on the other hand, the efficacy measured in precision was 86% with it is high for the test context. These results were obtained in environments without external noise and with users who were part of the model's training. The study showed how developing speech commands recognition systems offline can be a good option to reach good performance.

Palabras clave

Reconocimiento de voz, Inteligencia artificial, Redes neuronales convolucionales, Aprendizaje automático

Keywords

Speech recognition, Artificial intelligence, Convolutional neural network, Machine learning

Temáticas

Citación