Reconocimiento de voz aplicado a la domótica Francisco Mejía, Escuela Politécnica Nacional (EPN), Quito - Ecuador
Este Resume n – Este
Los dispositivos necesarios son: Pasarela residencial Sistema de control centralizado Sensores Actuadores
documento se fundamenta en la tesis realizada por el ingeniero Diego Ibarra, titulada "SISTEMA INTERACTIVO BASADO EN VOZ PARA CONTROL DE CARGAS Y MONITOREO DE SENSORES DE SEGURIDAD, ORIENTADO A residencial DISCAPACITADOS", en ella se dispone del control A. Pasarela residencial Se denomina pasarela residencial (residential tanto de las luminarias como de la seguridad de un hogar, a través de comandos de voz, la principal Gateway) al dispositivo frontera entre redes de acceso desventaja radica en que únicamente se dispone de externo y las redes internas de una vivienda domótica o un micrófono y un parlante, lo cual limita el área de inteligente. cobertura del sistema. Por ello aquí, se va a B. Sistema de control control centralizado incorporar los aspectos faltantes y mejorar los Es el encargado de recoger toda la información actuales. Se revisan los fundamentos de la domótica y sus aplicaciones. Adicionalmente se trata aspectos proporcionada por los sensores, procesarla y generar las relacionados con el reconocimiento de voz, y métodos órdenes que ejecutarán los actuadores e interruptores. existentes. Además se describen los aspectos para el C. Sensores y actuadores actuadores diseño y construcción del hardware y software. Son los elementos encargados de recabar información Finalmente se recopilan los resultados obtenidos.
I. I NTRODUCCIÓN NTRODUCCIÓN El objetivo del presente proyecto de investigación es desarrollar un sistema domótico, controlado por la voz, basándose en un modelo de múltiples micrófonos y parlantes al interior del hogar, para controlar aspectos básicos como consultas (fecha, temperatura, hora local, entre otros), y que además permita operar y controlar la seguridad del hogar mediante sensores de movimiento y simulación de presencia. Adicionalmente se desea que el sistema pueda ser controlado desde varias habitaciones del hogar, es decir sin restringir su lugar de operación, adicionalmente el sistema debe de funcionar independientemente del usuario es decir, sin importar el género, la edad, etc. II. DOMÓTICA Para transformar una vivienda común y corriente en una vivienda inteligente se requiere una serie de dispositivos que deben interconectarse entre sí mediante una red interna llamada también “red de control” o “red domótica”.
del parámetro controlado, por ejemplo: la temperatura ambiental, las fugas de agua, la luz solar en una habitación, etc., y enviar ésta al sistema de control centralizado para que tome las acciones pertinentes.
A continuación se describen los sensores más comúnmente utilizados en una vivienda domótica. Detector de temperatura ambiental Detector de gas Detector de humo y calor Sensor de humedad Sensor de presencia D. Actuadores
Son los dispositivos utilizados por el sistema de control centralizado para modificar el estado de equipos o instalaciones, por ejemplo para aumentar o disminuir la calefacción o aire acondicionado. Los actuadores más utilizados son: Contactores o relés de carril DIN Contactores para base de enchufe Electroválvulas para calefacción con agua caliente Sirenas para alarmas
III. APLICACIONES DE LA DOMÓTICA Se pueden clasificar en cinco grupos: Seguridad Confort Gestión energética Comunicaciones Ocio
Fig. 2. Control de la vivienda desde un solo punto del hogar C. Gestión energética
Los sistemas de control permiten optimizar el sistema de calefacción y climatización por zonas, regulación de la intensidad luminosa de acuerdo a la luz ambiental, desactivación de grifos si se detecta un determinado Fig. 1. Aplicaciones de la domótica período de inactividad, uso de electrodomésticos en horas de menor tarifa, entre otras, optimizando así el A. Seguridad consumo energético y ahorro del recurso agua. Estudios Es una de las aplicaciones más útiles e incluye no realizados estiman que el ahorro energético de la sólo la protección de los bienes materiales sino también vivienda se encuentra alrededor del 25%. la protección de las personas que habitan una vivienda. D. Comunicaciones
B. Confort
Incluye intercambio de información entre el usuario y los distintos aparatos electrónicos, sea ésta dentro de la vivienda o fuera de ella.
Esta aplicación se observa principalmente en los países más desarrollados, debido al incremento de la población perteneciente a la tercera edad, E. Ocio adicionalmente resulta muy útil para personas con algún Los sistemas de telecomunicaciones en la vivienda tipo de discapacidad ya que permite controlar toda la vivienda desde un solo punto y realizar actividades han hecho realidad el teletrabajo, formación a distancia, banca electrónica, el comercio electrónico entre los más como: Regulación de la calefacción y/o aire importantes, permitiendo la optimización del tiempo y dinero evitando desplazamientos innecesarios. acondicionado. Cierre y apertura de persianas. IV. R ECONOCIMIENTO DE VOZ Apagado y encendido de las luces y/o sistema de riego. A. La voz La voz es un sonido emitido por un ser humano que se produce en el aparato fonador, en la laringe, cuando el aire procedente de los pulmones es forzado a través de la glotis, haciendo vibrar las cuerdas vocales, las cuales son más largas y gruesas en el hombre que en la mujer y el niño.
Emisión
Fig. 3. Descripción del trato vocal V. CUALIDADES DE LA VOZ La voz posee tres cualidades importantes: tono o altura, intensidad y timbre, que van a ser descritas a continuación.
Hombre conversando en voz baja Mujer conversando en voz normal Hombre conversando en voz normal Mujer hablando en público Hombre hablando en público Mujer hablando esforzándose Hombre hablando esforzándose Mujer cantando Hombre cantando Nivel máximo de la voz humana
Intensidad (W/m2)
Nivel sonoro (dB)
10-9
30
10-7
50
3.16 x 10-7
55
10-6
60
3.16 x 10-6
65
10-5
70
3.16 x 10-5
75
10-4 3.16 x 10-4
80 85
10-3
90
A. Tono o altura
Se refiere al rango tonal o de frecuencia que le corresponde al individuo, según sexo y edad. La misma frecuencia de vibración da siempre un mismo tono, independientemente de las otras cualidades del cuerpo vibrante. Cuanto mayor es la frecuencia, más agudo es el tono y al revés. Dentro de este concepto, aparece el de Frecuencia Fundamental (Fo), que es el resultado de la vibración de los pliegues vocales. Cada individuo presenta una frecuencia fundamental propia que va descendiendo con la edad en el caso de las mujeres y en el caso de los hombres va ascendiendo.
C. Timbre
El timbre es la cantidad de armónicos que se forman al son de las frecuencias de los sonidos que se van emitiendo. Puede tener características diversas desde vivaz, estridente, monótono, pobre en armónicos, etc., esto estaría de alguna forma relacionado con el aspecto temperamental de cada persona
Para que la frecuencia de la voz sea comprensible se deberá estar entre 500 y 3500 Hz y se requiere la presencia de armónicos, de hecho se han encontrado B. Intensidad espectros conteniendo hasta 35; por otro lado, la energía La intensidad o volumen de la voz, es la acción de voz está contenida en su mayoría en las bajas espiratoria de la respiración, es decir, el aire que sale frecuencias. desde los pulmones. La amplitud de vibración es la que TABLA II da la sensación de intensidad, viene dada por la presión GAMA DE FRECUENCIAS DE LA VOZ HUMANA. aérea espiratoria y puede ser también disminuida o Extensión aumentada. La intensidad es medida en decibeles (dB). Voz (Hz) A continuación se presentan los niveles de intensidad de Soprano 247 – 1056 la voz humana. Mezzosoprano 220 – 900 Contralto 176 – 840 TABLA I Tenor 132 – 528 NIVELES DE INTENSIDAD DE LA VOZ HUMANA. Barítono 110 – 440 Bajo 82- 396 Intensidad Nivel sonoro Emisión
2
(W/m ) -10
Nivel mínimo de la voz 10 Mujer conversando en 3.16 x 10-10 voz baja
(dB)
20 25
D. Formantes
El tracto vocal tiene cuatro o cinco resonadores llamados formantes. La frecuencia del formante es determinada por la forma del tracto vocal. Si el tracto
vocal es un perfecto cilindro cerrado a nivel de la glotis B. Modelos ocultos de Markov (HMM) y abierto al nivel de los labios y tiene una longitud de El modelado estocástico de la señal de habla 17,5 cm, media aproximada de una laringe de hombre soluciona el problema que presentaba la técnica de adulto, los primeros cuatro formantes estarán cerca de alineamiento de plantillas, proporcionando los mejores los 500, 1.500, 2.500 y 3.500 Hz. Agregando o resultados para el reconocimiento de habla aislada como acortando el tracto vocal, estas frecuencias básicas serán continua y para independencia del locutor. más graves o agudas; sin embargo, hay tres instrumentos para cambiar la forma del tracto vocal. La frecuencia de C. Redes neurales o neuronales (NN) Las redes neuronales son estructuras de un formante en particular se puede cambiar de una dirección a otra. De acuerdo con Sundberg (1977), estos procesamiento paralelo de información, formadas por instrumentos son la mandíbula, el cuerpo de la lengua y numerosos nodos simples conectados entre sí mediante pesos y agrupados en diferentes capas, entre las que se la punta de la lengua deben distinguir la capa de entrada y la capa de salida. Debido a su naturaleza intrínsecamente no lineal, a su VI. CLASIFICACIÓN DE LOS SONIDOS DE LA VOZ capacidad de clasificación, y sobre todo a la capacidad A. Vocales que tienen para aprender una determinada tarea a partir Las vocales son sonidos emitidos con una sola de pares observación-objetivo sin hacer suposición vibración de las cuerdas vocales sin ningún obstáculo alguna sobre el modelo subyacente, se han convertido en entre la laringe y las aberturas oral y nasal, tienen una de las herramientas más atractivas para la solución carácter tonal (cuasi-periódicos). del problema del reconocimiento de habla. B. Consonantes
A diferencia de las vocales, las consonantes se emiten interponiendo algún obstáculo formado por los elementos articulatorios. Los sonidos pueden ser tonales o no dependiendo de si las cuerdas vocales vibran o no.
VIII. DISEÑO DEL HARDWARE Para la construcción e implementación del proyecto se organiza en subsistemas que garanticen el correcto funcionamiento del mismo.
Para el sistema se utiliza como microcontrolador Los fonemas en los que el aire pasa por la cavidad principal el modulo VR STAMP, el cual gracias a sus nasal, se denominan nasales, y en los que el aire sale por capacidades para reconocimiento de voz lo hace ideal la boca se conocen como orales. En el idioma castellano, para la aplicación en cuestión. son sonidos nasales: “m”, “n” y “ñ”. C. Oralidad y nasalidad
VII. SISTEMA DE RECONOCIMIENTO DE VOZ Y TÉCNICAS EMPLEADAS
Se conoce como reconocimiento al sistema computacional capaz de procesar la señal emitida por un ser humano y convirtiéndola en órdenes, imágenes o texto, en otras palabras permite la comunicación entre seres humanos y computadoras.
A. Implementación del sistema
El sistema se encuentra instalado en la planta baja de una casa, la misma que está localizada en Quito, en la zona del Valle de los Chillos.
Para el reconocimiento del habla se puede utilizar varias técnicas, las más utilizadas y que presentan mejores resultados se van a explicar a continuación. A. Comparación de plantillas o patrones
El método de Plantilla o Patrones utiliza técnicas de Programación Dinámica (DTW) y básicamente consiste en comparar el patrón a reconocer (de entrada) con una serie de plantillas o patrones que representan a las unidades a reconocer.
Fig. 4. Distribución de habitaciones al interior del hogar (1)