Tesis Victoria Libre

INSTITUTO TECNOLÓGICO DE CD. MADERO DEPARTAMENTO DE SISTEMAS Y COMPUTACIÓN

ANÁLISIS DE LOS ATRIBUTOS DEL PROCESO DE CONVERSIÓN TEXTO A VOZ TESIS

Para obtener el Titulo de

Ingeniero en Sistemas Computacionales Computacionales Presenta

Victoria Ruíz Martínez Numero de Control

05070678 Director de Tesis

Dra. María Lucila Morales Rodríguez

CD. MADERO, TAMAULIPAS

MAYO 2011

i

i

Declaración de Originalidad

Declaro y prometo que éste documento de tesis es producto de mi trabajo original y que no infringe los derechos de terceros, tales como derechos de publicación, derechos de autor, patentes y similares. Además, declaro que en las citas textuales que he incluido (las cuales aparecen entre comillas) y en los resúmenes que he realizado de publicaciones ajenas, indico explícitamente los datos de los autores y las publicaciones. Además, en caso de infracción de los derechos de terceros derivados de éste documento de tesis, acepto la responsabilidad de la infracción y relevo de ésta a mi director y codirectores de tesis, así como al Instituto Tecnológico de Cd. Madero y sus autoridades.

Mayo 2011, Cd. Madero, Tamps.

C. Victoria Ruíz Martínez ii

DEDICATORIA Y AGRADECIMIENTOS AGRADECIMIENTOS

Esta Tesis se la dedico a mi madre, que aunque ya no se encuentra entre nosotros, se que me observa desde alguna parte, y a quien en todo momento llevo conmigo. A mi padre, que me ha orientado en todas mis decisiones, además de ser un gran apoyo siempre. A mis hermanos hermanos Omar, Odeir y Guadalupe, Guadalupe, que siempre han estado para guiarme y han sido una inspiración toda mi vida. A mis maestros, maestros, por su su disposición y ayuda brindados. A mi directora directora de Tesis, la Dra. Lucila Lucila Morales Rodríguez Rodríguez por tener la paciencia paciencia y la disposición para para trabajar conmigo. conmigo. Al comité tutorial M.C. M.C. Apolinar Apolinar Ramírez Saldívar, Saldívar, Dr. Arturo Hernández Ramírez y Rubén Basáñez Castro gracias por su tiempo y apoyo. También agradezco a mis amigos y compañeros de ingeniería, que siempre me han acompañado en las buenas y en las malas y que han sido una fuente de alegría. Un agradecimiento especial a mis amigos Violeta, Jesús, Andrea, Dioni y Alejandro, es un honor contar con su amistad les agradezco enormemente el apoyo que me brindaron en los momentos más dificiles.

Y a uiees ahoa escapa a i eoia…Gracias a todos.

iii

RESUMEN

El desarrollo del presente trabajo de Tesis se realizó con el objetivo de contribuir en la línea de investigación interesada en la generación de formas de interacción hombre-máquina por medio del uso de Agentes Conversacionales animados que se desarrolla en la Maestría en Ciencias en Ciencias de la Computación del ITCM, por lo cual se presenta la tecnología Text To Speech a fin de incorporarse a un agente conversacional animado. Un sintetizador de voz convierte el lenguaje escrito en habla (Text To Speech), el procedimiento de síntesis de voz consiste de dos fases principales, la primera es el análisis del texto text o y la segunda es la generación de formas de onda de voz, estas etapas producen información fonética y prosódica. Se presentan las metodologías de síntesis de voz más empleadas actualmente, las cuales se presentan en tres categorías, la primera es la síntesis concatenativa, dentro de la cual se encuentran la síntesis por selección de unidades, la síntesis de dífonos y la síntesis de dominio especifico, otra metodología existente es la síntesis de formantes, también existen otros métodos como la síntesis articulatoria, la síntesis hibrida y la síntesis basada en HMM (Modelos ocultos de Markov). La fonética y la fonología son disciplinas dentro de la lingüística, ambas se encargan de estudiar los sonidos del lenguaje. La unidad de estudio de la fonología son los fonemas, los cuales son las unidades más pequeñas de sonido del lenguaje. Los fonemas de un lenguaje pueden ser clasificados en subgrupos basados en sus apariencias visuales, a estos se subgrupos se les llama visemas, se les considera como la equivalencia visual del los fonemas. Para realizar el análisis de los atributos que intervienen en el proceso de conversión TTS se utilizó el motor de voz Microsoft Speech SDK 5.1 y la librería pyTTS de Python para desarrollar las pruebas. Los atributos de configuración a considerar involucraron el tono, el volumen y la velocidad, así como las voces empleadas para conformar el análisis, estos parámetros arrojaron información sobre los grafemas introducidos como entrada, la información de salida es interpretada como los valores de fonemas y visemas asociados al texto introducido. Las pruebas fueron diseñadas considerando los fonemas vocálicos y los consonánticos, a fin de observar las variaciones entre los grafemas dependiendo del contexto y del idioma empleado para los análisis.

iv

TABLA DE CONTENIDO Capítulo 1. Introducción Int roducción .................................... ................. .................................. ................................. ...................................... .................................. ............................. ............... 1 1.1 Objetivos ..................................................................................................................................... 2 1.1.1 Objetivo General .................................................................................................................. 2 1.1.2 Objetivos específicos ........................................................................................................... 2 1.2 Problemática ............................................................................................................................... 2 1.3 Justificación................................................................................................................................. 2 1.4 Hipótesis ..................................................................................................................................... 3 1.5 Alcances y Limitaciones .............................................................................................................. 3 1.6 Estructura del documento .......................................................................................................... 4 Capítulo 2. Síntesis de Voz .................................... ................. .................................. ................................. ...................................... .................................. .......................... ............ 5 2.1 Procesamiento de texto a voz .................................................................................................... 5 2.2 Análisis prosódico en TTS............................................................................................................ 8 2.3 Fonemas y visemas ..................................................................................................................... 9 2.4 Estado del arte de la síntesis de voz ......................................................................................... 12 2.5 Retos de la conversión de texto a voz ...................................................................................... 17 2.5.1 Representación Lingüística ................................................................................................ 17 2.5.2 Pronunciación .................................................................................................................... 18 2.6 Generación de Voz con Emoción .............................................................................................. 19 2.6.1 Teorías acerca de la emoción ............................................................................................ 19 2.6.2 Expresión de la emoción en la voz ..................................................................................... 20 Capítulo 3. Metodologías de la conversión de texto a voz ................. .......................... ................. ................. .................... .................... ........... .. 22 3.1 Tecnologías de síntesis de voz .................................................................................................. 22 3.2 Síntesis concatenativa .............................................................................................................. 24 3.2.1 Síntesis por selección de unidades .................................................................................... 25 3.2.2 Síntesis de dífono ............................................................................................................... 26 v

3.2.3 Síntesis de dominio especifico ........................................................................................... 26 3.3 Síntesis formante ...................................................................................................................... 27 3.4 Otros métodos .......................................................................................................................... 28 3.4.1 Síntesis articulatoria .......................................................................................................... 28 3.4.2 Síntesis Híbrida .................................................................................................................. 28 3.4.3 Síntesis basada en HMM (Modelos ocultos de Markov) ................................................... 28 Capitulo 4. Herramientas Text To Speech ......................................................................................... 30 4.1 Estado del arte de los productos de síntesis de voz ................................................................. 30 4.1.1 Microsoft Speech API ......................................................................................................... 31 4.1.2 Cepstral .............................................................................................................................. 31 4.1.3 Festival ............................................................................................................................... 31 4.1.4 Loquendo ........................................................................................................................... 32 4.1.5 IBM Vía Voice ..................................................................................................................... 32 4.1.6 SVOX .................................................................................................................................. 32 4.1.7 IVONA TTS .......................................................................................................................... 33 4.2 Proceso de conversión de texto a voz de Microsoft Speech SDK 5.1 ...................................... 33 4.2.1 Arquitectura Microsoft Speech SDK 5.1 ............................................................................ 33 4.2.2 Atributos de configuración de Entrada.............................................................................. 34 4.2.3 Atributos de configuración de Salida ................................................................................. 35 4.3 Librería PyTTS ........................................................................................................................... 37 4.3.1 Clases de pyTTS .................................................................................................................. 38 Capitulo 5. Análisis de los parámetros disponibles en las herramientas Text to Speech................... 41 5.1 Parámetros de entrada de las herramientas ............................................................................ 41 5.2 Análisis de Fonemas Vocálicos y Consonánticos ...................................................................... 43 Capitulo 6. Conclusiones y trabajos futuros ....................................................................................... 54 6.1 Conclusiones ............................................................................................................................. 55 vi

6.2 Aportaciones ............................................................................................................................. 55 6.3 Trabajos Futuros ....................................................................................................................... 57 Glosario ............................................................................................................................................... 58 Bibliografía .......................................................................................................................................... 64 Anexos ................................................................................................................................................ 67 ANEXO A ............................................................................................................................................. 68 Aplicación Python Text To Speech .................................................................................................. 68 Aplicación Python Text To Speech .................................................................................................. 69 ANEXO B .............................................................................................................................................. 70 Tablas de resultados de los análisis ................................................................................................ 70 Tablas de análisis de cadenas de texto en español .................................................................... 71 Tablas de análisis de cadenas de texto en inglés ........................................................................ 83

vii

LISTA DE FIGURAS Figura 1. Procedimiento de síntesis de voz. ......................................................................................... 6 Figura 2. Arquitectura común para los sistemas TTS [Furui, 1989]. ..................................................... 7 Figura 3. Arquitectura TTS. ................................................................................................................... 8 Figura 4. Dependencias prosódicas. ..................................................................................................... 9 Figura 5. Reconstrucción de Wheatstone de la máquina parlante de von Kempelen ....................... 13 Figura 6. Tecnologías de síntesis de voz. ............................................................................................ 24 Figura 7. Arquitectura Microsoft Speech SDK .................................................................................... 34 Figura 8. Identificación de atributos del motor de Microsoft Speech SDK 5.1................................... 35 Figura 9. Proceso TTS. ......................................................................................................................... 42

viii

LISTA DE TABLAS Tabla 1. Fonemas vocálicos. ............................................................................................................... 10 Tabla 2. Fonemas consonánticos ........................................................................................................ 11 Tabla 3. Tabla de fonemas del inglés americano. ............................................................................... 36 Tabla 4. Tabla de visemas del inglés americano. ................................................................................ 37 Tabla 5. Clases de la librería pyTTS. .................................................................................................... 38 Tabla 6. Atributos de las clases OnPhoneme, OnViseme y OnWord.................................................. 39 Tabla 7. Voces empleadas en los análisis. .......................................................................................... 43 Tabla 8. Análisis de fonemas vocálicos. .............................................................................................. 43 Tabla 9. Resultado de análisis de unión de vocales, con voz de mujer mexicana y hombre español.44 Tabla 10. Análisis de las palabras con diptongos. .............................................................................. 46 Tabla 11. Análisis de fonemas de diptongos españoles. .................................................................... 47 Tabla 12. Análisis de palabras del español mexicano con uniones de 3 vocales. .............................. 47 Tabla 13. Pruebas fonemas vocalicos. ................................................................................................ 48 Tabla 14. Pruebas del fonema /c/. ..................................................................................................... 48 Tabla 15. Pruebas del fonema /s/. ...................................................................................................... 49 Tabla 16. Pruebas del fonema /b/. ..................................................................................................... 49 Tabla 17. Prueba del grafema . ................................................................................................... 49 Tabla 18. Análisis del español mexicano para casos con palabras separadas por espacios en blanco y comas. ................................................................................................................................................. 49 Tabla 19. Análisis en ingles para las palabras separadas por espacios en blanco y comas. ............... 50 Tabla 20. Prueba grafema . ........................................................................................................ 50 Tabla 21. Análisis grafemas acompañados de signos del español mexicano. .................................... 51 Tabla 22. Análisis de grafemas del inglés con signos. ......................................................................... 51 Tabla 23. Análisis de grafemas para generar fonemas y visemas de voces españolas. ..................... 52 Tabla 24. Análisis cantidades numéricas sin separación con voz inglés............................................. 52 ix

Tabla 25. Análisis cantidades numéricas con separación de punto con voz inglés. ........................... 53 Tabla 26. Análisis cantidades numéricas sin separación con voz español. ........................................ 53 Tabla 27. Análisis cantidades numéricas con separación de punto con voz español......................... 53

x

CAPÍTULO 1. INTRODUCCIÓN Los agentes son entidades capaces de percibir su entorno, los cuales pueden procesar lo que perciben y tener una reacción, es decir una respuesta o actuar en su entorno de manera racional. Actualmente el uso de agentes con capacidades de diálogo y una representación visual (Agentes Conversacionales Animados) ha ido en aumento, ya que resultan ser una herramienta fácil de utilizar que permite una mejor interacción con el usuario. Añadiendo a éstos la funcionalidad de conversión de Texto a Voz (Text To Speech), éstos agentes animados pueden fungir como guías, maestros o ayudantes, y pueden brindar ayuda en la búsqueda de información sobre un tema, pudiendo llegar a mantener una conversación de cualquier tema en específico. En esta tesis, se presenta el análisis de los atributos del proceso de conversión de texto a voz (TTS - Text To Speech) y sus sub-productos, para incorporar esta tecnología a un agente conversacional animado. Con los resultados de éste trabajo se podrá contribuir al proceso de sincronizar la expresión verbal y no verbal de su diálogo, creando así un comportamiento creíble en el personaje. 1

Este trabajo contribuye al desarrollo de la línea de investigación interesada en la generación de formas de interacción hombre-máquina a través del uso de Agentes Conversacionales Animados que se desarrolla en la Maestría en Ciencias en Ciencias de la Computación del ITCM. En particular, ésta tesis complementa los trabajos realizados por Domínguez-Martínez [Domínguez Martínez, 2010] y Florencia-Juárez [Florencia Juárez, 2010] para dotar a un agente conversacional con una base de conocimiento AIML capaz de generar un diálogo escrito con expresiones emocionales.

1.1 Objetivos 1.1.1 Objetivo General Analizar los parámetros y componentes de las herramientas Text To Speech para mejorar la credibilidad de la prosodia generada y proporcionar información que sirva para la animación de visemas.

1.1.2 Objetivos específicos 

Identificar los parámetros disponibles en las herramientas Text To Speech, su funcionalidad y efectos.



Identificar los efectos de la manipulación de los parámetros disponibles en la prosodia de la voz generada.



Identificar que información se puede producir para facilitar la construcción de visemas.

1.2 Problemática La problemática en el análisis de las tecnologías de Texto a Voz radica en que no se encuentran documentos suficientes que aporten información sobre la configuración de las herramientas de conversión TTS. Sólo existe documentación de desarrollos comerciales relacionada a la aplicación de su tecnología, en los cuales no se aportan información suficiente sobre los atributos involucrados en las técnicas del proceso de conversión de texto a voz.

1.3 Justificación Esta tesis se desarrolla con la finalidad de que el análisis de los parámetros existentes en la conversión TTS sirva en la creación de un prototipo de un agente virtual que proporcione información sobre la Maestría en Ciencias en Ciencias de la Computación del ITCM. 2

Para lograr que el usuario del sistema experimente una interacción más natural con la computadora por medio de asistentes virtuales es necesario que estos expresen emociones por medio de la voz, así como una expresión no verbal acorde a la misma. Para lograrlo, es necesario desarrollar con una herramienta capaz de producir habla emocional o que permita controlar los parámetros asociados a la generación de la prosodia.

1.4 Hipótesis En esta tesis se busca identificar los parámetros de entrada y salida existentes en un proceso de conversión de texto a voz, con el fin de manipularlos para generar un asistente virtual más creíble capaz de producir sincronización labial y expresar emociones a través del habla. Basándose en el análisis de la información del análisis de los atributos de la conversión TTS, se pretende determinar si es posible configurar y explotar las herramientas TTS evaluadas para crear un personaje virtual con las capacidades antes mencionadas.

1.5 Alcances y Limitaciones Este proyecto está limitado al análisis de los parámetros existentes en el proceso de conversión TTS, que involucran la velocidad, el tono y el uso de voces sintetizadas, dichos atributos pueden ser configurados de entrada y arrojan un conjunto de datos asociados a fonemas y visemas. Debido a que este trabajo se pretende integrar al desarrollo de Juegos Serios y Personajes Virtuales 3D usando el Motor de Juegos de Panda3D bajo Python, se eligió como tecnología de conversión de texto a voz al motor de voz Microsoft Speech SDK 5.1 [Microsoft Speech SDK 5.1, 2010] en combinación con la librería PyTTS disponible para Python, la cual permite la manipulación de los atributos del motor de voz.

3

1.6 Estructura del documento Capítulo 1. Introducción. Se presentan los objetivos del trabajo de Tesis, la justificación, la hipótesis, los alcances y las limitaciones del proyecto. Capítulo 2. Síntesis de voz. En este capítulo se describe el procesamiento de Texto a Voz, la arquitectura común de los sistemas que realizan este proceso y se presentan fundamentos de los términos fonema y visema a partir de los cuales se desarrollan los análisis. También se presenta el estado del arte del proceso TTS y los retos de dicho proceso. Capítulo 3. Metodologías de la conversión de texto a voz. Se presentan una descripción de los métodos de síntesis de voz más empleados. Capítulo 4. Herramientas Text To Speech. Se presenta el estado del arte de algunos de los productos de síntesis de voz existentes actualmente. Se incluye la arquitectura del motor de voz Microsoft Speech SDK 5.1 y la librería pyTTS. Capítulo 5. Análisis de los parámetros disponibles en las herramientas Text To Speech. Se presenta un análisis de las pruebas realizadas con el motor de voz Microsoft Speech SDK 5.1. Capítulo 6. Conclusiones y trabajos futuros. Se presenta una reflexión de las aportaciones y conclusiones del proyecto.

4

CAPÍTULO 2. SÍNTESIS DE VOZ En este capítulo se introducen los conceptos relacionados al proceso de conversión de texto a voz y los elementos presentes en la síntesis de voz, también se incluye el estado del arte acerca de las herramientas desde los inicios de la implementación de este proceso, y algunos aspectos de la generación de voz concernientes a las expresiones que implican emoción.

2.1 Procesamiento de texto a voz El habla es el medio principal de comunicación entre las personas, la síntesis de voz es la producción artificial del habla humana. Se han diseñado diferentes sistemas para este propósito llamados sintetizadores de voz y pueden ser implementados tanto en hardware como en software. Recientes progresos en la síntesis de voz han producido sintetizadores con mayor inteligibilidad, pero el sonido y la naturalidad aún siguen siendo un problema mayor. Un elemento para juzgar la calidad de la síntesis de voz es su parecido con la voz humana y su potencialidad para ser entendida. Estos sistemas pueden lograr que personas con discapacidad visual, problemas de lectura o que se encuentren en actividades en las cuales los ojos y manos están ocupados puedan escuchar instrucciones.

5

Un sintetizador de voz convierte el lenguaje escrito en habla, por esta característica también es conocido como sistema TTS (Text To Speech). El habla sintetizada se genera concatenando segmentos de grabaciones que se encuentran almacenados en una base de datos. Los sistemas Text to Speech difieren en diversos aspectos, uno de ellos es el tamaño de las unidades de habla almacenadas. Los sistemas que almacenen fonemas y difonemas proveen el rango de salida más amplio, sin embargo es posible que su calidad sea baja. Para una salida de alta calidad, se utiliza la técnica de dominios específicos, en esta técnica el almacenamiento de palabras u oraciones pre-grabadas enteras permiten una salida de alta calidad. De forma alternativa, un sintetizador puede incorporar un modelo del tracto vocal y otras características de la voz humana para generar una voz completamente “sintética” o “electrónica” [Birkholz – Kroger, 2007]. El procedimiento de síntesis de texto a voz consiste de dos fases principales. La primera fase es el análisis del texto, donde la cadena de caracteres de entrada es transcrita en una fonética o algunas otras representaciones lingüísticas, y la segunda etapa es la generación de formas de onda de voz, donde la salida produce información fonética y prosódica. Estas dos fases son usualmente llamadas síntesis de alto y bajo nivel. La Figura 1 muestra una versión simplificada de este procedimiento, la entrada del texto puede ser por ejemplo de un procesador de palabras. La cadena de caracteres es entonces procesada y analizada en una representación fonética la cual es usualmente una cadena de fonemas con alguna información adicional para la correcta entonación, duración y énfasis. Finalmente con el sintetizador de bajo nivel el sonido de la voz es generado por la información de un sintetizador de alto nivel [Lemmetty, 1999].

Texto de entrada

Análisis de texto y lingüística

Figura 1. Procedimiento de síntesis de voz.

Prosodia y generación de voz

Voz Sintetizada

Nivel fonético

En la Figura 2 se detalla el procesamiento de texto a voz de los sistemas TTS comunes, se puede observar que existen dos bloques principales que forman el sistema: el bloque de Procesamiento de Lenguaje Natural (Natural Language Processing o NLP) y el bloque de Proceso de Síntesis.

6

El bloque de NLP se encarga de producir una transcripción fonética del texto leído, además de la entonación y el ritmo deseados para la voz de salida, después, el bloque de Proceso de Síntesis transforma la información simbólica que recibe del bloque anterior, en una voz de salida. El proceso de síntesis puede llevarse a cabo de diferentes formas, dependiendo de la tecnología empleada, puede tratarse de una síntesis articulatoria, de formantes, concatenativa, etc., en el Capítulo 3 se describen los tipos de síntesis de voz más empleados. Procesamiento de Lenguaje Natural

Proceso de Síntesis

Analizador de Texto

Texto

Texto a fonemas

Articulatorios

Fonema

Formantes

Voz

Prosodia Generador prosódico

Concatenativos

Figura 2. Arquitectura común para los sistemas TTS [Furui, 1989].

En el bloque NLP se llevan a cabo dos tareas importantes. La primera tarea es convertir el texto en material manipulable, convirtiendo símbolos como números o abreviaciones en su equivalente en palabras escritas. Esto es comúnmente llamado “normalización de l texto”, “pre - procesamiento” o “señalización” (t okenization),

la segunda tarea que se realiza es asignar transcripciones fonéticas a

cada palabra y dividirlas en unidades prosódicas tales como frases, cláusulas y oraciones. El proceso de asignar transcripciones fonéticas en palabras es llamado conversión “texto a fonema”

o

conversión “grafema a fonema” . El bloque NLP tiene como salida una representación lingüística, la

cual está formada tanto por las transcripciones fonéticas así como por la información prosódica. El bloque de Proceso de Síntesis es el sintetizador en sí, ahí es donde se transforma la representación de la lógica lingüística en sonido [Moreno Azcona, 2008]. La Figura 3 muestra otra forma de explorar la arquitectura del proceso de conversión de texto a voz, como entrada es admitido un texto sin formato, para que en el proceso pase por el análisis del texto, análisis fonético y prosódico que forman una síntesis de forma de onda para dar como salida la voz sintetizada. 7

Texto sin Formato

Análisis del Texto Normalización del texto Etiquetamiento de la parte del habla Desambi uación homónima Análisis Fonético Búsqueda en el diccionario Grafema a fonema (LTS) Análisis prosódico Colocación de límites Campo de asignación de acento Duración de cómputo Síntesis de forma de onda

Voz de salida

Figura 3. Arquitectura TTS.

2.2 Análisis prosódico en TTS Solo la adecuada elección de los parámetros prosódicos dados por una duración de sonido y contornos de entonación permite al TTS producir sonido natural, alta calidad y voz sintética. Uno de los problemas más grandes en los sistemas de síntesis de texto a voz consiste en la generación automática de la prosodia natural e inteligibilidad. Existen dos enfoques principales para la predicción de la estructura prosódica, un enfoque basado en reglas y otro en estocástica. Dentro de la fonética, la prosodia se define como el uso de tono, volumen, tiempo y ritmo en el habla para transmitir información sobre la estructura y el significado de un enunciado. La entonación se refiere al cambio en el patrón de campo o frecuencia fundamental durante la voz. La prosodia del lenguaje continuo depende de muchos aspectos separados, tales como el significado de la sentencia y las características del hablante y emociones. Las dependencias prosódicas son mostradas en el Figura 4. Desafortunadamente, el texto escrito usualmente contiene muy poca información de estas características y algunas de ellas cambian dinámicamente durante la producción de la voz. Sin embargo, con algún control específico de los caracteres de entrada esta información puede ser dada al sintetizador de voz.

8

Debido a que el la acentuación de las frases casi nunca es marcada y el parafraseo prosódico no siempre es marcado en el texto, si no hay pausas de respiro en el lenguaje o si hay lugares incorrectos, el lenguaje puede sonar muy poco natural o incluso el significado de la oración puede ser malentendido. Por ejemplo en inglés, la cadena de entrada "John says Peter is a liar" puede ser dicho de dos diferentes formas dando dos diferentes significados como “ John says: Peter is a liar ” o " John, says Peter, is a liar". En el primer enunciado la sentencia “Peter is a liar ”, y en la segunda “the liar is John”. Los anteriores ejemplos indican que debido a errores ortográficos se puede dar una mala interpretación del habla, algunas de estas consideraciones son tomadas en cuenta en el Capítulo 5 a fin de ser ejemplificadas.

Características del hablante Género Edad  

Emociones Enojo Alegría Tristeza 

PROSODIA







 

Frecuencia fundamental Duración Énfasis

El significado de la oración: Neutral Imperativo Pregunta   

Figura 4. Dependencias prosódicas.

2.3 Fonemas y visemas En el subtema anterior se trató la prosodia la cual se encuentra definida en términos de la fonética; la fonética y la fonología son disciplinas de la lingüística que se encargan de estudiar los sonidos del lenguaje, la fonética abarca un ámbito mayor que la fonología, en la primera hay una base acústica mientras que en la segunda se tiende a considerar la imagen mental de lo que percibimos [Frías Conde, 2001]. 9

La unidad de estudio de la fonología son los fonemas, estos son las estructuras de unidades más pequeñas de sonido que distinguen el significa do para un lenguaje, tales como “ oo, ee, ar, m, b, p ”, etc. Reemplazando un fonema con otro cambiará el significado de un enunciado. Ya que se van a explorar algunas partes de la lingüística y la fonética, se introducen otros conceptos relacionados con estas disciplinas y ejemplificaciones de sus notaciones; un grafema es la unidad mínima de un sistema escrito, su notación está dada por los símbolos , anteriormente se definió lo que es un fonema el cual se representa por /n/, pero también existen los alófonos, son las variantes que se dan en la pronunciación de un mismo fonema, la notación de estos es [n]. La clasificación de los fonemas está dada por dos grandes unidades: Vocales y Consonantes. La descripción de los fonemas vocálicos está dada en la Tabla 1, que muestra la clasificación de las vocales de acuerdo a la forma en que son pronunciadas, por ejemplo: /i/ es una vocal inicial cerrada. Cerradas Medias Abiertas

Iniciales i e

Centrales

Finales u o

a Tabla 1. Fonemas vocálicos.

Además, las vocales /a/, /e/, y /o/ son las llamadas vocales fuertes, mientras que /i/ y /u/ son las débiles. En el Capítulo 5 se incluye una revisión de los diptongos para observar los análisis de los resultados obtenidos al evaluar estas estructuras. La Tabla 2 describe los fonemas consonánticos existen en el español. En ésta tabla se incorporan los siguientes símbolos, los cuáles se describen a continuación: Es la , en el español europeo este fonema no existe y en su lugar se usa /s/. Es la y la . Es la . Es la . Es la <ñ>. Es la , para la mayoría de los hablantes de español del mundo este fonema ha desaparecido y se ha sustituido por . Es la suave, hay que tener en cuenta que la /r/ representa el sonido fuerte.

10

Bilabial

Labiodental Interdental Dental

alveolar Palatal

Velar

Oclusiva

Sonora Sorda Fricativa Sonora Sorda Africada Sonora Sorda Nasal Sonora Sorda Lateral Sonora Sorda Vibrante Sonora Sorda Tabla 2. Fonemas consonánticos

Existen dos elementos que se involucran en la clasificación de los fonemas, uno es el punto de articulación (lugar en la cavidad bucal que se utiliza) y el modo de articulación (elementos que participan en la pronunciación). Para el punto de articulación se tienen en cuenta los siguientes criterios: 

Bilabial: Participación de los dos labios



Labiodental: Labio inferior con dientes superiores.



Interdental: Lengua entre los dientes.



Dental: La lengua toca la parte trasera de los dientes superiores.



Alveolar: La lengua toca los alvéolos superiores.



Palatal: La lengua toca el paladar.



Velar: La lengua toca el velo.

Para el modo de articulación hay que distinguir entre plosivas y no plosivas. Las primeras son aquellas en las que hay una mayor o menos obstaculización en la boca, mientras que las segundas se pronuncian más directamente. Las plosivas se dividen en: Oclusivas: Se produce una explosión. 



Fricativas: Se produce un roce.



Africadas: Es la combinación de las dos anteriores.

Las no plosivas son: Nasales: Parte del aire sale por la nariz. 



Laterales: La lengua sale por los laterales de la boca. 11

En el Capítulo 5 se incluye una revisión de estos fonemas, además del análisis de estos en la voz de inglés americana. Los fonemas de un lenguaje pueden ser clasificados en subgrupos basados en sus apariencias visuales. Estos subgrupos son llamados visemas y pueden ser considerados como equivalencia visual a los fonemas. Los visemas pueden además ser descritos como formas clave de la boca donde cada forma vocal corresponde a uno o más fonemas [Engström, 2003]. Los fonemas que no son distinguibles de otros cuando son vistos en la cara son puestos en el mismo subgrupo. Por lo tanto los fonemas son frecuentemente confundidos dentro de los subgrupos, pero raramente entre ellos. Un visema describe las posiciones faciales particulares y orales y los movimientos que ocurren del lado vocal de los fonemas. Los fonemas y visemas no siempre comparten correspondencia de uno a uno, regularmente algunos fonemas comparten el mismo visema. El termino visema fue introducido por Fisher en 1968 como una abreviación del término visual phoneme y denota grupos de consonantes que forman clases exclusivas mutuamente. Sin embargo, el concepto fue creado mucho antes por Alexander Graham Bell entre otros. En un estudio Fisher [Engström, 2003] probó como los fonemas en la palabra inicial y final son percibidos visualmente, forzándolos a dar respuestas erróneas por eliminación de la respuesta correcta de la hoja de respuestas. Cada estimulo tuvo un conjunto cerrado de posibles respuestas hechas de palabras de la misma estructura silábica y patrón de énfasis como la palabra estímulo. También cada consonante en las respuestas fue homotípica a la consonante de la prueba de estímulo. Los resultados mostraron que los fonemas fueron confundidos por 5 grupos de consonantes iniciales y 5 grupos de consonantes finales, apoyando al concepto de visemas.

2.4 Estado del arte de la síntesis de voz La voz artificial ha sido un tema de gran interés a través de los años, para comprender como los sistemas actuales funcionan y como se han desarrollado, aquí se presenta un resumen de la historia del lenguaje sintetizado desde los primeros esfuerzos mecánicos hasta los sistemas sintetizadores de hoy en día. En 1791 von Kempelen en Mechanismus der menschlichen Sprache nebst Beschreibung einer sprechnenden Maschine (Mecanismo del lenguaje humano con la descripción de una máquina parlante), describe una máquina hablante consistente de un fuelle que simula los pulmones y un contrapeso provisto por inhalación, una “caja de viento” funcional con palancas utilizando la mano 12

derecha , una “boca” hecha de goma y una “nariz” con orificios na sales

(la nariz tenía que ser

cubierta con dos dedos para los no nasales), un cierre de la apertura de la boca que permitió producir sonidos sordos, un pequeño fuelle auxiliar accionado por la cadena que provee de una bocanada de liberación de sonidos sordos, propiedades de resonancia variada de la “boca” con la mano izquierda que cubre la apertura, cuerdas vocales simuladas con una caña de marfil y silbatos pequeños que controlaban las consonantes. A mediados de 1800 Charles Wheatstone construyó su famosa versión de la máquina hablante de von Kempelen la cual es mostrada en la Figura 5, con ella fue posible producir vocales y más sonidos consonantes. Las vocales fueron producidas con caña vibrante y todos los pasajes estaban cerrados. Las resonancias se efectúan por la deformación del resonador de cuero como en la máquina de von Kempelen.

Figura 5. Reconstrucción de Wheatstone de la máquina parlante de von Kempelen

La conexión entre el sonido de la vocal especifica y la geometría del tracto vocal fue encontrado por Willis en 1838, el sintetizó diferentes vocales con los resonadores del tubo como pipas de órganos, también descubrió que la calidad vocal depende solo de la longitud del tubo y no de su diámetro. El primer dispositivo completo de síntesis eléctrica fue representado por Stewart en 1922, el sintetizador tenía un timbre como excitación y dos circuitos resonantes para modelar las resonancias acústicas del tracto vocal. La maquina fue capaz de generar un solo sonido vocal estático con dos formantes más bajos, pero no cualquier consonante o enunciados conectados.

13

El mismo tipo de sintetizador fue hecho por Wagner. El dispositivo constaba de cuatro resonadores electros conectados en paralelo y que estaba excitado por una especie de silbato fuente. Las salidas de los cuatro resonadores eléctricos conectados se combinaron en las apropiadas amplitudes para producir el espectro vocal. En 1932 los investigadores japoneses Obata y Teshima descubrieron el tercer formante en vocales. Los tres primeros formantes son generalmente considerados suficientes para la inteligibilidad de la voz sintetizada. El primer dispositivo para ser considerado como un sintetizador de voz fue VODER (Voice Operating Demonstrator) introducido por Homer Dudley en la feria mundial de New York en 1939. VODER fue inspirado por VOCODER (Voice Coder) desarrollado en los laboratorios Bell en los años treinta. Apple [Apple, 2010] desarrolló sistemas para la síntesis de voz de Macintosh Personal Computers, dichos sistemas constan de diferente nivel de calidad en 1984 Apple Computers lanza el MacinTalk que fue el primer sistema de síntesis de voz integrado a un sistema operativo. Actualmente ha desarrollado el sistema VoiceOver para personas con problemas de la vista. AmigaOS es el segundo sistema operativo en la historia con un sistema de síntesis de voz, avanzado fue lanzado en 1985. Contenía un sistema de emulación completo, con voces tanto masculinas o femeninas de énfasis [Softvoice, 2010]. CereVoice, es un sistema producido por Cereproc LTD, el sistema fue utilizado para construir pequeñas bases de datos de unidades de selección utilizando información suministrada por el Blizzard Challenge 2006 [Aylett-Pickock-Fraser, 2006]. El sistema Microsoft Windows utiliza los sistemas de voz SAPI4 y SAPI5. Estos incluyen un motor de reconocimiento de voz llamado SRE. Todos los programas compatibles con Windows pueden utilizar las funciones de síntesis de voz, disponibles a través de menús una vez instalados dentro del sistema. Microsoft Speech Server es un paquete completo para reconocimiento y síntesis de voz para aplicaciones comerciales como centros de llamado. Microsoft Speech SDK 5.1 [Microsoft Speech SDK 5.1, 2010] es la interfaz de programación de aplicaciones de voz o SAPI (Speech Application Programming Interface) es una API desarrollada por Microsoft para permitir el uso de reconocimiento de voz y síntesis de voz dentro de las aplicaciones de Windows. Festival [Festival, 2010] es un software libre que ofrece un marco general para la construcción de sistemas de síntesis de voz. En conjunto Festval integra la función de conversión del texto a voz a través de una API: desde el nivel de núcleo, a través de un esquema intérprete de comandos, como 14

una librería de C++, de Java, y una interfaz de Emacs. Festival es multilingüe (actualmente Inglés (británico y americano), y español), aunque el Inglés es el más avanzado. Otros grupos lanzaron nuevos lenguajes para el sistema. Las herramientas y la documentación completa para construir nuevas voces están disponibles a través del proyecto de Carnegie Mellon FestVox. El sistema está escrito en C++ y utiliza la librería de Herramientas de Voz de Edimburgo para la arquitectura de bajo nivel y tiene un esquema (SIOD) basado en el intérprete de comandos de control. Loquendo TTS [Loquendo, 2010] es un programa informático que realiza una función de síntesis del habla. Proporciona voces reales para los datos dinámicos y funciona en cualquier tipo de aplicación de voz, ofrece voces naturales que pueden leer cualquier dato y comando. El TTS de Loquendo tiene un algoritmo de alto rendimiento y garantiza una respuesta muy rápida. El motor de habla de esta tecnología puede sintetizar idiomas y voces distintas simultáneamente, mezclándolas entre ellas en cada momento y sobre cualquier canal. Infovox [Infovox, 2010], el sintetizador de voz de la familia Telia Promotor AB es quizás uno de los mejores productos de conversión de texto a voz multilingüe disponibles hoy en día. La primera versión comercial Infovox SA-101, fue desarrollada en Suecia en el Royal Institute of Technology en 1982. El sistema es originalmente del tipo de síntesis formante en cascada. Digital Equipment Corporation (DEC) [DECtalk, 2010] tiene también gran tradición con los sintetizadores de voz, el sistema DECTalk originalmente descendió de MITalk y Klattalk. En la actualidad está disponible para el inglés americano, alemán y español, ofreciendo nueve diferentes voces personalizadas. El actual sistema DECTalk está basado en la síntesis digital formante. La entrada del sintetizador es derivada de los símbolos fonéticos incluidos consonantes, vocales, diptongos, alófonos, y un silencio. Los laboratorios Bell de AT&T (Lucent Technologies) han desarrollado también tecnología de síntesis de voz desde la demostración de VODER en 1939. Su primer sistema TTS completo fue lanzado en 1973. Estaba basado en un modelo articulatorio desarrollado por Cecil Coker. El desarrollo del actual sistema utiliza síntesis concatenativa iniciada por Joseph Olive a mediados de 1970. El sistema actual está disponible para inglés, francés, español, italiano, alemán, ruso, rumano, chino y japonés [AT&T, 2010]. ORATOR es un sistema TTS desarrollado por Bell Communications Research (Bellcore), su síntesis está basada en concatenación demisílaba. La versión reciente de ORATOR es de las más naturales disponibles hoy en día. Actualmente la versión del sintetizador de voz híbrido de Telcordia ORATOR II también provee de herramientas de alta calidad, las cuales son altamente precisas para 15

el manejo de la los servicios de manejo de la base de datos a través de una síntesis de texto a voz avanzada [Orator, 2010]. SoftVoice Inc. [SoftVoice, 2010] tiene más de 25 años de experiencia en la síntesis de voz, el cual es conocido como SAM (Software Automatic Mouth) un sintetizador para Commodore C64 (SAM-synthetizer) y Amiga (Narrator), Apple (original MacinTalk), y computadoras Atari en los pasados 1980s y fue probablemente el primer software comercial basado en sistemas para computadoras personales caseras. La calidad de voz de SoftVoice probablemente no es la mejor de los productos disponibles, pero con un gran número de control de caracteres y voces diferentes que lo hacen muy útil para varios tipos de aplicaciones multimedia. El proyecto MBROLA [Dutoit – Pagel – Pierret – Bataille – van der Vrecken, 1996] fue iniciado por los laboratorios TCTS en la Faculté Polytechnique de Mons, Bélgica y su principal objetivo es el desarrollo de síntesis de voz multilingüe para propósitos no comerciales y aumento de la investigación académica, especialmente en la generación de prosodia. SVOX [SVOX, 2010] es un sistema de síntesis de texto a voz alemán el cual ha sido desarrollado en TIK/ETHZ (Instituto Federal de Tecnología de Zurich). El sistema SVOX consiste de dos módulos principales. El módulo de transcripción incluye el análisis del texto y la generación fonológica la cual es el hablante y la voz independiente. La representación fonológica es generada de cada enunciado de entrada e incluye la cadena del fonema respectivo, el nivel del acento por silaba, y los límites de la frase (posición, tipo, y longitud y fuerza. El modulo fonoacústico, incluye todos los componentes dependientes del hablante que son requeridos para generar una apropiada señal de voz de la representación fonológica. IVONA Text to Speech [IVONA TTS, 2010] es un sistema de síntesis de voz en varios idiomas desarrollado en Polish IT compañía de IVO software. IVONA utiliza las unidades de selección con capacidad limitada, la síntesis de unidades de selección utiliza grandes bases de datos de voz grabada, durante la creación las voces, cada frase grabada se segmenta en otras o en los siguientes: tonos individuales, silabas, morfemas, palabras, frases y oraciones. También se encuentran otros sistemas de voz tales como Expressivo Text Reader [Expressivo, 2010], Power Text To Speech Reader [Power TTS Reader, 2010] y TextAloud [Text Aloud, 2010] que pueden leer mensajes directamente de un cliente de correo electrónico y páginas de Internet a través de un navegador. RSS también puede ser leído con software especializado como el Google gadget, RSS to Speech o Expressivo Text Reader.

16

El proyecto Pediaphon provee de text to Speech generado dinámicamente para escuchar todos los artículos de Wikipedia en inglés, francés o alemán. Power Text To Speech Reader soporta voces masculinas, femeninas y robóticas de 11 lenguajes, también puede monitorear el portapapeles de Windows y procesar automáticamente su contenido.

2.5 Retos de la conversión de texto a voz El problema en la síntesis de voz es muy amplio. Existen varios problemas en el preprocesamiento del texto, tales como numeraciones, abreviaciones, y acrónimos. La correcta prosodia y la pronunciación del análisis del texto escrito es también un gran problema actualmente. El texto escrito contiene emociones no explicitas y la pronunciación de nombres propios y extranjeros es algunas veces muy anómalo. En la síntesis de bajo nivel, la discontinuidad y los efectos contextuales en los métodos de concatenación de onda son más problemáticos. La síntesis de voz ha sido encontrada también más difícil con voces de mujeres y niños. Las voces femeninas tienen un campo casi dos veces más grande que las voces masculinas y con las de niños puede ser incluso más grande. La frecuencia fundamental hace más difícil estimar las locuciones de frecuencia formante [Lemmetty, 1999].

2.5.1 Representación Lingüística La primer tarea enfrentada por cualquier sistema TTS es la conversión de entrada del texto, en algunos lenguajes, tales como el finlandés, la conversión es muy simple porque el texto escrito casi corresponde a su pronunciación. Para el inglés y la mayoría de los demás lenguajes la conversión es mucho más complicada. Un conjunto muy grande de reglas y sus excepciones es necesario para producir la correcta pronunciación y la prosodia para la voz sintetizada. El preprocesamiento del texto es usualmente una tarea muy compleja e incluye algunos problemas dependientes del lenguaje. Los dígitos y numeraciones deben ser ampliados en palabras completas. Por ejemplo en inglés, el número 243 seria ampliado como two hundred and forty-three y 1750 como seventeen-fifty (en número) o one-thousand seven-hundred and fifty (en medida). Las fracciones y fechas son también problemáticas. 5/16 puede ser expandida como fivesixteenths (si es fracción) o May sixteenth (si es fecha). Los números de expansión ordinarios han sido encontrados también problemáticos. Los primeros tres ordinarios deben ser expandidos de forma diferente que los otros, 1st como first, 2nd como second, and 3rd como third.

17

El mismo tipo de los problemas contextuales son enfrentados con los números romanos. Chapter III debería ser ampliado como Chapter three y Henry III como Henry the third y I no puede ser pronunciado como un pronombre o un número. Los números romanos pueden ser también confundidos con algunas abreviaturas comunes tales como MCM. Los números pueden tener también formas especiales de expresión tales como 22 es double two en los números de teléfono y 1 – 0 como one love en los deportes.

Las abreviaciones pueden ser ampliadas en palabras completas, pronunciadas como están escritas, o pronunciadas letra por letra. Hay también algunos problemas contextuales. Por ejemplo kg no puede ser kilogram o kilograms dependiendo de los números precedentes, St. Puede ser saint o street, Dr. Doctor o drive y ft. Fort, foot o feet. En algunos casos, la información adyacente pude ser suficiente para encontrar la salida correcta a la conversión, pero para evitar malas conversiones la mejor solución en algunos casos puede ser el uso de la conversión de letra por letra. Innumerables abreviaciones para nombres de compañías y otras cosas relacionadas que existentes y las que pueden ser pronunciadas en muchas formas. Por ejemplo, N.A.T.O. o RAM son usualmente pronunciadas como están escritas y SAS o ADP letra por letra. Algunas abreviaciones tal como MPEG como empeg son pronunciadas irregularmente. Los caracteres especiales y símbolos, tales como '$', '%', '&', '/', '-', '+', también causan tipos especiales de problemas. En algunas situaciones el orden de las palabras puede ser cambiado. Por ejemplo $71.50 deber ser ampliado como seventy-one dollars and fifty cents y $100 million as one hundred million dollars, no como one hundred dollars million. La expresión '1-2' puede ser ampliada como one minus two o one two, y el carácter „&‟ como et o and. También caracteres especiales y cadenas de caracteres por ejemplo en los web-sites o mensajes de correo electrónico deben ser ampliados con reglas especiales. Por ejemplo, el carácter '@' es usualmente convertido como at y los mensajes de correo electrónico pueden contener cadenas de caracteres, tales como información de cabecera, la cual puede ser omitida. Algunos lenguajes también incluyen caracteres especiales no ASCII, tales como marcadores de acento o símbolos especiales [Lemmetty, 1999].

2.5.2 Pronunciación Las palabras llamadas homógrafas, pueden causar los problemas más difíciles en sistemas TTS. Los homógrafos son deletreados de la misma manera pero difieren en significado y usualmente en pronunciación. En inglés la palabra lives es por ejemplo pronunciado de forma diferente en los enunciados "Three lives were lost" y "One lives to eat". Algunas palabras e.g. lead, tienen diferentes 18

pronunciaciones cuando las utilizamos como verbo o sustantivo, y entre dos sentidos de sustantivos (He followed her lead / He covered the hull with lead). Con estos tipos de palabras alguna información semántica es necesaria para lograr la correcta pronunciación. La pronunciación de una cierta palabra puede también ser diferente debido a efectos contextuales. Esto es fácil de ver cuando se comparan frases the end y the beginning. La pronunciación de the depende del fonema inicial en la siguiente palabra. Las palabras compuestas son también problemáticas, por ejemplo el carácter 'th' en mother y hothouse es pronunciado diferente. Encontrar la correcta pronunciación para los nombres propios, especialmente cuando son tomados de otros lenguajes, usualmente es uno de las tareas más difíciles para cualquier sistema TTS. Algunos nombres comunes, tales como Nice y Begin, son ambiguos en contextos capitalizados, incluyendo sentencias de posición iniciales, títulos y textos simples. Por ejemplo, la sentencia Nice is a nice place es muy problemática porque la palabra Nice puede ser pronunciada como /nis/ o /nais/.

2.6 Generación de Voz con Emoción 2.6.1 Teorías acerca de la emoción Para entender el sentido de la generación de las emociones en el habla se exploran 4 teorías existentes, donde sus precursores muestran los diferentes enfoques en los que puede ser abordado este tema. Charles Darwin propone en su publicación de 1872 “The Expression of Emotion in Man and Animals” que las emociones son fenómenos con importantes funciones de supervivencia para las especies. Una emoción ocurre si una de las caras es asociada al problema, en orden para ayudarnos a resolverlo. La asignación del problema de emoción se ha desarrollado durante la evolución. Por lo tanto la expresión emocional también sirve para la función de supervivencia, ayuda a resolver problemas, la expresión más notable de la emoción es la expresión facial, Darwin describe estas expresiones de emoción en detalle [Zotter, 2003], en los 80s y 90s los psicólogos contemporáneos redujeron las expresiones de emoción a algunas universales (cruce cultural) y un conjunto reconocible de emoción de arquetipos: alegría, tristeza, miedo, disgusto, enojo y sorpresa. William James y Carl Lange (1884) afirmaron que las emociones ocurren después de los cambios corporales. James estableció controversialmente: las emociones ocurren debido a los cambios corporales: 19



“lo sentimos porque lloramos”



“nos enojamos porque golpeamos”



“tememos porque temblamos” o “tememos porque corremos”



Si no tengo cuerpo, tendría que ser “excluido de la vida por los afectos”

Magda Arnold en 1960, establece un enfoque cognitivo, en el que los eventos evaluados son juzgados como buenos o malos para uno mismo, esto ocurre irreflexivamente y automáticamente. Los cambios corporales y emociones son entonces el resultado de la evaluación. Las emociones están asociadas a patrones característicos de estimación. Los siguientes juicios son supuestos para ser hechos en las estimaciones concernientes, la situación es expuesta a: novedad, simpatía, responsabilidad, esfuerzo, certeza y control. James Averill en 1980, dice que la emoción no se ve biológicamente determinada, sino como producto cultural que surge de las reglas sociales aprendidas. Por lo tanto son construcciones sociales y solo pueden ser entendidas completamente en un nivel social de análisis. En esta vista el enojo es un sentimiento muy sofisticado el cual es basado en un juicio de moral y se manifiesta si algunos violan algunos estándares de comportamiento. Incluso la intención de otras personas juega un papel importante en enojarse. También “perder el control” de

uno mismo no es subjetivo

sino un juicio social. Es posible encontrar una explicación para cada emoción básica como una construcción social.

2.6.2 Expresión de la emoción en la voz En el marco de inducción del afecto, la función principal de señalización no es expresar emoción sino influir los afectos de los escuchas y por lo tanto formar su comportamiento (afectar la excitación de los oyentes). En resumen, la perspectiva de inducción del afecto sostiene que las expresiones vocales de la emoción no son muestra de los estados del vocalizador, son herramientas de influencia social [

].

Los rangos de identificación de la emoción son usualmente mejores para el enojo, miedo y tristeza. La identificación es pobre para el disgusto, quizás porque este estado no es típicamente transmitido a través de la voz, sino a través de emblemas vocales o exclamaciones. Las técnicas para sintetizar la emoción han sido estudiadas de cerca en desarrollos generales en algoritmos de síntesis de voz. La “Primera

generación” de técnicas incluyen el trabajo de Murray y

Cahn quienes utilizaron sintetizadores formantes los cuales eran capaces de variar cada parámetro del sintetizador como fuera deseado. El paradigma experimental utilizado en estos sistemas fueron versiones de síntesis múltiple de la misma sentencia cada una con diferente emoción, y luego realizar 20

una prueba de escucha donde el objetivo era hacer una elección forzada como que lo emociona a el o que escucha ella. Los resultados de estos sistemas fueron bastante buenos siendo reconocidos con un bajo grado de falla de precisión. Uno de los problemas con este enfoque, es que se pensó que la síntesis formante llevaba al mismo a ser capaz de generar diferentes efectos lingüísticos, pero denesta forma es capaz de crear voz donde la “distancia” entre dos catego rías es artificialmente grande [Taylor, 2009]. Las propuestas de “segunda generación” fueron típicamente una base de datos que contenía etiquetas emocionales de voz que son analizados para determinar las características de cada emoción. A menudo estos son llevados a las dimensiones prosódicas tradicionales de F0 (Frecuencia Fundamental) y tiempo. Una vez conocidos estos patrones, el lenguaje normal puede ser convertido en voz emocional por el uso de las señales de procesamientos de técnicas de señal. Considerando que la emoción está relacionada con la acústica vocal, la acústica de la voz es impregnada con señales indexadas o personales. Las cuales son aspectos no lingüísticos de la producción de la voz que proveen de acústica correlacionada a variables como el sexo de la persona, identidad individual, edad y estado emocional.

21

CAPÍTULO 3. METODOLOGÍAS DE LA CONVERSIÓN DE TEXTO A VOZ En este capítulo se presenta una clasificación de las metodologías existentes en el proceso de la síntesis de voz o producción artificial de habla humana. La cual recibe también el nombre Text-ToSpeech (TTS) en referencia a su capacidad de convertir texto escrito en hablado.

3.1 Tecnologías de síntesis de voz El proceso de síntesis de voz puede ser dividido en alto y bajo nivel de síntesis. Un sintetizador de bajo nivel es el dispositivo que genera el sonido de salida de información suministrado por un dispositivo de alto nivel en algún formato, por ejemplo en la representación fonética. Un sintetizador de alto nivel es responsable por la generación de la información de entrada al dispositivo de bajo 22

nivel incluyendo el preprocesamiento correcto del texto, la pronunciación y la información prosódica. La mayoría de los sintetizadores contienen ambos, sistema de alto y bajo nivel, pero debido a los problemas específicos con los métodos, son algunas veces desarrollados separadamente. La voz sintetizada puede ser creada concatenando los pedazos de lenguaje registrado que se almacenan en una base de datos. Los sistemas diferencian en el tamaño de las unidades almacenadas de voz, un sistema que almacena tonos o dítonos, proporciona la gama más grande de texto de salida, pero puede carecer de claridad. Un sistema TTS (o el motor) se compone de dos partes: un front-end y un back-end. A grandes rasgos, el front-end toma el texto de entrada y produce una representación lingüística fonética. El back-end toma la representación lingüística fonética como entrada y hace salir la forma de onda sintetizada de la voz. La naturalidad de un sintetizador de voz se refiere generalmente a que tanto la salida suena como la voz de una persona verdadera. El front-end tiene dos tareas importantes. Primero toma el texto crudo y convierte partes problematicas como números y las abreviaturas en sus equivalentes escritos. Este proceso a menudo se llama normalización del texto, preprocesamiento, o encadenamiento del texto. Entonces asignan transcripciones fonéticas a cada palabra, y se divide y marca el texto en varias unidades prosódicas, como frases, las cláusulas, y oraciones [Carnicero Sierra, 2003]. El proceso de asignar transcripciones fonéticas a las palabras se llama conversión del texto a fonema (TTP) o grafema a fonema (GTP). La combinación transcripciones fonéticas e información sobre unidades prosódicas del texto emite como la salida representación lingüística fonética. La otra parte, el back-end, toma la representación lingüística simbólica y la convierte en sonido, a menudo el back-end es referido como sintetizador. Los dos aspectos más importantes de la síntesis de voz son la naturalidad y la inteligibilidad. La naturalidad describe que tanto el sonido generado se asemeja al habla humana, mientras que la inteligibilidad es la facilidad con la cual se entiende el significado del habla generada. Un sintetizador de voz trata de maximizar ambas características [Barbosa, 1997]. Las dos tecnologías más empleadas para generar una voz sintética son la síntesis concatenativa y la síntesis formante. En la Figura 6 se muestra una clasificación de las metodologías de la síntesis de voz que es posible generar a partir de un corpus lingüístico, se observa que dentro de la síntesis concatenativa se 23

desarrollan tres técnicas más, la síntesis de selección de unidades, la síntesis de difonos, y la específica para un dominio, otras ramas de la clasificación incluyen a la síntesis de formantes, la síntesis articulatoria, la hibrida y la síntesis basada en HMM, dichas técnicas se describen es los siguientes subtemas.

TSS (Text to Speech)

Tecnologías de síntesis de voz Pueden ser creadas en base a Metodolo ías

Corpus lingüístico Síntesis concatenativa

Síntesis por selección de unidades

Síntesis de dífonos

Síntesis de dominio específico

Síntesis de formantes

Síntesis articulatoria

Otros métodos

Síntesis híbrida

Síntesis basada en HMM (Modelos ocultos de Markov)

Figura 6. Tecnologías de síntesis de voz.

3.2 Síntesis concatenativa La síntesis de Concatenativa [Molina – García - Nuñez, 2006] se basa en el encadenamiento de segmentos de la voz registrados. Generalmente, la síntesis concatenativa genera la voz sintetizada que alcanza a sonar más natural. Sin embargo, en la variación natural de la voz grabada en segmentos extraídos y las técnicas automatizadas para dividir las formas de onda en segmentos algunas veces da lugar a interferencias audibles en la salida disminuyendo la naturalidad.

24

Hay tres subtipos principales de la síntesis concatenativa: 

Síntesis por selección de unidades



Síntesis de dífonos



Síntesis específica para un dominio

3.2.1 Síntesis por selección de unidades La síntesis de la selección de unidades propuesta por Hunt y Black [Hunt – Black, 1996] es la base de la mayor parte de los sintetizadores comerciales actuales. Como su nombre lo indica consiste en la selección de unidades fónicas de un corpus de mayor envergadura. En este caso las unidades no tienen porque ser difonemas aunque en cualquier caso sigue siendo la unidad más utilizada. La elaboración de este corpus reviste una mayor complejidad ya que debe ser fonéticamente balanceado y completo. El algoritmo de síntesis elige las unidades a concatenar en base a factores como la amplitud, la frecuencia, etc. En esta metodología existen también distintas aproximaciones y algoritmos como Cluster-Uniys, Multisyn, HTS, Clustergen, etc. La síntesis de la selección de unidades utiliza las bases de datos del lenguaje (donde más de una hora de voz es registrada). Durante la creación de base de datos en cada elocución registrada se divide en segmentos algunos de los siguientes componentes: tonos individuales, sílabas, morfemas, palabras, frases, y oraciones. La división en segmentos se puede hacer utilizando varias técnicas, como agrupar, usando un reconocedor especialmente modificado del lenguaje, o con representaciones visuales tales como las forma de onda y espectrograma. Un índice de unidades en la base de datos del lenguaje se crea basado de la segmentación y los parámetros acústicos como la frecuencia fundamental. Esta técnica da la naturalidad más grande debido al hecho de que no aplica técnicas de proceso de la señal numérica al discurso registrado, que a menudo hace que el sonido registrado del lenguaje sea menos natural. De hecho la salida de los mejores sistemas de la selección de unidad es a menudo indistinguible de voces humanas verdaderas, especialmente en los contextos para los cuales se ha probado el sistema de TTS. Sin embargo, la máxima naturalidad requiere a menudo bases de datos del lenguaje tomado de la selección de unidades, en algunos sistemas que se extienden en los gigabytes de datos registrados y que numeran en las docenas de horas del discurso registrado.

25

3.2.2 Síntesis de dífono La síntesis basada en difonemas es la opción más implantada y conocida, se basa en la utilización de difonemas, es decir, unidades formadas por fracciones de fonemas colindantes, la segunda mitad del primer fonema y la primer mitad del fonema siguiente. Este método parte de la grabación de un corpus con todos los difonemas existentes en el idioma a utilizar. Este corpus consiste en una lista de aproximadamente 1000 palabras artificiales, vocablos sin sentido que combinan apropiadamente todos los pares de fonemas necesarios en los contextos fonéticos apropiados. El sintetizador genera la voz combinando dichos difonemas de acuerdo con la transcripción generada a partir de las reglas “ letter-to-sound”. La síntesis de dífono utiliza una mínima parte de la base de datos del lenguaje que contiene todos los dífonos (transiciones del sonido a sonido) que ocurre en una lengua dada. El número de dífonos depende de la fonotáctica de la lengua, el español tiene cerca de 800 dífonos, el alemán cerca de 2500. En la síntesis de dífonos, solamente un ejemplo de cada dífono se almacena en la base de datos del lenguaje. En el tiempo de ejecución, la prosodia objetivo de una oración se sobrepone en estas unidades mínimas por medio de técnicas de proceso de la señal numérica tales como codificación profética linear, PSOLA o MBROLA [MBROLA, 2010]. La calidad del discurso que resulta no es generalmente tan buena como la de la síntesis de selección de unidades pero más natural comparada con la salida de los sintetizadores formantes. La síntesis de dífono sufre de interferencias sónicas, la síntesis concatenativa y la naturaleza robótica que emite de la síntesis del formante. El uso de este tipo de sintesis en aplicaciones comerciales está declinando, aunque continúa siendo utilizado en la investigación porque hay un gran número de aplicaciones libremente disponibles.

3.2.3 Síntesis de dominio especifico La síntesis de dominio específico concatena palabras previas y frases para crear elocuciones completas [Lemmetty, 1999]. Esta técnica de síntesis se utiliza en las aplicaciones donde la variedad de textos que el sistema hará salir se limita a un dominio particular. Esta tecnología es muy simple de ejecutarse y ha estado en uso comercial durante mucho tiempo, ésta es la tecnología es utilizada por ejemplo en relojes y en calculadoras. La naturalidad de estos sistemas puede ser potencialmente muy alta porque la variedad de tipos de la oración es limitada, asocia la prosodia y entonación de los registros originales. Sin embargo, estos sistemas son limitados ya que las palabras y las frases en su

26

base de datos no son de uso general y sintetiza solamente las combinaciones de palabras y las frases que se han preprogramado.

3.3 Síntesis formante La síntesis formante [Taylor, 2009] fue la primera técnica de síntesis genuina para ser desarrollada y fue la técnica dominante desde 1980. La síntesis formante es a menudo llamada síntesis por regla (synthesis-by-rule). La síntesis formante adopta un enfoque modular, basado en modelos y fonética acústica para el problema de síntesis. El sintetizador formante hace uso del modelo de tubo acústico, pero no en una forma particular así que el control de los elementos del tubo son fácilmente relacionados a las propiedades acústicas fonéticas que pueden ser fácilmente observadas. Una capa típica básica de un sintetizador formante es mostrada en la Figura 7, en la cual se observa que el sonido es generado de una fuente, la cual es periódica para los sonidos de la voz y el ruido blanco de sonidos obstruyentes. Esta fuente básica de la señal entonces es alimentada en el tracto vocal. En virtud de que todos los sintetizadores formantes, las cavidades orales y nasales son modeladas separadamente como sistemas paralelos. Por lo tanto la señal pasa en el componente que modela vía oral la cavidad, pero también puede pasar en el componente para el modelado de la cavidad nasal si es necesario para un sonido nasalizado. Finalmente, las salidas de estos componentes son combinados y pasan a través de un componente de radiación el cual simula la carga y propagación de las características de los labios y nariz. Cavidad nasal

Radiación

Fuente

Forma de onda de la presión de la voz

Cavidad oral /faríngea Velocidad y volumen fuente

Velocidad y volumen labio/nariz

Figura 7. Diagrama de bloques del sintetizador formante básico.

27

El lenguaje sintetizado de tipo formante puede ser muy inteligible, incluso a una velocidad muy elevada, evitando las interferencias acústicas que pueden plagar a menudo a los sistemas concatenativos. Los sintetizadores formantes son a menudo programas más pequeños que los sistemas concatenativos porque no tienen una base de datos de las muestras de lenguaje. Pueden ser utilizados así en situaciones que donde a menudo es escasa la memoria y la energía del procesador. Los sistemas basados en la síntesis formante tienen control total sobre todos los aspectos del lenguaje de la salida, una variedad amplia de prosodia o la entonación se puede hacer salir, transportando no solo declaraciones, sino una variedad de emociones y tonos de la voz.

3.4 Otros métodos 3.4.1 Síntesis articulatoria La síntesis articulatoria [Lemmetty, 1999] se refiere a las técnicas computacionales para la síntesis de voz basada en modelos humanos del tracto vocal y los procesos de articulación ocurren ahí. El primer sintetizador articulatorio regularmente utilizado para experimentos de laboratorio fue desarrollado en los laboratorios Haskins a mediados de 1970 por Philip Rubin, Tom Baer y Paul Mermelstein. Este sintetizador, conocido como ASY, estaba basado en modelos del tracto vocal desarrollados en los Laboratorios Bell en 1960 y 1970 por Paul Mermelstein, Cecil Coker y colegas. Recientemente los modelos de síntesis articularia no han sido incorporados en los sistemas de síntesis de voz comerciales. Una excepción notable es NeXT. El sistema, comercializado por primera vez en 1994, proporciona el texto articulatorio completo basado en texto a voz utilizando una transmisión de línea analógica de los tractos oral y nasal humanos.

3.4.2 Síntesis Híbrida La síntesis híbrida [Lemmetty, 1999] mezcla aspectos de la síntesis formante y concatenativa para disminuir las interferencias acústicas de cuando se concatenan los segmentos del lenguaje, esta técnica es utilizada en muchos sintetizadores digitales, aunque con diferentes variantes.

3.4.3 Síntesis basada en HMM (Modelos ocultos de Markov) Tecnologías modernas de síntesis de voz involucran amplios y complicados métodos y algoritmos. Uno de los métodos aplicados recientemente en la síntesis de voz es el basado en los 28

modelos ocultos de Markov (HMM) [Lemmetty, 1999]. HMM ha sido aplicado al reconocimiento de voz desde 1970. Para los sistemas de síntesis de voz ha sido utilizado por cerca de dos décadas. Un modelo oculto de Markov es una colección de estados conectados por transiciones con dos conjuntos de probabilidades en las cuales: una transición de probabilidad la cual provee la probabilidad para llevar esta transición, y una salida de función densidad de probabilidad (pdf) que define la probabilidad que condiciona la emisión de cada símbolo de salida de un alfabeto finito dado a la transición.

29

CAPITULO 4. HERRAMIENTAS TEXT TO SPEECH En este capítulo se presenta una revisión de las herramientas más conocidas actualmente que realizan la técnica de conversión texto a voz. Además, se presenta la arquitectura y parámetros configurables del motor TTS que se emplea.

4.1 Estado del arte de los productos de síntesis de voz En las siguientes secciones se introducen algunas herramientas de conversión de texto a voz disponibles, ya sea comerciales o de libre distribución, es imposible incluir todas las aplicaciones o productos existentes pero al menos se muestran los más conocidos.

30

4.1.1 Microsoft Speech API La Interfaz de Programación de Aplicación de Voz o SAPI [Microsoft Speech SDK 5.1, 2010] es una API desarrollada por Microsoft para permitir el uso del reconocimiento y síntesis de voz dentro de aplicaciones de Windows. En general todas las versiones de la API han sido diseñadas de tal forma que un desarrollador de software pueda escribir aplicaciones para ejecutar la síntesis y reconocimiento de voz utilizando un conjunto de interfaces estándar, accesibles desde una variedad de lenguajes de programación. El sistema de Windows moderno utiliza los sistemas de voz SAPI4 y SAPI5 que incluyen un motor de reconocimiento de voz.

4.1.2 Cepstral Cepstral [Cepstral, 2010] proporciona tecnologías de voz y servicios para la reproducción oral de la información. Emplea voces de alta calidad que se escuchan naturales para diversas aplicaciones. Cepstral Text-To-Speech (TTS) los motores y las voces se pueden implementar en dispositivos móviles o en varias instancias en las plataformas de servidor. Cepstral también ha creado nuevas técnicas para que las voces de uso general y las "voces de dominio", que permiten que el habla generada pueda adaptarse a una aplicación, de esta forma Cepstral desarrolla un proceso simplificado para la creación de voces sintéticas.

4.1.3 Festival Festival [Festival, 2010] es un software libre que ofrece un marco general para la construcción de sistemas de síntesis de voz, así como también incluye ejemplos de varios módulos que han sido implementados. En conjunto ofrece el texto íntegro al discurso a través de una API: desde el nivel de capa, a través de un intérprete de comandos de esquema, como una librería de C++, de Java, y una interfaz de Emacs. Festival es multilingüe (actualmente Inglés (británico y americano), y español), aunque el Inglés es el más avanzado. Otros grupos lanzaron nuevos lenguajes para el sistema. Las herramientas y la documentación completa para construir nuevas voces están disponibles a través del proyecto de Carnegie Mellon FestVox.

31

El sistema está escrito en C++ y utiliza la librería de Herramientas de Voz de Edimburgo para la arquitectura de bajo nivel y tiene un esquema (SIOD) basado en el intérprete de comandos de control. Festival en la actualidad cuenta con tres tecnologías de síntesis de voz, de difonemas, selección de unidades y el método basado en los modelos ocultos de Márkov.

4.1.4 Loquendo Loquendo TTS [Loquendo, 2010] es un programa informático que hace la función de síntesis del habla. Proporciona voces reales para los datos dinámicos y funciona en diversas aplicaciones de voz, también ofrece voces naturales con capacidades para aplicaciones multimodales de voz. El TTS de Loquendo puede sintetizar idiomas y voces distintas simultáneamente, la existencia de un léxico de usuario asegura que vocabularios especializados, abreviaciones, acrónimos e incluso entonaciones regionales estén pronunciadas correctamente. El User Dictionary asegura que los términos especializados de vocabulario, las abreviaciones, las siglas y también las diferencias regionales en la pronunciación suenan en el justo modo en el momento en el que el desarrollador las crea.

4.1.5 IBM Vía Voice Con la tecnología ViaVoice [IBM Via Voice] detrás de pequeños dispositivos móviles de hoy y los sistemas de telemática del automóvil, los desarrolladores pueden proporcionar a los usuarios con acceso de voz a la información. IBM ViaVoice es una herramienta que desarrolla aplicaciones avanzadas de voz para dispositivos y sistemas a distancia, también reconoce listas de vocabulario de más de 200,000 palabras en tiempo real y a través de una amplia gama de idiomas, además incluye transferencia, integración, pruebas y servicios de consultoría prestados por IBM.

4.1.6 SVOX SVOX [SVOX, 2010] es un sistema de síntesis de texto a voz alemán el cual ha sido desarrollado en TIK/ETHZ (Instituto Federal Suizo de Tecnología, Zurich). El sistema SVOX consiste de dos módulos principales. El módulo de transcripción incluye el análisis del texto y la generación fonológica la cual es el hablante y la voz independiente. La representación fonológica es generada de cada enunciado de entrada e incluye la cadena del fonema respectivo, el nivel del acento 32

por silaba, y los límites de la frase (posición, tipo, y longitud y fuerza. El modulo fonoacústico, incluye todos los componentes dependientes del hablante que son requeridos para generar una apropiada señal de voz de la representación fonológica.

4.1.7 IVONA TTS IVONA [IVONA TTS, 2010] es un sistema de síntesis de voz en varios idiomas desarrollado en Polish IT compañía de IVO software. IVONA utiliza la técnica de unidades de selección, este tipo de síntesis utiliza grandes bases de datos de voz grabada, durante la creación de las bases de datos cada frase grabada se segmenta en otras como tonos individuales, sílabas, morfemas, palabras, frases y oraciones. La división en segmentos se realiza usando un reconocedor de voz especialmente modificado. Un índice de las unidades de voz en la base de datos se crea sobre la base de la segmentación y los parámetros acústicos como la frecuencia fundamental (tono) o la duración. En tiempo de ejecución, la emisión objetivo deseada se crea mediante la determinación de la mejor cadena de unidades candidato de la base de datos (selección de unidades).

4.2 Proceso de conversión de texto a voz de Microsoft Speech SDK 5.1 4.2.1 Arquitectura Microsoft Speech SDK 5.1 Microsoft Speech SDK 5.1 [Microsoft Speech, 2011] es una interfaz de programación de aplicaciones de voz, también conocida en inglés como SAPI (Speech Application Programming Interface). Es una API desarrollada por Microsoft para permitir el uso de reconocimiento de voz y síntesis de voz dentro de las aplicaciones de Windows. Las aplicaciones que utilizan SAPI incluyen Microsoft Office, Microsoft Agent y el servidor de voz de Microsoft. SAPI, reduce drásticamente la sobrecarga de código necesario que requiere una aplicación para utilizar el reconocimiento de voz y texto a voz, haciendo la tecnología de voz más accesible y robusta para una amplia gama de aplicaciones. La API SAPI proporciona una interfaz de alto nivel entre una aplicación y los motores de voz. SAPI implementa todos los detalles de bajo nivel necesarios para controlar y gestionar las operaciones en tiempo real de los diferentes motores de voz. Los dos tipos básicos de motores SAPI son de texto a voz (TTS) y sistemas de reconocimiento del habla. Los sistemas TTS sintetizan 33

cadenas de texto en archivos de audio hablado con voces sintéticas. Los reconocedores de voz convierten audio de habla humana en cadenas de texto legible y archivos, la Figura 8 muestra la arquitectura del motor Microsoft Speech SDK.

Aplicación

Aplicación

API SAPI Runtime

DDI

Motor de reconocimiento

Motor TTS

Figura 7. Arquitectura Microsoft Speech SDK

4.2.2 Atributos de configuración de Entrada La interfaz principal de ésta SAPI es ISpVoice, que es una plataforma de Microsoft para componentes de software (Component Object Model – COM – ) que permite comunicación entre procesos. La interfaz ISpVoice permite que una aplicación realice operaciones de síntesis de texto de forma sincrónica o asincrónica. Es posible elegir una voz TTS específica utilizando el método ISpVoice::SetVoice. El estado de la voz (por ejemplo, velocidad, tono y volumen), puede modificarse mediante etiquetas XML de SAPI que están incrustadas en el texto hablado. Algunos atributos, como la velocidad y volumen, pueden cambiarse en tiempo real utilizando ISpVoice::SetRate y ISpVoice::SetVolume. Una vez que la aplicación ha creado un objeto ISpVoice, la aplicación solo necesita llamar a ISpVoice::Speak para generar voz de salida, la Figura 9 muestra como operamos el motor de voz con las propiedades de síntesis antes mencionadas. El método IspVoice::Speak puede operar de forma síncrona (retorna solo cuando fue completamente finalizada el habla) o asíncrona (retorna inmediatamente y habla como un proceso de fondo). Cuando se habla de forma asíncrona (SPF_ASYNC), la información de estado en tiempo real tal como la ubicación del habla y el estado actual del texto pueden ser consultados utilizando 34

ISpVoice::GetStatus. También al hablar de forma asíncrona, el nuevo texto se puede generar de forma inmediata por la interrupción de la corriente de salida (SPF_PURGEBEFORESPEAK), o automáticamente agregar el nuevo texto al final de corriente de salida.

ISpVoice::Speak ISpVoice::SetRate

Propiedades de síntesis del ISpVoice

ISpVoice::SetVolume ISpVoice::SetVoice

Texto

Motor de voz Microsoft Speech SDK5.1

Tecnología de síntesis de voz (Loquendo)

Aplicación P thon

Voz

Arroja información de

Fonemas

Visemas

Palabras

Figura 8. Identificación de atributos del motor de Microsoft Speech SDK 5.1.

4.2.3 Atributos de configuración de Salida Los datos que se pueden obtener del proceso de síntesis de voz a partir de un texto dependen de los métodos y parámetros de las librerías que se utilicen para acceder al SAPI. En nuestro caso, se realizará a través de la librería de Python llamada PyTTS. En la sección 4.3 se presentan los métodos y atributos que se utilizaron en este trabajo. A continuación se presentan en 2 tablas el alfabeto de fonemas que se encuentra documentado en el SAPI 5 y los identificadores del conjunto de visemas que se trabajan, éstos últimos están basados en la propuesta de 13 Visemas de Disney. 35

TABLA DE FONEMAS ( Fonemas del Inglés Americano) SIMBOLO

EJEMPLO Descripción

PhoneID

SIMBOLO EJEMPLO - Descripción

PhoneID

-

guion

1

ng

sing

34

!

Signo admiración 2

ow

go

35

3

oy

toy

36

& ,

Coma

4

p

put

37

.

Punto

5

r

red

38

?

Signo de interrogación

6

s

sit

39

_

Silencio (raya)

7

sh

she

40

1

Acento prosódico 8 primario

t

talk

41

2

Acento prosódico 9 secundario

th

thin

42

aa

father

10

uh

book

43

ae

cat

11

uw

too

44

ah

cut

12

v

vat

45

ao

dog

13

w

with

46

aw

foul

14

y

yard

47

ax

ago

15

z

zap

48

ay

bite

16

zh

pleasure

49

b

big

17

ch

chin

18

d

dig

19

dh

then

20

eh

pet

21

er

fur

22

ey

ate

23

f

fork

24

g

gut

25

h

help

26

ih

fill

27

iy

feel

28

jh

joy

29

k

cut

30

l

lid

31

m

mat

32

n

no

33

Tabla 3. Tabla de fonemas del inglés americano.

36

TABLA DE VISEMAS VISEME

Fonemas descritos por SAPI

SP_VISEME_0 SP_VISEME_1 SP_VISEME_2 SP_VISEME_3 SP_VISEME_4 SP_VISEME_5 SP_VISEME_6 SP_VISEME_7 SP_VISEME_8 SP_VISEME_9 SP_VISEME_10 SP_VISEME_11 SP_VISEME_12 SP_VISEME_13 SP_VISEME_14 SP_VISEME_15 SP_VISEME_16 SP_VISEME_17 SP_VISEME_18 SP_VISEME_19 SP_VISEME_20 SP_VISEME_21

Silence ae, ax, ah aa ao ey, eh, uh er y, iy, ih, ix w, uw ow aw oy ay h r l s, z sh, ch, jh, zh th, dh f, v d, t, n k, g, ng p, b, m

Tabla 4. Tabla de visemas del inglés americano.

4.3 Librería PyTTS El módulo pyTTS es la librería para manejar los servicios Text-to-Speech de Microsoft Speech API (SAPI) para su uso en Python. Se basa en la biblioteca win32com para la obtención y la comunicación con las interfaces COM SAPI. Ejemplos de las tareas más comunes de texto a voz son texto al habla, cambiar los parámetros de voz, hablar a o desde un archivo WAV, corregir pronunciación, y controlar los eventos del habla. Para utilizar el modulo pyTTS se necesitan los siguientes componentes: 

Microsoft SAPI 5.1



Voces



Python



pyTTS 3.0 o superior

37

4.3.1 Clases de pyTTS Esta librería está compuesta de 5 clases, las cuales se describen a continuación CLASES

DESCRIPCION

Base

Clase padre para todas las interfases del sintetizador de habla

SynthAndOutput

Define métodos para la voz de audio de salida.

SynthOnly

Define un método para la voz sintetizada co n eventos asociados a la memoria como mas rapido sea possible.

VoiceEvent

Contiene información acerca de un evento TTS.

VoiceEventManager

Distribuye eventos para los retorno de llamada registrados.

A continuación se presentan las 2 Clases principales que se utilizan de ésta librería y los métodos más utilizados. CLASE

METODO

DESCRIPCION

BASE SetRate(self, rate)

Fija la tasa de velocidad de la voz

BASE SetVoice(self, obj) BASE SetVoiceByName(self, voice_name) Fija una voz dada para activar la voz. BASE SetVolume(self, vol)

Fija el volumen de voz actual.

BASE Speak(self, text, *flags)

Método virtual.

VoiceEventManager OnPhoneme(self, stream_number, stream_position, duration, next_phone_id, feature, current_phone_id)

VoiceEventManager OnSentence(self, stream_number, stream_position, character_position, length)

VoiceEventManager OnViseme(self, stream_number, stream_position, duration, next_viseme_id, feature, current_viseme_id)

VoiceEventManager OnWord(self, stream_number, stream_position, character_position, length)

Se activa cuando un fonema es encontrado en una secuencia del habla. Se activa cuando una sentencia es encontrada en un flujo de la voz. Se activa cuando un visema es encontrado en una secuencia del habla. Fires when a phoneme is encountered in a speech stream. Se activa cuando un fonema es encontrado en un flujo de la voz.

VoiceEventManager OnEndStream(self, stream_number, Se active cuando el flujo de voz termina. stream_position)

Tabla 5. Clases de la librería pyTTS.

En Python, las propiedades de ISpVoice, ISpVoice::SetRate, ISpVoice::SetVolume, ISpVoice::SetVoice son configuradas de la siguiente forma: tts.SetRate = 0 tts.SetVolume = 100 38

tts.SetPitch = 0 Los rangos de valores de estos tres atributos, va desde 0 a 100. El atributo Pitch, aunque puede asignársele valor en Python, su modificación no afecta los valores de la salida del audio, por lo cual se definió con valor cero para el desarrollo de las pruebas. La propiedad ISpVoice::SetVoice es configurada de la siguiente forma: tts.SetVoiceByName('LQEsperanza') Esto muestra la configuración de voz para el idioma latino mexicano de género femenino, que corresponde al identificador „LQEsperanza‟. El método IspVoice::Speak es llamado en Python de la siguiente forma: tts.Speak("él!", 1) #1: Significa ASÍNCRONO La Tabla 6 muestra los atributos a los cuales se les puede configurar desde Python, pertenecientes a las clases OnWord, OnPhoneme y OnViseme en Python. Clases OnPhoneme

Parámetros Stream_number Stream_position Duration Next_phone_id Feature

OnViseme

Current_phone_id Stream_number Stream_position Duration Next_viseme_id Feature

OnWord

Current_viseme_id Stream_number Stream_position Character_position Length

Descripción Posición del flujo de la cola de secuencias del habla Desplazamiento de bytes en el que se produjo el evento Duración del fonema en milisegundos ID del siguiente fonema Indica si el fonema es normal, acentuado o con énfasis ID del fonema actual Posición del flujo de la cola de secuencias del habla Desplazamiento de bytes en el que se produjo el evento Duración del visema en milisegundos ID del siguiente visema Indica si el visema es normal, acentuado o con énfasis ID del visema actual Posición del flujo en la cola de flujos para el habla Desplazamiento de bytes en el cuál el evento ocurrió Posición del inicio de la sentencia en el flujo Longitud de la palabra en caracteres

Tipo Entero Entero Entero Entero Entero (0, 1, 2) Entero Entero Entero Entero Entero Entero (0, 1, 2) Entero Entero Entero Entero Entero

Tabla 6. Atributos de las clases OnPhoneme, OnViseme y OnWord.

39

Durante el desarrollo de las pruebas se encontró que el atributo duration tanto para fonema para visema resulto con valores iguales, el atributo feature para todas las pruebas en los diversos casos, siempre arrojó el valor de „1‟ . Los atributos que se utilizaron en nuestro análisis son los siguientes:

duration, next_viseme_id, next_phoneme_id y current_viseme_id.

40

CAPITULO 5. ANÁLISIS DE LOS PARÁMETROS DISPONIBLES EN LAS HERRAMIENTAS TEXT TO SPEECH En este capítulo se presenta el análisis detallado de las pruebas realizadas, incluyendo una descripción de los resultados obtenidos a partir del conjunto de parámetros configurados de entrada en el proceso de conversión de texto a voz a fin de obtener información de fonemas y visemas asociados a los textos de entrada.

5.1 Parámetros de entrada de las herramientas Como se vio en el Capítulo 2, en la conversión de Texto a Voz el sintetizador es ejecutado en el programa para generar la voz. 41

En el análisis se recibe una cadena de caracteres, es el cuerpo textual el que es tomado como entrada para el proceso de conversión. En la Figura 9, en el proceso de análisis del texto se identifican los atributos que intervienen en la conversión de texto a voz, los cuales son los fonemas y otros elementos relacionados con la fonética, además de los visemas. Los fonemas y visemas generan una estructura lingüística que permite la generación de voz, que arroja como producto una voz sintetizada que reproduce el texto de entrada en conjunto con los atributos configurables como lo son el tono, la velocidad y el volumen, es importante mencionar que al modificar el tono no se presenta alteración de los resultados. Los atributos que son arrojados del proceso son los fonemas y visemas, en el Capítulo 2 se presenta una revisión teórica de estos conceptos. Además de estos parámetros, en relación con la cadena de texto a procesar, también se observa el idioma, siendo considerados el inglés y el español.

Entrada del Texto

Cuerpo Textual

Análisis del texto

Estructura Lingüística

Generación de voz

Voz Sintetizada

Figura 9. Proceso TTS.

Se incluyen voces sintetizadas tanto en español como en inglés con la finalidad de observar la variación en la generación de fonemas y la aparición de visemas relacionados a estos. Para tener una guía de apoyo en el desarrollo de las pruebas se hace uso de algunas consideraciones referentes la lingüística, si bien no es posible incluir una revisión lo suficientemente general debido a lo extenso de esta ciencia, se integran ejemplos que permiten explorar ciertas partes del lenguaje oral y escrito para así determinar qué elementos de la prosodia son identificados en los valores de los fonemas producidos. La Tabla 7 muestra la descripción de las voces empleadas en las pruebas, como se puede observar no se introdujo una voz masculina del español mexicano debido a que los fonemas y visemas que genera la voz contemplada para este propósito resultan imprecisos de comprender, a diferencia de los otros idiomas. Es importante mencionar que tampoco es posible incluir una revisión de la totalidad de la gramática de los idiomas, se ha optado por considerar partes del lenguaje oral y escrito, a lo que antes se hizo referencia.

42

Voces

Género

Origen

Idioma

Tecnología

Esperanza

Femenino

México

Español

Loquendo

Jorge

Masculino

España

Español

Loquendo

Carmen

Femenino

España

Español

Loquendo

Susan

Femenino

USA

Inglés

Loquendo

Dave

Masculino

USA

Inglés

Loquendo

Tabla 7. Voces empleadas en los análisis.

Se integran ciertas contemplaciones como la aparición de acentos y la fonética esperada, añadir signos de puntuación, interrogación y admiración y las diferencias sonoras generadas en adición con los valores de los fonemas que se identifiquen, la aparición de espacios en blanco, la distinción de algunos grafemas y el análisis de los fonemas vocálicos y consonánticos ya sea en forma singular o dentro de palabras.

5.2 Análisis de Fonemas Vocálicos y Consonánticos En la Tabla 1 del Capítulo 2 se muestran los fonemas vocálicos, cabe mencionar que en los ejemplos que siguen existen variaciones en algunas combinaciones de vocales, en las siguientes secciones se referirán estas alteraciones encontradas en los fonemas, la mayoría de las variaciones son interpretadas en el contexto de las palabras. Aunque en la Tabla 1 del Capítulo 2 aparece la clasificación de vocal media, en general suele considerarse a las vocales a, e y o como abiertas y a i y u como cerradas. Antes de revisar las uniones de vocales, se presenta la Tabla 8 que contiene el análisis comparativo entre la voz española y mexicana de las vocales cuando no se encuentran dentro de otra palabra o en unión con otra letra. Vocal a e i o u

Idioma Mexicano Español Mexicano Español Mexicano Español Mexicano Español Mexicano Español

ID Fonema 97 10 101 11 105 12 111 13 117 14

ID Visema 10 2 4 4 6 6 3 8 7 7

Duración (ms) 227 222 222 195 218 239 215 217 254 231

Tabla 8. Análisis de fonemas vocálicos.

43

El idioma mexicano empleado en esta comparativa corresponde a una mujer, mientras que el del español es de un hombre, más adelante se revisará el análisis desde otras perspectivas y se incluirán observaciones de los fonemas y visemas generados por las voces en inglés. En la Tabla 9 se pueden observar las similitudes de los identificadores de visemas para cada idioma. Se puede observar que no existe diferencia para las letras e, i y u. También se observa que no existe relación alguna entre los identificadores de los fonemas para ambos idiomas. Para entender el sentido de las pruebas con los fonemas vocálicos que se presentan en esta sección, hay que tener en cuenta que el diptongo se define como la unión de dos vocales en la misma sílaba, un diptongo es conformado por dos vocales cerradas, una abierta y una cerrada o una cerrada y una abierta, dos vocales abiertas no constituyen un diptongo sino un hiato y deben separarse en distintas sílabas. Vocales ae ai ao au ea ei eo eu ia ie io iu oa oe oi ou ua ue ui uo

Id Fonema 97|101 97|105 97|111 111 101|97 101|105 101|111 101|117 105|97 106|101 106|111 106|117 111|97 111|101 111|105 111|117 117|97 117|101 117|105 117|111

aa ee ii oo uu

97|97 101|101 105|105 111|111 117|117

VOZ MUJER - MEXICANA Id Visema Duración (ms) 10|4 108|166 10|6 174|56 10|3 179|148 3 215 4|10 94|108 4|6 196|119 4|3 144|121 4|7 103|114 6|10 185|124 6|4 115|181 6|3 100|217 6|7 161|197 3|10 126|134 3|4 184|114 3|6 165|200 3|7 135|142 7|10 174|191 7|4 152|198 7|6 152|200 7|3 147|158 10|10 4|4 6|6 3|3 7|7

164|124 113|105 148|128 151|158 147|142

VOZ HOMBRE - ESPAÑOL Id Fonema Id Visema Duración (ms) 10|11 2|4 117|100 10|12 2|6 94|112 10|13 2|8 95|98 13 8 217 11|10 4|2 96|162 11|12 4|6 56|151 11|13 4|8 99|97 11|14 4|7 96|154 12|10 6|2 115|99 33|11 6|4 85|197 33|13 6|8 65|147 33|14 6|7 85|213 13|10 8|2 133|149 13|11 8|4 133|99 13|12 8|6 118|192 13|14 8|7 137|154 14|10 7|2 58|194 14|11 7|4 81|184 14|12 7|6 81|158 14|13 7|8 81|106 10|10 11|11 12|12 13|13 14|14

2|2 4|4 6|6 8|8 7|7

108|124 103|111 88|134 125|124 81|134

Tabla 9. Resultado de análisis de unión de vocales, con voz de mujer mexicana y hombre español.

44

Existe también una clasificación para los diptongos, estos son los crecientes y los decrecientes, los crecientes son los que se conforman por uniones de vocales donde la primera es cerrada y la segunda abierta, siendo el caso contrario para los diptongos decrecientes, aunque también existen los casos especiales donde la unión de las vocales son dos cerradas. En la Tabla 10 se muestra el análisis completo de las combinaciones donde interviene la unión de 2 vocales. Es importante mencionar que en el análisis de la voz en español mexicana, la duración de los fonemas se ve afectada dependiendo de la ubicación de la vocal, sin embargo los visemas conservan el mismo identificador, se ha añadido el diptongo ou aunque no es genuinamente castellano, debido a que en el idioma español existen nombres propios o palabras adaptadas del inglés que lo contienen. Del análisis, se observa que de los fonemas vocálicos se puede deducir que para casos como la secuencia de vocales „ au ‟, solo se identifica un fonema medible, resultado de la asociación de

ambas

vocales, el resto de las uniones de las vocales implican dos fonemas. Analizando las vocales „ ia ‟, se encuentran dos fonemas correspondientes a cada vocal es decir /i/ y /a/, lo que significa que la unión de estas vocales resultan en dos sonidos, a diferencia de la secuencia de vocales „ au ‟ las cuales solo registran un fonema.

Cabe mencionar que para las voces españolas también es encontrado un solo fonema y visema para tal secuencia de vocales „au ‟, pero los identificadores de estos visemas son diferentes a los del español mexicano, esto se muestra en la Tabla 5. Para el análisis de los fonemas consonánticos nos encontramos con la asociación de varios fonemas para construir la lectura de las consonantes, ya que las letras son leídas como en el español las escuchamos. Las consonantes se escuchan en el contexto donde se encuentren, al encontrar letras solas como en el caso particular de „t‟ al cual se le asocia el mismo fonema en contexto y además el fonema asociado a la vocal „e‟, estos constituyen la lectura completa de la letra, su sonido especifica „te‟ y no „t‟ como era de esperarse, lo cual nos lleva a la prueba de la palabra „te‟ la cuál experimenta la

misma duración y fonemas asociados, al igual que los valores de los visemas, algunas observaciones son mostradas en la Tabla 6, las tablas del análisis completo de estas consideraciones está incluido en los Anexos. En la Tabla 6 se muestra una comparación de los fonemas y visemas entre el español mexicano y el español de España. La mayoría de los visemas encontrados entre ambos idiomas resultan con el

45

mismo identificador, esto se puede observar de forma más clara en la Tabla X, en la cual se muestra la lista de símbolos.

Palabra

Idioma

Fonema

Visema

Duración (ms)

Tierra

Mexicano

116|106|101|114|97

19|6|4|13|10

87|69|131|109|114

Español

15|33|11|32|10

19|6|4|13|2

68|59|56|109|101

Mexicano

112|97|105|97|120|101

21|10|6|15|10|12|4

57|76|46|135|147|102|85

Español

17|10|12|24|10|25|11

21|2|6|15|2|12|4

63|47|61|93|81|119|78

Mexicano

98|101|105|110|116|101

21|4|6|19|19|4

63|108|58|62|73|116

Español

18|11|12|27|15|11

21|4|6|19|19|4

64|85|35|73|81|137

Mexicano

97|240|101|117|240|111

10|17|4|7|17|3

122|75|30|201|64|139

Español

10|7|11|14|7|13

2|0|4|7|0|8

75|44|59|87|76|112

Mexicano

112|106|97|110|111

21|6|10|19|3

98|77|156|70|93

Español

17|33|10|27|13

21|6|2|19|8

59|66|89|52|96

Mexicano

102|119|101|624|111

18|7|4|21|3

102|77|114|63|97

Español

23|34|11|7|13

18|7|4|0|8

82|48|58|60|116

Mexicano

105|110|105|115|106|111

6|19|6|15|6|3

108|78|126|130|73|62

Español

12|27|12|35|33|13

6|19|6|17|6|8

93|62|67|105|89|77

Mexicano

109|101|110|115|117|97|108

21|4|19|15|7|10|14

60|75|76|114|62|137|131

Español

26|11|27|24|14|10|29

21|4|19|15|7|2|14

66|66|63|106|68|87|133

Mexicano

114|101|115|105|240|119|111

13|4|15|6|17|7|3

67|53|119|127|73|64|132

Español

32|11|24|12|7|34|13

13|4|15|6|0|7|8

98|40|103|84|82|55|133

Mexicano

97|110|100|638|111|105|240|101

10|19|19|13|3|6|17|4 87|81|56|57|104|89|64|84

Español

10|27|16|31|13|12|7|11

2|19|19|13|8|6|0|4

70|86|53|47|79|59|38|119

Mexicano

108|117|638|240|101|115

14|7|13|17|4|15

63|147|75|70|96|150

Español

29|13|14|31|7|11|24

14|8|7|13|0|4|15

75|95|82|49|60|99|150

Mexicano

97|117|116|111|633

10|7|19|3|13

106|60|108|166|199

Español

10|14|15|13|31

2|7|19|8|13

98|95|55|108|118

Mexicano

100|101|117|240|97

19|4|7|17|10

109|92|118|53|180

Español

16|11|14|7|10

19|4|7|0|2

62|81|96|91|160

Mexicano

115|106|117|240|97|240

15|6|7|17|10|17

110|33|60|44|179|178

Español

35|33|14|7|10|7

17|6|7|0|2|0

89|40|47|40|116|73

Mexicano

114|119|105|240|111

13|7|6|17|3

130|64|158|78|89

Español

32|34|12|7|13

13|7|6|0|8

80|85|76|87|78

Paisaje

Veinte

Adeudo

Piano

Fuego

Inicio

Mensual

Residuo

Androide

Lourdes

Autor

Deuda

Ciudad

Ruido

Tabla 10. Análisis de las palabras con diptongos.

46

En España nos encontramos con la aparición de triptongos que son la combinación de 3 vocales en una sola palabra. Los triptongos se conforman por una vocal cerrada seguida de una abierta y otra cerrada. Algunos ejemplos de palabras encontradas en el idioma español de España donde aparecen triptongos son mostrados en la Tabla 11, estos son „iái‟, „iéi‟, „uái‟ y „uéi‟, los cuales se incluyen a fin de observar el comportamiento de los fonemas generados. Ejemplos Aliviáis Limpiéis Atestiguáis Situéis

Fonemas 10|29|12|7|12|10|12|24 29|12|26|17|33|11|12|24 10|15|11|24|15|12|7|34|10|12| 24 24|12|15|34|11|12|24

Visemas 2|14|6|0|6|2|6|15 14|6|21|21|6|4|6|15 2|19|4|15|19|6|0|7|2| 6|15 15|6|19|7|4|6|15

Duración (ms) 83|61|82|74|79|63|101|180 72|73|56|80|64|74|113|188 78|68|66|56|67|43|77|64|79| 107|197 110|54|85|92|124|98|214

Tabla 11. Análisis de fonemas de diptongos españoles.

En la Tabla anterior se puede observar que los triptongos contienen por regla acento en la vocal de en medio, y de los triptongos antes mencionados todas las vocales involucradas en estas uniones tienen fonemas asociados a cada una, al igual que sus visemas. En el español mexicano también existen uniones de 3 vocales que aunque no todas corresponden a un triptongo por su estructura, son también ejemplos para revisar (ver Tabla 12).

Ejemplos

Fonemas

Visemas

Duración (ms)

Quien

107|106|101|110

20|6|4|19

104|65|115|195

Semiautomático

115|101|109|106|97|117| 15|4|21|6|10|7| 116|111|109|97|116|105| 19|3|21|10|19|6 107|111 | 20|3

94|79|70|66|22|54|109|45|86| 107|95|60|100|113

Guión

103|106|111|110

91|118|130|135

20|6|3|19

Tabla 12. Análisis de palabras del español mexicano con uniones de 3 vocales.

Se observa que las palabras „quien‟ y „guión‟ las uniones de las letras „qu‟ „gu‟ generan un solo fonema y visema. La Tabla 12 es muestra las palabras que se analizaron para determinar cómo afecta a los fonemas y visemas generados dependiendo de la ubicación de la vocal. Algunos ejemplos de la Tabla 12, fueron tomados considerando la posición de la sílabas de énfasis, aunque para el ejemplo de la vocal 47

„o‟, encontrada en las palabras „otro‟ o „coco‟, en el análisis, para ambos idiomas la entonación tiene

la misma sílaba de énfasis. Fonema / Ubicación

/a/

/e/

/i/

/o/

/u/

Palabra

Inicial

ave

Media

acata

Final

ala

Inicial

eco

Media

abeja

Final

sale

Inicial

imán

Media

asilo

Final

salí

Inicial

otro

Media

dos

Final

coco

Inicial

uso

Media

abuso

Final

ímpetu

Idioma

Fonemas

Visemas

Duración

Español Mexicano Español Mexicano Español Mexicano Español Mexicano Español Mexicano Español Mexicano Español Mexicano Español Mexicano Español Mexicano Español Mexicano Español Mexicano Español Mexicano Español Mexicano Español Mexicano Español Mexicano

10|7|11 97|946|101 10|19|10|15|10 97|107|97|116|97 10|29|10 97|108|97 11|19|13 101|107|111 10|7|11|25|10 97|946|101|120|97 24|10|29|11 115|97|108|101 12|26|10|27 105|109|97|110 10|24|12|29|13 97|115|105|108|111 24|10|29|12 115|97|108|105 13|15|31|13 111|116|638|111 16|13|24 100|111|115 19|13|19|13 107|111|107|111 14|24|13 117|115|111 10|7|14|24|13 97|946|117|115|111 12|26|17|11|15|14 105|109|112|101|116|117

2|0|4 10|21|4 2|20|2|19|2 10|20|10|19|10 2|14|2 10|14|10 4|20|8 4|20|3 2|0|4|12|2 10|21|4|12|10 15|2|14|4 15|10|14|4 6|21|2|19 6|21|10|19 2|15|6|14|8 10|15|6|14|3 15|2|14|6 15|10|14|6 8|19|13|8 3|19|13|3 19|8|15 19|3|15 20|8|20|8 20|3|20|3 7|15|8 7|15|3 2|0|7|15|8 10|21|7|15|3 6|21|21|4|19|7 6|21|21|4|19|7

104|47|109 125|78|129 119|62|83|77|132 97|114|144|109|115 110|69|105 165|77|106 77|109|102 135|119|106 62|51|86|109|117 90|62|145|107|195 111|89|65|57 77|154|81|95 75|85|52|159 98|89|118|121 99|112|83|72|65 82|119|135|90|163 105|68|44|142 122|89|71|163 125|65|43|78 190|111|61|116 29|136|244 93|179|207 57|66|127|77 79|143|113|117 117|100|137 165|135|100 62|51|85|114|137 90|60|141|120|100 88|71|76|55|100|110 148|72|85|67|100|145

Tabla 13. Pruebas fonemas vocalicos.

Fonemas Consonánticos /c/, /z/ y /s/ Ahora se revisaran algunas pruebas con fonemas consonánticos, la Tabla 14 muestra palabras con el uso del fonema /c/, las características del idioma para estos análisis es mexicano y mujer. Casos Casa Caza Kimono

ID Fonema 107|97|115|97 107|97|115|97 107|105|109|111|110|111

ID Visema 20|10|15|10 20|10|15|10 20|6|21|3|19|3

Duración (milisegundos) 54|168|105|111 54|168|105|111 68|63|78|155|110|122

Tabla 14. Pruebas del fonema /c/.

De las palabras anteriores „casa‟ y „caza‟, además de la palabra „kimono‟ también se observa que

los grafemas y en este contexto corresponden al fonema /k/, al encontrarse acompañados de la vocal a.

48

De las palabras homófonas anteriores „casa‟ y „caza‟, se d educe que al igual que fonéticamente son iguales, su análisis reconoce los mismos fonemas y visemas para cada grafema, lo mismo sucede para las palabras „vos‟ y „voz‟ de la Tabla 16.

En la Tabla 15, palabras como „sapo‟, „zapato‟, „cerro‟, „ciclo‟ y „ciudad‟ han sido incluidas en el análisis a fin de observar el fonema concerniente a los grafemas , y , se reconoce al fonema /s/ al encontrarse el grafema , y , para el caso de se asocia con el fonema /s/ debido a la vocal que lo acompaña. Casos Sapo Zapato Cerro Serapio

ID Fonema 115|97|112|111 115|97|112|97|116|111 115|101|114|111 115|101|638|97|112|106| 111 115|105|107|108|111

Ciclo

ID Visema 15|10|21|3 15|10|21|10|19|3 15|4|13|3 15|4|13|10|21|6|3

Duración (milisegundos) 90|118|121|140 89|71|100|157|109|116 157|164|77|157 88|88|39|158|108|63|140

15|6|20|14|3

124|126|127|81|98

Tabla 15. Pruebas del fonema /s/.

Fonema Consonántico /b/ Casos Voz Vos

ID Fonema 98|111|115 98|111|115

ID Visema 21|3|15 21|3|15

Duración (milisegundos) 91|173|207 91|173|207

Tabla 16. Pruebas del fonema /b/.

Para la palabra Lourdes, si bien cuando se mencionaron los análisis para los diptongos y uniones de vocales, no se considero algún ejemplo con „ou‟ dentro de alguna palabra, para lo cual se observa

que es generado un solo fonema para este grafema tal como se observa en la Tabla 17. Casos Lourdes

ID Fonema 108|117|638|240|101|115

ID Visema 14|7|13|17|4|15

Duración (milisegundos) 63|147|75|70|96|150

Tabla 17. Prueba del grafema . Voz Mexicana Mujer Uno dos

Palabras Posición del flujo Posición del carácter Longitud ID Fonemas ID siguiente fonema ID Visemas ID siguiente visema Duración (ms)

Uno 0 0 3 117|110|111 110|111|240 7|19|3 19|3|17 124|51|69

dos 7832 4 3 240|111|115 111|115|4 17|3|15 3|15|0 48|146|251

Uno,dos uno 0 0 3 117|110|111|4 110|111|4|97 7|19|3|0 19|3|0|10 189|61|173|121

dos 17432 5 3 100|111|115 111|115|4 19|3|15 3|15|0 93|179|207

Tabla 18. Análisis del español mexicano para ca sos con palabras separadas por espacios en blanco y comas.

49

En la Tabla 18, se puede observar que cuando solo se escribe un espacio en blanco como separación de las palabras, los identificadores tanto de fonemas como de visemas tienen identificadores relacionados. Cuando se indica la separación de las palabras por una coma además de perderse la secuencia después de este signo de puntuación, se identifica un fonema y visema asociados a este, lo que se interpreta como el silencio o los identificadores de este signo. La consecuencia de emplear comas implica que el atributo ID siguiente fonema e ID siguiente visema no coincidan con los fonemas y visemas encontrados subsecuentes, , es decir, hacen referencia a un espacio en blanco o la ausencia de palabras, determinándose un nuevo inicio para cuando se encuentre la siguiente palabra, tal como se muestra en la Tabla 19. Voz Inglés Hombre Palabras Posición del flujo Posición del carácter Longitud ID Fonemas ID siguiente fonema ID Visemas ID siguiente visema Duración (ms)

One Two One 0 0 3 46|12|33 12|33|41 7|1|19 1|19|19 81|82|101

Two 8476 4 3 41|44 44|7 19|7 7|0 76|217

One, Two One 0 0 3 46|12|33|7 12|33|716 7|1|19|0 1|19|0|11 104|157|165|121

Two 17554 5 3 41|44 41|44 44|7 19|7 7|0

Tabla 19. Análisis en ingles para las palabras separadas por espacios en blanco y comas.

Como se puede observar de la Tabla 19, del análisis resultante usando la voz en inglés de U.S.A sucede lo mismo con la comparación del espacio en blanco y la coma, claro cabe señalar que en la palabra „two‟ solo se identifica un fonema para el grafema < t> y otro para el grafema como se muestra en la Tabla 20. Voz Inglés Hombre Two


0 0 3 41|44 44|7 19|7 7|0 93|352

Tabla 20. Prueba grafema .

50

. Voz Mexicana Mujer Palabras Posición del flujo Posición del carácter Longitud ID Fonemas ID siguiente fonema ID Visemas ID siguiente visema Duración (ms)

Quién 0 0 5 107|106|101|110 106|101|110|4 20|6|4|19 6|4|19|0 104|65|115|195

¿Quién? 0 0 7 107|106|101|110|4 106|101|110|4|97 20|6|4|19|0 6|4|19|0|10 110|76|239|103|593

Tabla 21. Análisis grafemas acompañados de signos del español mexicano.

De la Tabla 21, se observa que para la secuencia de caracteres Quién y ¿Quién?, la diferencia de forma sonora existe, hay una entonación que diferencia ambas palabras, el análisis arroja que solo se añade un fonema y visema asociados al signo „?‟.


Voz Inglés Hombre Who 0 0 3 26|44 44|7 12|7 7|0 82|323

Who? 0 0 4 26|44|7 44|7|16 12|7|0 7|0|11 82|323|593

Tabla 22. Análisis de grafemas del inglés con signos.

En el análisis en ingles de las palabras who y who? Mostrado en la Tabla 22, se determinó que de forma sonora no existe una diferencia en la entonación. Se observa que al igual que en el ejemplo de los grafemas en español, solo se añade un identificador de fon ema y visema para el signo „?‟. Solo se reconocen dos fonemas y visemas para cada análisis asociado a los grafemas . La Tabla 23 muestra el análisis de los grafemas entre voces españolas, a fin de determinar si existen variaciones en los fonemas y visemas con ejemplos que involucran tendencias ya vistas con anterioridad, se determino que el único atributo de salida que presentó cambios, fue la duración.

51

Casos Hola Quieto Auto Lourdes México Xilófono Asfixia Taxi Trae

ID Fonema ID Visema Duración (milisegundos) 13|29|10 8|14|2 61|74|130 13|29|10 8|14|2 118|66|96 19|33|11|15|13 20|6|4|19|8 81|51|82|71|142 19|33|11|15|13 20|6|4|19|8 66|65|67|68|141 10|14|15|13 2|7|19|8 64|94|103|117 10|14|15|13 2|7|19|8 82|87|115|178 29|13|14|31|7|11|24 14|8|7|13|0|4|15 75|95|82|49|60|99|150 29|13|14|31|7|11|24 14|8|7|13|0|4|15 113|83|80|58|48|150|149 26|11|25|12|19|13 21|4|12|6|20|8 87|88|110|57|84|117 26|11|25|12|19|13 21|4|12|6|20|8 60|84|134|55|94|146 7|12|29|13|23|13|27|13 0|6|14|8|18|8|19|8 110|58|60|55|93|44|52|66 7|12|29|13|23|13|27|13 0|6|14|8|18|8|19|8 172|95|31|118|129|46|48|1 46 10|24|23|12|19|24|33|10 2|15|18|6|20|15|6|2 89|86|73|64|91|94|69|115 10|24|23|12|19|24|33|10 2|15|18|6|20|15|6|2 98|83|73|69|54|128|73|183 15|10|19|24|12 19|2|20|15|6 44|91|79|114|134 15|10|19|24|12 19|2|20|15|6 75|75|65|137|124 15|31|10|11 19|13|2|4 44|49|64|78 15|31|10|11 19|13|2|4 55|62|122|176 Tabla 23. Análisis de grafemas para generar fonemas y visemas de voces españolas.

Voz Jorge (España) Juan (España) Jorge (España) Juan (España) Jorge (España) Juan (España) Jorge (España) Juan (España) Jorge (España) Juan (España) Jorge (España) Juan (España) Jorge (España) Juan (España) Jorge (España) Juan (España) Jorge (España) Juan (España)

Por último se analizan cantidades numéricas para observar como son interpretadas, se concluyó que en el español mexicano y en el inglés no son leídas las cantidades como se esperaba, es decir al introducir cantidades mayores de 5 dígitos por ejemplo „400047‟, el intérprete comienza a leer los números por pares o como dígitos individuales. La forma de introducir las cantidades, a fin de que sean interpretados correctamente es añadiendo un „.‟ entre la cifra de esta forma „400.047‟,

estas pruebas se muestran en las Tablas 24 y

25 para el idioma inglés y en las Tablas 26 y 27 para el idioma español. Voz Inglés Hombre Palabras Posición del flujo Posición del carácter Longitud ID Fonemas ID Visemas Duración (ms)

400047 0 0 6 24|13|7|35|7|35|7|35|7|24|13|7|7|39|21|45|15|33 18|3|0|0|8|0|8|0|8|0|18|3|0|0|15|4|18|1|19 157|228|182|105|545|105|545|105|545|105|157|228|182|105|210|130|65|65|212

Tabla 24. Análisis cantidades numéricas sin separa ción con voz inglés.

52

Voz Inglés Hombre Palabras Posición del flujo Posición del carácter Longitud ID Fonemas ID Visemas Duración (ms)

400.047 0 0 7 24|13|7|26|12|33|19|7|15|19|37|36|33|41|35|24|13|7|39|21|45|15|33 18|3|0|12|1|19|19|0|1|19|21|10|19|19|8|18|3|0|15|4|18|1|19 122|71|71|32|84|25|25|25|54|48|35|26|100|118|21|48|157|125|97|40|111|100|71|65|212

Tabla 25. Análisis cantidades numéricas con separación de punto con voz inglés.

Voz Mexicana Mujer Palabras Posición del

400047 0

flujo Posición del carácter Longitud ID Fonemas ID Visemas Duración (ms)

0 6 107|119|97|638|101|110|116|97|4|115|638|111|115|101|638|111|4|107|119|97|638|101|110|1 16|97|105|115|106|101|116|101 20|7|10|13|4|19|19|10|0|15|4|13|3|15|4|13|3|0|20|7|10|13|4|19|19|10|6|15|6|4|19|4 55|67|62|49|130|68|86|186|105|138|101|47|64|92|167|45|127|105|57|72|56|56|107|45|45|67| 54|132|66|83|111|128

Tabla 26. Análisis cantidades numéricas sin separa ción con voz español. Voz Mexicana Mujer Palabras Posición del

400047 0

flujo Posición del carácter Longitud ID Fonemas ID Visemas Duración (ms)

0 7 107|119|97|116|638|111|115|106|101|110|116|111|115|109|105|108|4|107|119|97|638|101 |110|116|97|105|115|106|101|116|101 20|7|10|19|13|3|15|6|4|19|19|3|15|21|6|14|0|20|7|10|13|4|19|19|10|6|15|6|4|19|4 55|33|59|71|52|47|84|35|61|58|56|84|62|74|130|65|105|57|72|56|56|107|45|45|67|54|132| 66|83|111|128

Tabla 27. Análisis cantidades numéricas con separación de punto con voz español.

53

CAPITULO 6. CONCLUSIONES Y TRABAJOS FUTUROS

54

6.1 Conclusiones Como parte de la investigación, se describieron algunas de las metodologías más empleadas en la síntesis de voz, también se presentó una revisión de las tecnologías existentes que desarrollan este proceso, de las cuáles se eligió como motor de voz a Microsoft Speech SDK 5.1 en conjunto con la librería pyTTS de Python para realizar la conversión de texto a voz de las pruebas a fin de observar los fonemas y visemas generados. Los atributos considerados en las configuraciones de las pruebas implicaron modificaciones al tono, volumen, velocidad, así como la asignación de voz. En la librería pyTTS fue posible modificar estos parámetros para observar los fonemas y visemas resultantes. Es posible asociar estos fonemas y visemas ya que la librería pyTTS contiene métodos que permiten conocer la secuencia de los eventos de estos atributos. Las pruebas realizadas a los grafemas se presentaron de acuerdo a dos enfoques, los fonemas vocálicos y los fonemas consonánticos, de los cuáles se observa que los identificadores de ciertos fonemas encontrados en algunos grafemas, específicamente de los vocálicos, difieren dependiendo del contexto. Para los fonemas consonánticos se presentan pruebas tanto en inglés como en español para observar las variaciones, también se incluyen pruebas en sentencias como la presencia o ausencia de signos de puntuación en oraciones, así como análisis de cantidades numéricas.

6.2 Aportaciones Se determinó que resultan precisos los análisis de los grafemas, ya que el motor de voz Microsoft Speech SDK 5.1 toma en cuenta consideraciones como la identificación de un solo fonema para casos como el grafema en el idioma español, o para el el idioma inglés. Otras de las observaciones son que el motor de voz identifica asociaciones como con su correcto fonema /k/, o dependiendo del contexto otros grafemas como , , , se asocian al fonema /s/ correctamente, también existen fonemas y visemas asociados a los símbolos “ -”, “!”, “&”, “,”, “.” y “!”.

55

De la entonación identificada en los análisis de la frases acompañadas del signo “?”, se identifico

que al encontrarse tal signo si existe un cambio en el tono de la voz en español. Se presenta una revisión de los identificadores encontrados de los fonemas y visemas asociados a los grafemas de las voces en español, los cuales no se especifican en la documentación del motor de voz Microsoft Speech SDK, se observa que la mayoría de los visemas asociados a los fonemas de ambas voces son los mismos, salvo algunas excepciones donde se registran visemas diferentes, esto podría explicarse debido al acento del idioma español hablado en España, esto se muestra en la Tabla de abajo. TABLA IDENTIFICADORES DE FONEMAS Y VISEMAS DEL ESPAÑOL Símbolo ! & , . ? A B C D E F G H I J K L M N Ñ O P Q R S T U V w X Y Z

Español Mexicano (Voz mujer Esperanza) Fonema Visema 4 0 4 0 105 6 4 0 4 0 4 0 97 10 98 21 115 15 100 19 101 4 102 18 120 12 116 19 105 6 120 12 107 20 108 14 109 21 110 19 626 19 111 3 112 21 107 20 114 13 115 15 116 19 117 7 98 21 119 7 107 20 607 6 115 15

Español de España

(Voz mujer Carmen) Fonema 7 7 12 7 7 7 10 18 35 16 11 23 25 21 12 25 19 29 26 27 28 13 17 19 32 24 15 14 18 34 7 7 35

Visema 0 0 6 0 0 0 2 21 17 19 4 18 12 16 6 12 20 14 21 19 19 8 21 20 13 15 19 7 21 7 0 0 17

56

Se observó que la lectura de números para el idioma tanto español como inglés debe realizarse considerando la separación de cada tres dígitos con el signo de puntuación “.” , debido a que el habla generada a partir de cantidades numéricas sin esta consideración resulta en una lectura errónea.

6.3 Trabajos Futuros Los resultados de los análisis de los visemas proporcionan información útil para explorar la construcción de visemas, lo cual dará como resultado la naturalidad de las correspondencias faciales en la ejecución del habla de agentes inteligentes.

57

GLOSARIO Acústica: Parte de la física que estudia la naturaleza, forma de propagación y percepción del sonido.

Alófono: En fonética, se llama alófono a cada uno de los fonos o sonidos que en un idioma dado se reconoce como un determinado fonema, sin que las variaciones entre ellos tengan valor diferenciativo.

Articulación: Se refiere a la forma en que se produce la transición de un sonido a otro, o sobre la misma nota.

Bitonal: En el caso de dos voces de diferente tonalidad al mismo tiempo recibe el nombre de bitonalidad.

Cláusula: Conjunto de palabras que encierran una sola proposición, o varias muy relacionadas con un sentido cabal.

Conmutador: Aparato electrónico que se conecta a una sola línea telefónica para dar servicio a una cantidad grande de usuarios de teléfono.

Contorno de tono: El contorno de tono de un sonido es una función o una curva que sigue la percepción de tono del sonido a través del tiempo.

Corpus: Conjunto lo más extenso y ordenado posible de datos que pueden servir de base a una investigación.

Corpus lingüístico: Es un conjunto, normalmente muy amplio, de ejemplos reales de uso de una lengua. Estos ejemplos pueden ser textos (típicamente), o muestras orales (normalmente transcritas). 58

Difonemas: Estos consisten en la unión de la parte estable de un fonema (mitad del fonema) con la parte estable del siguiente fonema. Existen 232 posibles difonemas y a pesar de métodos para suavizar las fronteras este tipo de síntesis todavía no suena natural.

Disfluencia: Trastorno del ritmo usualmente caracterizado por la repetición de un sonido, una palabra o frase.

Elocución: Manera de hacer uso de la palabra para expresar los conceptos.

Entonación: Conjunto de los tonos de todas las sílabas de un enunciado. Son las variaciones de la altura del sonido (frecuencia fundamental Fo) que resultan de los cambios de tensión a nivel de las cuerdas vocales.

Estocástico: Sistema que funciona, sobre todo, por el azar.

Fonema: Son unidades naturales que dotan de gran flexibilidad a los sistemas de voz y que resultan económicas desde el punto de vista del número de unidades (en el Español existen 23 fonemas); sin embargo, constituyen una unidad abstracta que está sometida a muchas variaciones contextuales, que originan una baja calidad en la voz sintetizada.

Fonética: Conjunto y estudio de los sonidos de un idioma.

Fonología: Subcampo de la lingüística. Mientras que la fonética estudia la naturaleza acústica y fisiológica de los sonidos o alófonos, la fonología describe el modo en que los sonidos funcionan (en una lengua en particular o en las lenguas en general) en un nivel abstracto o mental.

Formante: Frecuencia que participa junto a otras en un sonido y le otorga unas particularidades que lo identifican.

59

Frase: Cadena de palabras conectadas sintáctica y gramaticalmente.

Grafema: En Lingüística, mínima unidad significativa en el plano de la lengua escrita.

Gramática: Es el estudio de las reglas y principios que regulan el uso de las lenguas y la organización de las palabras dentro de una oración. También se denomina así al conjunto de reglas y principios que gobiernan el uso de un lenguaje muy determinado; así, cada lenguaje tiene su propia gramática.

Habla: Es la utilización individual del sistema de signos de la lengua mediante actos de comunicación oral.

Inteligibilidad: Toda aseveración capaz de comunicar al que oye o lee un significado explícito, de modo que pueda juzgar que dicho significado está o no libre de contradicción.

Lengua: Es un sistema de signos orales y escritos que son utilizados por los seres humanos para comunicarse entre si en determinada región o país. La lengua como código de comunicación es un instrumento común que el hablante debe utilizar correctamente para facilitar su comprensión.

Lenguaje: Conjunto de sonidos y palabras con que se expresa el pensamiento. Toda forma de comunicar el pensamiento.

Modelo acústico: Parte del modelo visual que contiene la información relativa a la sincronía entre la apariencia visual de un objeto y la información auditiva existente.

Modelo Visual: Contenedor de la información visual esencial que se extrae a partir del corpus audiovisual.

Norma: Es la realización colectiva de la lengua o el conjunto de usos sociales que deriva en los distintos tipos de lenguaje familiar, literario, científico, etc. 60

Normalización del texto: Es un proceso por el cual texto se transforma de cierta manera para hacerlo constante de una manera que pudo no haber sido antes.

Oración: Unidad gramatical que es sintácticamente independiente y tiene un sujeto expreso o tácito y un predicado que contiene al menos un verbo conjugado.

Orofacial: Relativo a la parte bucal de la cara humana.

Palabras: Cada uno de los segmentos limitados por pausas o espacios en la cadena hablada o escrita, que puede aparecer en otras posiciones, y que está dotado de una función.

Politonalidad: Es el uso musical de más de una tonalidad simultáneamente.

Pragmática: También llamada pragmalingüística es un subcampo de la lingüística, también estudiado por la filosofía del lenguaje y la psicolingüística o psicología del lenguaje, que se interesa por el modo en que el contexto influye en la interpretación del significado.

Prosodia: Es una rama de la lingüística que analiza y representa formalmente aquellos elementos de la expresión oral, tales como el acento, los tonos y la entonación.

Ritmo: Orden, proporción y movimiento con que se agrupan los sonidos en el tiempo.

Semántica: Rama de la Lingüística que se ocupa del sentido o el significado de los signos, así como de la relación entre los mismos, tanto desde un punto de vista sincrónico como diacrónico.

Significante: En Lingüística, forma exterior o aspecto perceptible de un signo.

Signo: En Lingüística, cualquier unidad lingüística que posee significación, inclusive los radicales o los afijos. 61

Sílabas: Cada una de las divisiones fonológicas en las que se divide una palabra.

Sintagma: En Lingüística, cualquier combinación seriada de elementos morfológicos, que adquieren determinada unidad, e incluso estabilidad, cuando la combinación se estereotipa por el uso.

Sintaxis: La sintaxis es la parte de la gramática que estudia las reglas que gobiernan la combinatoria de constituyentes sintácticos y la formación de unidades superiores a estos, como los sintagmas y oraciones gramaticales. La sintaxis, por tanto, estudia las formas en que se combinan las palabras, así como las relaciones sintagmáticas y paradigmáticas existentes entre ellas.

Síntesis: Composición de un todo por la reunión de sus partes.

Sintetizador: Instrumento electrónico que permite generar sonidos musicales determinando todos sus parámetros (altura, intensidad, timbre) para simular el sonido de instrumentos acústicos o crear otros nuevos.

Suprasegmental: También conocido como prosódica, es una característica del habla que afecta a un segmento más largo que el fonema, tales como el acento, la entonación, el ritmo, la duración y otros. El término suprasegmental implica la existencia de elementos que recaen sobre más de un segmento a la vez.

Tono: Variación fonética en la frecuencia acústica de una sílaba, esto es, un tono en el sentido lingüístico provee distinción semántica. Las lenguas que usan tonos de esta manera se conocen como lenguas tonales.

Transcripción fonética: También llamada notación fonética es un sistema de símbolos gráficos para representar los sonidos del habla de una persona. Típicamente se usa como convención para superar las peculiaridades alfabéticas usadas en cada lengua escrita y también para representar lenguas sin tradición escrita.

Trivisemas: Visemas correspondientes a una serie de tres alófonos consecutivos. 62

Unidad prosódica: A menudo llamado unidad de la entonación, es un segmento del discurso que ocurre con un solo contorno prosódico.

Visema: Representación visual de un fonema, visualmente distinguible de otras.

Visemas clave: Visemas asociados a conjuntos de alófonos de apariencia visual similar a partir de los cuales se generan transiciones entre ellos. Son las apariencias clave de las regiones orofaciales del modelo visual.

Voz: Sonido que el aire produce en la faringe.

63

BIBLIOGRAFIA [Apple, 2010]

Apple in Education. Text to Speech Synthesis. Retrieved November 20, 2010.From:http://developer.apple.com/library/mac/#documentation/Carbon/ Reference/Speech_Synthesis_Manager/Reference/reference.

[AT&T, 2010]

AT&T Labs Natural Voices – Text to Speech Demo. Retrieved December 26, 2010 From: http://www2.research.att.com/~ttsweb/tts/demo.php.

[Aylett-Pickock-Fraser, 2006]

Matthew P.Aylett, Cristopher J. Pidcock, Mark E. Fraser (2006). The Cerevoice Blizzard Entry 2006: A Prototype Small Database Unit Selection Engine.

[Barbosa, 1997]

Barbosa A. (1997). Desarrollo de una nueva voz en Español Mexicano para el Sistema de Texto a Voz Festival. Tesis de Maestría, Universidad de las Américas-Puebla, México.

[Birkholz – Kroger, 2007]

Peter Birkholz, Bernard Kroger (2007). Simulation of vocal tract growth for articulatory speech synthesis. In Proceedings of the 16th International Congress of Phonetic Sciences, pp. 377 – 380. Institute for Computer Science, Saarbrücken, Germany. University of Rostock, Rostock, Germany.

[Carnicero Sierra, 2003]

Carnicero Sierra M. J.(2003). Desarrollo de un componente para PDa (Un reproductor de sonido).

[Cepstral, 2010]

Cepstral text-to-speech. Retrieved November 20, 2010. http://cepstral.com/.

[DECtalk, 2010]

DECtalk Speech Synthesis. Retrieved December 26, 2010. From: http://www.speech.cs.cmu.edu/comp.speech/Section5/Synth/dectalk.html

[Domínguez Martínez, 2010]

Jesús Raymundo Domínguez Martínez (2010) Creación de una base de conocimientos en AIML para un agente conversacional.

[Dutoit – Pagel – Pierret – Bataille – van der Vrecken, 1996]

T. Dutoit, V. Pagel, N. Pierret, F. Bataille, O. Vrecken (1996). The MBROLA Project: Towards a Set of High Quality Speech Synthesizers Free of Use for Non Commercial Purposes.

[Engström, 2003]

Charlotta Engström (2003). Articulatory Analysis of Swedish Visemes. Centrum för talteknologi. Institutionen för tal, musik och hörsel. Stockholm

From:

64

[Expressivo, 2010]

Expressivo Text Reader. Retrieved December 27, 2010. http://www.expressivo.com/.

[Festival, 2010]

The Festival Speech Synthesis System. Retrieved November 20, 2010. From: http://www.cstr.ed.ac.uk/projects/festival/.

[Florencia Juárez, 2010]

Rogelio Florencia Juárez (2010) Agente conversacional corpóreo que utiliza AIML para integrar procesos de personalidad.

[Frías Conde, 2001]

Xavier Frías Conde (2001). Introducción a la fonética y fonología del español. Ianua, Revista Philologica Romanica, Suplemento 04.

[Furui, 1989]

Sadaoki Furui (1989). Digital Speech Processing, Synthesis, and Recognition. Ed. Dekker.

[Hunt – Black, 1996]

A. Hunt, A. Black (1996), Unit selection in a concatenative speech synthesis system using a large speech database. In Proceedings of ICASSP 1996, pages 373-376, Atlanta, Georgia.

[IBM Via Voice, 2010]

IBM. Embedded Via Voice. Retrieved November 20, 2010. From: http://www01.ibm.com/software/pervasive/embedded_viavoice/.

[Infovox, 2010]

Text To Speech and Voice Solutions. Retrieved December 26, 2010. From: http://www.acapela-group.com/.

[IVONA TTS, 2010]

IVONA Text To Speech. Retrieved December 27, 2010. From: http://www.ivona.com/.

[Lemmetty, 1999]

Sami Lemmetty (1999). Review of Speech Synthesis Technology. Helsinki University of Technology.

[Loquendo, 2010]

Loquendo, (2001-2009), Loquendo TTS, Retrieved October 23, 2010. From http://www.loquendo.com/es/technology/TTS.htm (Loquendo TTS)

[MBROLA, 2010]

The MBROLA Project (2010). Retrieved October 20, 2010. From http://tcts.fpms.ac.be/synthesis/

[Microsoft Speech SDK 5.1, 2010]

Microsoft Speech SDK 5.1, Retrieved October 23, 2010. From http://www.microsoft.com/downloads/en/details.aspx?FamilyID=5e86ec9740a7-453f-b0ee-6583171b4530&displaylang=en (Speech SDK 5.1).

[Microsoft Speech, 2011]

Microsoft Speech SDK. Retrieved http://www.nextup.com/sapi5doc/.

[Molina – García - Nuñez, 2006]

Molina A., García N., Nuñez J (2006). NETtalk en español. Capítulo 1. Universidad Autónoma Metropolitana.

[Moreno Azcona, 2008]

Gabriel Alejandro Moreno Azcona (2008) Nueva Voz Concatenativa de Difonemas para el Español Mexicano en Festival, Universidad de las Américas, Puebla.

April

20,

2011.

From:

From

65

[Orator, 2010]

Telcordia‟s

Hybrid

ORATOR

II

speech

synthesizers

Pronunciation Software. Retrieved December http://www.argreenhouse.com/ORATOR/.

27,

and

Name

2010.

From:

[Power TTS Reader, 2010]

Power Text to Speech Reader. Retrieved December 27, 2010. From: http://www.1speechsoft.com/.

[SoftVoice, 2010]

Softvoice, Inc. Text-to-Speech Synthesis. Retrieved November 20, 2010. From: http://www.text2speech.com/.

[SVOX, 2010]

SVOX. Embedded Text-to-Speech. Retrieved November 20, 2010. From: http://www.svox.com/.

[Taylor, 2009]

Paul Taylor (2009). Text to Speech Synthesis. University of Cambridge.

[Text Aloud, 2010]

Text Aloud 3. Retrieved December http://www.nextup.com/TextAloud/index.html.

[Zotter, 2003]

Franz Zotter (2003). Emotional Speech.

27,

2010.

From:

.

66

ANEXOS

67

ANEXO A Aplicación Python Text To Speech Se presenta el código en Python de la utilización de la librería pyTTS.

68

Aplicación Python Text To Speech import pyTTS import time import win32com.client import pythoncom finished = False class VisemeEvents: def OnPhoneme(self, StreamNumber, StreamPosition, Duration, NextPhoneId, Feature, CurrentPhoneId): print "ON PHONEME: StreamNumber: " + str(StreamNumber) + ", StreamPosition: " + str(StreamPosition) + ", Duration: " + str(Duration) + ", NextPhoneId: " + str(NextPhoneId) + ", Feature: " + str(Feature) + ", CurrentPhoneId: " + str(CurrentPhoneId) return def OnWord(self, StreamNumber, StreamPosition, CharacterPosition, Length): print "ON WORD: StreamNumber: " + str(StreamNumber) + ", StreamPosition: " + str(StreamPosition) + ", CharacterPosition: " + str(CharacterPosition) + ", Length: " + str(Length) return def OnViseme(self, StreamNumber, StreamPosition, Duration, NextVisemeId, Feature, CurrentVisemeId): print "ON VISEME: StreamNumber: " + str(StreamNumber) + ", StreamPosition: " + str(StreamPosition) + ", Duration: " + str(Duration) + ", NextVisemeId: " + str(NextVisemeId) + ", Feature: " + str(Feature) + ", CurrentVisemeId: " + str(CurrentVisemeId) print " " pythoncom.PumpWaitingMessages() return def OnEndStream(StreamNumber, StreamPosition, StreamReleased): global finished print "ON END STREAM: StreamNumber: " + str(StreamNumber) + ", StreamPosition: " + str(StreamPosition) + ", StreamReleased: " + str(StreamReleased) finished = True return #[inc]end your include tts = win32com.client.DispatchWithEvents("SAPI.SpVoice", VisemeEvents) tts.SetRate = 0 tts.SetVolume = 100 #0-100 tts.SetPitch = 0 tts.Speak("cadena de texto", 1) #1: Significa ASINCRONO while not finished: pythoncom.PumpWaitingMessages()

69

ANEXO B Tablas de resultados de los análisis Aquí se presentan algunos de los análisis realizados a las cadenas de texto en la aplicación de Pyhton con el uso de la librería pyTTS, a partir de los cuáles se fundamentó el contenido del Capítulo 5.

70

Tablas de análisis de cadenas de texto en español Texto de prueba para el idioma español (México)

Voz: Esperanza (Mujer)

PARÁMETROS

A

PALABRA DE PRUEBA: PRUEBA: BIEN Longitud: 4

Número de secuencia Posición de secuencia

I

E

N

FLUJO 1

1

1

0

1796

4958

7440

56

99

77

109

106

101

110

4

ID del fonema actual

98

106

101

110


1

1

1

1

0

1796

4958

7440

56

99

77

109

6

4

19

0

21

6

4

19

M E Duración S I ID del siguiente V

A R B A L A P

B

1

M E Duración N ID del siguiente O F fonema

A

FIN DEL

visema ID del visema actual Número de secuencia Posición en el flujo Posición del carácter Posición en el flujo Flujo liberado

1 0 0 1 10928

71

Texto de prueba para el idioma español (México)


PARÁMETROS

A

PALABRA DE PRUEBA: PRUEBA: DOS Longitud: 3


S

1

1

0

2974

8724

93

179

207

111

115

4


100

111

115


1

1

1

0

2974

8724

93

179

207

3

15

0

19

3

15

M E Duración S I ID del siguiente V visema

A R B A L A P

O

1


A

D

ID del visema actual Número de secuencia Posición en el flujo Posición del carácter Posición en el flujo Flujo liberado

FIN DEL FLUJO

1 0 0 1 15348

72



PARÁMETROS

A

PALABRA DE PRUEBA: PRUEBA: JUGO Longitud: 4


U

G

O

FLUJO 1

1

1

0

2470

5258

7990

77

87

85

173

117

624

111

4


120

117

624

111


1

1

1

1

0

2470

5258

7990

77

87

85

173

7

21

3

0

12

7

21

3


A R B A L A P

J

1


A

FIN DEL


1 0 0 1 13526

73



PARÁMETROS

A

PALABRA DE PRUEBA: LUCRO Longitud: 5


FIN DEL L

U

C

R

O

1

1

1

1

1

0

2028

6604

8658

10426

63

143

64

55

91

117

107

638

111

4


108

117

107

638

111


1

1

1

1

1

0

2028

6604

8658

10426

63

143

64

55

91

7

20

13

3

0

14

7

20

13

3

M Duración E N ID del O siguiente F

FLUJO

fonema

A

M Duración E S ID del I V siguiente

A R B A L A P


1 0 0 1 13342

74

Texto de prueba para el idioma español (México) Voz: Esperanza (Mujer) PALABRA DE PRUEBA: CUATROCIENTOS Longitud: 13 S O R T E M Á R A P

) 3 1 ( S O T N C E I C O R T A U C

U

A

T

R

O

C

I

E

N

T

O

S

Número secuencia Posición A secuencia

1

1

1

1

1

1

1

1

1

1

1

1

1

0

1762

3336

4884

7282

9620

10698

14848

16970

19972

22458

24584

26879

M Duración E ID del N siguiente O fonema F ID del fonema actual Número secuencia Posición A secuencia

55

49

48

75

73

33

129

66

94

77

66

71

173

119

97

116

638

111

115

106

101

110

116

111

115

4

107

119

97

116

638

111

115

106

101

110

116

111

115

1

1

1

1

1

1

1

1

1

1

1

1

1

0

1762

3336

4884

7282

9620

10698

14848

16970

19972

22458

24584

26870

55

49

48

75

73

33

129

66

94

77

66

71

173

7

10

19

13

3

15

6

4

19

19

3

15

0

20

7

10

19

13

3

15

6

4

19

19

3

15

M Duración E ID del S I siguiente visema V ID del visema actual Número secuencia A R B A L A P

O J U L F L E D N I F

1

Posición en el flujo

0

Posición carácter

0


1

Flujo liberado

32428

75

Texto de prueba para el idioma español (México) Voz: Esperanza (Mujer) PALABRA DE PRUEBA: ¿QUIÉN ERES? Longitud: 13 S O R T E M Á R A P

) 6 ( N ¿ É I U Q ¿

Q

U

I

É

N

) 5 ( ? S E R E

E

R

E

?

S


1

1

1

1

1

1

1

1

1

0

1762

2856

48 24

7016

11856

13146

17010

21588


55

34

61

68

151

40

121

143

593

106

101

110

10 1

638

101

115

4

97

107

106

101

11 0

101

638

101

115

4

1

1

1

1

1

1

1

1

1

0

1762

2856

48 24

7016

11856

13146

17010

21588

55

34

61

68

151

40

121

143

593

6

4

19

4

13

4

15

0

10

20

6

4

19

4

13

4

15

0


1

1


0

7016

Posición carácter

0

7



1

Flujo liberado

50574

76

Texto de prueba para el idioma español (España)

Voz: Jorge (Hombre)

PARÁMETROS

A

PALABRA DE PRUEBA: BIEN Longitud: 4


I

E

N

FLUJO 1

1

1

0

1896

4208

6228

59

72

63

96

33

11

27

7


18

33

11

27


1

1

1

1

0

1896

4208

6228

59

72

63

96

6

4

19

0

21

6

4

19


A R B A L A P

B

1


A

FIN DEL


1 0 0 1 9314

77


Voz: Jorge (Hombre)

PARÁMETROS

A

PALABRA DE PRUEBA: DOS Longitud: 3


S

1

1

0

948

5304

29

136

244

13

24

7


16

13

24


1

1

1

0

948

5304

29

136

144

8

15

0

19

8

15


A R B A L A P

O

1


A

D


FIN DEL FLUJO

1 0 0 1 13120

78


Voz: Jorge (Hombre)

PARÁMETROS

A

PALABRA DE PRUEBA: JUGO Longitud: 4


U

G

O

FLUJO 1

1

1

0

1856

3612

6102

58

55

78

182

14

7

13

7


25

14

7

13


1

1

1

1

0

1856

3612

6102

58

55

78

182

7

0

8

0

12

7

0

8


A R B A L A P

J

1


A

FIN DEL


1 0 0 1 11936

79


Voz: Jorge (Hombre)

PARÁMETROS

A

PALABRA DE PRUEBA: LUCRO Longitud: 5


FIN DEL L

U

C

R

O

1

1

1

1

1

0

2118

4064

6818

8398

66

61

86

49

83

14

19

31

13

7


29

14

19

31

13


1

1

1

1

1

0

2118

4064

6818

8398

66

61

86

49

83

7

20

13

8

0

14

7

20

13

8

M Duración E N ID del O siguiente F

FLUJO

fonema

A

M Duración E S ID del I V siguiente

A R B A L A P


1 0 0 1 11074

80

Texto de prueba para el idioma español (España) Voz: Jorge (Hombre) PALABRA DE PRUEBA: CUATROCIENTOS Longitud: 13 S O R T E M Á R A P

) 3 1 ( S O T N C E I C O R T A U C

U

A

T

R

O

C

I

E

N

T

O

S


1

1

1

1

1

1

1

1

1

1

1

1

1

0

2206

3048

4890

6848

8348

9586

12118

13852

15310

18318

20012

21794


69

26

57

61

47

38

79

54

45

94

53

55

142

34

10

15

31

13

35

33

11

27

15

13

24

7

19

34

10

15

31

13

35

33

11

27

15

13

24

1

1

1

1

1

1

1

1

1

1

1

1

1

0

2206

3048

4890

6848

8348

9586

12118

13852

15310

18318

20012

21794

69

26

57

61

47

38

79

54

45

94

53

55

142

7

2

19

13

8

17

6

4

19

19

8

15

0

20

7

2

19

13

8

17

6

4

19

19

8

15



1


0

Posición carácter

0


1

Flujo liberado

26358

81

Texto de prueba para el idioma español (España) Voz: Jorge (Hombre) PALABRA DE PRUEBA: ¿QUIÉN ERES? Longitud: 13 S O R T E M Á R A P

) 6 ( N ¿ É I U Q ¿

Q

U

I

É

N

) 5 ( ? S E R E

E

R

E

?

S


1

1

1

1

1

1

1

1

1

0

2072

4334

69 66

9100

11822

13238

16244

20960


65

70

82

66

85

44

94

147

593

33

11

27

11

31

11

24

7

10

19

33

11

27

11

31

11

24

7

1

1

1

1

1

1

1

1

1

0

2072

4224

69 66

9100

11822

13238

16244

20960

65

70

82

66

85

44

94

147

593

6

4

19

4

13

4

15

0

2

20

6

4

19

4

13

4

15

0


1

1


0

9100

Posición carácter

0

7



1

Flujo liberado

39946

82

Tablas de análisis de cadenas de texto en inglés Texto de prueba para el idioma inglés (USA) Voz: Dave (Hombre) PARÁMETROS

A

PALABRA DE PRUEBA: DOGS Longitud: 4


G

S

1

1

1

0

2068

6058

7892

64

124

57

156

10

25

48

7


19

10

25

48


1

1

1

1

0

2068

6058

7892

64

124

57

156

2

20

15

0

19

2

20

15


A R B A L A P

O

1


A

D


FIN DEL FLUJO

1 0 0 1 12894

83

Texto de prueba para el idioma inglés (USA)

Voz: Susan (Mujer)

PARÁMETROS

A

PALABRA DE PRUEBA: CATS Longitud: 4


T

1

1

0

2870

10178

89

228

170

11

41

7


30

11

41


1

1

1

0

2870

10178

89

228

170

1

19

0

20

1

19


A R B A L A P

A

1


A

C


S

FIN DEL FLUJO

1 0 0 1 15616

84

Texto de prueba para el idioma inglés (USA) Voz: Dave (Hombre) PARÁMETROS

A

PALABRA DE PRUEBA: CATS Longitud: 4


T

1

0

0

3284

8920

102

176

239

11

41

7


30

11

41


1

1

1

0

3284

8920

102

176

239

1

19

0

20

1

19


A R B A L A P

A

1


A

C


S

FIN DEL FLUJO

1 0 0 1 16572

85

Texto de prueba para el idioma inglés (USA) Voz: Susan (Mujer) PARÁMETROS

A

PALABRA DE PRUEBA: FREE Longitud: 4


E

1

1

0

3344

5814

104

77

219

7

28

7


24

7

28


1

1

1

0

3344

5814

104

77

219

0

6

0

18

0

6


A R B A L A P

R

1


A

F


E

FIN DEL FLUJO

1 0 0 1 12830

86

Texto de prueba para el idioma inglés (USA) Voz: Dave (Hombre) PARÁMETROS

A

PALABRA DE PRUEBA: FREE Longitud: 4


E

1

1

0

2340

5130

73

87

255

7

28

7


24

7

28


1

1

1

0

2340

5130

73

87

255

0

6

0

18

0

6


A R B A L A P

R

1


A

F


E

FIN DEL FLUJO

1 0 0 1 13304

87

Texto de prueba para el idioma inglés (USA) Voz: Susan (Mujer) PALABRA DE PRUEBA: ONE THOUSAND Longitud: 11 S O R T E M Á R A P

) 3 ( E N O

O

N

E

) 8 ( D N A S U O H T

T

H

O

U

S

A


1

1

1

1

1

1

1

1

1

0

2874

5584

7968

9942

15808

18316

20444

22694


90

84

74

61

183

78

66

70

79

12

33

42

16

48

15

33

19

7

46

12

33

42

16

48

15

33

19

1

1

1

1

1

1

1

1

1

0

2874

5584

7968

9942

15808

18316

20444

22694

90

84

74

61

183

78

66

70

79

1

19

17

11

15

1

19

19

0

7

1

19

17

11

15

1

19

19


1

1


0

7968

Posición carácter

0

4


N D


1

Flujo liberado

25222

88

Texto de prueba para el idioma inglés (USA) Voz: Dave (Hombre) PALABRA DE PRUEBA: ONE THOUSAND Longitud: 11 S O R T E M Á R A P

) 3 ( E N O

O

N

E

) 8 ( D N A S U O H T

T

H

O

U

S

A


1

1

1

1

1

1

1

1

1

0

1688

3442

5942

8870

15166

1748 2

19064

22566


53

55

78

91

197

72

49

109

72

12

33

42

16

48

15

33

19

7

46

12

33

42

16

48

15

33

19

1

1

1

1

1

1

1

1

1

0

1688

3442

5942

8870

15166

1748 2

19064

22566

53

55

78

91

197

72

49

109

72

1

19

17

11

15

1

19

19

0

7

1

19

17

11

15

1

19

19


1

1


0

5942

Posición carácter

0

4


N D


1

Flujo liberado

24884

89

Texto de prueba para el idioma inglés (USA) Voz: Susan (Mujer) PALABRA DE PRUEBA: WHO ARE YOU? Longitud: 10 S O R T E M Á R A P

) 3 ( O H W

W

H

O

) 3 ( E R A

A

) 4 ( ? U O Y

R E

Y

O

U


1

1

1

1

1

1

0

2216

6414

10168

14186

17538


69

131

117

125

105

593

44

7

47

44

7

16

26

44

7

47

44

7

1

1

1

1

1

1

0

2216

6414

10168

14186

17538

69

131

117

125

105

593

7

0

6

7

0

11

12

7

0

6

7

0


1

1

1


0

6414

10168

Posición carácter

0

4

8


?


1

Flujo liberado

36524

90

Tesis Victoria Libre

Recommend Documents