INSTITUTO TECNOLÓGICO DE CD. MADERO DEPARTAMENTO DE SISTEMAS Y COMPUTACIÓN
ANÁLISIS DE LOS ATRIBUTOS DEL PROCESO DE CONVERSIÓN TEXTO A VOZ TESIS
Para obtener el Titulo de
Ingeniero en Sistemas Computacionales Computacionales Presenta
Victoria Ruíz Martínez Numero de Control
05070678 Director de Tesis
Dra. María Lucila Morales Rodríguez
CD. MADERO, TAMAULIPAS
MAYO 2011
i
i
Declaración de Originalidad
Declaro y prometo que éste documento de tesis es producto de mi trabajo original y que no infringe los derechos de terceros, tales como derechos de publicación, derechos de autor, patentes y similares. Además, declaro que en las citas textuales que he incluido (las cuales aparecen entre comillas) y en los resúmenes que he realizado de publicaciones ajenas, indico explícitamente los datos de los autores y las publicaciones. Además, en caso de infracción de los derechos de terceros derivados de éste documento de tesis, acepto la responsabilidad de la infracción y relevo de ésta a mi director y codirectores de tesis, así como al Instituto Tecnológico de Cd. Madero y sus autoridades.
Mayo 2011, Cd. Madero, Tamps.
C. Victoria Ruíz Martínez ii
DEDICATORIA Y AGRADECIMIENTOS AGRADECIMIENTOS
Esta Tesis se la dedico a mi madre, que aunque ya no se encuentra entre nosotros, se que me observa desde alguna parte, y a quien en todo momento llevo conmigo. A mi padre, que me ha orientado en todas mis decisiones, además de ser un gran apoyo siempre. A mis hermanos hermanos Omar, Odeir y Guadalupe, Guadalupe, que siempre han estado para guiarme y han sido una inspiración toda mi vida. A mis maestros, maestros, por su su disposición y ayuda brindados. A mi directora directora de Tesis, la Dra. Lucila Lucila Morales Rodríguez Rodríguez por tener la paciencia paciencia y la disposición para para trabajar conmigo. conmigo. Al comité tutorial M.C. M.C. Apolinar Apolinar Ramírez Saldívar, Saldívar, Dr. Arturo Hernández Ramírez y Rubén Basáñez Castro gracias por su tiempo y apoyo. También agradezco a mis amigos y compañeros de ingeniería, que siempre me han acompañado en las buenas y en las malas y que han sido una fuente de alegría. Un agradecimiento especial a mis amigos Violeta, Jesús, Andrea, Dioni y Alejandro, es un honor contar con su amistad les agradezco enormemente el apoyo que me brindaron en los momentos más dificiles.
Y a uiees ahoa escapa a i eoia…Gracias a todos.
iii
RESUMEN
El desarrollo del presente trabajo de Tesis se realizó con el objetivo de contribuir en la línea de investigación interesada en la generación de formas de interacción hombre-máquina por medio del uso de Agentes Conversacionales animados que se desarrolla en la Maestría en Ciencias en Ciencias de la Computación del ITCM, por lo cual se presenta la tecnología Text To Speech a fin de incorporarse a un agente conversacional animado. Un sintetizador de voz convierte el lenguaje escrito en habla (Text To Speech), el procedimiento de síntesis de voz consiste de dos fases principales, la primera es el análisis del texto text o y la segunda es la generación de formas de onda de voz, estas etapas producen información fonética y prosódica. Se presentan las metodologías de síntesis de voz más empleadas actualmente, las cuales se presentan en tres categorías, la primera es la síntesis concatenativa, dentro de la cual se encuentran la síntesis por selección de unidades, la síntesis de dífonos y la síntesis de dominio especifico, otra metodología existente es la síntesis de formantes, también existen otros métodos como la síntesis articulatoria, la síntesis hibrida y la síntesis basada en HMM (Modelos ocultos de Markov). La fonética y la fonología son disciplinas dentro de la lingüística, ambas se encargan de estudiar los sonidos del lenguaje. La unidad de estudio de la fonología son los fonemas, los cuales son las unidades más pequeñas de sonido del lenguaje. Los fonemas de un lenguaje pueden ser clasificados en subgrupos basados en sus apariencias visuales, a estos se subgrupos se les llama visemas, se les considera como la equivalencia visual del los fonemas. Para realizar el análisis de los atributos que intervienen en el proceso de conversión TTS se utilizó el motor de voz Microsoft Speech SDK 5.1 y la librería pyTTS de Python para desarrollar las pruebas. Los atributos de configuración a considerar involucraron el tono, el volumen y la velocidad, así como las voces empleadas para conformar el análisis, estos parámetros arrojaron información sobre los grafemas introducidos como entrada, la información de salida es interpretada como los valores de fonemas y visemas asociados al texto introducido. Las pruebas fueron diseñadas considerando los fonemas vocálicos y los consonánticos, a fin de observar las variaciones entre los grafemas dependiendo del contexto y del idioma empleado para los análisis.
iv
TABLA DE CONTENIDO Capítulo 1. Introducción Int roducción .................................... ................. .................................. ................................. ...................................... .................................. ............................. ............... 1 1.1 Objetivos ..................................................................................................................................... 2 1.1.1 Objetivo General .................................................................................................................. 2 1.1.2 Objetivos específicos ........................................................................................................... 2 1.2 Problemática ............................................................................................................................... 2 1.3 Justificación................................................................................................................................. 2 1.4 Hipótesis ..................................................................................................................................... 3 1.5 Alcances y Limitaciones .............................................................................................................. 3 1.6 Estructura del documento .......................................................................................................... 4 Capítulo 2. Síntesis de Voz .................................... ................. .................................. ................................. ...................................... .................................. .......................... ............ 5 2.1 Procesamiento de texto a voz .................................................................................................... 5 2.2 Análisis prosódico en TTS............................................................................................................ 8 2.3 Fonemas y visemas ..................................................................................................................... 9 2.4 Estado del arte de la síntesis de voz ......................................................................................... 12 2.5 Retos de la conversión de texto a voz ...................................................................................... 17 2.5.1 Representación Lingüística ................................................................................................ 17 2.5.2 Pronunciación .................................................................................................................... 18 2.6 Generación de Voz con Emoción .............................................................................................. 19 2.6.1 Teorías acerca de la emoción ............................................................................................ 19 2.6.2 Expresión de la emoción en la voz ..................................................................................... 20 Capítulo 3. Metodologías de la conversión de texto a voz ................. .......................... ................. ................. .................... .................... ........... .. 22 3.1 Tecnologías de síntesis de voz .................................................................................................. 22 3.2 Síntesis concatenativa .............................................................................................................. 24 3.2.1 Síntesis por selección de unidades .................................................................................... 25 3.2.2 Síntesis de dífono ............................................................................................................... 26 v
3.2.3 Síntesis de dominio especifico ........................................................................................... 26 3.3 Síntesis formante ...................................................................................................................... 27 3.4 Otros métodos .......................................................................................................................... 28 3.4.1 Síntesis articulatoria .......................................................................................................... 28 3.4.2 Síntesis Híbrida .................................................................................................................. 28 3.4.3 Síntesis basada en HMM (Modelos ocultos de Markov) ................................................... 28 Capitulo 4. Herramientas Text To Speech ......................................................................................... 30 4.1 Estado del arte de los productos de síntesis de voz ................................................................. 30 4.1.1 Microsoft Speech API ......................................................................................................... 31 4.1.2 Cepstral .............................................................................................................................. 31 4.1.3 Festival ............................................................................................................................... 31 4.1.4 Loquendo ........................................................................................................................... 32 4.1.5 IBM Vía Voice ..................................................................................................................... 32 4.1.6 SVOX .................................................................................................................................. 32 4.1.7 IVONA TTS .......................................................................................................................... 33 4.2 Proceso de conversión de texto a voz de Microsoft Speech SDK 5.1 ...................................... 33 4.2.1 Arquitectura Microsoft Speech SDK 5.1 ............................................................................ 33 4.2.2 Atributos de configuración de Entrada.............................................................................. 34 4.2.3 Atributos de configuración de Salida ................................................................................. 35 4.3 Librería PyTTS ........................................................................................................................... 37 4.3.1 Clases de pyTTS .................................................................................................................. 38 Capitulo 5. Análisis de los parámetros disponibles en las herramientas Text to Speech................... 41 5.1 Parámetros de entrada de las herramientas ............................................................................ 41 5.2 Análisis de Fonemas Vocálicos y Consonánticos ...................................................................... 43 Capitulo 6. Conclusiones y trabajos futuros ....................................................................................... 54 6.1 Conclusiones ............................................................................................................................. 55 vi
6.2 Aportaciones ............................................................................................................................. 55 6.3 Trabajos Futuros ....................................................................................................................... 57 Glosario ............................................................................................................................................... 58 Bibliografía .......................................................................................................................................... 64 Anexos ................................................................................................................................................ 67 ANEXO A ............................................................................................................................................. 68 Aplicación Python Text To Speech .................................................................................................. 68 Aplicación Python Text To Speech .................................................................................................. 69 ANEXO B .............................................................................................................................................. 70 Tablas de resultados de los análisis ................................................................................................ 70 Tablas de análisis de cadenas de texto en español .................................................................... 71 Tablas de análisis de cadenas de texto en inglés ........................................................................ 83
vii
LISTA DE FIGURAS Figura 1. Procedimiento de síntesis de voz. ......................................................................................... 6 Figura 2. Arquitectura común para los sistemas TTS [Furui, 1989]. ..................................................... 7 Figura 3. Arquitectura TTS. ................................................................................................................... 8 Figura 4. Dependencias prosódicas. ..................................................................................................... 9 Figura 5. Reconstrucción de Wheatstone de la máquina parlante de von Kempelen ....................... 13 Figura 6. Tecnologías de síntesis de voz. ............................................................................................ 24 Figura 7. Arquitectura Microsoft Speech SDK .................................................................................... 34 Figura 8. Identificación de atributos del motor de Microsoft Speech SDK 5.1................................... 35 Figura 9. Proceso TTS. ......................................................................................................................... 42
viii
LISTA DE TABLAS Tabla 1. Fonemas vocálicos. ............................................................................................................... 10 Tabla 2. Fonemas consonánticos ........................................................................................................ 11 Tabla 3. Tabla de fonemas del inglés americano. ............................................................................... 36 Tabla 4. Tabla de visemas del inglés americano. ................................................................................ 37 Tabla 5. Clases de la librería pyTTS. .................................................................................................... 38 Tabla 6. Atributos de las clases OnPhoneme, OnViseme y OnWord.................................................. 39 Tabla 7. Voces empleadas en los análisis. .......................................................................................... 43 Tabla 8. Análisis de fonemas vocálicos. .............................................................................................. 43 Tabla 9. Resultado de análisis de unión de vocales, con voz de mujer mexicana y hombre español.44 Tabla 10. Análisis de las palabras con diptongos. .............................................................................. 46 Tabla 11. Análisis de fonemas de diptongos españoles. .................................................................... 47 Tabla 12. Análisis de palabras del español mexicano con uniones de 3 vocales. .............................. 47 Tabla 13. Pruebas fonemas vocalicos. ................................................................................................ 48 Tabla 14. Pruebas del fonema /c/. ..................................................................................................... 48 Tabla 15. Pruebas del fonema /s/. ...................................................................................................... 49 Tabla 16. Pruebas del fonema /b/. ..................................................................................................... 49 Tabla 17. Prueba del grafema
. ................................................................................................... 49 Tabla 18. Análisis del español mexicano para casos con palabras separadas por espacios en blanco y comas. ................................................................................................................................................. 49 Tabla 19. Análisis en ingles para las palabras separadas por espacios en blanco y comas. ............... 50 Tabla 20. Prueba grafema . ........................................................................................................ 50 Tabla 21. Análisis grafemas acompañados de signos del español mexicano. .................................... 51 Tabla 22. Análisis de grafemas del inglés con signos. ......................................................................... 51 Tabla 23. Análisis de grafemas para generar fonemas y visemas de voces españolas. ..................... 52 Tabla 24. Análisis cantidades numéricas sin separación con voz inglés............................................. 52 ix
Tabla 25. Análisis cantidades numéricas con separación de punto con voz inglés. ........................... 53 Tabla 26. Análisis cantidades numéricas sin separación con voz español. ........................................ 53 Tabla 27. Análisis cantidades numéricas con separación de punto con voz español......................... 53
x
CAPÍTULO 1. INTRODUCCIÓN Los agentes son entidades capaces de percibir su entorno, los cuales pueden procesar lo que perciben y tener una reacción, es decir una respuesta o actuar en su entorno de manera racional. Actualmente el uso de agentes con capacidades de diálogo y una representación visual (Agentes Conversacionales Animados) ha ido en aumento, ya que resultan ser una herramienta fácil de utilizar que permite una mejor interacción con el usuario. Añadiendo a éstos la funcionalidad de conversión de Texto a Voz (Text To Speech), éstos agentes animados pueden fungir como guías, maestros o ayudantes, y pueden brindar ayuda en la búsqueda de información sobre un tema, pudiendo llegar a mantener una conversación de cualquier tema en específico. En esta tesis, se presenta el análisis de los atributos del proceso de conversión de texto a voz (TTS - Text To Speech) y sus sub-productos, para incorporar esta tecnología a un agente conversacional animado. Con los resultados de éste trabajo se podrá contribuir al proceso de sincronizar la expresión verbal y no verbal de su diálogo, creando así un comportamiento creíble en el personaje. 1
Este trabajo contribuye al desarrollo de la línea de investigación interesada en la generación de formas de interacción hombre-máquina a través del uso de Agentes Conversacionales Animados que se desarrolla en la Maestría en Ciencias en Ciencias de la Computación del ITCM. En particular, ésta tesis complementa los trabajos realizados por Domínguez-Martínez [Domínguez Martínez, 2010] y Florencia-Juárez [Florencia Juárez, 2010] para dotar a un agente conversacional con una base de conocimiento AIML capaz de generar un diálogo escrito con expresiones emocionales.
1.1 Objetivos 1.1.1 Objetivo General Analizar los parámetros y componentes de las herramientas Text To Speech para mejorar la credibilidad de la prosodia generada y proporcionar información que sirva para la animación de visemas.
1.1.2 Objetivos específicos
Identificar los parámetros disponibles en las herramientas Text To Speech, su funcionalidad y efectos.
Identificar los efectos de la manipulación de los parámetros disponibles en la prosodia de la voz generada.
Identificar que información se puede producir para facilitar la construcción de visemas.
1.2 Problemática La problemática en el análisis de las tecnologías de Texto a Voz radica en que no se encuentran documentos suficientes que aporten información sobre la configuración de las herramientas de conversión TTS. Sólo existe documentación de desarrollos comerciales relacionada a la aplicación de su tecnología, en los cuales no se aportan información suficiente sobre los atributos involucrados en las técnicas del proceso de conversión de texto a voz.
1.3 Justificación Esta tesis se desarrolla con la finalidad de que el análisis de los parámetros existentes en la conversión TTS sirva en la creación de un prototipo de un agente virtual que proporcione información sobre la Maestría en Ciencias en Ciencias de la Computación del ITCM. 2
Para lograr que el usuario del sistema experimente una interacción más natural con la computadora por medio de asistentes virtuales es necesario que estos expresen emociones por medio de la voz, así como una expresión no verbal acorde a la misma. Para lograrlo, es necesario desarrollar con una herramienta capaz de producir habla emocional o que permita controlar los parámetros asociados a la generación de la prosodia.
1.4 Hipótesis En esta tesis se busca identificar los parámetros de entrada y salida existentes en un proceso de conversión de texto a voz, con el fin de manipularlos para generar un asistente virtual más creíble capaz de producir sincronización labial y expresar emociones a través del habla. Basándose en el análisis de la información del análisis de los atributos de la conversión TTS, se pretende determinar si es posible configurar y explotar las herramientas TTS evaluadas para crear un personaje virtual con las capacidades antes mencionadas.
1.5 Alcances y Limitaciones Este proyecto está limitado al análisis de los parámetros existentes en el proceso de conversión TTS, que involucran la velocidad, el tono y el uso de voces sintetizadas, dichos atributos pueden ser configurados de entrada y arrojan un conjunto de datos asociados a fonemas y visemas. Debido a que este trabajo se pretende integrar al desarrollo de Juegos Serios y Personajes Virtuales 3D usando el Motor de Juegos de Panda3D bajo Python, se eligió como tecnología de conversión de texto a voz al motor de voz Microsoft Speech SDK 5.1 [Microsoft Speech SDK 5.1, 2010] en combinación con la librería PyTTS disponible para Python, la cual permite la manipulación de los atributos del motor de voz.
3
1.6 Estructura del documento Capítulo 1. Introducción. Se presentan los objetivos del trabajo de Tesis, la justificación, la hipótesis, los alcances y las limitaciones del proyecto. Capítulo 2. Síntesis de voz. En este capítulo se describe el procesamiento de Texto a Voz, la arquitectura común de los sistemas que realizan este proceso y se presentan fundamentos de los términos fonema y visema a partir de los cuales se desarrollan los análisis. También se presenta el estado del arte del proceso TTS y los retos de dicho proceso. Capítulo 3. Metodologías de la conversión de texto a voz. Se presentan una descripción de los métodos de síntesis de voz más empleados. Capítulo 4. Herramientas Text To Speech. Se presenta el estado del arte de algunos de los productos de síntesis de voz existentes actualmente. Se incluye la arquitectura del motor de voz Microsoft Speech SDK 5.1 y la librería pyTTS. Capítulo 5. Análisis de los parámetros disponibles en las herramientas Text To Speech. Se presenta un análisis de las pruebas realizadas con el motor de voz Microsoft Speech SDK 5.1. Capítulo 6. Conclusiones y trabajos futuros. Se presenta una reflexión de las aportaciones y conclusiones del proyecto.
4
CAPÍTULO 2. SÍNTESIS DE VOZ En este capítulo se introducen los conceptos relacionados al proceso de conversión de texto a voz y los elementos presentes en la síntesis de voz, también se incluye el estado del arte acerca de las herramientas desde los inicios de la implementación de este proceso, y algunos aspectos de la generación de voz concernientes a las expresiones que implican emoción.
2.1 Procesamiento de texto a voz El habla es el medio principal de comunicación entre las personas, la síntesis de voz es la producción artificial del habla humana. Se han diseñado diferentes sistemas para este propósito llamados sintetizadores de voz y pueden ser implementados tanto en hardware como en software. Recientes progresos en la síntesis de voz han producido sintetizadores con mayor inteligibilidad, pero el sonido y la naturalidad aún siguen siendo un problema mayor. Un elemento para juzgar la calidad de la síntesis de voz es su parecido con la voz humana y su potencialidad para ser entendida. Estos sistemas pueden lograr que personas con discapacidad visual, problemas de lectura o que se encuentren en actividades en las cuales los ojos y manos están ocupados puedan escuchar instrucciones.
5
Un sintetizador de voz convierte el lenguaje escrito en habla, por esta característica también es conocido como sistema TTS (Text To Speech). El habla sintetizada se genera concatenando segmentos de grabaciones que se encuentran almacenados en una base de datos. Los sistemas Text to Speech difieren en diversos aspectos, uno de ellos es el tamaño de las unidades de habla almacenadas. Los sistemas que almacenen fonemas y difonemas proveen el rango de salida más amplio, sin embargo es posible que su calidad sea baja. Para una salida de alta calidad, se utiliza la técnica de dominios específicos, en esta técnica el almacenamiento de palabras u oraciones pre-grabadas enteras permiten una salida de alta calidad. De forma alternativa, un sintetizador puede incorporar un modelo del tracto vocal y otras características de la voz humana para generar una voz completamente “sintética” o “electrónica” [Birkholz – Kroger, 2007]. El procedimiento de síntesis de texto a voz consiste de dos fases principales. La primera fase es el análisis del texto, donde la cadena de caracteres de entrada es transcrita en una fonética o algunas otras representaciones lingüísticas, y la segunda etapa es la generación de formas de onda de voz, donde la salida produce información fonética y prosódica. Estas dos fases son usualmente llamadas síntesis de alto y bajo nivel. La Figura 1 muestra una versión simplificada de este procedimiento, la entrada del texto puede ser por ejemplo de un procesador de palabras. La cadena de caracteres es entonces procesada y analizada en una representación fonética la cual es usualmente una cadena de fonemas con alguna información adicional para la correcta entonación, duración y énfasis. Finalmente con el sintetizador de bajo nivel el sonido de la voz es generado por la información de un sintetizador de alto nivel [Lemmetty, 1999].
Texto de entrada
Análisis de texto y lingüística
Figura 1. Procedimiento de síntesis de voz.
Prosodia y generación de voz
Voz Sintetizada
Nivel fonético
En la Figura 2 se detalla el procesamiento de texto a voz de los sistemas TTS comunes, se puede observar que existen dos bloques principales que forman el sistema: el bloque de Procesamiento de Lenguaje Natural (Natural Language Processing o NLP) y el bloque de Proceso de Síntesis.
6
El bloque de NLP se encarga de producir una transcripción fonética del texto leído, además de la entonación y el ritmo deseados para la voz de salida, después, el bloque de Proceso de Síntesis transforma la información simbólica que recibe del bloque anterior, en una voz de salida. El proceso de síntesis puede llevarse a cabo de diferentes formas, dependiendo de la tecnología empleada, puede tratarse de una síntesis articulatoria, de formantes, concatenativa, etc., en el Capítulo 3 se describen los tipos de síntesis de voz más empleados. Procesamiento de Lenguaje Natural
Proceso de Síntesis
Analizador de Texto
Texto
Texto a fonemas
Articulatorios
Fonema
Formantes
Voz
Prosodia Generador prosódico
Concatenativos
Figura 2. Arquitectura común para los sistemas TTS [Furui, 1989].
En el bloque NLP se llevan a cabo dos tareas importantes. La primera tarea es convertir el texto en material manipulable, convirtiendo símbolos como números o abreviaciones en su equivalente en palabras escritas. Esto es comúnmente llamado “normalización de l texto”, “pre - procesamiento” o “señalización” (t okenization),
la segunda tarea que se realiza es asignar transcripciones fonéticas a
cada palabra y dividirlas en unidades prosódicas tales como frases, cláusulas y oraciones. El proceso de asignar transcripciones fonéticas en palabras es llamado conversión “texto a fonema”
o
conversión “grafema a fonema” . El bloque NLP tiene como salida una representación lingüística, la
cual está formada tanto por las transcripciones fonéticas así como por la información prosódica. El bloque de Proceso de Síntesis es el sintetizador en sí, ahí es donde se transforma la representación de la lógica lingüística en sonido [Moreno Azcona, 2008]. La Figura 3 muestra otra forma de explorar la arquitectura del proceso de conversión de texto a voz, como entrada es admitido un texto sin formato, para que en el proceso pase por el análisis del texto, análisis fonético y prosódico que forman una síntesis de forma de onda para dar como salida la voz sintetizada. 7
Texto sin Formato
Análisis del Texto Normalización del texto Etiquetamiento de la parte del habla Desambi uación homónima Análisis Fonético Búsqueda en el diccionario Grafema a fonema (LTS) Análisis prosódico Colocación de límites Campo de asignación de acento Duración de cómputo Síntesis de forma de onda
Voz de salida
Figura 3. Arquitectura TTS.
2.2 Análisis prosódico en TTS Solo la adecuada elección de los parámetros prosódicos dados por una duración de sonido y contornos de entonación permite al TTS producir sonido natural, alta calidad y voz sintética. Uno de los problemas más grandes en los sistemas de síntesis de texto a voz consiste en la generación automática de la prosodia natural e inteligibilidad. Existen dos enfoques principales para la predicción de la estructura prosódica, un enfoque basado en reglas y otro en estocástica. Dentro de la fonética, la prosodia se define como el uso de tono, volumen, tiempo y ritmo en el habla para transmitir información sobre la estructura y el significado de un enunciado. La entonación se refiere al cambio en el patrón de campo o frecuencia fundamental durante la voz. La prosodia del lenguaje continuo depende de muchos aspectos separados, tales como el significado de la sentencia y las características del hablante y emociones. Las dependencias prosódicas son mostradas en el Figura 4. Desafortunadamente, el texto escrito usualmente contiene muy poca información de estas características y algunas de ellas cambian dinámicamente durante la producción de la voz. Sin embargo, con algún control específico de los caracteres de entrada esta información puede ser dada al sintetizador de voz.
8
Debido a que el la acentuación de las frases casi nunca es marcada y el parafraseo prosódico no siempre es marcado en el texto, si no hay pausas de respiro en el lenguaje o si hay lugares incorrectos, el lenguaje puede sonar muy poco natural o incluso el significado de la oración puede ser malentendido. Por ejemplo en inglés, la cadena de entrada "John says Peter is a liar" puede ser dicho de dos diferentes formas dando dos diferentes significados como “ John says: Peter is a liar ” o " John, says Peter, is a liar". En el primer enunciado la sentencia “Peter is a liar ”, y en la segunda “the liar is John”. Los anteriores ejemplos indican que debido a errores ortográficos se puede dar una mala interpretación del habla, algunas de estas consideraciones son tomadas en cuenta en el Capítulo 5 a fin de ser ejemplificadas.
Características del hablante Género Edad
Emociones Enojo Alegría Tristeza
PROSODIA
Frecuencia fundamental Duración Énfasis
El significado de la oración: Neutral Imperativo Pregunta
Figura 4. Dependencias prosódicas.
2.3 Fonemas y visemas En el subtema anterior se trató la prosodia la cual se encuentra definida en términos de la fonética; la fonética y la fonología son disciplinas de la lingüística que se encargan de estudiar los sonidos del lenguaje, la fonética abarca un ámbito mayor que la fonología, en la primera hay una base acústica mientras que en la segunda se tiende a considerar la imagen mental de lo que percibimos [Frías Conde, 2001]. 9
La unidad de estudio de la fonología son los fonemas, estos son las estructuras de unidades más pequeñas de sonido que distinguen el significa do para un lenguaje, tales como “ oo, ee, ar, m, b, p ”, etc. Reemplazando un fonema con otro cambiará el significado de un enunciado. Ya que se van a explorar algunas partes de la lingüística y la fonética, se introducen otros conceptos relacionados con estas disciplinas y ejemplificaciones de sus notaciones; un grafema es la unidad mínima de un sistema escrito, su notación está dada por los símbolos , anteriormente se definió lo que es un fonema el cual se representa por /n/, pero también existen los alófonos, son las variantes que se dan en la pronunciación de un mismo fonema, la notación de estos es [n]. La clasificación de los fonemas está dada por dos grandes unidades: Vocales y Consonantes. La descripción de los fonemas vocálicos está dada en la Tabla 1, que muestra la clasificación de las vocales de acuerdo a la forma en que son pronunciadas, por ejemplo: /i/ es una vocal inicial cerrada. Cerradas Medias Abiertas
Iniciales i e
Centrales
Finales u o
a Tabla 1. Fonemas vocálicos.
Además, las vocales /a/, /e/, y /o/ son las llamadas vocales fuertes, mientras que /i/ y /u/ son las débiles. En el Capítulo 5 se incluye una revisión de los diptongos para observar los análisis de los resultados obtenidos al evaluar estas estructuras. La Tabla 2 describe los fonemas consonánticos existen en el español. En ésta tabla se incorporan los siguientes símbolos, los cuáles se describen a continuación: Es la , en el español europeo este fonema no existe y en su lugar se usa /s/. Es la y la . Es la . Es la . Es la <ñ>. Es la , para la mayoría de los hablantes de español del mundo este fonema ha desaparecido y se ha sustituido por . Es la suave, hay que tener en cuenta que la /r/ representa el sonido fuerte.
10
Bilabial
Labiodental Interdental Dental
alveolar Palatal
Velar
Oclusiva
Sonora Sorda Fricativa Sonora Sorda Africada Sonora Sorda Nasal Sonora Sorda Lateral Sonora Sorda Vibrante Sonora Sorda Tabla 2. Fonemas consonánticos
Existen dos elementos que se involucran en la clasificación de los fonemas, uno es el punto de articulación (lugar en la cavidad bucal que se utiliza) y el modo de articulación (elementos que participan en la pronunciación). Para el punto de articulación se tienen en cuenta los siguientes criterios:
Bilabial: Participación de los dos labios
Labiodental: Labio inferior con dientes superiores.
Interdental: Lengua entre los dientes.
Dental: La lengua toca la parte trasera de los dientes superiores.
Alveolar: La lengua toca los alvéolos superiores.
Palatal: La lengua toca el paladar.
Velar: La lengua toca el velo.
Para el modo de articulación hay que distinguir entre plosivas y no plosivas. Las primeras son aquellas en las que hay una mayor o menos obstaculización en la boca, mientras que las segundas se pronuncian más directamente. Las plosivas se dividen en: Oclusivas: Se produce una explosión.
Fricativas: Se produce un roce.
Africadas: Es la combinación de las dos anteriores.
Las no plosivas son: Nasales: Parte del aire sale por la nariz.
Laterales: La lengua sale por los laterales de la boca. 11
En el Capítulo 5 se incluye una revisión de estos fonemas, además del análisis de estos en la voz de inglés americana. Los fonemas de un lenguaje pueden ser clasificados en subgrupos basados en sus apariencias visuales. Estos subgrupos son llamados visemas y pueden ser considerados como equivalencia visual a los fonemas. Los visemas pueden además ser descritos como formas clave de la boca donde cada forma vocal corresponde a uno o más fonemas [Engström, 2003]. Los fonemas que no son distinguibles de otros cuando son vistos en la cara son puestos en el mismo subgrupo. Por lo tanto los fonemas son frecuentemente confundidos dentro de los subgrupos, pero raramente entre ellos. Un visema describe las posiciones faciales particulares y orales y los movimientos que ocurren del lado vocal de los fonemas. Los fonemas y visemas no siempre comparten correspondencia de uno a uno, regularmente algunos fonemas comparten el mismo visema. El termino visema fue introducido por Fisher en 1968 como una abreviación del término visual phoneme y denota grupos de consonantes que forman clases exclusivas mutuamente. Sin embargo, el concepto fue creado mucho antes por Alexander Graham Bell entre otros. En un estudio Fisher [Engström, 2003] probó como los fonemas en la palabra inicial y final son percibidos visualmente, forzándolos a dar respuestas erróneas por eliminación de la respuesta correcta de la hoja de respuestas. Cada estimulo tuvo un conjunto cerrado de posibles respuestas hechas de palabras de la misma estructura silábica y patrón de énfasis como la palabra estímulo. También cada consonante en las respuestas fue homotípica a la consonante de la prueba de estímulo. Los resultados mostraron que los fonemas fueron confundidos por 5 grupos de consonantes iniciales y 5 grupos de consonantes finales, apoyando al concepto de visemas.
2.4 Estado del arte de la síntesis de voz La voz artificial ha sido un tema de gran interés a través de los años, para comprender como los sistemas actuales funcionan y como se han desarrollado, aquí se presenta un resumen de la historia del lenguaje sintetizado desde los primeros esfuerzos mecánicos hasta los sistemas sintetizadores de hoy en día. En 1791 von Kempelen en Mechanismus der menschlichen Sprache nebst Beschreibung einer sprechnenden Maschine (Mecanismo del lenguaje humano con la descripción de una máquina parlante), describe una máquina hablante consistente de un fuelle que simula los pulmones y un contrapeso provisto por inhalación, una “caja de viento” funcional con palancas utilizando la mano 12
derecha , una “boca” hecha de goma y una “nariz” con orificios na sales
(la nariz tenía que ser
cubierta con dos dedos para los no nasales), un cierre de la apertura de la boca que permitió producir sonidos sordos, un pequeño fuelle auxiliar accionado por la cadena que provee de una bocanada de liberación de sonidos sordos, propiedades de resonancia variada de la “boca” con la mano izquierda que cubre la apertura, cuerdas vocales simuladas con una caña de marfil y silbatos pequeños que controlaban las consonantes. A mediados de 1800 Charles Wheatstone construyó su famosa versión de la máquina hablante de von Kempelen la cual es mostrada en la Figura 5, con ella fue posible producir vocales y más sonidos consonantes. Las vocales fueron producidas con caña vibrante y todos los pasajes estaban cerrados. Las resonancias se efectúan por la deformación del resonador de cuero como en la máquina de von Kempelen.
Figura 5. Reconstrucción de Wheatstone de la máquina parlante de von Kempelen
La conexión entre el sonido de la vocal especifica y la geometría del tracto vocal fue encontrado por Willis en 1838, el sintetizó diferentes vocales con los resonadores del tubo como pipas de órganos, también descubrió que la calidad vocal depende solo de la longitud del tubo y no de su diámetro. El primer dispositivo completo de síntesis eléctrica fue representado por Stewart en 1922, el sintetizador tenía un timbre como excitación y dos circuitos resonantes para modelar las resonancias acústicas del tracto vocal. La maquina fue capaz de generar un solo sonido vocal estático con dos formantes más bajos, pero no cualquier consonante o enunciados conectados.
13
El mismo tipo de sintetizador fue hecho por Wagner. El dispositivo constaba de cuatro resonadores electros conectados en paralelo y que estaba excitado por una especie de silbato fuente. Las salidas de los cuatro resonadores eléctricos conectados se combinaron en las apropiadas amplitudes para producir el espectro vocal. En 1932 los investigadores japoneses Obata y Teshima descubrieron el tercer formante en vocales. Los tres primeros formantes son generalmente considerados suficientes para la inteligibilidad de la voz sintetizada. El primer dispositivo para ser considerado como un sintetizador de voz fue VODER (Voice Operating Demonstrator) introducido por Homer Dudley en la feria mundial de New York en 1939. VODER fue inspirado por VOCODER (Voice Coder) desarrollado en los laboratorios Bell en los años treinta. Apple [Apple, 2010] desarrolló sistemas para la síntesis de voz de Macintosh Personal Computers, dichos sistemas constan de diferente nivel de calidad en 1984 Apple Computers lanza el MacinTalk que fue el primer sistema de síntesis de voz integrado a un sistema operativo. Actualmente ha desarrollado el sistema VoiceOver para personas con problemas de la vista. AmigaOS es el segundo sistema operativo en la historia con un sistema de síntesis de voz, avanzado fue lanzado en 1985. Contenía un sistema de emulación completo, con voces tanto masculinas o femeninas de énfasis [Softvoice, 2010]. CereVoice, es un sistema producido por Cereproc LTD, el sistema fue utilizado para construir pequeñas bases de datos de unidades de selección utilizando información suministrada por el Blizzard Challenge 2006 [Aylett-Pickock-Fraser, 2006]. El sistema Microsoft Windows utiliza los sistemas de voz SAPI4 y SAPI5. Estos incluyen un motor de reconocimiento de voz llamado SRE. Todos los programas compatibles con Windows pueden utilizar las funciones de síntesis de voz, disponibles a través de menús una vez instalados dentro del sistema. Microsoft Speech Server es un paquete completo para reconocimiento y síntesis de voz para aplicaciones comerciales como centros de llamado. Microsoft Speech SDK 5.1 [Microsoft Speech SDK 5.1, 2010] es la interfaz de programación de aplicaciones de voz o SAPI (Speech Application Programming Interface) es una API desarrollada por Microsoft para permitir el uso de reconocimiento de voz y síntesis de voz dentro de las aplicaciones de Windows. Festival [Festival, 2010] es un software libre que ofrece un marco general para la construcción de sistemas de síntesis de voz. En conjunto Festval integra la función de conversión del texto a voz a través de una API: desde el nivel de núcleo, a través de un esquema intérprete de comandos, como 14
una librería de C++, de Java, y una interfaz de Emacs. Festival es multilingüe (actualmente Inglés (británico y americano), y español), aunque el Inglés es el más avanzado. Otros grupos lanzaron nuevos lenguajes para el sistema. Las herramientas y la documentación completa para construir nuevas voces están disponibles a través del proyecto de Carnegie Mellon FestVox. El sistema está escrito en C++ y utiliza la librería de Herramientas de Voz de Edimburgo para la arquitectura de bajo nivel y tiene un esquema (SIOD) basado en el intérprete de comandos de control. Loquendo TTS [Loquendo, 2010] es un programa informático que realiza una función de síntesis del habla. Proporciona voces reales para los datos dinámicos y funciona en cualquier tipo de aplicación de voz, ofrece voces naturales que pueden leer cualquier dato y comando. El TTS de Loquendo tiene un algoritmo de alto rendimiento y garantiza una respuesta muy rápida. El motor de habla de esta tecnología puede sintetizar idiomas y voces distintas simultáneamente, mezclándolas entre ellas en cada momento y sobre cualquier canal. Infovox [Infovox, 2010], el sintetizador de voz de la familia Telia Promotor AB es quizás uno de los mejores productos de conversión de texto a voz multilingüe disponibles hoy en día. La primera versión comercial Infovox SA-101, fue desarrollada en Suecia en el Royal Institute of Technology en 1982. El sistema es originalmente del tipo de síntesis formante en cascada. Digital Equipment Corporation (DEC) [DECtalk, 2010] tiene también gran tradición con los sintetizadores de voz, el sistema DECTalk originalmente descendió de MITalk y Klattalk. En la actualidad está disponible para el inglés americano, alemán y español, ofreciendo nueve diferentes voces personalizadas. El actual sistema DECTalk está basado en la síntesis digital formante. La entrada del sintetizador es derivada de los símbolos fonéticos incluidos consonantes, vocales, diptongos, alófonos, y un silencio. Los laboratorios Bell de AT&T (Lucent Technologies) han desarrollado también tecnología de síntesis de voz desde la demostración de VODER en 1939. Su primer sistema TTS completo fue lanzado en 1973. Estaba basado en un modelo articulatorio desarrollado por Cecil Coker. El desarrollo del actual sistema utiliza síntesis concatenativa iniciada por Joseph Olive a mediados de 1970. El sistema actual está disponible para inglés, francés, español, italiano, alemán, ruso, rumano, chino y japonés [AT&T, 2010]. ORATOR es un sistema TTS desarrollado por Bell Communications Research (Bellcore), su síntesis está basada en concatenación demisílaba. La versión reciente de ORATOR es de las más naturales disponibles hoy en día. Actualmente la versión del sintetizador de voz híbrido de Telcordia ORATOR II también provee de herramientas de alta calidad, las cuales son altamente precisas para 15
el manejo de la los servicios de manejo de la base de datos a través de una síntesis de texto a voz avanzada [Orator, 2010]. SoftVoice Inc. [SoftVoice, 2010] tiene más de 25 años de experiencia en la síntesis de voz, el cual es conocido como SAM (Software Automatic Mouth) un sintetizador para Commodore C64 (SAM-synthetizer) y Amiga (Narrator), Apple (original MacinTalk), y computadoras Atari en los pasados 1980s y fue probablemente el primer software comercial basado en sistemas para computadoras personales caseras. La calidad de voz de SoftVoice probablemente no es la mejor de los productos disponibles, pero con un gran número de control de caracteres y voces diferentes que lo hacen muy útil para varios tipos de aplicaciones multimedia. El proyecto MBROLA [Dutoit – Pagel – Pierret – Bataille – van der Vrecken, 1996] fue iniciado por los laboratorios TCTS en la Faculté Polytechnique de Mons, Bélgica y su principal objetivo es el desarrollo de síntesis de voz multilingüe para propósitos no comerciales y aumento de la investigación académica, especialmente en la generación de prosodia. SVOX [SVOX, 2010] es un sistema de síntesis de texto a voz alemán el cual ha sido desarrollado en TIK/ETHZ (Instituto Federal de Tecnología de Zurich). El sistema SVOX consiste de dos módulos principales. El módulo de transcripción incluye el análisis del texto y la generación fonológica la cual es el hablante y la voz independiente. La representación fonológica es generada de cada enunciado de entrada e incluye la cadena del fonema respectivo, el nivel del acento por silaba, y los límites de la frase (posición, tipo, y longitud y fuerza. El modulo fonoacústico, incluye todos los componentes dependientes del hablante que son requeridos para generar una apropiada señal de voz de la representación fonológica. IVONA Text to Speech [IVONA TTS, 2010] es un sistema de síntesis de voz en varios idiomas desarrollado en Polish IT compañía de IVO software. IVONA utiliza las unidades de selección con capacidad limitada, la síntesis de unidades de selección utiliza grandes bases de datos de voz grabada, durante la creación las voces, cada frase grabada se segmenta en otras o en los siguientes: tonos individuales, silabas, morfemas, palabras, frases y oraciones. También se encuentran otros sistemas de voz tales como Expressivo Text Reader [Expressivo, 2010], Power Text To Speech Reader [Power TTS Reader, 2010] y TextAloud [Text Aloud, 2010] que pueden leer mensajes directamente de un cliente de correo electrónico y páginas de Internet a través de un navegador. RSS también puede ser leído con software especializado como el Google gadget, RSS to Speech o Expressivo Text Reader.
16
El proyecto Pediaphon provee de text to Speech generado dinámicamente para escuchar todos los artículos de Wikipedia en inglés, francés o alemán. Power Text To Speech Reader soporta voces masculinas, femeninas y robóticas de 11 lenguajes, también puede monitorear el portapapeles de Windows y procesar automáticamente su contenido.
2.5 Retos de la conversión de texto a voz El problema en la síntesis de voz es muy amplio. Existen varios problemas en el preprocesamiento del texto, tales como numeraciones, abreviaciones, y acrónimos. La correcta prosodia y la pronunciación del análisis del texto escrito es también un gran problema actualmente. El texto escrito contiene emociones no explicitas y la pronunciación de nombres propios y extranjeros es algunas veces muy anómalo. En la síntesis de bajo nivel, la discontinuidad y los efectos contextuales en los métodos de concatenación de onda son más problemáticos. La síntesis de voz ha sido encontrada también más difícil con voces de mujeres y niños. Las voces femeninas tienen un campo casi dos veces más grande que las voces masculinas y con las de niños puede ser incluso más grande. La frecuencia fundamental hace más difícil estimar las locuciones de frecuencia formante [Lemmetty, 1999].
2.5.1 Representación Lingüística La primer tarea enfrentada por cualquier sistema TTS es la conversión de entrada del texto, en algunos lenguajes, tales como el finlandés, la conversión es muy simple porque el texto escrito casi corresponde a su pronunciación. Para el inglés y la mayoría de los demás lenguajes la conversión es mucho más complicada. Un conjunto muy grande de reglas y sus excepciones es necesario para producir la correcta pronunciación y la prosodia para la voz sintetizada. El preprocesamiento del texto es usualmente una tarea muy compleja e incluye algunos problemas dependientes del lenguaje. Los dígitos y numeraciones deben ser ampliados en palabras completas. Por ejemplo en inglés, el número 243 seria ampliado como two hundred and forty-three y 1750 como seventeen-fifty (en número) o one-thousand seven-hundred and fifty (en medida). Las fracciones y fechas son también problemáticas. 5/16 puede ser expandida como fivesixteenths (si es fracción) o May sixteenth (si es fecha). Los números de expansión ordinarios han sido encontrados también problemáticos. Los primeros tres ordinarios deben ser expandidos de forma diferente que los otros, 1st como first, 2nd como second, and 3rd como third.
17
El mismo tipo de los problemas contextuales son enfrentados con los números romanos. Chapter III debería ser ampliado como Chapter three y Henry III como Henry the third y I no puede ser pronunciado como un pronombre o un número. Los números romanos pueden ser también confundidos con algunas abreviaturas comunes tales como MCM. Los números pueden tener también formas especiales de expresión tales como 22 es double two en los números de teléfono y 1 – 0 como one love en los deportes.
Las abreviaciones pueden ser ampliadas en palabras completas, pronunciadas como están escritas, o pronunciadas letra por letra. Hay también algunos problemas contextuales. Por ejemplo kg no puede ser kilogram o kilograms dependiendo de los números precedentes, St. Puede ser saint o street, Dr. Doctor o drive y ft. Fort, foot o feet. En algunos casos, la información adyacente pude ser suficiente para encontrar la salida correcta a la conversión, pero para evitar malas conversiones la mejor solución en algunos casos puede ser el uso de la conversión de letra por letra. Innumerables abreviaciones para nombres de compañías y otras cosas relacionadas que existentes y las que pueden ser pronunciadas en muchas formas. Por ejemplo, N.A.T.O. o RAM son usualmente pronunciadas como están escritas y SAS o ADP letra por letra. Algunas abreviaciones tal como MPEG como empeg son pronunciadas irregularmente. Los caracteres especiales y símbolos, tales como '$', '%', '&', '/', '-', '+', también causan tipos especiales de problemas. En algunas situaciones el orden de las palabras puede ser cambiado. Por ejemplo $71.50 deber ser ampliado como seventy-one dollars and fifty cents y $100 million as one hundred million dollars, no como one hundred dollars million. La expresión '1-2' puede ser ampliada como one minus two o one two, y el carácter „&‟ como et o and. También caracteres especiales y cadenas de caracteres por ejemplo en los web-sites o mensajes de correo electrónico deben ser ampliados con reglas especiales. Por ejemplo, el carácter '@' es usualmente convertido como at y los mensajes de correo electrónico pueden contener cadenas de caracteres, tales como información de cabecera, la cual puede ser omitida. Algunos lenguajes también incluyen caracteres especiales no ASCII, tales como marcadores de acento o símbolos especiales [Lemmetty, 1999].
2.5.2 Pronunciación Las palabras llamadas homógrafas, pueden causar los problemas más difíciles en sistemas TTS. Los homógrafos son deletreados de la misma manera pero difieren en significado y usualmente en pronunciación. En inglés la palabra lives es por ejemplo pronunciado de forma diferente en los enunciados "Three lives were lost" y "One lives to eat". Algunas palabras e.g. lead, tienen diferentes 18
pronunciaciones cuando las utilizamos como verbo o sustantivo, y entre dos sentidos de sustantivos (He followed her lead / He covered the hull with lead). Con estos tipos de palabras alguna información semántica es necesaria para lograr la correcta pronunciación. La pronunciación de una cierta palabra puede también ser diferente debido a efectos contextuales. Esto es fácil de ver cuando se comparan frases the end y the beginning. La pronunciación de the depende del fonema inicial en la siguiente palabra. Las palabras compuestas son también problemáticas, por ejemplo el carácter 'th' en mother y hothouse es pronunciado diferente. Encontrar la correcta pronunciación para los nombres propios, especialmente cuando son tomados de otros lenguajes, usualmente es uno de las tareas más difíciles para cualquier sistema TTS. Algunos nombres comunes, tales como Nice y Begin, son ambiguos en contextos capitalizados, incluyendo sentencias de posición iniciales, títulos y textos simples. Por ejemplo, la sentencia Nice is a nice place es muy problemática porque la palabra Nice puede ser pronunciada como /nis/ o /nais/.
2.6 Generación de Voz con Emoción 2.6.1 Teorías acerca de la emoción Para entender el sentido de la generación de las emociones en el habla se exploran 4 teorías existentes, donde sus precursores muestran los diferentes enfoques en los que puede ser abordado este tema. Charles Darwin propone en su publicación de 1872 “The Expression of Emotion in Man and Animals” que las emociones son fenómenos con importantes funciones de supervivencia para las especies. Una emoción ocurre si una de las caras es asociada al problema, en orden para ayudarnos a resolverlo. La asignación del problema de emoción se ha desarrollado durante la evolución. Por lo tanto la expresión emocional también sirve para la función de supervivencia, ayuda a resolver problemas, la expresión más notable de la emoción es la expresión facial, Darwin describe estas expresiones de emoción en detalle [Zotter, 2003], en los 80s y 90s los psicólogos contemporáneos redujeron las expresiones de emoción a algunas universales (cruce cultural) y un conjunto reconocible de emoción de arquetipos: alegría, tristeza, miedo, disgusto, enojo y sorpresa. William James y Carl Lange (1884) afirmaron que las emociones ocurren después de los cambios corporales. James estableció controversialmente: las emociones ocurren debido a los cambios corporales: 19
“lo sentimos porque lloramos”
“nos enojamos porque golpeamos”
“tememos porque temblamos” o “tememos porque corremos”
Si no tengo cuerpo, tendría que ser “excluido de la vida por los afectos”
Magda Arnold en 1960, establece un enfoque cognitivo, en el que los eventos evaluados son juzgados como buenos o malos para uno mismo, esto ocurre irreflexivamente y automáticamente. Los cambios corporales y emociones son entonces el resultado de la evaluación. Las emociones están asociadas a patrones característicos de estimación. Los siguientes juicios son supuestos para ser hechos en las estimaciones concernientes, la situación es expuesta a: novedad, simpatía, responsabilidad, esfuerzo, certeza y control. James Averill en 1980, dice que la emoción no se ve biológicamente determinada, sino como producto cultural que surge de las reglas sociales aprendidas. Por lo tanto son construcciones sociales y solo pueden ser entendidas completamente en un nivel social de análisis. En esta vista el enojo es un sentimiento muy sofisticado el cual es basado en un juicio de moral y se manifiesta si algunos violan algunos estándares de comportamiento. Incluso la intención de otras personas juega un papel importante en enojarse. También “perder el control” de
uno mismo no es subjetivo
sino un juicio social. Es posible encontrar una explicación para cada emoción básica como una construcción social.
2.6.2 Expresión de la emoción en la voz En el marco de inducción del afecto, la función principal de señalización no es expresar emoción sino influir los afectos de los escuchas y por lo tanto formar su comportamiento (afectar la excitación de los oyentes). En resumen, la perspectiva de inducción del afecto sostiene que las expresiones vocales de la emoción no son muestra de los estados del vocalizador, son herramientas de influencia social [
].
Los rangos de identificación de la emoción son usualmente mejores para el enojo, miedo y tristeza. La identificación es pobre para el disgusto, quizás porque este estado no es típicamente transmitido a través de la voz, sino a través de emblemas vocales o exclamaciones. Las técnicas para sintetizar la emoción han sido estudiadas de cerca en desarrollos generales en algoritmos de síntesis de voz. La “Primera
generación” de técnicas incluyen el trabajo de Murray y
Cahn quienes utilizaron sintetizadores formantes los cuales eran capaces de variar cada parámetro del sintetizador como fuera deseado. El paradigma experimental utilizado en estos sistemas fueron versiones de síntesis múltiple de la misma sentencia cada una con diferente emoción, y luego realizar 20
una prueba de escucha donde el objetivo era hacer una elección forzada como que lo emociona a el o que escucha ella. Los resultados de estos sistemas fueron bastante buenos siendo reconocidos con un bajo grado de falla de precisión. Uno de los problemas con este enfoque, es que se pensó que la síntesis formante llevaba al mismo a ser capaz de generar diferentes efectos lingüísticos, pero denesta forma es capaz de crear voz donde la “distancia” entre dos catego rías es artificialmente grande [Taylor, 2009]. Las propuestas de “segunda generación” fueron típicamente una base de datos que contenía etiquetas emocionales de voz que son analizados para determinar las características de cada emoción. A menudo estos son llevados a las dimensiones prosódicas tradicionales de F0 (Frecuencia Fundamental) y tiempo. Una vez conocidos estos patrones, el lenguaje normal puede ser convertido en voz emocional por el uso de las señales de procesamientos de técnicas de señal. Considerando que la emoción está relacionada con la acústica vocal, la acústica de la voz es impregnada con señales indexadas o personales. Las cuales son aspectos no lingüísticos de la producción de la voz que proveen de acústica correlacionada a variables como el sexo de la persona, identidad individual, edad y estado emocional.
21
CAPÍTULO 3. METODOLOGÍAS DE LA CONVERSIÓN DE TEXTO A VOZ En este capítulo se presenta una clasificación de las metodologías existentes en el proceso de la síntesis de voz o producción artificial de habla humana. La cual recibe también el nombre Text-ToSpeech (TTS) en referencia a su capacidad de convertir texto escrito en hablado.
3.1 Tecnologías de síntesis de voz El proceso de síntesis de voz puede ser dividido en alto y bajo nivel de síntesis. Un sintetizador de bajo nivel es el dispositivo que genera el sonido de salida de información suministrado por un dispositivo de alto nivel en algún formato, por ejemplo en la representación fonética. Un sintetizador de alto nivel es responsable por la generación de la información de entrada al dispositivo de bajo 22
nivel incluyendo el preprocesamiento correcto del texto, la pronunciación y la información prosódica. La mayoría de los sintetizadores contienen ambos, sistema de alto y bajo nivel, pero debido a los problemas específicos con los métodos, son algunas veces desarrollados separadamente. La voz sintetizada puede ser creada concatenando los pedazos de lenguaje registrado que se almacenan en una base de datos. Los sistemas diferencian en el tamaño de las unidades almacenadas de voz, un sistema que almacena tonos o dítonos, proporciona la gama más grande de texto de salida, pero puede carecer de claridad. Un sistema TTS (o el motor) se compone de dos partes: un front-end y un back-end. A grandes rasgos, el front-end toma el texto de entrada y produce una representación lingüística fonética. El back-end toma la representación lingüística fonética como entrada y hace salir la forma de onda sintetizada de la voz. La naturalidad de un sintetizador de voz se refiere generalmente a que tanto la salida suena como la voz de una persona verdadera. El front-end tiene dos tareas importantes. Primero toma el texto crudo y convierte partes problematicas como números y las abreviaturas en sus equivalentes escritos. Este proceso a menudo se llama normalización del texto, preprocesamiento, o encadenamiento del texto. Entonces asignan transcripciones fonéticas a cada palabra, y se divide y marca el texto en varias unidades prosódicas, como frases, las cláusulas, y oraciones [Carnicero Sierra, 2003]. El proceso de asignar transcripciones fonéticas a las palabras se llama conversión del texto a fonema (TTP) o grafema a fonema (GTP). La combinación transcripciones fonéticas e información sobre unidades prosódicas del texto emite como la salida representación lingüística fonética. La otra parte, el back-end, toma la representación lingüística simbólica y la convierte en sonido, a menudo el back-end es referido como sintetizador. Los dos aspectos más importantes de la síntesis de voz son la naturalidad y la inteligibilidad. La naturalidad describe que tanto el sonido generado se asemeja al habla humana, mientras que la inteligibilidad es la facilidad con la cual se entiende el significado del habla generada. Un sintetizador de voz trata de maximizar ambas características [Barbosa, 1997]. Las dos tecnologías más empleadas para generar una voz sintética son la síntesis concatenativa y la síntesis formante. En la Figura 6 se muestra una clasificación de las metodologías de la síntesis de voz que es posible generar a partir de un corpus lingüístico, se observa que dentro de la síntesis concatenativa se 23
desarrollan tres técnicas más, la síntesis de selección de unidades, la síntesis de difonos, y la específica para un dominio, otras ramas de la clasificación incluyen a la síntesis de formantes, la síntesis articulatoria, la hibrida y la síntesis basada en HMM, dichas técnicas se describen es los siguientes subtemas.
TSS (Text to Speech)
Tecnologías de síntesis de voz Pueden ser creadas en base a Metodolo ías
Corpus lingüístico Síntesis concatenativa
Síntesis por selección de unidades
Síntesis de dífonos
Síntesis de dominio específico
Síntesis de formantes
Síntesis articulatoria
Otros métodos
Síntesis híbrida
Síntesis basada en HMM (Modelos ocultos de Markov)
Figura 6. Tecnologías de síntesis de voz.
3.2 Síntesis concatenativa La síntesis de Concatenativa [Molina – García - Nuñez, 2006] se basa en el encadenamiento de segmentos de la voz registrados. Generalmente, la síntesis concatenativa genera la voz sintetizada que alcanza a sonar más natural. Sin embargo, en la variación natural de la voz grabada en segmentos extraídos y las técnicas automatizadas para dividir las formas de onda en segmentos algunas veces da lugar a interferencias audibles en la salida disminuyendo la naturalidad.
24
Hay tres subtipos principales de la síntesis concatenativa:
Síntesis por selección de unidades
Síntesis de dífonos
Síntesis específica para un dominio
3.2.1 Síntesis por selección de unidades La síntesis de la selección de unidades propuesta por Hunt y Black [Hunt – Black, 1996] es la base de la mayor parte de los sintetizadores comerciales actuales. Como su nombre lo indica consiste en la selección de unidades fónicas de un corpus de mayor envergadura. En este caso las unidades no tienen porque ser difonemas aunque en cualquier caso sigue siendo la unidad más utilizada. La elaboración de este corpus reviste una mayor complejidad ya que debe ser fonéticamente balanceado y completo. El algoritmo de síntesis elige las unidades a concatenar en base a factores como la amplitud, la frecuencia, etc. En esta metodología existen también distintas aproximaciones y algoritmos como Cluster-Uniys, Multisyn, HTS, Clustergen, etc. La síntesis de la selección de unidades utiliza las bases de datos del lenguaje (donde más de una hora de voz es registrada). Durante la creación de base de datos en cada elocución registrada se divide en segmentos algunos de los siguientes componentes: tonos individuales, sílabas, morfemas, palabras, frases, y oraciones. La división en segmentos se puede hacer utilizando varias técnicas, como agrupar, usando un reconocedor especialmente modificado del lenguaje, o con representaciones visuales tales como las forma de onda y espectrograma. Un índice de unidades en la base de datos del lenguaje se crea basado de la segmentación y los parámetros acústicos como la frecuencia fundamental. Esta técnica da la naturalidad más grande debido al hecho de que no aplica técnicas de proceso de la señal numérica al discurso registrado, que a menudo hace que el sonido registrado del lenguaje sea menos natural. De hecho la salida de los mejores sistemas de la selección de unidad es a menudo indistinguible de voces humanas verdaderas, especialmente en los contextos para los cuales se ha probado el sistema de TTS. Sin embargo, la máxima naturalidad requiere a menudo bases de datos del lenguaje tomado de la selección de unidades, en algunos sistemas que se extienden en los gigabytes de datos registrados y que numeran en las docenas de horas del discurso registrado.
25
3.2.2 Síntesis de dífono La síntesis basada en difonemas es la opción más implantada y conocida, se basa en la utilización de difonemas, es decir, unidades formadas por fracciones de fonemas colindantes, la segunda mitad del primer fonema y la primer mitad del fonema siguiente. Este método parte de la grabación de un corpus con todos los difonemas existentes en el idioma a utilizar. Este corpus consiste en una lista de aproximadamente 1000 palabras artificiales, vocablos sin sentido que combinan apropiadamente todos los pares de fonemas necesarios en los contextos fonéticos apropiados. El sintetizador genera la voz combinando dichos difonemas de acuerdo con la transcripción generada a partir de las reglas “ letter-to-sound”. La síntesis de dífono utiliza una mínima parte de la base de datos del lenguaje que contiene todos los dífonos (transiciones del sonido a sonido) que ocurre en una lengua dada. El número de dífonos depende de la fonotáctica de la lengua, el español tiene cerca de 800 dífonos, el alemán cerca de 2500. En la síntesis de dífonos, solamente un ejemplo de cada dífono se almacena en la base de datos del lenguaje. En el tiempo de ejecución, la prosodia objetivo de una oración se sobrepone en estas unidades mínimas por medio de técnicas de proceso de la señal numérica tales como codificación profética linear, PSOLA o MBROLA [MBROLA, 2010]. La calidad del discurso que resulta no es generalmente tan buena como la de la síntesis de selección de unidades pero más natural comparada con la salida de los sintetizadores formantes. La síntesis de dífono sufre de interferencias sónicas, la síntesis concatenativa y la naturaleza robótica que emite de la síntesis del formante. El uso de este tipo de sintesis en aplicaciones comerciales está declinando, aunque continúa siendo utilizado en la investigación porque hay un gran número de aplicaciones libremente disponibles.
3.2.3 Síntesis de dominio especifico La síntesis de dominio específico concatena palabras previas y frases para crear elocuciones completas [Lemmetty, 1999]. Esta técnica de síntesis se utiliza en las aplicaciones donde la variedad de textos que el sistema hará salir se limita a un dominio particular. Esta tecnología es muy simple de ejecutarse y ha estado en uso comercial durante mucho tiempo, ésta es la tecnología es utilizada por ejemplo en relojes y en calculadoras. La naturalidad de estos sistemas puede ser potencialmente muy alta porque la variedad de tipos de la oración es limitada, asocia la prosodia y entonación de los registros originales. Sin embargo, estos sistemas son limitados ya que las palabras y las frases en su
26
base de datos no son de uso general y sintetiza solamente las combinaciones de palabras y las frases que se han preprogramado.
3.3 Síntesis formante La síntesis formante [Taylor, 2009] fue la primera técnica de síntesis genuina para ser desarrollada y fue la técnica dominante desde 1980. La síntesis formante es a menudo llamada síntesis por regla (synthesis-by-rule). La síntesis formante adopta un enfoque modular, basado en modelos y fonética acústica para el problema de síntesis. El sintetizador formante hace uso del modelo de tubo acústico, pero no en una forma particular así que el control de los elementos del tubo son fácilmente relacionados a las propiedades acústicas fonéticas que pueden ser fácilmente observadas. Una capa típica básica de un sintetizador formante es mostrada en la Figura 7, en la cual se observa que el sonido es generado de una fuente, la cual es periódica para los sonidos de la voz y el ruido blanco de sonidos obstruyentes. Esta fuente básica de la señal entonces es alimentada en el tracto vocal. En virtud de que todos los sintetizadores formantes, las cavidades orales y nasales son modeladas separadamente como sistemas paralelos. Por lo tanto la señal pasa en el componente que modela vía oral la cavidad, pero también puede pasar en el componente para el modelado de la cavidad nasal si es necesario para un sonido nasalizado. Finalmente, las salidas de estos componentes son combinados y pasan a través de un componente de radiación el cual simula la carga y propagación de las características de los labios y nariz. Cavidad nasal
Radiación
Fuente
Forma de onda de la presión de la voz
Cavidad oral /faríngea Velocidad y volumen fuente
Velocidad y volumen labio/nariz
Figura 7. Diagrama de bloques del sintetizador formante básico.
27
El lenguaje sintetizado de tipo formante puede ser muy inteligible, incluso a una velocidad muy elevada, evitando las interferencias acústicas que pueden plagar a menudo a los sistemas concatenativos. Los sintetizadores formantes son a menudo programas más pequeños que los sistemas concatenativos porque no tienen una base de datos de las muestras de lenguaje. Pueden ser utilizados así en situaciones que donde a menudo es escasa la memoria y la energía del procesador. Los sistemas basados en la síntesis formante tienen control total sobre todos los aspectos del lenguaje de la salida, una variedad amplia de prosodia o la entonación se puede hacer salir, transportando no solo declaraciones, sino una variedad de emociones y tonos de la voz.
3.4 Otros métodos 3.4.1 Síntesis articulatoria La síntesis articulatoria [Lemmetty, 1999] se refiere a las técnicas computacionales para la síntesis de voz basada en modelos humanos del tracto vocal y los procesos de articulación ocurren ahí. El primer sintetizador articulatorio regularmente utilizado para experimentos de laboratorio fue desarrollado en los laboratorios Haskins a mediados de 1970 por Philip Rubin, Tom Baer y Paul Mermelstein. Este sintetizador, conocido como ASY, estaba basado en modelos del tracto vocal desarrollados en los Laboratorios Bell en 1960 y 1970 por Paul Mermelstein, Cecil Coker y colegas. Recientemente los modelos de síntesis articularia no han sido incorporados en los sistemas de síntesis de voz comerciales. Una excepción notable es NeXT. El sistema, comercializado por primera vez en 1994, proporciona el texto articulatorio completo basado en texto a voz utilizando una transmisión de línea analógica de los tractos oral y nasal humanos.
3.4.2 Síntesis Híbrida La síntesis híbrida [Lemmetty, 1999] mezcla aspectos de la síntesis formante y concatenativa para disminuir las interferencias acústicas de cuando se concatenan los segmentos del lenguaje, esta técnica es utilizada en muchos sintetizadores digitales, aunque con diferentes variantes.
3.4.3 Síntesis basada en HMM (Modelos ocultos de Markov) Tecnologías modernas de síntesis de voz involucran amplios y complicados métodos y algoritmos. Uno de los métodos aplicados recientemente en la síntesis de voz es el basado en los 28
modelos ocultos de Markov (HMM) [Lemmetty, 1999]. HMM ha sido aplicado al reconocimiento de voz desde 1970. Para los sistemas de síntesis de voz ha sido utilizado por cerca de dos décadas. Un modelo oculto de Markov es una colección de estados conectados por transiciones con dos conjuntos de probabilidades en las cuales: una transición de probabilidad la cual provee la probabilidad para llevar esta transición, y una salida de función densidad de probabilidad (pdf) que define la probabilidad que condiciona la emisión de cada símbolo de salida de un alfabeto finito dado a la transición.
29
CAPITULO 4. HERRAMIENTAS TEXT TO SPEECH En este capítulo se presenta una revisión de las herramientas más conocidas actualmente que realizan la técnica de conversión texto a voz. Además, se presenta la arquitectura y parámetros configurables del motor TTS que se emplea.
4.1 Estado del arte de los productos de síntesis de voz En las siguientes secciones se introducen algunas herramientas de conversión de texto a voz disponibles, ya sea comerciales o de libre distribución, es imposible incluir todas las aplicaciones o productos existentes pero al menos se muestran los más conocidos.
30
4.1.1 Microsoft Speech API La Interfaz de Programación de Aplicación de Voz o SAPI [Microsoft Speech SDK 5.1, 2010] es una API desarrollada por Microsoft para permitir el uso del reconocimiento y síntesis de voz dentro de aplicaciones de Windows. En general todas las versiones de la API han sido diseñadas de tal forma que un desarrollador de software pueda escribir aplicaciones para ejecutar la síntesis y reconocimiento de voz utilizando un conjunto de interfaces estándar, accesibles desde una variedad de lenguajes de programación. El sistema de Windows moderno utiliza los sistemas de voz SAPI4 y SAPI5 que incluyen un motor de reconocimiento de voz.
4.1.2 Cepstral Cepstral [Cepstral, 2010] proporciona tecnologías de voz y servicios para la reproducción oral de la información. Emplea voces de alta calidad que se escuchan naturales para diversas aplicaciones. Cepstral Text-To-Speech (TTS) los motores y las voces se pueden implementar en dispositivos móviles o en varias instancias en las plataformas de servidor. Cepstral también ha creado nuevas técnicas para que las voces de uso general y las "voces de dominio", que permiten que el habla generada pueda adaptarse a una aplicación, de esta forma Cepstral desarrolla un proceso simplificado para la creación de voces sintéticas.
4.1.3 Festival Festival [Festival, 2010] es un software libre que ofrece un marco general para la construcción de sistemas de síntesis de voz, así como también incluye ejemplos de varios módulos que han sido implementados. En conjunto ofrece el texto íntegro al discurso a través de una API: desde el nivel de capa, a través de un intérprete de comandos de esquema, como una librería de C++, de Java, y una interfaz de Emacs. Festival es multilingüe (actualmente Inglés (británico y americano), y español), aunque el Inglés es el más avanzado. Otros grupos lanzaron nuevos lenguajes para el sistema. Las herramientas y la documentación completa para construir nuevas voces están disponibles a través del proyecto de Carnegie Mellon FestVox.
31
El sistema está escrito en C++ y utiliza la librería de Herramientas de Voz de Edimburgo para la arquitectura de bajo nivel y tiene un esquema (SIOD) basado en el intérprete de comandos de control. Festival en la actualidad cuenta con tres tecnologías de síntesis de voz, de difonemas, selección de unidades y el método basado en los modelos ocultos de Márkov.
4.1.4 Loquendo Loquendo TTS [Loquendo, 2010] es un programa informático que hace la función de síntesis del habla. Proporciona voces reales para los datos dinámicos y funciona en diversas aplicaciones de voz, también ofrece voces naturales con capacidades para aplicaciones multimodales de voz. El TTS de Loquendo puede sintetizar idiomas y voces distintas simultáneamente, la existencia de un léxico de usuario asegura que vocabularios especializados, abreviaciones, acrónimos e incluso entonaciones regionales estén pronunciadas correctamente. El User Dictionary asegura que los términos especializados de vocabulario, las abreviaciones, las siglas y también las diferencias regionales en la pronunciación suenan en el justo modo en el momento en el que el desarrollador las crea.
4.1.5 IBM Vía Voice Con la tecnología ViaVoice [IBM Via Voice] detrás de pequeños dispositivos móviles de hoy y los sistemas de telemática del automóvil, los desarrolladores pueden proporcionar a los usuarios con acceso de voz a la información. IBM ViaVoice es una herramienta que desarrolla aplicaciones avanzadas de voz para dispositivos y sistemas a distancia, también reconoce listas de vocabulario de más de 200,000 palabras en tiempo real y a través de una amplia gama de idiomas, además incluye transferencia, integración, pruebas y servicios de consultoría prestados por IBM.
4.1.6 SVOX SVOX [SVOX, 2010] es un sistema de síntesis de texto a voz alemán el cual ha sido desarrollado en TIK/ETHZ (Instituto Federal Suizo de Tecnología, Zurich). El sistema SVOX consiste de dos módulos principales. El módulo de transcripción incluye el análisis del texto y la generación fonológica la cual es el hablante y la voz independiente. La representación fonológica es generada de cada enunciado de entrada e incluye la cadena del fonema respectivo, el nivel del acento 32
por silaba, y los límites de la frase (posición, tipo, y longitud y fuerza. El modulo fonoacústico, incluye todos los componentes dependientes del hablante que son requeridos para generar una apropiada señal de voz de la representación fonológica.
4.1.7 IVONA TTS IVONA [IVONA TTS, 2010] es un sistema de síntesis de voz en varios idiomas desarrollado en Polish IT compañía de IVO software. IVONA utiliza la técnica de unidades de selección, este tipo de síntesis utiliza grandes bases de datos de voz grabada, durante la creación de las bases de datos cada frase grabada se segmenta en otras como tonos individuales, sílabas, morfemas, palabras, frases y oraciones. La división en segmentos se realiza usando un reconocedor de voz especialmente modificado. Un índice de las unidades de voz en la base de datos se crea sobre la base de la segmentación y los parámetros acústicos como la frecuencia fundamental (tono) o la duración. En tiempo de ejecución, la emisión objetivo deseada se crea mediante la determinación de la mejor cadena de unidades candidato de la base de datos (selección de unidades).
4.2 Proceso de conversión de texto a voz de Microsoft Speech SDK 5.1 4.2.1 Arquitectura Microsoft Speech SDK 5.1 Microsoft Speech SDK 5.1 [Microsoft Speech, 2011] es una interfaz de programación de aplicaciones de voz, también conocida en inglés como SAPI (Speech Application Programming Interface). Es una API desarrollada por Microsoft para permitir el uso de reconocimiento de voz y síntesis de voz dentro de las aplicaciones de Windows. Las aplicaciones que utilizan SAPI incluyen Microsoft Office, Microsoft Agent y el servidor de voz de Microsoft. SAPI, reduce drásticamente la sobrecarga de código necesario que requiere una aplicación para utilizar el reconocimiento de voz y texto a voz, haciendo la tecnología de voz más accesible y robusta para una amplia gama de aplicaciones. La API SAPI proporciona una interfaz de alto nivel entre una aplicación y los motores de voz. SAPI implementa todos los detalles de bajo nivel necesarios para controlar y gestionar las operaciones en tiempo real de los diferentes motores de voz. Los dos tipos básicos de motores SAPI son de texto a voz (TTS) y sistemas de reconocimiento del habla. Los sistemas TTS sintetizan 33
cadenas de texto en archivos de audio hablado con voces sintéticas. Los reconocedores de voz convierten audio de habla humana en cadenas de texto legible y archivos, la Figura 8 muestra la arquitectura del motor Microsoft Speech SDK.
Aplicación
Aplicación
API SAPI Runtime
DDI
Motor de reconocimiento
Motor TTS
Figura 7. Arquitectura Microsoft Speech SDK
4.2.2 Atributos de configuración de Entrada La interfaz principal de ésta SAPI es ISpVoice, que es una plataforma de Microsoft para componentes de software (Component Object Model – COM – ) que permite comunicación entre procesos. La interfaz ISpVoice permite que una aplicación realice operaciones de síntesis de texto de forma sincrónica o asincrónica. Es posible elegir una voz TTS específica utilizando el método ISpVoice::SetVoice. El estado de la voz (por ejemplo, velocidad, tono y volumen), puede modificarse mediante etiquetas XML de SAPI que están incrustadas en el texto hablado. Algunos atributos, como la velocidad y volumen, pueden cambiarse en tiempo real utilizando ISpVoice::SetRate y ISpVoice::SetVolume. Una vez que la aplicación ha creado un objeto ISpVoice, la aplicación solo necesita llamar a ISpVoice::Speak para generar voz de salida, la Figura 9 muestra como operamos el motor de voz con las propiedades de síntesis antes mencionadas. El método IspVoice::Speak puede operar de forma síncrona (retorna solo cuando fue completamente finalizada el habla) o asíncrona (retorna inmediatamente y habla como un proceso de fondo). Cuando se habla de forma asíncrona (SPF_ASYNC), la información de estado en tiempo real tal como la ubicación del habla y el estado actual del texto pueden ser consultados utilizando 34
ISpVoice::GetStatus. También al hablar de forma asíncrona, el nuevo texto se puede generar de forma inmediata por la interrupción de la corriente de salida (SPF_PURGEBEFORESPEAK), o automáticamente agregar el nuevo texto al final de corriente de salida.
ISpVoice::Speak ISpVoice::SetRate
Propiedades de síntesis del ISpVoice
ISpVoice::SetVolume ISpVoice::SetVoice
Texto
Motor de voz Microsoft Speech SDK5.1
Tecnología de síntesis de voz (Loquendo)
Aplicación P thon
Voz
Arroja información de
Fonemas
Visemas
Palabras
Figura 8. Identificación de atributos del motor de Microsoft Speech SDK 5.1.
4.2.3 Atributos de configuración de Salida Los datos que se pueden obtener del proceso de síntesis de voz a partir de un texto dependen de los métodos y parámetros de las librerías que se utilicen para acceder al SAPI. En nuestro caso, se realizará a través de la librería de Python llamada PyTTS. En la sección 4.3 se presentan los métodos y atributos que se utilizaron en este trabajo. A continuación se presentan en 2 tablas el alfabeto de fonemas que se encuentra documentado en el SAPI 5 y los identificadores del conjunto de visemas que se trabajan, éstos últimos están basados en la propuesta de 13 Visemas de Disney. 35
TABLA DE FONEMAS ( Fonemas del Inglés Americano) SIMBOLO
EJEMPLO Descripción
PhoneID
SIMBOLO EJEMPLO - Descripción
PhoneID
-
guion
1
ng
sing
34
!
Signo admiración 2
ow
go
35
3
oy
toy
36
& ,
Coma
4
p
put
37
.
Punto
5
r
red
38
?
Signo de interrogación
6
s
sit
39
_
Silencio (raya)
7
sh
she
40
1
Acento prosódico 8 primario
t
talk
41
2
Acento prosódico 9 secundario
th
thin
42
aa
father
10
uh
book
43
ae
cat
11
uw
too
44
ah
cut
12
v
vat
45
ao
dog
13
w
with
46
aw
foul
14
y
yard
47
ax
ago
15
z
zap
48
ay
bite
16
zh
pleasure
49
b
big
17
ch
chin
18
d
dig
19
dh
then
20
eh
pet
21
er
fur
22
ey
ate
23
f
fork
24
g
gut
25
h
help
26
ih
fill
27
iy
feel
28
jh
joy
29
k
cut
30
l
lid
31
m
mat
32
n
no
33
Tabla 3. Tabla de fonemas del inglés americano.
36
TABLA DE VISEMAS VISEME
Fonemas descritos por SAPI
SP_VISEME_0 SP_VISEME_1 SP_VISEME_2 SP_VISEME_3 SP_VISEME_4 SP_VISEME_5 SP_VISEME_6 SP_VISEME_7 SP_VISEME_8 SP_VISEME_9 SP_VISEME_10 SP_VISEME_11 SP_VISEME_12 SP_VISEME_13 SP_VISEME_14 SP_VISEME_15 SP_VISEME_16 SP_VISEME_17 SP_VISEME_18 SP_VISEME_19 SP_VISEME_20 SP_VISEME_21
Silence ae, ax, ah aa ao ey, eh, uh er y, iy, ih, ix w, uw ow aw oy ay h r l s, z sh, ch, jh, zh th, dh f, v d, t, n k, g, ng p, b, m
Tabla 4. Tabla de visemas del inglés americano.
4.3 Librería PyTTS El módulo pyTTS es la librería para manejar los servicios Text-to-Speech de Microsoft Speech API (SAPI) para su uso en Python. Se basa en la biblioteca win32com para la obtención y la comunicación con las interfaces COM SAPI. Ejemplos de las tareas más comunes de texto a voz son texto al habla, cambiar los parámetros de voz, hablar a o desde un archivo WAV, corregir pronunciación, y controlar los eventos del habla. Para utilizar el modulo pyTTS se necesitan los siguientes componentes:
Microsoft SAPI 5.1
Voces
Python
pyTTS 3.0 o superior
37
4.3.1 Clases de pyTTS Esta librería está compuesta de 5 clases, las cuales se describen a continuación CLASES
DESCRIPCION
Base
Clase padre para todas las interfases del sintetizador de habla
SynthAndOutput
Define métodos para la voz de audio de salida.
SynthOnly
Define un método para la voz sintetizada co n eventos asociados a la memoria como mas rapido sea possible.
VoiceEvent
Contiene información acerca de un evento TTS.
VoiceEventManager
Distribuye eventos para los retorno de llamada registrados.
A continuación se presentan las 2 Clases principales que se utilizan de ésta librería y los métodos más utilizados. CLASE
METODO
DESCRIPCION
BASE SetRate(self, rate)
Fija la tasa de velocidad de la voz
BASE SetVoice(self, obj) BASE SetVoiceByName(self, voice_name) Fija una voz dada para activar la voz. BASE SetVolume(self, vol)
Fija el volumen de voz actual.
BASE Speak(self, text, *flags)
Método virtual.
VoiceEventManager OnPhoneme(self, stream_number, stream_position, duration, next_phone_id, feature, current_phone_id)
VoiceEventManager OnSentence(self, stream_number, stream_position, character_position, length)
VoiceEventManager OnViseme(self, stream_number, stream_position, duration, next_viseme_id, feature, current_viseme_id)
VoiceEventManager OnWord(self, stream_number, stream_position, character_position, length)
Se activa cuando un fonema es encontrado en una secuencia del habla. Se activa cuando una sentencia es encontrada en un flujo de la voz. Se activa cuando un visema es encontrado en una secuencia del habla. Fires when a phoneme is encountered in a speech stream. Se activa cuando un fonema es encontrado en un flujo de la voz.
VoiceEventManager OnEndStream(self, stream_number, Se active cuando el flujo de voz termina. stream_position)
Tabla 5. Clases de la librería pyTTS.
En Python, las propiedades de ISpVoice, ISpVoice::SetRate, ISpVoice::SetVolume, ISpVoice::SetVoice son configuradas de la siguiente forma: tts.SetRate = 0 tts.SetVolume = 100 38
tts.SetPitch = 0 Los rangos de valores de estos tres atributos, va desde 0 a 100. El atributo Pitch, aunque puede asignársele valor en Python, su modificación no afecta los valores de la salida del audio, por lo cual se definió con valor cero para el desarrollo de las pruebas. La propiedad ISpVoice::SetVoice es configurada de la siguiente forma: tts.SetVoiceByName('LQEsperanza') Esto muestra la configuración de voz para el idioma latino mexicano de género femenino, que corresponde al identificador „LQEsperanza‟. El método IspVoice::Speak es llamado en Python de la siguiente forma: tts.Speak("él!", 1) #1: Significa ASÍNCRONO La Tabla 6 muestra los atributos a los cuales se les puede configurar desde Python, pertenecientes a las clases OnWord, OnPhoneme y OnViseme en Python. Clases OnPhoneme
Parámetros Stream_number Stream_position Duration Next_phone_id Feature
OnViseme
Current_phone_id Stream_number Stream_position Duration Next_viseme_id Feature
OnWord
Current_viseme_id Stream_number Stream_position Character_position Length
Descripción Posición del flujo de la cola de secuencias del habla Desplazamiento de bytes en el que se produjo el evento Duración del fonema en milisegundos ID del siguiente fonema Indica si el fonema es normal, acentuado o con énfasis ID del fonema actual Posición del flujo de la cola de secuencias del habla Desplazamiento de bytes en el que se produjo el evento Duración del visema en milisegundos ID del siguiente visema Indica si el visema es normal, acentuado o con énfasis ID del visema actual Posición del flujo en la cola de flujos para el habla Desplazamiento de bytes en el cuál el evento ocurrió Posición del inicio de la sentencia en el flujo Longitud de la palabra en caracteres
Tipo Entero Entero Entero Entero Entero (0, 1, 2) Entero Entero Entero Entero Entero Entero (0, 1, 2) Entero Entero Entero Entero Entero
Tabla 6. Atributos de las clases OnPhoneme, OnViseme y OnWord.
39
Durante el desarrollo de las pruebas se encontró que el atributo duration tanto para fonema para visema resulto con valores iguales, el atributo feature para todas las pruebas en los diversos casos, siempre arrojó el valor de „1‟ . Los atributos que se utilizaron en nuestro análisis son los siguientes:
duration, next_viseme_id, next_phoneme_id y current_viseme_id.
40
CAPITULO 5. ANÁLISIS DE LOS PARÁMETROS DISPONIBLES EN LAS HERRAMIENTAS TEXT TO SPEECH En este capítulo se presenta el análisis detallado de las pruebas realizadas, incluyendo una descripción de los resultados obtenidos a partir del conjunto de parámetros configurados de entrada en el proceso de conversión de texto a voz a fin de obtener información de fonemas y visemas asociados a los textos de entrada.
5.1 Parámetros de entrada de las herramientas Como se vio en el Capítulo 2, en la conversión de Texto a Voz el sintetizador es ejecutado en el programa para generar la voz. 41
En el análisis se recibe una cadena de caracteres, es el cuerpo textual el que es tomado como entrada para el proceso de conversión. En la Figura 9, en el proceso de análisis del texto se identifican los atributos que intervienen en la conversión de texto a voz, los cuales son los fonemas y otros elementos relacionados con la fonética, además de los visemas. Los fonemas y visemas generan una estructura lingüística que permite la generación de voz, que arroja como producto una voz sintetizada que reproduce el texto de entrada en conjunto con los atributos configurables como lo son el tono, la velocidad y el volumen, es importante mencionar que al modificar el tono no se presenta alteración de los resultados. Los atributos que son arrojados del proceso son los fonemas y visemas, en el Capítulo 2 se presenta una revisión teórica de estos conceptos. Además de estos parámetros, en relación con la cadena de texto a procesar, también se observa el idioma, siendo considerados el inglés y el español.
Entrada del Texto
Cuerpo Textual
Análisis del texto
Estructura Lingüística
Generación de voz
Voz Sintetizada
Figura 9. Proceso TTS.
Se incluyen voces sintetizadas tanto en español como en inglés con la finalidad de observar la variación en la generación de fonemas y la aparición de visemas relacionados a estos. Para tener una guía de apoyo en el desarrollo de las pruebas se hace uso de algunas consideraciones referentes la lingüística, si bien no es posible incluir una revisión lo suficientemente general debido a lo extenso de esta ciencia, se integran ejemplos que permiten explorar ciertas partes del lenguaje oral y escrito para así determinar qué elementos de la prosodia son identificados en los valores de los fonemas producidos. La Tabla 7 muestra la descripción de las voces empleadas en las pruebas, como se puede observar no se introdujo una voz masculina del español mexicano debido a que los fonemas y visemas que genera la voz contemplada para este propósito resultan imprecisos de comprender, a diferencia de los otros idiomas. Es importante mencionar que tampoco es posible incluir una revisión de la totalidad de la gramática de los idiomas, se ha optado por considerar partes del lenguaje oral y escrito, a lo que antes se hizo referencia.
42
Voces
Género
Origen
Idioma
Tecnología
Esperanza
Femenino
México
Español
Loquendo
Jorge
Masculino
España
Español
Loquendo
Carmen
Femenino
España
Español
Loquendo
Susan
Femenino
USA
Inglés
Loquendo
Dave
Masculino
USA
Inglés
Loquendo
Tabla 7. Voces empleadas en los análisis.
Se integran ciertas contemplaciones como la aparición de acentos y la fonética esperada, añadir signos de puntuación, interrogación y admiración y las diferencias sonoras generadas en adición con los valores de los fonemas que se identifiquen, la aparición de espacios en blanco, la distinción de algunos grafemas y el análisis de los fonemas vocálicos y consonánticos ya sea en forma singular o dentro de palabras.
5.2 Análisis de Fonemas Vocálicos y Consonánticos En la Tabla 1 del Capítulo 2 se muestran los fonemas vocálicos, cabe mencionar que en los ejemplos que siguen existen variaciones en algunas combinaciones de vocales, en las siguientes secciones se referirán estas alteraciones encontradas en los fonemas, la mayoría de las variaciones son interpretadas en el contexto de las palabras. Aunque en la Tabla 1 del Capítulo 2 aparece la clasificación de vocal media, en general suele considerarse a las vocales a, e y o como abiertas y a i y u como cerradas. Antes de revisar las uniones de vocales, se presenta la Tabla 8 que contiene el análisis comparativo entre la voz española y mexicana de las vocales cuando no se encuentran dentro de otra palabra o en unión con otra letra. Vocal a e i o u
Idioma Mexicano Español Mexicano Español Mexicano Español Mexicano Español Mexicano Español
ID Fonema 97 10 101 11 105 12 111 13 117 14
ID Visema 10 2 4 4 6 6 3 8 7 7
Duración (ms) 227 222 222 195 218 239 215 217 254 231
Tabla 8. Análisis de fonemas vocálicos.
43
El idioma mexicano empleado en esta comparativa corresponde a una mujer, mientras que el del español es de un hombre, más adelante se revisará el análisis desde otras perspectivas y se incluirán observaciones de los fonemas y visemas generados por las voces en inglés. En la Tabla 9 se pueden observar las similitudes de los identificadores de visemas para cada idioma. Se puede observar que no existe diferencia para las letras e, i y u. También se observa que no existe relación alguna entre los identificadores de los fonemas para ambos idiomas. Para entender el sentido de las pruebas con los fonemas vocálicos que se presentan en esta sección, hay que tener en cuenta que el diptongo se define como la unión de dos vocales en la misma sílaba, un diptongo es conformado por dos vocales cerradas, una abierta y una cerrada o una cerrada y una abierta, dos vocales abiertas no constituyen un diptongo sino un hiato y deben separarse en distintas sílabas. Vocales ae ai ao au ea ei eo eu ia ie io iu oa oe oi ou ua ue ui uo
Id Fonema 97|101 97|105 97|111 111 101|97 101|105 101|111 101|117 105|97 106|101 106|111 106|117 111|97 111|101 111|105 111|117 117|97 117|101 117|105 117|111
aa ee ii oo uu
97|97 101|101 105|105 111|111 117|117
VOZ MUJER - MEXICANA Id Visema Duración (ms) 10|4 108|166 10|6 174|56 10|3 179|148 3 215 4|10 94|108 4|6 196|119 4|3 144|121 4|7 103|114 6|10 185|124 6|4 115|181 6|3 100|217 6|7 161|197 3|10 126|134 3|4 184|114 3|6 165|200 3|7 135|142 7|10 174|191 7|4 152|198 7|6 152|200 7|3 147|158 10|10 4|4 6|6 3|3 7|7
164|124 113|105 148|128 151|158 147|142
VOZ HOMBRE - ESPAÑOL Id Fonema Id Visema Duración (ms) 10|11 2|4 117|100 10|12 2|6 94|112 10|13 2|8 95|98 13 8 217 11|10 4|2 96|162 11|12 4|6 56|151 11|13 4|8 99|97 11|14 4|7 96|154 12|10 6|2 115|99 33|11 6|4 85|197 33|13 6|8 65|147 33|14 6|7 85|213 13|10 8|2 133|149 13|11 8|4 133|99 13|12 8|6 118|192 13|14 8|7 137|154 14|10 7|2 58|194 14|11 7|4 81|184 14|12 7|6 81|158 14|13 7|8 81|106 10|10 11|11 12|12 13|13 14|14
2|2 4|4 6|6 8|8 7|7
108|124 103|111 88|134 125|124 81|134
Tabla 9. Resultado de análisis de unión de vocales, con voz de mujer mexicana y hombre español.
44
Existe también una clasificación para los diptongos, estos son los crecientes y los decrecientes, los crecientes son los que se conforman por uniones de vocales donde la primera es cerrada y la segunda abierta, siendo el caso contrario para los diptongos decrecientes, aunque también existen los casos especiales donde la unión de las vocales son dos cerradas. En la Tabla 10 se muestra el análisis completo de las combinaciones donde interviene la unión de 2 vocales. Es importante mencionar que en el análisis de la voz en español mexicana, la duración de los fonemas se ve afectada dependiendo de la ubicación de la vocal, sin embargo los visemas conservan el mismo identificador, se ha añadido el diptongo ou aunque no es genuinamente castellano, debido a que en el idioma español existen nombres propios o palabras adaptadas del inglés que lo contienen. Del análisis, se observa que de los fonemas vocálicos se puede deducir que para casos como la secuencia de vocales „ au ‟, solo se identifica un fonema medible, resultado de la asociación de
ambas
vocales, el resto de las uniones de las vocales implican dos fonemas. Analizando las vocales „ ia ‟, se encuentran dos fonemas correspondientes a cada vocal es decir /i/ y /a/, lo que significa que la unión de estas vocales resultan en dos sonidos, a diferencia de la secuencia de vocales „ au ‟ las cuales solo registran un fonema.
Cabe mencionar que para las voces españolas también es encontrado un solo fonema y visema para tal secuencia de vocales „au ‟, pero los identificadores de estos visemas son diferentes a los del español mexicano, esto se muestra en la Tabla 5. Para el análisis de los fonemas consonánticos nos encontramos con la asociación de varios fonemas para construir la lectura de las consonantes, ya que las letras son leídas como en el español las escuchamos. Las consonantes se escuchan en el contexto donde se encuentren, al encontrar letras solas como en el caso particular de „t‟ al cual se le asocia el mismo fonema en contexto y además el fonema asociado a la vocal „e‟, estos constituyen la lectura completa de la letra, su sonido especifica „te‟ y no „t‟ como era de esperarse, lo cual nos lleva a la prueba de la palabra „te‟ la cuál experimenta la
misma duración y fonemas asociados, al igual que los valores de los visemas, algunas observaciones son mostradas en la Tabla 6, las tablas del análisis completo de estas consideraciones está incluido en los Anexos. En la Tabla 6 se muestra una comparación de los fonemas y visemas entre el español mexicano y el español de España. La mayoría de los visemas encontrados entre ambos idiomas resultan con el
45
mismo identificador, esto se puede observar de forma más clara en la Tabla X, en la cual se muestra la lista de símbolos.
Palabra
Idioma
Fonema
Visema
Duración (ms)
Tierra
Mexicano
116|106|101|114|97
19|6|4|13|10
87|69|131|109|114
Español
15|33|11|32|10
19|6|4|13|2
68|59|56|109|101
Mexicano
112|97|105|97|120|101
21|10|6|15|10|12|4
57|76|46|135|147|102|85
Español
17|10|12|24|10|25|11
21|2|6|15|2|12|4
63|47|61|93|81|119|78
Mexicano
98|101|105|110|116|101
21|4|6|19|19|4
63|108|58|62|73|116
Español
18|11|12|27|15|11
21|4|6|19|19|4
64|85|35|73|81|137
Mexicano
97|240|101|117|240|111
10|17|4|7|17|3
122|75|30|201|64|139
Español
10|7|11|14|7|13
2|0|4|7|0|8
75|44|59|87|76|112
Mexicano
112|106|97|110|111
21|6|10|19|3
98|77|156|70|93
Español
17|33|10|27|13
21|6|2|19|8
59|66|89|52|96
Mexicano
102|119|101|624|111
18|7|4|21|3
102|77|114|63|97
Español
23|34|11|7|13
18|7|4|0|8
82|48|58|60|116
Mexicano
105|110|105|115|106|111
6|19|6|15|6|3
108|78|126|130|73|62
Español
12|27|12|35|33|13
6|19|6|17|6|8
93|62|67|105|89|77
Mexicano
109|101|110|115|117|97|108
21|4|19|15|7|10|14
60|75|76|114|62|137|131
Español
26|11|27|24|14|10|29
21|4|19|15|7|2|14
66|66|63|106|68|87|133
Mexicano
114|101|115|105|240|119|111
13|4|15|6|17|7|3
67|53|119|127|73|64|132
Español
32|11|24|12|7|34|13
13|4|15|6|0|7|8
98|40|103|84|82|55|133
Mexicano
97|110|100|638|111|105|240|101
10|19|19|13|3|6|17|4 87|81|56|57|104|89|64|84
Español
10|27|16|31|13|12|7|11
2|19|19|13|8|6|0|4
70|86|53|47|79|59|38|119
Mexicano
108|117|638|240|101|115
14|7|13|17|4|15
63|147|75|70|96|150
Español
29|13|14|31|7|11|24
14|8|7|13|0|4|15
75|95|82|49|60|99|150
Mexicano
97|117|116|111|633
10|7|19|3|13
106|60|108|166|199
Español
10|14|15|13|31
2|7|19|8|13
98|95|55|108|118
Mexicano
100|101|117|240|97
19|4|7|17|10
109|92|118|53|180
Español
16|11|14|7|10
19|4|7|0|2
62|81|96|91|160
Mexicano
115|106|117|240|97|240
15|6|7|17|10|17
110|33|60|44|179|178
Español
35|33|14|7|10|7
17|6|7|0|2|0
89|40|47|40|116|73
Mexicano
114|119|105|240|111
13|7|6|17|3
130|64|158|78|89
Español
32|34|12|7|13
13|7|6|0|8
80|85|76|87|78
Paisaje
Veinte
Adeudo
Piano
Fuego
Inicio
Mensual
Residuo
Androide
Lourdes
Autor
Deuda
Ciudad
Ruido
Tabla 10. Análisis de las palabras con diptongos.
46
En España nos encontramos con la aparición de triptongos que son la combinación de 3 vocales en una sola palabra. Los triptongos se conforman por una vocal cerrada seguida de una abierta y otra cerrada. Algunos ejemplos de palabras encontradas en el idioma español de España donde aparecen triptongos son mostrados en la Tabla 11, estos son „iái‟, „iéi‟, „uái‟ y „uéi‟, los cuales se incluyen a fin de observar el comportamiento de los fonemas generados. Ejemplos Aliviáis Limpiéis Atestiguáis Situéis
Fonemas 10|29|12|7|12|10|12|24 29|12|26|17|33|11|12|24 10|15|11|24|15|12|7|34|10|12| 24 24|12|15|34|11|12|24
Visemas 2|14|6|0|6|2|6|15 14|6|21|21|6|4|6|15 2|19|4|15|19|6|0|7|2| 6|15 15|6|19|7|4|6|15
Duración (ms) 83|61|82|74|79|63|101|180 72|73|56|80|64|74|113|188 78|68|66|56|67|43|77|64|79| 107|197 110|54|85|92|124|98|214
Tabla 11. Análisis de fonemas de diptongos españoles.
En la Tabla anterior se puede observar que los triptongos contienen por regla acento en la vocal de en medio, y de los triptongos antes mencionados todas las vocales involucradas en estas uniones tienen fonemas asociados a cada una, al igual que sus visemas. En el español mexicano también existen uniones de 3 vocales que aunque no todas corresponden a un triptongo por su estructura, son también ejemplos para revisar (ver Tabla 12).
Ejemplos
Fonemas
Visemas
Duración (ms)
Quien
107|106|101|110
20|6|4|19
104|65|115|195
Semiautomático
115|101|109|106|97|117| 15|4|21|6|10|7| 116|111|109|97|116|105| 19|3|21|10|19|6 107|111 | 20|3
94|79|70|66|22|54|109|45|86| 107|95|60|100|113
Guión
103|106|111|110
91|118|130|135
20|6|3|19
Tabla 12. Análisis de palabras del español mexicano con uniones de 3 vocales.
Se observa que las palabras „quien‟ y „guión‟ las uniones de las letras „qu‟ „gu‟ generan un solo fonema y visema. La Tabla 12 es muestra las palabras que se analizaron para determinar cómo afecta a los fonemas y visemas generados dependiendo de la ubicación de la vocal. Algunos ejemplos de la Tabla 12, fueron tomados considerando la posición de la sílabas de énfasis, aunque para el ejemplo de la vocal 47
„o‟, encontrada en las palabras „otro‟ o „coco‟, en el análisis, para ambos idiomas la entonación tiene
la misma sílaba de énfasis. Fonema / Ubicación
/a/
/e/
/i/
/o/
/u/
Palabra
Inicial
ave
Media
acata
Final
ala
Inicial
eco
Media
abeja
Final
sale
Inicial
imán
Media
asilo
Final
salí
Inicial
otro
Media
dos
Final
coco
Inicial
uso
Media
abuso
Final
ímpetu
Idioma
Fonemas
Visemas
Duración
Español Mexicano Español Mexicano Español Mexicano Español Mexicano Español Mexicano Español Mexicano Español Mexicano Español Mexicano Español Mexicano Español Mexicano Español Mexicano Español Mexicano Español Mexicano Español Mexicano Español Mexicano
10|7|11 97|946|101 10|19|10|15|10 97|107|97|116|97 10|29|10 97|108|97 11|19|13 101|107|111 10|7|11|25|10 97|946|101|120|97 24|10|29|11 115|97|108|101 12|26|10|27 105|109|97|110 10|24|12|29|13 97|115|105|108|111 24|10|29|12 115|97|108|105 13|15|31|13 111|116|638|111 16|13|24 100|111|115 19|13|19|13 107|111|107|111 14|24|13 117|115|111 10|7|14|24|13 97|946|117|115|111 12|26|17|11|15|14 105|109|112|101|116|117
2|0|4 10|21|4 2|20|2|19|2 10|20|10|19|10 2|14|2 10|14|10 4|20|8 4|20|3 2|0|4|12|2 10|21|4|12|10 15|2|14|4 15|10|14|4 6|21|2|19 6|21|10|19 2|15|6|14|8 10|15|6|14|3 15|2|14|6 15|10|14|6 8|19|13|8 3|19|13|3 19|8|15 19|3|15 20|8|20|8 20|3|20|3 7|15|8 7|15|3 2|0|7|15|8 10|21|7|15|3 6|21|21|4|19|7 6|21|21|4|19|7
104|47|109 125|78|129 119|62|83|77|132 97|114|144|109|115 110|69|105 165|77|106 77|109|102 135|119|106 62|51|86|109|117 90|62|145|107|195 111|89|65|57 77|154|81|95 75|85|52|159 98|89|118|121 99|112|83|72|65 82|119|135|90|163 105|68|44|142 122|89|71|163 125|65|43|78 190|111|61|116 29|136|244 93|179|207 57|66|127|77 79|143|113|117 117|100|137 165|135|100 62|51|85|114|137 90|60|141|120|100 88|71|76|55|100|110 148|72|85|67|100|145
Tabla 13. Pruebas fonemas vocalicos.
Fonemas Consonánticos /c/, /z/ y /s/ Ahora se revisaran algunas pruebas con fonemas consonánticos, la Tabla 14 muestra palabras con el uso del fonema /c/, las características del idioma para estos análisis es mexicano y mujer. Casos Casa Caza Kimono
ID Fonema 107|97|115|97 107|97|115|97 107|105|109|111|110|111
ID Visema 20|10|15|10 20|10|15|10 20|6|21|3|19|3
Duración (milisegundos) 54|168|105|111 54|168|105|111 68|63|78|155|110|122
Tabla 14. Pruebas del fonema /c/.
De las palabras anteriores „casa‟ y „caza‟, además de la palabra „kimono‟ también se observa que
los grafemas y en este contexto corresponden al fonema /k/, al encontrarse acompañados de la vocal a.
48
De las palabras homófonas anteriores „casa‟ y „caza‟, se d educe que al igual que fonéticamente son iguales, su análisis reconoce los mismos fonemas y visemas para cada grafema, lo mismo sucede para las palabras „vos‟ y „voz‟ de la Tabla 16.
En la Tabla 15, palabras como „sapo‟, „zapato‟, „cerro‟, „ciclo‟ y „ciudad‟ han sido incluidas en el análisis a fin de observar el fonema concerniente a los grafemas , y , se reconoce al fonema /s/ al encontrarse el grafema , y , para el caso de se asocia con el fonema /s/ debido a la vocal que lo acompaña. Casos Sapo Zapato Cerro Serapio
ID Fonema 115|97|112|111 115|97|112|97|116|111 115|101|114|111 115|101|638|97|112|106| 111 115|105|107|108|111
Ciclo
ID Visema 15|10|21|3 15|10|21|10|19|3 15|4|13|3 15|4|13|10|21|6|3
Duración (milisegundos) 90|118|121|140 89|71|100|157|109|116 157|164|77|157 88|88|39|158|108|63|140
15|6|20|14|3
124|126|127|81|98
Tabla 15. Pruebas del fonema /s/.
Fonema Consonántico /b/ Casos Voz Vos
ID Fonema 98|111|115 98|111|115
ID Visema 21|3|15 21|3|15
Duración (milisegundos) 91|173|207 91|173|207
Tabla 16. Pruebas del fonema /b/.
Para la palabra Lourdes, si bien cuando se mencionaron los análisis para los diptongos y uniones de vocales, no se considero algún ejemplo con „ou‟ dentro de alguna palabra, para lo cual se observa
que es generado un solo fonema para este grafema tal como se observa en la Tabla 17. Casos Lourdes
ID Fonema 108|117|638|240|101|115
ID Visema 14|7|13|17|4|15
Duración (milisegundos) 63|147|75|70|96|150
Tabla 17. Prueba del grafema . Voz Mexicana Mujer Uno dos
Palabras Posición del flujo Posición del carácter Longitud ID Fonemas ID siguiente fonema ID Visemas ID siguiente visema Duración (ms)
Uno 0 0 3 117|110|111 110|111|240 7|19|3 19|3|17 124|51|69
dos 7832 4 3 240|111|115 111|115|4 17|3|15 3|15|0 48|146|251
Uno,dos uno 0 0 3 117|110|111|4 110|111|4|97 7|19|3|0 19|3|0|10 189|61|173|121
dos 17432 5 3 100|111|115 111|115|4 19|3|15 3|15|0 93|179|207
Tabla 18. Análisis del español mexicano para ca sos con palabras separadas por espacios en blanco y comas.
49
En la Tabla 18, se puede observar que cuando solo se escribe un espacio en blanco como separación de las palabras, los identificadores tanto de fonemas como de visemas tienen identificadores relacionados. Cuando se indica la separación de las palabras por una coma además de perderse la secuencia después de este signo de puntuación, se identifica un fonema y visema asociados a este, lo que se interpreta como el silencio o los identificadores de este signo. La consecuencia de emplear comas implica que el atributo ID siguiente fonema e ID siguiente visema no coincidan con los fonemas y visemas encontrados subsecuentes, , es decir, hacen referencia a un espacio en blanco o la ausencia de palabras, determinándose un nuevo inicio para cuando se encuentre la siguiente palabra, tal como se muestra en la Tabla 19. Voz Inglés Hombre Palabras Posición del flujo Posición del carácter Longitud ID Fonemas ID siguiente fonema ID Visemas ID siguiente visema Duración (ms)
One Two One 0 0 3 46|12|33 12|33|41 7|1|19 1|19|19 81|82|101
Two 8476 4 3 41|44 44|7 19|7 7|0 76|217
One, Two One 0 0 3 46|12|33|7 12|33|716 7|1|19|0 1|19|0|11 104|157|165|121
Two 17554 5 3 41|44 41|44 44|7 19|7 7|0
Tabla 19. Análisis en ingles para las palabras separadas por espacios en blanco y comas.
Como se puede observar de la Tabla 19, del análisis resultante usando la voz en inglés de U.S.A sucede lo mismo con la comparación del espacio en blanco y la coma, claro cabe señalar que en la palabra „two‟ solo se identifica un fonema para el grafema < t> y otro para el grafema como se muestra en la Tabla 20. Voz Inglés Hombre Two
Palabras Posición del flujo Posición del carácter Longitud ID Fonemas ID siguiente fonema ID Visemas ID siguiente visema Duración (ms)
0 0 3 41|44 44|7 19|7 7|0 93|352
Tabla 20. Prueba grafema .
50
. Voz Mexicana Mujer Palabras Posición del flujo Posición del carácter Longitud ID Fonemas ID siguiente fonema ID Visemas ID siguiente visema Duración (ms)
Quién 0 0 5 107|106|101|110 106|101|110|4 20|6|4|19 6|4|19|0 104|65|115|195
¿Quién? 0 0 7 107|106|101|110|4 106|101|110|4|97 20|6|4|19|0 6|4|19|0|10 110|76|239|103|593
Tabla 21. Análisis grafemas acompañados de signos del español mexicano.
De la Tabla 21, se observa que para la secuencia de caracteres Quién y ¿Quién?, la diferencia de forma sonora existe, hay una entonación que diferencia ambas palabras, el análisis arroja que solo se añade un fonema y visema asociados al signo „?‟.
Palabras Posición del flujo Posición del carácter Longitud ID Fonemas ID siguiente fonema ID Visemas ID siguiente visema Duración (ms)
Voz Inglés Hombre Who 0 0 3 26|44 44|7 12|7 7|0 82|323
Who? 0 0 4 26|44|7 44|7|16 12|7|0 7|0|11 82|323|593
Tabla 22. Análisis de grafemas del inglés con signos.
En el análisis en ingles de las palabras who y who? Mostrado en la Tabla 22, se determinó que de forma sonora no existe una diferencia en la entonación. Se observa que al igual que en el ejemplo de los grafemas en español, solo se añade un identificador de fon ema y visema para el signo „?‟. Solo se reconocen dos fonemas y visemas para cada análisis asociado a los grafemas . La Tabla 23 muestra el análisis de los grafemas entre voces españolas, a fin de determinar si existen variaciones en los fonemas y visemas con ejemplos que involucran tendencias ya vistas con anterioridad, se determino que el único atributo de salida que presentó cambios, fue la duración.
51
Casos Hola Quieto Auto Lourdes México Xilófono Asfixia Taxi Trae
ID Fonema ID Visema Duración (milisegundos) 13|29|10 8|14|2 61|74|130 13|29|10 8|14|2 118|66|96 19|33|11|15|13 20|6|4|19|8 81|51|82|71|142 19|33|11|15|13 20|6|4|19|8 66|65|67|68|141 10|14|15|13 2|7|19|8 64|94|103|117 10|14|15|13 2|7|19|8 82|87|115|178 29|13|14|31|7|11|24 14|8|7|13|0|4|15 75|95|82|49|60|99|150 29|13|14|31|7|11|24 14|8|7|13|0|4|15 113|83|80|58|48|150|149 26|11|25|12|19|13 21|4|12|6|20|8 87|88|110|57|84|117 26|11|25|12|19|13 21|4|12|6|20|8 60|84|134|55|94|146 7|12|29|13|23|13|27|13 0|6|14|8|18|8|19|8 110|58|60|55|93|44|52|66 7|12|29|13|23|13|27|13 0|6|14|8|18|8|19|8 172|95|31|118|129|46|48|1 46 10|24|23|12|19|24|33|10 2|15|18|6|20|15|6|2 89|86|73|64|91|94|69|115 10|24|23|12|19|24|33|10 2|15|18|6|20|15|6|2 98|83|73|69|54|128|73|183 15|10|19|24|12 19|2|20|15|6 44|91|79|114|134 15|10|19|24|12 19|2|20|15|6 75|75|65|137|124 15|31|10|11 19|13|2|4 44|49|64|78 15|31|10|11 19|13|2|4 55|62|122|176 Tabla 23. Análisis de grafemas para generar fonemas y visemas de voces españolas.
Voz Jorge (España) Juan (España) Jorge (España) Juan (España) Jorge (España) Juan (España) Jorge (España) Juan (España) Jorge (España) Juan (España) Jorge (España) Juan (España) Jorge (España) Juan (España) Jorge (España) Juan (España) Jorge (España) Juan (España)
Por último se analizan cantidades numéricas para observar como son interpretadas, se concluyó que en el español mexicano y en el inglés no son leídas las cantidades como se esperaba, es decir al introducir cantidades mayores de 5 dígitos por ejemplo „400047‟, el intérprete comienza a leer los números por pares o como dígitos individuales. La forma de introducir las cantidades, a fin de que sean interpretados correctamente es añadiendo un „.‟ entre la cifra de esta forma „400.047‟,
estas pruebas se muestran en las Tablas 24 y
25 para el idioma inglés y en las Tablas 26 y 27 para el idioma español. Voz Inglés Hombre Palabras Posición del flujo Posición del carácter Longitud ID Fonemas ID Visemas Duración (ms)
400047 0 0 6 24|13|7|35|7|35|7|35|7|24|13|7|7|39|21|45|15|33 18|3|0|0|8|0|8|0|8|0|18|3|0|0|15|4|18|1|19 157|228|182|105|545|105|545|105|545|105|157|228|182|105|210|130|65|65|212
Tabla 24. Análisis cantidades numéricas sin separa ción con voz inglés.
52
Voz Inglés Hombre Palabras Posición del flujo Posición del carácter Longitud ID Fonemas ID Visemas Duración (ms)
400.047 0 0 7 24|13|7|26|12|33|19|7|15|19|37|36|33|41|35|24|13|7|39|21|45|15|33 18|3|0|12|1|19|19|0|1|19|21|10|19|19|8|18|3|0|15|4|18|1|19 122|71|71|32|84|25|25|25|54|48|35|26|100|118|21|48|157|125|97|40|111|100|71|65|212
Tabla 25. Análisis cantidades numéricas con separación de punto con voz inglés.
Voz Mexicana Mujer Palabras Posición del
400047 0
flujo Posición del carácter Longitud ID Fonemas ID Visemas Duración (ms)
0 6 107|119|97|638|101|110|116|97|4|115|638|111|115|101|638|111|4|107|119|97|638|101|110|1 16|97|105|115|106|101|116|101 20|7|10|13|4|19|19|10|0|15|4|13|3|15|4|13|3|0|20|7|10|13|4|19|19|10|6|15|6|4|19|4 55|67|62|49|130|68|86|186|105|138|101|47|64|92|167|45|127|105|57|72|56|56|107|45|45|67| 54|132|66|83|111|128
Tabla 26. Análisis cantidades numéricas sin separa ción con voz español. Voz Mexicana Mujer Palabras Posición del
400047 0
flujo Posición del carácter Longitud ID Fonemas ID Visemas Duración (ms)
0 7 107|119|97|116|638|111|115|106|101|110|116|111|115|109|105|108|4|107|119|97|638|101 |110|116|97|105|115|106|101|116|101 20|7|10|19|13|3|15|6|4|19|19|3|15|21|6|14|0|20|7|10|13|4|19|19|10|6|15|6|4|19|4 55|33|59|71|52|47|84|35|61|58|56|84|62|74|130|65|105|57|72|56|56|107|45|45|67|54|132| 66|83|111|128
Tabla 27. Análisis cantidades numéricas con separación de punto con voz español.
53
CAPITULO 6. CONCLUSIONES Y TRABAJOS FUTUROS
54
6.1 Conclusiones Como parte de la investigación, se describieron algunas de las metodologías más empleadas en la síntesis de voz, también se presentó una revisión de las tecnologías existentes que desarrollan este proceso, de las cuáles se eligió como motor de voz a Microsoft Speech SDK 5.1 en conjunto con la librería pyTTS de Python para realizar la conversión de texto a voz de las pruebas a fin de observar los fonemas y visemas generados. Los atributos considerados en las configuraciones de las pruebas implicaron modificaciones al tono, volumen, velocidad, así como la asignación de voz. En la librería pyTTS fue posible modificar estos parámetros para observar los fonemas y visemas resultantes. Es posible asociar estos fonemas y visemas ya que la librería pyTTS contiene métodos que permiten conocer la secuencia de los eventos de estos atributos. Las pruebas realizadas a los grafemas se presentaron de acuerdo a dos enfoques, los fonemas vocálicos y los fonemas consonánticos, de los cuáles se observa que los identificadores de ciertos fonemas encontrados en algunos grafemas, específicamente de los vocálicos, difieren dependiendo del contexto. Para los fonemas consonánticos se presentan pruebas tanto en inglés como en español para observar las variaciones, también se incluyen pruebas en sentencias como la presencia o ausencia de signos de puntuación en oraciones, así como análisis de cantidades numéricas.
6.2 Aportaciones Se determinó que resultan precisos los análisis de los grafemas, ya que el motor de voz Microsoft Speech SDK 5.1 toma en cuenta consideraciones como la identificación de un solo fonema para casos como el grafema en el idioma español, o para el el idioma inglés. Otras de las observaciones son que el motor de voz identifica asociaciones como con su correcto fonema /k/, o dependiendo del contexto otros grafemas como , , , se asocian al fonema /s/ correctamente, también existen fonemas y visemas asociados a los símbolos “ -”, “!”, “&”, “,”, “.” y “!”.
55
De la entonación identificada en los análisis de la frases acompañadas del signo “?”, se identifico
que al encontrarse tal signo si existe un cambio en el tono de la voz en español. Se presenta una revisión de los identificadores encontrados de los fonemas y visemas asociados a los grafemas de las voces en español, los cuales no se especifican en la documentación del motor de voz Microsoft Speech SDK, se observa que la mayoría de los visemas asociados a los fonemas de ambas voces son los mismos, salvo algunas excepciones donde se registran visemas diferentes, esto podría explicarse debido al acento del idioma español hablado en España, esto se muestra en la Tabla de abajo. TABLA IDENTIFICADORES DE FONEMAS Y VISEMAS DEL ESPAÑOL Símbolo ! & , . ? A B C D E F G H I J K L M N Ñ O P Q R S T U V w X Y Z
Español Mexicano (Voz mujer Esperanza) Fonema Visema 4 0 4 0 105 6 4 0 4 0 4 0 97 10 98 21 115 15 100 19 101 4 102 18 120 12 116 19 105 6 120 12 107 20 108 14 109 21 110 19 626 19 111 3 112 21 107 20 114 13 115 15 116 19 117 7 98 21 119 7 107 20 607 6 115 15
Español de España
(Voz mujer Carmen) Fonema 7 7 12 7 7 7 10 18 35 16 11 23 25 21 12 25 19 29 26 27 28 13 17 19 32 24 15 14 18 34 7 7 35
Visema 0 0 6 0 0 0 2 21 17 19 4 18 12 16 6 12 20 14 21 19 19 8 21 20 13 15 19 7 21 7 0 0 17
56
Se observó que la lectura de números para el idioma tanto español como inglés debe realizarse considerando la separación de cada tres dígitos con el signo de puntuación “.” , debido a que el habla generada a partir de cantidades numéricas sin esta consideración resulta en una lectura errónea.
6.3 Trabajos Futuros Los resultados de los análisis de los visemas proporcionan información útil para explorar la construcción de visemas, lo cual dará como resultado la naturalidad de las correspondencias faciales en la ejecución del habla de agentes inteligentes.
57
GLOSARIO Acústica: Parte de la física que estudia la naturaleza, forma de propagación y percepción del sonido.
Alófono: En fonética, se llama alófono a cada uno de los fonos o sonidos que en un idioma dado se reconoce como un determinado fonema, sin que las variaciones entre ellos tengan valor diferenciativo.
Articulación: Se refiere a la forma en que se produce la transición de un sonido a otro, o sobre la misma nota.
Bitonal: En el caso de dos voces de diferente tonalidad al mismo tiempo recibe el nombre de bitonalidad.
Cláusula: Conjunto de palabras que encierran una sola proposición, o varias muy relacionadas con un sentido cabal.
Conmutador: Aparato electrónico que se conecta a una sola línea telefónica para dar servicio a una cantidad grande de usuarios de teléfono.
Contorno de tono: El contorno de tono de un sonido es una función o una curva que sigue la percepción de tono del sonido a través del tiempo.
Corpus: Conjunto lo más extenso y ordenado posible de datos que pueden servir de base a una investigación.
Corpus lingüístico: Es un conjunto, normalmente muy amplio, de ejemplos reales de uso de una lengua. Estos ejemplos pueden ser textos (típicamente), o muestras orales (normalmente transcritas). 58
Difonemas: Estos consisten en la unión de la parte estable de un fonema (mitad del fonema) con la parte estable del siguiente fonema. Existen 232 posibles difonemas y a pesar de métodos para suavizar las fronteras este tipo de síntesis todavía no suena natural.
Disfluencia: Trastorno del ritmo usualmente caracterizado por la repetición de un sonido, una palabra o frase.
Elocución: Manera de hacer uso de la palabra para expresar los conceptos.
Entonación: Conjunto de los tonos de todas las sílabas de un enunciado. Son las variaciones de la altura del sonido (frecuencia fundamental Fo) que resultan de los cambios de tensión a nivel de las cuerdas vocales.
Estocástico: Sistema que funciona, sobre todo, por el azar.
Fonema: Son unidades naturales que dotan de gran flexibilidad a los sistemas de voz y que resultan económicas desde el punto de vista del número de unidades (en el Español existen 23 fonemas); sin embargo, constituyen una unidad abstracta que está sometida a muchas variaciones contextuales, que originan una baja calidad en la voz sintetizada.
Fonética: Conjunto y estudio de los sonidos de un idioma.
Fonología: Subcampo de la lingüística. Mientras que la fonética estudia la naturaleza acústica y fisiológica de los sonidos o alófonos, la fonología describe el modo en que los sonidos funcionan (en una lengua en particular o en las lenguas en general) en un nivel abstracto o mental.
Formante: Frecuencia que participa junto a otras en un sonido y le otorga unas particularidades que lo identifican.
59
Frase: Cadena de palabras conectadas sintáctica y gramaticalmente.
Grafema: En Lingüística, mínima unidad significativa en el plano de la lengua escrita.
Gramática: Es el estudio de las reglas y principios que regulan el uso de las lenguas y la organización de las palabras dentro de una oración. También se denomina así al conjunto de reglas y principios que gobiernan el uso de un lenguaje muy determinado; así, cada lenguaje tiene su propia gramática.
Habla: Es la utilización individual del sistema de signos de la lengua mediante actos de comunicación oral.
Inteligibilidad: Toda aseveración capaz de comunicar al que oye o lee un significado explícito, de modo que pueda juzgar que dicho significado está o no libre de contradicción.
Lengua: Es un sistema de signos orales y escritos que son utilizados por los seres humanos para comunicarse entre si en determinada región o país. La lengua como código de comunicación es un instrumento común que el hablante debe utilizar correctamente para facilitar su comprensión.
Lenguaje: Conjunto de sonidos y palabras con que se expresa el pensamiento. Toda forma de comunicar el pensamiento.
Modelo acústico: Parte del modelo visual que contiene la información relativa a la sincronía entre la apariencia visual de un objeto y la información auditiva existente.
Modelo Visual: Contenedor de la información visual esencial que se extrae a partir del corpus audiovisual.
Norma: Es la realización colectiva de la lengua o el conjunto de usos sociales que deriva en los distintos tipos de lenguaje familiar, literario, científico, etc. 60
Normalización del texto: Es un proceso por el cual texto se transforma de cierta manera para hacerlo constante de una manera que pudo no haber sido antes.
Oración: Unidad gramatical que es sintácticamente independiente y tiene un sujeto expreso o tácito y un predicado que contiene al menos un verbo conjugado.
Orofacial: Relativo a la parte bucal de la cara humana.
Palabras: Cada uno de los segmentos limitados por pausas o espacios en la cadena hablada o escrita, que puede aparecer en otras posiciones, y que está dotado de una función.
Politonalidad: Es el uso musical de más de una tonalidad simultáneamente.
Pragmática: También llamada pragmalingüística es un subcampo de la lingüística, también estudiado por la filosofía del lenguaje y la psicolingüística o psicología del lenguaje, que se interesa por el modo en que el contexto influye en la interpretación del significado.
Prosodia: Es una rama de la lingüística que analiza y representa formalmente aquellos elementos de la expresión oral, tales como el acento, los tonos y la entonación.
Ritmo: Orden, proporción y movimiento con que se agrupan los sonidos en el tiempo.
Semántica: Rama de la Lingüística que se ocupa del sentido o el significado de los signos, así como de la relación entre los mismos, tanto desde un punto de vista sincrónico como diacrónico.
Significante: En Lingüística, forma exterior o aspecto perceptible de un signo.
Signo: En Lingüística, cualquier unidad lingüística que posee significación, inclusive los radicales o los afijos. 61
Sílabas: Cada una de las divisiones fonológicas en las que se divide una palabra.
Sintagma: En Lingüística, cualquier combinación seriada de elementos morfológicos, que adquieren determinada unidad, e incluso estabilidad, cuando la combinación se estereotipa por el uso.
Sintaxis: La sintaxis es la parte de la gramática que estudia las reglas que gobiernan la combinatoria de constituyentes sintácticos y la formación de unidades superiores a estos, como los sintagmas y oraciones gramaticales. La sintaxis, por tanto, estudia las formas en que se combinan las palabras, así como las relaciones sintagmáticas y paradigmáticas existentes entre ellas.
Síntesis: Composición de un todo por la reunión de sus partes.
Sintetizador: Instrumento electrónico que permite generar sonidos musicales determinando todos sus parámetros (altura, intensidad, timbre) para simular el sonido de instrumentos acústicos o crear otros nuevos.
Suprasegmental: También conocido como prosódica, es una característica del habla que afecta a un segmento más largo que el fonema, tales como el acento, la entonación, el ritmo, la duración y otros. El término suprasegmental implica la existencia de elementos que recaen sobre más de un segmento a la vez.
Tono: Variación fonética en la frecuencia acústica de una sílaba, esto es, un tono en el sentido lingüístico provee distinción semántica. Las lenguas que usan tonos de esta manera se conocen como lenguas tonales.
Transcripción fonética: También llamada notación fonética es un sistema de símbolos gráficos para representar los sonidos del habla de una persona. Típicamente se usa como convención para superar las peculiaridades alfabéticas usadas en cada lengua escrita y también para representar lenguas sin tradición escrita.
Trivisemas: Visemas correspondientes a una serie de tres alófonos consecutivos. 62
Unidad prosódica: A menudo llamado unidad de la entonación, es un segmento del discurso que ocurre con un solo contorno prosódico.
Visema: Representación visual de un fonema, visualmente distinguible de otras.
Visemas clave: Visemas asociados a conjuntos de alófonos de apariencia visual similar a partir de los cuales se generan transiciones entre ellos. Son las apariencias clave de las regiones orofaciales del modelo visual.
Voz: Sonido que el aire produce en la faringe.
63
BIBLIOGRAFIA [Apple, 2010]
Apple in Education. Text to Speech Synthesis. Retrieved November 20, 2010.From:http://developer.apple.com/library/mac/#documentation/Carbon/ Reference/Speech_Synthesis_Manager/Reference/reference.
[AT&T, 2010]
AT&T Labs Natural Voices – Text to Speech Demo. Retrieved December 26, 2010 From: http://www2.research.att.com/~ttsweb/tts/demo.php.
[Aylett-Pickock-Fraser, 2006]
Matthew P.Aylett, Cristopher J. Pidcock, Mark E. Fraser (2006). The Cerevoice Blizzard Entry 2006: A Prototype Small Database Unit Selection Engine.
[Barbosa, 1997]
Barbosa A. (1997). Desarrollo de una nueva voz en Español Mexicano para el Sistema de Texto a Voz Festival. Tesis de Maestría, Universidad de las Américas-Puebla, México.
[Birkholz – Kroger, 2007]
Peter Birkholz, Bernard Kroger (2007). Simulation of vocal tract growth for articulatory speech synthesis. In Proceedings of the 16th International Congress of Phonetic Sciences, pp. 377 – 380. Institute for Computer Science, Saarbrücken, Germany. University of Rostock, Rostock, Germany.
[Carnicero Sierra, 2003]
Carnicero Sierra M. J.(2003). Desarrollo de un componente para PDa (Un reproductor de sonido).
[Cepstral, 2010]
Cepstral text-to-speech. Retrieved November 20, 2010. http://cepstral.com/.
[DECtalk, 2010]
DECtalk Speech Synthesis. Retrieved December 26, 2010. From: http://www.speech.cs.cmu.edu/comp.speech/Section5/Synth/dectalk.html
[Domínguez Martínez, 2010]
Jesús Raymundo Domínguez Martínez (2010) Creación de una base de conocimientos en AIML para un agente conversacional.
[Dutoit – Pagel – Pierret – Bataille – van der Vrecken, 1996]
T. Dutoit, V. Pagel, N. Pierret, F. Bataille, O. Vrecken (1996). The MBROLA Project: Towards a Set of High Quality Speech Synthesizers Free of Use for Non Commercial Purposes.
[Engström, 2003]
Charlotta Engström (2003). Articulatory Analysis of Swedish Visemes. Centrum för talteknologi. Institutionen för tal, musik och hörsel. Stockholm
From:
64
[Expressivo, 2010]
Expressivo Text Reader. Retrieved December 27, 2010. http://www.expressivo.com/.
[Festival, 2010]
The Festival Speech Synthesis System. Retrieved November 20, 2010. From: http://www.cstr.ed.ac.uk/projects/festival/.
[Florencia Juárez, 2010]
Rogelio Florencia Juárez (2010) Agente conversacional corpóreo que utiliza AIML para integrar procesos de personalidad.
[Frías Conde, 2001]
Xavier Frías Conde (2001). Introducción a la fonética y fonología del español. Ianua, Revista Philologica Romanica, Suplemento 04.
[Furui, 1989]
Sadaoki Furui (1989). Digital Speech Processing, Synthesis, and Recognition. Ed. Dekker.
[Hunt – Black, 1996]
A. Hunt, A. Black (1996), Unit selection in a concatenative speech synthesis system using a large speech database. In Proceedings of ICASSP 1996, pages 373-376, Atlanta, Georgia.
[IBM Via Voice, 2010]
IBM. Embedded Via Voice. Retrieved November 20, 2010. From: http://www01.ibm.com/software/pervasive/embedded_viavoice/.
[Infovox, 2010]
Text To Speech and Voice Solutions. Retrieved December 26, 2010. From: http://www.acapela-group.com/.
[IVONA TTS, 2010]
IVONA Text To Speech. Retrieved December 27, 2010. From: http://www.ivona.com/.
[Lemmetty, 1999]
Sami Lemmetty (1999). Review of Speech Synthesis Technology. Helsinki University of Technology.
[Loquendo, 2010]
Loquendo, (2001-2009), Loquendo TTS, Retrieved October 23, 2010. From http://www.loquendo.com/es/technology/TTS.htm (Loquendo TTS)
[MBROLA, 2010]
The MBROLA Project (2010). Retrieved October 20, 2010. From http://tcts.fpms.ac.be/synthesis/
[Microsoft Speech SDK 5.1, 2010]
Microsoft Speech SDK 5.1, Retrieved October 23, 2010. From http://www.microsoft.com/downloads/en/details.aspx?FamilyID=5e86ec9740a7-453f-b0ee-6583171b4530&displaylang=en (Speech SDK 5.1).
[Microsoft Speech, 2011]
Microsoft Speech SDK. Retrieved http://www.nextup.com/sapi5doc/.
[Molina – García - Nuñez, 2006]
Molina A., García N., Nuñez J (2006). NETtalk en español. Capítulo 1. Universidad Autónoma Metropolitana.
[Moreno Azcona, 2008]
Gabriel Alejandro Moreno Azcona (2008) Nueva Voz Concatenativa de Difonemas para el Español Mexicano en Festival, Universidad de las Américas, Puebla.
April
20,
2011.
From:
From
65
[Orator, 2010]
Telcordia‟s
Hybrid
ORATOR
II
speech
synthesizers
Pronunciation Software. Retrieved December http://www.argreenhouse.com/ORATOR/.
27,
and
Name
2010.
From:
[Power TTS Reader, 2010]
Power Text to Speech Reader. Retrieved December 27, 2010. From: http://www.1speechsoft.com/.
[SoftVoice, 2010]
Softvoice, Inc. Text-to-Speech Synthesis. Retrieved November 20, 2010. From: http://www.text2speech.com/.
[SVOX, 2010]
SVOX. Embedded Text-to-Speech. Retrieved November 20, 2010. From: http://www.svox.com/.
[Taylor, 2009]
Paul Taylor (2009). Text to Speech Synthesis. University of Cambridge.
[Text Aloud, 2010]
Text Aloud 3. Retrieved December http://www.nextup.com/TextAloud/index.html.
[Zotter, 2003]
Franz Zotter (2003). Emotional Speech.
27,
2010.
From:
.
66
ANEXOS
67
ANEXO A Aplicación Python Text To Speech Se presenta el código en Python de la utilización de la librería pyTTS.
68
Aplicación Python Text To Speech import pyTTS import time import win32com.client import pythoncom finished = False class VisemeEvents: def OnPhoneme(self, StreamNumber, StreamPosition, Duration, NextPhoneId, Feature, CurrentPhoneId): print "ON PHONEME: StreamNumber: " + str(StreamNumber) + ", StreamPosition: " + str(StreamPosition) + ", Duration: " + str(Duration) + ", NextPhoneId: " + str(NextPhoneId) + ", Feature: " + str(Feature) + ", CurrentPhoneId: " + str(CurrentPhoneId) return def OnWord(self, StreamNumber, StreamPosition, CharacterPosition, Length): print "ON WORD: StreamNumber: " + str(StreamNumber) + ", StreamPosition: " + str(StreamPosition) + ", CharacterPosition: " + str(CharacterPosition) + ", Length: " + str(Length) return def OnViseme(self, StreamNumber, StreamPosition, Duration, NextVisemeId, Feature, CurrentVisemeId): print "ON VISEME: StreamNumber: " + str(StreamNumber) + ", StreamPosition: " + str(StreamPosition) + ", Duration: " + str(Duration) + ", NextVisemeId: " + str(NextVisemeId) + ", Feature: " + str(Feature) + ", CurrentVisemeId: " + str(CurrentVisemeId) print " " pythoncom.PumpWaitingMessages() return def OnEndStream(StreamNumber, StreamPosition, StreamReleased): global finished print "ON END STREAM: StreamNumber: " + str(StreamNumber) + ", StreamPosition: " + str(StreamPosition) + ", StreamReleased: " + str(StreamReleased) finished = True return #[inc]end your include tts = win32com.client.DispatchWithEvents("SAPI.SpVoice", VisemeEvents) tts.SetRate = 0 tts.SetVolume = 100 #0-100 tts.SetPitch = 0 tts.Speak("cadena de texto", 1) #1: Significa ASINCRONO while not finished: pythoncom.PumpWaitingMessages()
69
ANEXO B Tablas de resultados de los análisis Aquí se presentan algunos de los análisis realizados a las cadenas de texto en la aplicación de Pyhton con el uso de la librería pyTTS, a partir de los cuáles se fundamentó el contenido del Capítulo 5.
70
Tablas de análisis de cadenas de texto en español Texto de prueba para el idioma español (México)
Voz: Esperanza (Mujer)
PARÁMETROS
A
PALABRA DE PRUEBA: PRUEBA: BIEN Longitud: 4
Número de secuencia Posición de secuencia
I
E
N
FLUJO 1
1
1
0
1796
4958
7440
56
99
77
109
106
101
110
4
ID del fonema actual
98
106
101
110
Número de secuencia Posición de secuencia
1
1
1
1
0
1796
4958
7440
56
99
77
109
6
4
19
0
21
6
4
19
M E Duración S I ID del siguiente V
A R B A L A P
B
1
M E Duración N ID del siguiente O F fonema
A
FIN DEL
visema ID del visema actual Número de secuencia Posición en el flujo Posición del carácter Posición en el flujo Flujo liberado
1 0 0 1 10928
71
Texto de prueba para el idioma español (México)
Voz: Esperanza (Mujer)
PARÁMETROS
A
PALABRA DE PRUEBA: PRUEBA: DOS Longitud: 3
Número de secuencia Posición de secuencia
S
1
1
0
2974
8724
93
179
207
111
115
4
ID del fonema actual
100
111
115
Número de secuencia Posición de secuencia
1
1
1
0
2974
8724
93
179
207
3
15
0
19
3
15
M E Duración S I ID del siguiente V visema
A R B A L A P
O
1
M E Duración N ID del siguiente O F fonema
A
D
ID del visema actual Número de secuencia Posición en el flujo Posición del carácter Posición en el flujo Flujo liberado
FIN DEL FLUJO
1 0 0 1 15348
72
Texto de prueba para el idioma español (México)
Voz: Esperanza (Mujer)
PARÁMETROS
A
PALABRA DE PRUEBA: PRUEBA: JUGO Longitud: 4
Número de secuencia Posición de secuencia
U
G
O
FLUJO 1
1
1
0
2470
5258
7990
77
87
85
173
117
624
111
4
ID del fonema actual
120
117
624
111
Número de secuencia Posición de secuencia
1
1
1
1
0
2470
5258
7990
77
87
85
173
7
21
3
0
12
7
21
3
M E Duración S I ID del siguiente V visema
A R B A L A P
J
1
M E Duración N ID del siguiente O F fonema
A
FIN DEL
ID del visema actual Número de secuencia Posición en el flujo Posición del carácter Posición en el flujo Flujo liberado
1 0 0 1 13526
73
Texto de prueba para el idioma español (México)
Voz: Esperanza (Mujer)
PARÁMETROS
A
PALABRA DE PRUEBA: LUCRO Longitud: 5
Número de secuencia Posición de secuencia
FIN DEL L
U
C
R
O
1
1
1
1
1
0
2028
6604
8658
10426
63
143
64
55
91
117
107
638
111
4
ID del fonema actual
108
117
107
638
111
Número de secuencia Posición de secuencia
1
1
1
1
1
0
2028
6604
8658
10426
63
143
64
55
91
7
20
13
3
0
14
7
20
13
3
M Duración E N ID del O siguiente F
FLUJO
fonema
A
M Duración E S ID del I V siguiente
A R B A L A P
visema ID del visema actual Número de secuencia Posición en el flujo Posición del carácter Posición en el flujo Flujo liberado
1 0 0 1 13342
74
Texto de prueba para el idioma español (México) Voz: Esperanza (Mujer) PALABRA DE PRUEBA: CUATROCIENTOS Longitud: 13 S O R T E M Á R A P
) 3 1 ( S O T N C E I C O R T A U C
U
A
T
R
O
C
I
E
N
T
O
S
Número secuencia Posición A secuencia
1
1
1
1
1
1
1
1
1
1
1
1
1
0
1762
3336
4884
7282
9620
10698
14848
16970
19972
22458
24584
26879
M Duración E ID del N siguiente O fonema F ID del fonema actual Número secuencia Posición A secuencia
55
49
48
75
73
33
129
66
94
77
66
71
173
119
97
116
638
111
115
106
101
110
116
111
115
4
107
119
97
116
638
111
115
106
101
110
116
111
115
1
1
1
1
1
1
1
1
1
1
1
1
1
0
1762
3336
4884
7282
9620
10698
14848
16970
19972
22458
24584
26870
55
49
48
75
73
33
129
66
94
77
66
71
173
7
10
19
13
3
15
6
4
19
19
3
15
0
20
7
10
19
13
3
15
6
4
19
19
3
15
M Duración E ID del S I siguiente visema V ID del visema actual Número secuencia A R B A L A P
O J U L F L E D N I F
1
Posición en el flujo
0
Posición carácter
0
Posición en el flujo
1
Flujo liberado
32428
75
Texto de prueba para el idioma español (México) Voz: Esperanza (Mujer) PALABRA DE PRUEBA: ¿QUIÉN ERES? Longitud: 13 S O R T E M Á R A P
) 6 ( N ¿ É I U Q ¿
Q
U
I
É
N
) 5 ( ? S E R E
E
R
E
?
S
Número secuencia Posición A secuencia
1
1
1
1
1
1
1
1
1
0
1762
2856
48 24
7016
11856
13146
17010
21588
M Duración E ID del N siguiente O fonema F ID del fonema actual Número secuencia Posición A secuencia
55
34
61
68
151
40
121
143
593
106
101
110
10 1
638
101
115
4
97
107
106
101
11 0
101
638
101
115
4
1
1
1
1
1
1
1
1
1
0
1762
2856
48 24
7016
11856
13146
17010
21588
55
34
61
68
151
40
121
143
593
6
4
19
4
13
4
15
0
10
20
6
4
19
4
13
4
15
0
M Duración E ID del S I siguiente visema V ID del visema actual Número secuencia A R B A L A P
1
1
Posición en el flujo
0
7016
Posición carácter
0
7
O J U L F L E D N I F
Posición en el flujo
1
Flujo liberado
50574
76
Texto de prueba para el idioma español (España)
Voz: Jorge (Hombre)
PARÁMETROS
A
PALABRA DE PRUEBA: BIEN Longitud: 4
Número de secuencia Posición de secuencia
I
E
N
FLUJO 1
1
1
0
1896
4208
6228
59
72
63
96
33
11
27
7
ID del fonema actual
18
33
11
27
Número de secuencia Posición de secuencia
1
1
1
1
0
1896
4208
6228
59
72
63
96
6
4
19
0
21
6
4
19
M E Duración S I ID del siguiente V
A R B A L A P
B
1
M E Duración N ID del siguiente O F fonema
A
FIN DEL
visema ID del visema actual Número de secuencia Posición en el flujo Posición del carácter Posición en el flujo Flujo liberado
1 0 0 1 9314
77
Texto de prueba para el idioma español (España)
Voz: Jorge (Hombre)
PARÁMETROS
A
PALABRA DE PRUEBA: DOS Longitud: 3
Número de secuencia Posición de secuencia
S
1
1
0
948
5304
29
136
244
13
24
7
ID del fonema actual
16
13
24
Número de secuencia Posición de secuencia
1
1
1
0
948
5304
29
136
144
8
15
0
19
8
15
M E Duración S I ID del siguiente V visema
A R B A L A P
O
1
M E Duración N ID del siguiente O F fonema
A
D
ID del visema actual Número de secuencia Posición en el flujo Posición del carácter Posición en el flujo Flujo liberado
FIN DEL FLUJO
1 0 0 1 13120
78
Texto de prueba para el idioma español (España)
Voz: Jorge (Hombre)
PARÁMETROS
A
PALABRA DE PRUEBA: JUGO Longitud: 4
Número de secuencia Posición de secuencia
U
G
O
FLUJO 1
1
1
0
1856
3612
6102
58
55
78
182
14
7
13
7
ID del fonema actual
25
14
7
13
Número de secuencia Posición de secuencia
1
1
1
1
0
1856
3612
6102
58
55
78
182
7
0
8
0
12
7
0
8
M E Duración S I ID del siguiente V visema
A R B A L A P
J
1
M E Duración N ID del siguiente O F fonema
A
FIN DEL
ID del visema actual Número de secuencia Posición en el flujo Posición del carácter Posición en el flujo Flujo liberado
1 0 0 1 11936
79
Texto de prueba para el idioma español (España)
Voz: Jorge (Hombre)
PARÁMETROS
A
PALABRA DE PRUEBA: LUCRO Longitud: 5
Número de secuencia Posición de secuencia
FIN DEL L
U
C
R
O
1
1
1
1
1
0
2118
4064
6818
8398
66
61
86
49
83
14
19
31
13
7
ID del fonema actual
29
14
19
31
13
Número de secuencia Posición de secuencia
1
1
1
1
1
0
2118
4064
6818
8398
66
61
86
49
83
7
20
13
8
0
14
7
20
13
8
M Duración E N ID del O siguiente F
FLUJO
fonema
A
M Duración E S ID del I V siguiente
A R B A L A P
visema ID del visema actual Número de secuencia Posición en el flujo Posición del carácter Posición en el flujo Flujo liberado
1 0 0 1 11074
80
Texto de prueba para el idioma español (España) Voz: Jorge (Hombre) PALABRA DE PRUEBA: CUATROCIENTOS Longitud: 13 S O R T E M Á R A P
) 3 1 ( S O T N C E I C O R T A U C
U
A
T
R
O
C
I
E
N
T
O
S
Número secuencia Posición A secuencia
1
1
1
1
1
1
1
1
1
1
1
1
1
0
2206
3048
4890
6848
8348
9586
12118
13852
15310
18318
20012
21794
M Duración E ID del N siguiente O fonema F ID del fonema actual Número secuencia Posición A secuencia
69
26
57
61
47
38
79
54
45
94
53
55
142
34
10
15
31
13
35
33
11
27
15
13
24
7
19
34
10
15
31
13
35
33
11
27
15
13
24
1
1
1
1
1
1
1
1
1
1
1
1
1
0
2206
3048
4890
6848
8348
9586
12118
13852
15310
18318
20012
21794
69
26
57
61
47
38
79
54
45
94
53
55
142
7
2
19
13
8
17
6
4
19
19
8
15
0
20
7
2
19
13
8
17
6
4
19
19
8
15
M Duración E ID del S I siguiente visema V ID del visema actual Número secuencia A R B A L A P
O J U L F L E D N I F
1
Posición en el flujo
0
Posición carácter
0
Posición en el flujo
1
Flujo liberado
26358
81
Texto de prueba para el idioma español (España) Voz: Jorge (Hombre) PALABRA DE PRUEBA: ¿QUIÉN ERES? Longitud: 13 S O R T E M Á R A P
) 6 ( N ¿ É I U Q ¿
Q
U
I
É
N
) 5 ( ? S E R E
E
R
E
?
S
Número secuencia Posición A secuencia
1
1
1
1
1
1
1
1
1
0
2072
4334
69 66
9100
11822
13238
16244
20960
M Duración E ID del N siguiente O fonema F ID del fonema actual Número secuencia Posición A secuencia
65
70
82
66
85
44
94
147
593
33
11
27
11
31
11
24
7
10
19
33
11
27
11
31
11
24
7
1
1
1
1
1
1
1
1
1
0
2072
4224
69 66
9100
11822
13238
16244
20960
65
70
82
66
85
44
94
147
593
6
4
19
4
13
4
15
0
2
20
6
4
19
4
13
4
15
0
M Duración E ID del S I siguiente visema V ID del visema actual Número secuencia A R B A L A P
1
1
Posición en el flujo
0
9100
Posición carácter
0
7
O J U L F L E D N I F
Posición en el flujo
1
Flujo liberado
39946
82
Tablas de análisis de cadenas de texto en inglés Texto de prueba para el idioma inglés (USA) Voz: Dave (Hombre) PARÁMETROS
A
PALABRA DE PRUEBA: DOGS Longitud: 4
Número de secuencia Posición de secuencia
G
S
1
1
1
0
2068
6058
7892
64
124
57
156
10
25
48
7
ID del fonema actual
19
10
25
48
Número de secuencia Posición de secuencia
1
1
1
1
0
2068
6058
7892
64
124
57
156
2
20
15
0
19
2
20
15
M E Duración S I ID del siguiente V
A R B A L A P
O
1
M E Duración N ID del siguiente O F fonema
A
D
visema ID del visema actual Número de secuencia Posición en el flujo Posición del carácter Posición en el flujo Flujo liberado
FIN DEL FLUJO
1 0 0 1 12894
83
Texto de prueba para el idioma inglés (USA)
Voz: Susan (Mujer)
PARÁMETROS
A
PALABRA DE PRUEBA: CATS Longitud: 4
Número de secuencia Posición de secuencia
T
1
1
0
2870
10178
89
228
170
11
41
7
ID del fonema actual
30
11
41
Número de secuencia Posición de secuencia
1
1
1
0
2870
10178
89
228
170
1
19
0
20
1
19
M E Duración S I ID del siguiente V
A R B A L A P
A
1
M E Duración N ID del siguiente O F fonema
A
C
visema ID del visema actual Número de secuencia Posición en el flujo Posición del carácter Posición en el flujo Flujo liberado
S
FIN DEL FLUJO
1 0 0 1 15616
84
Texto de prueba para el idioma inglés (USA) Voz: Dave (Hombre) PARÁMETROS
A
PALABRA DE PRUEBA: CATS Longitud: 4
Número de secuencia Posición de secuencia
T
1
0
0
3284
8920
102
176
239
11
41
7
ID del fonema actual
30
11
41
Número de secuencia Posición de secuencia
1
1
1
0
3284
8920
102
176
239
1
19
0
20
1
19
M E Duración S I ID del siguiente V
A R B A L A P
A
1
M E Duración N ID del siguiente O F fonema
A
C
visema ID del visema actual Número de secuencia Posición en el flujo Posición del carácter Posición en el flujo Flujo liberado
S
FIN DEL FLUJO
1 0 0 1 16572
85
Texto de prueba para el idioma inglés (USA) Voz: Susan (Mujer) PARÁMETROS
A
PALABRA DE PRUEBA: FREE Longitud: 4
Número de secuencia Posición de secuencia
E
1
1
0
3344
5814
104
77
219
7
28
7
ID del fonema actual
24
7
28
Número de secuencia Posición de secuencia
1
1
1
0
3344
5814
104
77
219
0
6
0
18
0
6
M E Duración S I ID del siguiente V
A R B A L A P
R
1
M E Duración N ID del siguiente O F fonema
A
F
visema ID del visema actual Número de secuencia Posición en el flujo Posición del carácter Posición en el flujo Flujo liberado
E
FIN DEL FLUJO
1 0 0 1 12830
86
Texto de prueba para el idioma inglés (USA) Voz: Dave (Hombre) PARÁMETROS
A
PALABRA DE PRUEBA: FREE Longitud: 4
Número de secuencia Posición de secuencia
E
1
1
0
2340
5130
73
87
255
7
28
7
ID del fonema actual
24
7
28
Número de secuencia Posición de secuencia
1
1
1
0
2340
5130
73
87
255
0
6
0
18
0
6
M E Duración S I ID del siguiente V
A R B A L A P
R
1
M E Duración N ID del siguiente O F fonema
A
F
visema ID del visema actual Número de secuencia Posición en el flujo Posición del carácter Posición en el flujo Flujo liberado
E
FIN DEL FLUJO
1 0 0 1 13304
87
Texto de prueba para el idioma inglés (USA) Voz: Susan (Mujer) PALABRA DE PRUEBA: ONE THOUSAND Longitud: 11 S O R T E M Á R A P
) 3 ( E N O
O
N
E
) 8 ( D N A S U O H T
T
H
O
U
S
A
Número secuencia Posición A secuencia
1
1
1
1
1
1
1
1
1
0
2874
5584
7968
9942
15808
18316
20444
22694
M Duración E ID del N siguiente O fonema F ID del fonema actual Número secuencia Posición A secuencia
90
84
74
61
183
78
66
70
79
12
33
42
16
48
15
33
19
7
46
12
33
42
16
48
15
33
19
1
1
1
1
1
1
1
1
1
0
2874
5584
7968
9942
15808
18316
20444
22694
90
84
74
61
183
78
66
70
79
1
19
17
11
15
1
19
19
0
7
1
19
17
11
15
1
19
19
M Duración E ID del S I siguiente visema V ID del visema actual Número secuencia A R B A L A P
1
1
Posición en el flujo
0
7968
Posición carácter
0
4
O J U L F L E D N I F
N D
Posición en el flujo
1
Flujo liberado
25222
88
Texto de prueba para el idioma inglés (USA) Voz: Dave (Hombre) PALABRA DE PRUEBA: ONE THOUSAND Longitud: 11 S O R T E M Á R A P
) 3 ( E N O
O
N
E
) 8 ( D N A S U O H T
T
H
O
U
S
A
Número secuencia Posición A secuencia
1
1
1
1
1
1
1
1
1
0
1688
3442
5942
8870
15166
1748 2
19064
22566
M Duración E ID del N siguiente O fonema F ID del fonema actual Número secuencia Posición A secuencia
53
55
78
91
197
72
49
109
72
12
33
42
16
48
15
33
19
7
46
12
33
42
16
48
15
33
19
1
1
1
1
1
1
1
1
1
0
1688
3442
5942
8870
15166
1748 2
19064
22566
53
55
78
91
197
72
49
109
72
1
19
17
11
15
1
19
19
0
7
1
19
17
11
15
1
19
19
M Duración E ID del S I siguiente visema V ID del visema actual Número secuencia A R B A L A P
1
1
Posición en el flujo
0
5942
Posición carácter
0
4
O J U L F L E D N I F
N D
Posición en el flujo
1
Flujo liberado
24884
89
Texto de prueba para el idioma inglés (USA) Voz: Susan (Mujer) PALABRA DE PRUEBA: WHO ARE YOU? Longitud: 10 S O R T E M Á R A P
) 3 ( O H W
W
H
O
) 3 ( E R A
A
) 4 ( ? U O Y
R E
Y
O
U
Número secuencia Posición A secuencia
1
1
1
1
1
1
0
2216
6414
10168
14186
17538
M Duración E ID del N siguiente O fonema F ID del fonema actual Número secuencia Posición A secuencia
69
131
117
125
105
593
44
7
47
44
7
16
26
44
7
47
44
7
1
1
1
1
1
1
0
2216
6414
10168
14186
17538
69
131
117
125
105
593
7
0
6
7
0
11
12
7
0
6
7
0
M Duración E ID del S I siguiente visema V ID del visema actual Número secuencia A R B A L A P
1
1
1
Posición en el flujo
0
6414
10168
Posición carácter
0
4
8
O J U L F L E D N I F
?
Posición en el flujo
1
Flujo liberado
36524
90