Please use this identifier to cite or link to this item:
https://rinacional.tecnm.mx/jspui/handle/TecNM/3069
Title: | CORPUS DE LAS LENGUAS INDÍGENAS TÉNEK, NÁHUATL Y XI’IUY PARA LA IDENTIFICACIÓN AUTOMÁTICA DEL LENGUAJE HABLADO |
Authors: | Hernández Cepeda, Carlos A. |
Issue Date: | 2013-10-01 |
Publisher: | Tecnológico Nacional de México |
metadata.dc.publisher.tecnm: | Instituto Tecnológico de Ciudad Madero |
Description: | El presente trabajo expone la investigación y desarrollo del corpus Entendámonos, el cual es un corpus de habla diseñado específicamente para tratar el problema de la Identificación Automática del Lenguaje Hablado. Dicho corpus está conformado por grabaciones de voz de las lenguas indígenas habladas en el estado de San Luis Potosí, las cuales son: Tének, Náhuatl y Xi’iuy. La Identificación Automática del Lenguaje Hablado (LID) es la tarea de reconocer automáticamente el lenguaje que se habla en una muestra de audio. Por ejemplo, la LID puede ser utilizada en cualquier sistema de comunicación humano-máquina o humano-humano, cuando inicialmente no se conoce el idioma que se está hablando o que debería ser utilizado. Así mismo, un corpus de habla (Speech Corpus) es una base de datos de archivos de audio de habla y/o transcripciones de texto. Estos corpus son utilizados, entre otras cosas, para crear modelos acústicos, los cuales son utilizados por sistemas LID, sistemas de reconocimiento de habla, entre otros. El sistema LID implementado en esta tesis considera únicamente el análisis acústico, utilizando la transformada wavelet para diferenciar las altas y bajas frecuencias de la señal de habla, partiendo de la hipótesis en donde las bajas frecuencias poseen características para representar la prosodia. Posteriormente se realiza un análisis estadístico sobre las bajas frecuencias para construir los modelos acústicos. La investigación realizada para el desarrollo del corpus Entendámonos abarca lo que en general se considera necesario para construir un corpus de habla, aplicado claro, para las lenguas indígenas mexicanas, tomando en cuenta diversos tipos de tópicos y temas, ya sean técnicos o sociales. Los procesos de evaluación LID realizados, utilizando Entendámonos, consideran diferentes tipos de pruebas, realizando análisis de 10, 5 y 3 segundos sobre las muestras de audio. Los resultados del sistema LID muestran porcentajes de identificación de un 68%, tomando como base 40 muestras de habla por idioma, cuyo promedio de duración por cada muestra es de 50 segundos. Finalmente, esta tesis representa un estudio pionero sobre las lenguas indígenas mexicanas, avalado por el Director de Políticas Lingüísticas del Instituto Nacional de las Lenguas Indígenas (INALI), debido a que, en base al Estado del Arte expuesto, es la primera vez que se ven a las lenguas indígenas mexicanas desde un punto de vista más técnico en el sentido que se utiliza un corpus estandarizado, y cuya finalidad es abrir las puertas al desarrollo de aplicaciones de habla para la población multilingüísta del estado de San Luis Potosí y, en un futuro, de México en general. |
metadata.dc.type: | info:eu-repo/semantics/masterThesis |
Appears in Collections: | Maestría en Ciencias de la Computación |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
G06070532_donacion_tesis_bib.pdf | 5.64 MB | Adobe PDF | View/Open |
This item is protected by original copyright |
This item is licensed under a Creative Commons License