Tesis Validadas: 2,591

Tesis de Posgrado: 2650

Número de Visitas: contador visitas

Por favor, use este identificador para citar o enlazar este ítem: https://rinacional.tecnm.mx/jspui/handle/TecNM/3069
Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.authorHernández Cepeda, Carlos A.-
dc.creatorHernández Cepeda, Carlos a.%06070532-
dc.date.accessioned2022-03-11T21:25:17Z-
dc.date.available2022-03-11T21:25:17Z-
dc.date.issued2013-10-01-
dc.identifier.urihttps://rinacional.tecnm.mx/jspui/handle/TecNM/3069-
dc.descriptionEl presente trabajo expone la investigación y desarrollo del corpus Entendámonos, el cual es un corpus de habla diseñado específicamente para tratar el problema de la Identificación Automática del Lenguaje Hablado. Dicho corpus está conformado por grabaciones de voz de las lenguas indígenas habladas en el estado de San Luis Potosí, las cuales son: Tének, Náhuatl y Xi’iuy. La Identificación Automática del Lenguaje Hablado (LID) es la tarea de reconocer automáticamente el lenguaje que se habla en una muestra de audio. Por ejemplo, la LID puede ser utilizada en cualquier sistema de comunicación humano-máquina o humano-humano, cuando inicialmente no se conoce el idioma que se está hablando o que debería ser utilizado. Así mismo, un corpus de habla (Speech Corpus) es una base de datos de archivos de audio de habla y/o transcripciones de texto. Estos corpus son utilizados, entre otras cosas, para crear modelos acústicos, los cuales son utilizados por sistemas LID, sistemas de reconocimiento de habla, entre otros. El sistema LID implementado en esta tesis considera únicamente el análisis acústico, utilizando la transformada wavelet para diferenciar las altas y bajas frecuencias de la señal de habla, partiendo de la hipótesis en donde las bajas frecuencias poseen características para representar la prosodia. Posteriormente se realiza un análisis estadístico sobre las bajas frecuencias para construir los modelos acústicos. La investigación realizada para el desarrollo del corpus Entendámonos abarca lo que en general se considera necesario para construir un corpus de habla, aplicado claro, para las lenguas indígenas mexicanas, tomando en cuenta diversos tipos de tópicos y temas, ya sean técnicos o sociales. Los procesos de evaluación LID realizados, utilizando Entendámonos, consideran diferentes tipos de pruebas, realizando análisis de 10, 5 y 3 segundos sobre las muestras de audio. Los resultados del sistema LID muestran porcentajes de identificación de un 68%, tomando como base 40 muestras de habla por idioma, cuyo promedio de duración por cada muestra es de 50 segundos. Finalmente, esta tesis representa un estudio pionero sobre las lenguas indígenas mexicanas, avalado por el Director de Políticas Lingüísticas del Instituto Nacional de las Lenguas Indígenas (INALI), debido a que, en base al Estado del Arte expuesto, es la primera vez que se ven a las lenguas indígenas mexicanas desde un punto de vista más técnico en el sentido que se utiliza un corpus estandarizado, y cuya finalidad es abrir las puertas al desarrollo de aplicaciones de habla para la población multilingüísta del estado de San Luis Potosí y, en un futuro, de México en general.es_MX
dc.language.isospaes_MX
dc.publisherTecnológico Nacional de Méxicoes_MX
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0es_MX
dc.subjectinfo:eu-repo/classification/cti/7es_MX
dc.titleCORPUS DE LAS LENGUAS INDÍGENAS TÉNEK, NÁHUATL Y XI’IUY PARA LA IDENTIFICACIÓN AUTOMÁTICA DEL LENGUAJE HABLADOes_MX
dc.typeinfo:eu-repo/semantics/masterThesises_MX
dc.contributor.directorGonzález Barbosa, Juan J.%202134-
dc.rights.accessinfo:eu-repo/semantics/openAccesses_MX
dc.publisher.tecnmInstituto Tecnológico de Ciudad Maderoes_MX
Aparece en las colecciones: Maestría en Ciencias de la Computación

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
G06070532_donacion_tesis_bib.pdf5.64 MBAdobe PDFVisualizar/Abrir


Este ítem está protegido por copyright original



Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons