
Please use this identifier to cite or link to this item:
https://rinacional.tecnm.mx/jspui/handle/TecNM/9113
Title: | Aplicación de Técnicas de Reducción de la Dimensionalidad en Datos de Anticuerpos del Virus SARS-CoV-2 |
Authors: | Narciso Galván, Samuel Isaí |
metadata.dc.subject.other: | Técnicas de reducción, Dimensionalidad, Virus SARS-CoV-2, Observed Antibody Space |
Issue Date: | 2024-11-29 |
Publisher: | Tecnológico Nacional de México |
metadata.dc.publisher.tecnm: | Centro Nacional de Investigación y Desarrollo Tecnológico |
Description: | Esta tesis examina el impacto de las técnicas de reducción de dimensionalidad en la clasificación de anticuerpos contra el SARS-CoV-2, utilizando datos de secuencias genéticas de anticuerpos disponibles en la base de datos Observed Antibody Space, OAS. En particular, se enfoca en la transformación de secuencias de aminoácidos, específicamente de la región determinante de la complementariedad, CDR3, en representaciones vectoriales, word embeddings, para su posterior procesamiento en modelos de aprendizaje automático. Esta transformación permite el uso de datos no etiquetados y de alta dimensionalidad, pero plantea el desafío de la maldición de la dimensionalidad, la cual puede afectar la precisión y eficiencia de los modelos predictivos. Para abordar este problema, se aplican y evalúan dos técnicas de reducción de dimensionalidad: Principal component analysis PCA y Uniform Manifold Approximation and Projection, UMAP. La investigación desarrolla 36 modelos de clasificación utilizando algoritmos de Maquinas de Soporte Vectorial, Bosques Aleatorios y K Vecinos Mas Cercanos, probando cada uno en conjuntos de datos originales y en conjuntos reducidos por PCA y UMAP. Se busco determinar si la reducción de dimensionalidad mejora el rendimiento de los modelos en términos de precisión, eficiencia y generalización en el contexto de la clasificación de anticuerpos. Los resultados obtenidos se analizan para identificar el algoritmo y técnica de reducción de dimensionalidad mas efectivos para el conjunto de datos de anticuerpos. La investigación concluye con recomendaciones sobre el uso de PCA y UMAP en tareas de clasificación de secuencias de anticuerpos, ofreciendo recomendaciones sobre como estas técnicas pueden facilitar el análisis predictivo en bioinformática y contribuir al desarrollo de modelos eficientes para la identificación de anticuerpos relevantes en inmunología. |
metadata.dc.type: | info:eu-repo/semantics/masterThesis |
Appears in Collections: | Tesis de Maestría en Computación |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
MC_Samuel_Isai_Narciso_Galvan_2024.pdf | Tesis | 2.31 MB | Adobe PDF | View/Open |
MC_Samuel_Isai_Narciso_Galvan_2024_c.pdf Restricted Access | Cesión de derechos | 456.46 kB | Adobe PDF | View/Open Request a copy |
This item is protected by original copyright |
This item is licensed under a Creative Commons License