Caracterización de dos mejoras del estado del arte del algoritmo K-Means orientadas a la solución de grandes instancias

Moreno Calderon, Carlos Fernando%1000864

Repositorio Institucional del Tecnológico Nacional de México (RI - TecNM)

Tesis de Posgrado

Morelos

Centro Nacional de Investigación y Desarrollo Tecnológico

Tesis CENIDET "O"

Tesis de Maestría "O"

Tesis de Maestría en Computación "O"

Please use this identifier to cite or link to this item: https://rinacional.tecnm.mx/jspui/handle/TecNM/4161

Title:	Caracterización de dos mejoras del estado del arte del algoritmo K-Means orientadas a la solución de grandes instancias
Authors:	Moreno Calderon, Carlos Fernando%1000864
Issue Date:	2022-06-16
Publisher:	Tecnológico Nacional de México
metadata.dc.publisher.tecnm:	Centro Nacional de Investigación y Desarrollo Tecnológico
Description:	En esta investigación se aborda el problema de evaluación de algoritmos. En particular la evaluación de variantes del algoritmo K-Means para resolver grandes instancias. Desde el surgimiento de la familia de algoritmos K-Means, se han realizado diversos estudios para mejorar algunas de sus etapas y con ello reducir el costo computacional. Se ha observado en la literatura especializada que las variantes propuestas obtienen mejores resultados en cuanto a tiempo o calidad de solución frente al algoritmo estándar o incluso frente a otras variantes. Sin embargo, el diseño de experimentos que aplican abarca pocas instancias, y con ello surge la incertidumbre sobre la eficiencia y eficacia que podrían tener estas variantes al resolver otro tipo de instancias. En este trabajo de investigación, se propone la aplicación de dos variantes prometedoras en la solución de diferentes tipos de instancias, mayormente sobre instancias grandes. La variante Fahim cuya propuesta es ampliamente citada y reconocida por la exclusión de cálculos de distancia de centroides a objetos, lo cual genera un ahorro en el costo computacional. La variante O-K-Means es una propuesta relevante que genera menor costo computacional por realizar la convergencia del algoritmo cuando el total de objetos que cambian de grupo en una iteración es menor a un umbral definido. Esta propuesta se validó realizando pruebas de ejecución con el algoritmo K-Means estándar. Como referencia se implementó el algoritmo propuesto por Lloyd en 1982. Además de implementar las variantes Fahim y O-K-Means. Se realizó un diseño de experimentos donde se usaron 37 conjuntos de datos reales de repositorios reconocidos, 23 instancias fueron clasificadas como pequeñas y 14 como instancias grandes. Se realizaron comparaciones de tiempo y calidad de solución con respecto al algoritmo K-Means estándar. Los resultados obtenidos muestran que la variante Fahim es dominante al resolver instancias grandes mejorando la calidad hasta un 0.71% en el mejor de los casos. La variante O-K-Means demostró ser dominante con las instancias grandes al resolverlas en menor tiempo hasta un 93.57% en el mejor de los casos. Finalmente, se considera que esta investigación aporta beneficios a investigadores o usuarios que buscan resolver instancias similares a las que se usaron en esta investigación, ofreciéndoles una caracterización de la variante que se adecue mejor a sus necesidades.
metadata.dc.type:	info:eu-repo/semantics/masterThesis
Appears in Collections:	Tesis de Maestría en Computación "O"

Files in This Item:

File	Description	Size	Format
MC_Carlos_Fernando_Moreno_Calderon_2022.pdf	Tesis	2.08 MB	Adobe PDF	View/Open
MC_Carlos_Fernando_Moreno_Calderon_2022.PDF Restricted Access	Cesión de derechos	371.78 kB	Adobe PDF	View/Open Request a copy

This item is protected by original copyright

View License

Show full item record

This item is licensed under a Creative Commons License

Repositorio Institucional del Tecnológico Nacional de México (RI - TecNM) Tesis de Posgrado Morelos Centro Nacional de Investigación y Desarrollo Tecnológico Tesis CENIDET "O" Tesis de Maestría "O" Tesis de Maestría en Computación "O"

Repositorio Institucional del Tecnológico Nacional de México (RI - TecNM)

Tesis de Posgrado

Morelos

Centro Nacional de Investigación y Desarrollo Tecnológico

Tesis CENIDET "O"

Tesis de Maestría "O"

Tesis de Maestría en Computación "O"