Desarrollo de una mejora al algoritmo K-means orientada al paradigma de Big Data

Diaz Lorenzo, Alber%774604

Repositorio Institucional del Tecnológico Nacional de México (RI - TecNM)

Tesis de Posgrado

Morelos

Centro Nacional de Investigación y Desarrollo Tecnológico

Tesis CENIDET

Tesis de Maestría

Tesis de Maestría en Computación

Por favor, use este identificador para citar o enlazar este ítem: https://rinacional.tecnm.mx/jspui/handle/TecNM/5875

Título :	Desarrollo de una mejora al algoritmo K-means orientada al paradigma de Big Data
Autor :	Diaz Lorenzo, Alber%774604
Fecha de publicación :	2018-10-11
Editorial :	Tecnológico Nacional de México
metadata.dc.publisher.tecnm:	Centro Nacional de Investigación y Desarrollo Tecnológico
Descripción :	K-means es uno de los algoritmos de agrupamiento de datos más usados en la actualidad, dada la sencillez y fácil interpretación de sus resultados. El algoritmo está estructurado en cuatro fases: inicialización, clasificación, cálculo de centroides y convergencia. Prácticamente todas las mejoras realizadas al algoritmo están enfocadas a una fase en particular; sin embargo, de acuerdo a la literatura especializada, no se ha propuesto la integración de mejoras de distintas fases. En este sentido, en este trabajo se propone H-Kmeans, una mejora híbrida que permite procesar, de manera optimizada, una instancia dada mediante composición de mejoras de diferentes fases. Para validar H-Kmeans se realizaron un conjunto de experimentos con instancias reales reconocidas por la comunidad científica internacional. Se seleccionaron 2 mejoras en las fases de inicialización, clasificación y convergencia, respectivamente. H-Kmeans permitió realizar 19 configuraciones para procesar las instancias seleccionadas. Los resultados obtenidos mostraron que con la combinación de mejoras se obtienen mejores resultados que procesando las instancias con las mejoras individuales o con K-means. Es necesario aclarar que al realizar mejoras a K-means se suele sacrificar la calidad de los resultados para lograr un menor tiempo de procesamiento; en muchos de los resultados obtenidos con H-Kmeans incluso se mejora la calidad de los resultados. Para la instancia 3D road network, con 434,874 objetos en 4 dimensiones, se obtuvo una reducción de tiempo del 82% con una ganancia de calidad del 47%. Para la instancia Household power consumption, con 2,049,280 objetos en 4 dimensiones, se obtuvo una reducción de tiempo del 97.3% con una ganancia de calidad del 2.3%. Aunque aumente el tamaño de la instancia los resultados del procesamiento siguen siendo excelentes, esto valida la utilización de la mejora H-Kmeans para el procesamiento de instancias dentro del paradigma de Big Data
metadata.dc.type:	info:eu-repo/semantics/masterThesis
Aparece en las colecciones:	Tesis de Maestría en Computación

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
MC_Alber_Diaz_Lorenzo_2018.pdf	Tesis	2.51 MB	Adobe PDF	Visualizar/Abrir
MC_Alber_Diaz_Lorenzo_2018-c.pdf Restricted Access	Cesión de Derechos	134.33 kB	Adobe PDF	Visualizar/Abrir Request a copy

Este ítem está protegido por copyright original

Visualizar la licencia

Mostrar el registro Dublin Core completo del ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons

Repositorio Institucional del Tecnológico Nacional de México (RI - TecNM) Tesis de Posgrado Morelos Centro Nacional de Investigación y Desarrollo Tecnológico Tesis CENIDET Tesis de Maestría Tesis de Maestría en Computación

Repositorio Institucional del Tecnológico Nacional de México (RI - TecNM)

Tesis de Posgrado

Morelos

Centro Nacional de Investigación y Desarrollo Tecnológico

Tesis CENIDET

Tesis de Maestría

Tesis de Maestría en Computación