Hace unos meses empecé a trabajar en un proyecto donde necesitaba agrupar clientes por su comportamiento de compra, y me decidí a implementar un algoritmo de clustering jerárquico desde cero para entenderlo mejor. La parte de calcular las distancias y construir el dendrograma la tengo clara, pero ahora me encuentro estancado en cómo elegir el número óptimo de clusters de manera objetiva. He probado con el método del codo y el silhouette score, pero los resultados con mis datos reales no son tan evidentes como en los tutoriales, y me preocupa estar forzando una interpretación. Me da la sensación de que me falta algo más sólido para tomar esta decisión final.
|
Qué hago para elegir el número óptimo de clusters en clustering jerárquico?
|
|
Con clustering jerárquico parece que el número de grupos se resiste y el codo no entrega verdad absoluta.
En el marco del clustering jerárquico podrías mirar la estabilidad repitiendo con bootstrap y probando distancias distintas para ver si los clusters se mantienen.
Se nota que el negocio manda, a veces el codo y la silhouette dan números bonitos pero no reflejan lo que pasa en ventas o en retención.
Quizá convenga replantear la meta no como encontrar un único número sino explorar perfiles de comportamiento y ver qué corte ayuda a los stakeholders.
El problema es a veces de gobernanza y de qué tan tolerante es el negocio ante la imprecisión.
Una vía razonable es mirar la estabilidad de las soluciones cuando se varía el rango de clusters y cruzar con criterios de negocio para decidir sin prometer una única respuesta.
|
|
« Tema anterior | Tema siguiente »
|

