Qué hago para elegir el número óptimo de clusters en clustering jerárquico?
#1
Hace unos meses empecé a trabajar en un proyecto donde necesitaba agrupar clientes por su comportamiento de compra, y me decidí a implementar un algoritmo de clustering jerárquico desde cero para entenderlo mejor. La parte de calcular las distancias y construir el dendrograma la tengo clara, pero ahora me encuentro estancado en cómo elegir el número óptimo de clusters de manera objetiva. He probado con el método del codo y el silhouette score, pero los resultados con mis datos reales no son tan evidentes como en los tutoriales, y me preocupa estar forzando una interpretación. Me da la sensación de que me falta algo más sólido para tomar esta decisión final.
Responder
#2
Con clustering jerárquico parece que el número de grupos se resiste y el codo no entrega verdad absoluta.
Responder
#3
En el marco del clustering jerárquico podrías mirar la estabilidad repitiendo con bootstrap y probando distancias distintas para ver si los clusters se mantienen.
Responder
#4
Se nota que el negocio manda, a veces el codo y la silhouette dan números bonitos pero no reflejan lo que pasa en ventas o en retención.
Responder
#5
Quizá convenga replantear la meta no como encontrar un único número sino explorar perfiles de comportamiento y ver qué corte ayuda a los stakeholders.
Responder
#6
El problema es a veces de gobernanza y de qué tan tolerante es el negocio ante la imprecisión.
Responder
#7
Una vía razonable es mirar la estabilidad de las soluciones cuando se varía el rango de clusters y cruzar con criterios de negocio para decidir sin prometer una única respuesta.
Responder


[-]
Respuesta rápida
Mensaje
Escribe tu respuesta a este mensaje aquí.

Verificación de la imagen
Escribe el texto que aparece en la imagen, en el campo que está abajo. Este proceso se usa para evitar mensajes automáticos.
Verificación de la imagen
(no distingue MAYÚSC/minúsc)

Salto de foro: