Iniciar sesión

Hace unos meses empecé a trabajar en un proyecto donde necesitaba agrupar clientes por su comportamiento de compra, y me decidí a implementar un algoritmo de clustering jerárquico desde cero para entenderlo mejor. La parte de calcular las distancias y construir el dendrograma la tengo clara, pero ahora me encuentro estancado en cómo elegir el número óptimo de clusters de manera objetiva. He probado con el método del codo y el silhouette score, pero los resultados con mis datos reales no son tan evidentes como en los tutoriales, y me preocupa estar forzando una interpretación. Me da la sensación de que me falta algo más sólido para tomar esta decisión final.

Con clustering jerárquico parece que el número de grupos se resiste y el codo no entrega verdad absoluta.

En el marco del clustering jerárquico podrías mirar la estabilidad repitiendo con bootstrap y probando distancias distintas para ver si los clusters se mantienen.

Se nota que el negocio manda, a veces el codo y la silhouette dan números bonitos pero no reflejan lo que pasa en ventas o en retención.

Quizá convenga replantear la meta no como encontrar un único número sino explorar perfiles de comportamiento y ver qué corte ayuda a los stakeholders.

El problema es a veces de gobernanza y de qué tan tolerante es el negocio ante la imprecisión.

Una vía razonable es mirar la estabilidad de las soluciones cuando se varía el rango de clusters y cruzar con criterios de negocio para decidir sin prometer una única respuesta.

Iniciar sesión
Nombre de usuario:
Contraseña:	¿Perdiste tu contraseña?
	Recordarme