Iniciar sesión

Hace unos meses empecé a trabajar en un proyecto donde necesitaba agrupar clientes con comportamientos similares, y me decidí por usar clustering jerárquico principalmente porque me gustaba poder visualizar los dendrogramas para entender la estructura. Ahora, revisando el trabajo, me pregunto si en realidad esa elección fue más por comodidad visual que por rigor técnico para el problema específico, ya que los datos eran bastante voluminosos y la métrica de distancia quizá no era la más adecuada. Me ha entrado la duda de si, sin darme cuenta, prioricé lo intuitivo sobre lo óptimo.

Me suena a que la tentación de lo visual fue fuerte. En clustering jerárquico el dendrograma promete entender la estructura a la vista, y eso puede sentirse como una ventaja real. Pero esa comodidad puede ocultar que la métrica de distancia no captura lo relevante para tus clientes, especialmente con datos voluminosos; lo que parece una rama suave puede estar moviéndose según la distancia elegida.

Desde el punto de vista técnico, la escala importa. El clustering jerárquico puede volverse intractable en n grande y la elección de distancia determina qué significa “similar”. Si el volumen es alto, conviene mirar opciones más escalables o usar estrategias híbridas: empezar con un clustering rápido para reducir tamaño y luego aplicar jerárquico a una muestra, o medir la validación con silhouette y bootstrap para ver si los dendrogramas se sostienen.

Puede que el dendrograma te esté vendiendo una estructura que no es estable ante ruido. La altura elegida para cortar, o la métrica, modifican el resultado de forma sutil; a veces ver 'subgrupos' es más una interpretación que una verdad. No me atrevería a decir que el clustering jerárquico sea la respuesta definitiva para comportamientos complejos de clientes.

Más que preguntar si la elección fue correcta, pregunta cuál es el objetivo de la segmentación. Quizá te sirva medir qué tanto cada cluster aporta a explicarlo, por ejemplo en churn o valor de vida del cliente, y comparar con otros enfoques como modelos de mezcla o clustering no jerárquico. La idea es validar con resultados prácticos y no solo con un diagrama.

Puede que la intuición sea que las distancias capturan comportamientos, pero si el comportamiento cambia con el tiempo, una sola matriz de distancias no basta. Tal vez un enfoque dinámico o por ventanas temporales, o usar DTW para series, te da más robustez que un solo dendrograma. El principal término aquí es 'gusto por la estructura' que a veces traiciona.

Me pregunto: ¿qué métricas o validaciones usarías para justificar tu elección frente a alternativas?

Iniciar sesión
Nombre de usuario:
Contraseña:	¿Perdiste tu contraseña?
	Recordarme