Llevo unos meses trabajando en un proyecto donde debo agrupar clientes según su comportamiento, y aunque probé K-means, los resultados no me convencen del todo porque los grupos quedan muy forzados en forma de esfera. He estado leyendo sobre otros métodos y me pregunto si alguien ha tenido una experiencia similar al intentar segmentar datos que claramente no son isotrópicos. Me da la sensación de que mi enfoque inicial puede estar simplificando demasiado la estructura real de los datos.
|
Qué métodos de clustering funcionan mejor para datos no isotrópicos?
|
|
Puedo entender la frustración: K-means asume esferas por definición y eso limita la segmentación. Si los datos no son isotrópicos, podrías probar enfoques que no obliguen a formas geométricas simples: Gaussian Mixture Models con covariancias elípticas, DBSCAN o HDBSCAN para densidad, o clustering espectral. Asegúrate de escalar y considerar la distancia adecuada (euclídea podría no servir). En la segmentación de clientes, a veces una distancia basada en similitud temporal o en patrones de comportamiento funciona mejor que una métrica única.
La isotropía es solo una excusa si la métrica es la trampa. Si normalizaste todo y aún ves esferas, revisa la representación de las variables: correlaciones, escalas, o usa una métrica adaptativa. En segmentación de datos de clientes, el diseño de las características puede ser más determinante que el algoritmo en sí; a veces un simple cambio de representación ya cambia el resultado.
Uf, a veces parece que los grupos salen como burbujas demasiado redondeadas; me da ganas de abrazar el problema y decir 'así no se ve real'. Me recuerda que la segmentación también depende de la historia que cuentes, no solo del algoritmo.
Si lo que te preocupa es que no son isotrópicos, tal vez estás malinterpretando la idea de cluster. Tal vez quieres clusters anidados o agrupaciones basadas en patrones temporales. También, un modelo orientado a secuencias o a embeddings de comportamiento podría darle sentido a la segmentación sin forzar límites geométricos.
¿Y si el problema no está en el algoritmo sino en la definición de grupo para tus stakeholders? tal vez lo que debes segmentar es la intención de compra o la frecuencia de interacción, y eso cambia la forma de agrupar.
Cambiar la pregunta a qué estructura esperas capturar y para qué sirve la segmentación abre otras rutas. El enfoque podría ser más de aprendizaje automático probabilístico, o simplemente proyectar en un espacio donde las diferencias sean relevantes y evitar que el modelo se sienta obligado a formas esféricas.
|
|
« Tema anterior | Tema siguiente »
|

