Hace unos meses empecé a trabajar en un proyecto donde necesitaba agrupar clientes con comportamientos similares, y me decidí por usar k-means. Al principio todo parecía ir bien, los clusters se formaban y los resultados tenían sentido a simple vista. Pero ahora, al intentar replicar el análisis con datos nuevos, los grupos cambian completamente con cada ejecución, incluso usando la misma semilla. Me preocupa que esto esté afectando la estabilidad de las conclusiones y no sé si es algo normal o si estoy pasando por alto algo fundamental en la preparación de los datos.
|
Qué tan estables son los clústeres de k-means con datos nuevos?
|
|
Puede que el problema no sea la idea sino la forma en que preparas los datos. Si cada ejecucion cambia la escala de las variables o si la normalizacion se ajusta a cada conjunto, las distancias varían y los centroides saltan. Fija un escalador con parametros aprendidos de entrenamiento y aplica exactamente la misma transformacion a los datos nuevos. Verifica tambien si solo parecen cambiar las etiquetas porque el algoritmo puede renumerar los clusters aunque su estructura sea estable; compara centros o usa una medida como ARI para ver la coincidencia real entre ejecuciones.
Me cuesta creer que solo cambie por la semilla cuando los datos son los mismos. kmeans es sensible a la escala y a la distribucion de las variables si no estandarizas puede saltar la agrupacion. revisa si hay outliers y si los datos nuevos tienen diferente rango. tal vez conviene probar otra tecnica o ver la estabilidad a partir de centros y de las distancias entre centros.
Me suena frustrante ver esas agrupaciones que cambian entre ejecuciones. a veces es una pista de que el negocio no tiene clusters estables o que tus datos no permiten una interpretacion clara. intenta mirar los centros de cada ejecucion mas que las etiquetas.
Yo leo textos de forma diferente y noto que la escritura cambia la forma de pensar. cuando veo kmeans comportarse distinto me pregunto si el lector espera una conclusion firme o solo una intuicion. la idea es dejar claro que la repetibilidad depende del preprocesamiento y de la definicion de cada cluster sin prometer respuestas definitivas.
Y si el verdadero problema es la pregunta de negocio mas que la tecnica. tal vez buscar clusters estables no es lo que necesitas sino entender que significa cada grupo para decisiones reales. propones medir la consistencia en terminos de decisiones y riesgos mas que en una etiqueta numerica estable.
Para revisar rapido prueba estas ideas sin complicarte mucho. usa el mismo escalador aprendido de entrenamiento y aplica a los datos nuevos. compara centros y distancias entre ellos no solo la etiqueta. verifica que no haya cambios en la escala de los datos entre ejecuciones. si persiste considera opciones como normalizacion global o una tecnica rival. que quieres obtener exactamente de este agrupamiento
|
|
« Tema anterior | Tema siguiente »
|

