Fuzzy K-Means Clustering a Mahout



Aquest bloc ofereix una introducció a l'agrupació de Fuzzy K-Means a Apache Mahout.

convertir binari a int java

Fuzzy K-Means és exactament el mateix algorisme que K-means, que és una popular tècnica de clusterització simple. L’única diferència és que, en lloc d’assignar un punt exclusivament a un únic clúster, pot tenir algun tipus de difusió o superposició entre dos o més clústers. A continuació es detallen els punts clau que descriuen Fuzzy K-Means:





  • A diferència de K-Means, que busca un cúmul dur, en què cadascun dels punts pertany a un cúmul, Fuzzy K-Means busca els cúmuls més suaus per superposar-se.
  • Un sol punt d'un clúster suau pot pertànyer a més d'un clúster amb un cert valor d'afinitat cap a cadascun dels punts.
  • L'afinitat és proporcional a la distància d'aquest punt del cúmulroid.
  • De manera similar a K-Means, Fuzzy K-Means treballa sobre objectes que tenen la mesura de distància definida i es poden representar a la n- espai vectorial dimensional.

Fuzzy K-Means MapReduce Flow

No hi ha molta diferència entre el flux MapReduce de K-Means i Fuzzy K-Means. La implementació d'ambdós a Mahout és similar.

A continuació es mostren els paràmetres essencials per a la implementació de Fuzzy K-Means:



  • Necessiteu un conjunt de dades vectorials per a l'entrada.
  • Hi ha d’haver el RandomSeedGenerator per sembrar els k clústers inicials.
  • Per mesurar la distància es requereix la mesura de distància euclidiana.
  • Gran valor del llindar de convergència, com ara –cd 1.0, si s’ha utilitzat el valor quadrat de la mesura de distància
  • Un valor per a maxIterations el valor per defecte és -x 10.
  • El coeficient de normalització o el factor de difusió, amb un valor superior a -m 1,0

Tens alguna pregunta? Esmenta’ls a la secció de comentaris i et respondrem.

Articles Relacionats



Aprenentatge supervisat a Apache Mahout