Кластеризация нечетких K-средних в Mahout



Этот блог представляет собой введение в кластеризацию нечетких K-средних в Apache Mahout.

Нечеткие K-средние - это точно такой же алгоритм, что и K-средних, популярный простой метод кластеризации. Единственное отличие состоит в том, что вместо того, чтобы назначать точку исключительно только одному кластеру, она может иметь некоторую нечеткость или перекрытие между двумя или более кластерами. Ниже приведены ключевые моменты, описывающие нечеткие K-средние:





  • В отличие от метода K-средних, который ищет жесткий кластер, в котором каждая точка принадлежит одному кластеру, Fuzzy K-Means ищет более мягкие кластеры для перекрытия.
  • Одна точка в мягком кластере может принадлежать более чем одному кластеру с определенным значением сродства к каждой из точек.
  • Сродство пропорционально расстоянию от этой точки до центроида кластера.
  • Подобно K-средним, Fuzzy K-Means работает с объектами, для которых определена мера расстояния и которые могут быть представлены в н- мерное векторное пространство.

Нечеткая карта K-средних

Нет большой разницы между потоком K-средних в MapReduce и нечетким K-средним. Реализация обоих в Mahout аналогична.

Ниже приведены основные параметры для реализации нечетких K-средних:



если условие в запросе sql
  • Вам понадобится набор векторных данных для ввода.
  • Должен быть RandomSeedGenerator для заполнения начальных k кластеров.
  • Для измерения расстояния требуется SquaredEuclideanDistanceMeasure.
  • Большое значение порога сходимости, например –cd 1.0, если использовалось квадратное значение меры расстояния.
  • Значение maxIterations по умолчанию - -x 10.
  • Коэффициент нормализации или коэффициент нечеткости при значении больше -m 1.0

Есть вопрос к нам? Упомяните их в разделе комментариев, и мы свяжемся с вами.

Похожие сообщения



Обучение с учителем в Apache Mahout

что такое разрыв строки в html