КЛАСТЕРИЗАЦИЯ НЕЧЕТКИХ K-СРЕДНИХ В MAHOUT

Этот блог представляет собой введение в кластеризацию нечетких K-средних в Apache Mahout.

Нечеткие K-средние - это точно такой же алгоритм, что и K-средних, популярный простой метод кластеризации. Единственное отличие состоит в том, что вместо того, чтобы назначать точку исключительно только одному кластеру, она может иметь некоторую нечеткость или перекрытие между двумя или более кластерами. Ниже приведены ключевые моменты, описывающие нечеткие K-средние:

В отличие от метода K-средних, который ищет жесткий кластер, в котором каждая точка принадлежит одному кластеру, Fuzzy K-Means ищет более мягкие кластеры для перекрытия.
Одна точка в мягком кластере может принадлежать более чем одному кластеру с определенным значением сродства к каждой из точек.
Сродство пропорционально расстоянию от этой точки до центроида кластера.
Подобно K-средним, Fuzzy K-Means работает с объектами, для которых определена мера расстояния и которые могут быть представлены в н- мерное векторное пространство.

Нечеткая карта K-средних

Нет большой разницы между потоком K-средних в MapReduce и нечетким K-средним. Реализация обоих в Mahout аналогична.

Ниже приведены основные параметры для реализации нечетких K-средних:

если условие в запросе sql

Вам понадобится набор векторных данных для ввода.
Должен быть RandomSeedGenerator для заполнения начальных k кластеров.
Для измерения расстояния требуется SquaredEuclideanDistanceMeasure.
Большое значение порога сходимости, например –cd 1.0, если использовалось квадратное значение меры расстояния.
Значение maxIterations по умолчанию - -x 10.
Коэффициент нормализации или коэффициент нечеткости при значении больше -m 1.0

Есть вопрос к нам? Упомяните их в разделе комментариев, и мы свяжемся с вами.

Похожие сообщения

Обучение с учителем в Apache Mahout

что такое разрыв строки в html

Этот блог представляет собой введение в кластеризацию нечетких K-средних в Apache Mahout.

Нечеткая карта K-средних

Категории

Popular Articles

Знакомство с семейством столбцов с Кассандрой

Сколько бы вы заработали как разработчик Tableau?

Что такое внедрение зависимостей? - Знать, как реализовать внедрение зависимостей

Как реализовать анонимный класс в Java

Команды Linux в DevOps: должен знать каждый профессионал DevOps

Как реализовать методы даты JavaScript?

Ansible для AWS - управление облаком стало проще

Введение в Python - все, что вам нужно знать о Python

Типы специалистов по данным

Карьера в Hadoop: Карьера в аналитике больших данных

Учебное пособие по Cucumber Selenium - Как проводить тестирование веб-сайтов

Неизменяемая строка в Java: все, что вам нужно знать