Кластеризация методом К-мод

Кластеризация предназначена для объединения в группы схожих объектов и является одной из фундаментальных задач в области интеллектуального анализа данных. Список прикладных областей, где она применяется, широк: сегментация изображений, маркетинг, борьба с мошенничеством, прогнозирование, анализ текстов и многие другие. На современном этапе кластеризация часто выступает первым шагом при анализе данных. После выделения схожих групп применяются другие методы, для каждой группы строится отдельная модель.

При кластеризации методом К-мод множество объектов разбивается на заранее известное число кластеров k. Сам метод состоит из четырех шагов:

  1. Начальный выбор центров для k кластеров;

  2. Разбиение объектов на k кластеров относительно центров кластеров, назначенных ранее, по принципу наименьшего расстояния от объекта до центра кластера, к которому он отнесен. Расстояние определяется количеством признаков, значения которых для объекта и центра кластера не совпадают;

  3. Если на предыдущем шаге не было переходов из кластера в кластер, то метод заканчивает работу. В обратном случае выполняется переход к следующему шагу;

  4. Пересчет центров кластеров согласно текущему разбиению. Переход к шагу 2.

См. также:

Библиотека методов и моделей | Определение категорий | ISmKmeansClusterAnalysis