Кластеризация предназначена для объединения в группы схожих объектов и является одной из фундаментальных задач в области интеллектуального анализа данных. Список прикладных областей, где она применяется, широк: сегментация изображений, маркетинг, борьба с мошенничеством, прогнозирование, анализ текстов и многие другие. На современном этапе кластеризация часто выступает первым шагом при анализе данных. После выделения схожих групп применяются другие методы, для каждой группы строится отдельная модель.
При кластеризации методом К-мод множество объектов разбивается на заранее известное число кластеров k. Сам метод состоит из четырех шагов:
Начальный выбор центров для k кластеров;
Разбиение объектов на k кластеров относительно центров кластеров, назначенных ранее, по принципу наименьшего расстояния от объекта до центра кластера, к которому он отнесен. Расстояние определяется количеством признаков, значения которых для объекта и центра кластера не совпадают;
Если на предыдущем шаге не было переходов из кластера в кластер, то метод заканчивает работу. В обратном случае выполняется переход к следующему шагу;
Пересчет центров кластеров согласно текущему разбиению. Переход к шагу 2.
См. также:
Библиотека методов и моделей | Определение категорий | ISmKmeansClusterAnalysis