Назначение и основные возможности

Инструмент поддерживает интерфейс продукта «Форсайт. Аналитическая платформа» версий 9 и ранее.

Назначение и основные возможности интеллектуального анализа данных

Интеллектуальный анализ данных (Data Mining) - процесс выявления скрытых фактов и взаимосвязей в больших массивах данных. Полученные данные могут использоваться для принятия решений в различных сферах человеческой деятельности.

Информация, найденная в процессе применения методов интеллектуального анализа, нетривиальна и ранее неизвестна. Полученные знания описывают новые связи между свойствами, предсказывают значения одних признаков на основе других и т.д. Также знания применимы и на новых данных с некоторой степенью достоверности. Полезность заключается в том, что эти знания могут приносить определенную выгоду при их применении.

Работа с интеллектуальным анализом доступна в настольном и веб-приложении из инструментов продукта «Форсайт. Аналитическая платформа»: «Аналитические панели», «Аналитические запросы (OLAP)», «Отчеты», «Анализ временных рядов».

С помощью методов интеллектуального анализа данных можно решать следующие задачи:

разделять объекты или наблюдения на заданное количество групп на основе близости значений их атрибутов (признаков). Для решения задачи используется методы кластеризации: метод К-мод и самоорганизующиеся карты Кохонена;
определять «степень исключительности» для каждого признака каждого объекта на основании всей совокупности данных. Для решения задачи используется анализ исключений;
заполнять пропущенные значения одного признака в зависимости от значений других признаков на основе имеющейся классификации. Для решения задачи используются методы: дерево решений, логистическая регрессия и сеть обратного распространения;
выявлять наиболее значимые факторы, выявлять степени влияния каждого фактора на зависимую переменную. Для решения задачи используется наивный байесовский классификатор;
определять часто встречающиеся совместно наборы элементов на основе анализа множества повторяющихся транзакций. Для решения задачи используется анализ ассоциаций;
продолжать указанный временной ряд выбранным методом прогнозирования, используя информацию о характере его периодичности. Для решения задачи используются методы прогнозирования: Грей-метод, подбор формы зависимости и экспоненциальное сглаживание.

С помощью метода интеллектуального анализа данных можно получить ROC-кривую (англ. receiver operating characteristic) или кривую ошибок - график, позволяющий оценить качество бинарной классификации и отображающий соотношение между долей объектов от общего количества носителей признака, верно классифицированных, как несущих признак, и долей объектов от общего количества объектов, не несущих признака, ошибочно классифицированных, как несущих признак при варьировании порога решающего правила.

В методах Data Mining, принимающих на вход только категориальные данные, числовые входные данные будут преобразовываться в категориальные с помощью процедуры Binning. Процедура заключается в том, что входной массив данных разбивается на заданное число диапазонов (групп) в соответствии с правилами разбиения. Полученные диапазоны далее используются в методах Data Mining как отдельные категории.

Примерами категориальных данных могут служить:

названия городов;
наименования товаров;
ответ в анкете: «да», «нет»;
размеры одежды: S, M, L, XL, XXL;
образование: начальное, среднее, высшее;
оценка результата процесса: «Хорошо» или «Плохо»;
названия фирм-производителей автомобилей: Ford, Toyota;
оценка собранного изделия: «Годно» или «Негодно»;
телефонные коды регионов страны и др.

См. также:

Запуск и порядок работы | Выбор типа анализа