Новый взгляд аналитики

ДОБРАЯ КЛАСТЕРИЗАЦИЯ ПОКУПОК

 

Для лучшего понимания покупателей часто применяется кластеризация. Она позволяет упорядочить их в сравнительно однородные группы. Таким образом, радикально уменьшается количество элементов для удобства в использовании и управлении.


Были собраны 202803 записи по продажам услуг за квартал. Используем программу Deductor. Установим характеристики по клиентам, проведя их группировку и определим 45033 элемента. Для изучения получившейся структуры проведём кластеризацию алгоритмом k-средних (k-means). Используем все значимые характеристики. Разложим покупателей на относительно большое количество групп.


Далее исключим лишние кластеры, исходя из значений доверительных интервалов профилей. Так избавимся от шумов в данных. В итоге получилось 44543 клиента или 98,9% от начального объёма. И подготовлены сведения для проведения корреляционного анализа. Это необходимо для устранения незначащих факторов, в дальнейшем используем самые важные.


Снова проведём процесс аналогичной кластеризации. Будем уменьшать количество этих сгустков до приемлемого, небольшого количества. При этом сохраняем высокое качество их профилей. На этом этапе сложилось 6 кластеров.

 

Построена модель классификации с помощью деревьев решений (decision trees). Этот метод является одним из самых мощных средств. Это позволит решить задачу отнесения клиента к одному из заранее известных кластеров. В результате будет автоматически построено дерево правил, показанное на рисунке ниже.

Дерево решений модели
Таблица сопряженности кластеров

Далее можно оценить качество по матрице сопряжённости и диаграмме классификации.

Таблица размещения по кластерам

В конце применим эту модель к исходным данным по клиентам. Далее показана таблица разделения всех покупателей на 6 кластеров. Для каждой группы характерны определённые границы выделенных показателей покупок.