Новый взгляд аналитики

КЛАССИФИКАЦИЯ ГРУПП СЛОВАМИ

 

Компания много лет продаёт оптом инструменты для металлообработки. В ассортименте более 200 тысяч наименований. Ежемесячно поступает сто сотен новых позиций, почти столько же выводится. Они поступают со складов семи предприятий. Каждое придерживается своих правил формирования названий изделий.

Заказы собираются из элементов разных поставщиков. Для обслуживания существует большой коммерческий отдел. Менеджеры стараются быстро выполнять требуемую работу. Множество товаров некорректно разложено по группам. Это снижает скорость поиска и эффективность деятельности.

Разнесением занимаются два эксперта, которые уделяется недостаточно времени этому процессу. Поэтому появился запрос на создание автоматизированной системы массовой классификации. Необходимо придумать и реализовать оригинальную идею по текстовому анализу.

Так появилось следующее. Каждая группа представлена словами названий товаров, которые содержатся в ней. Для этого извлечены только самые близкие к самому началу. Сделаны пересечения несвязанных позиций и ранее корректно собранных. В случае переходов появляется список похожих объединений.

Для реализации применялась аналитическая платформа Loginom. Первоначально придумана следующая схема решения. Одна часть будет использоваться для построения модели. В ней находится качественный контент. В другой собираются строки с невысоким качеством, для неё будет применяться созданная структура.

В отдельных файлах содержатся реестр лишних сочетаний и таблица для ключевых параметров. Это шаблон регулярного выражения, границы суммирования и отсечения. Пользователю предлагается несколько настроек. Данные и метаданные управляют алгоритмами сценария. Аккуратность здесь совсем не помешает, такова плата за «зрячее» разделение на классы.

Схема функциональных блоков сценария
Вид окон сценария обработки данных

На деле же сценарий оказался быстрым, с ним можно работать в двух режимах. Это единичная обработка или серия итераций. Выходной файл является также и входным. В него записываются строки после анализа, обозначения и другие показатели. Добавляются наборы сочетаний, которые повлияли на выбор. Величина уверенности показывает степень принадлежности.

Вид таблица товаров до и после обработки