Новый взгляд аналитики

ОПРЕДЕЛЕННЫЕ СЛОВАМИ ГРУППЫ

 

Компания много лет продаёт оптом инструменты для металлообработки. В ассортименте более 200 тысяч наименований. Ежемесячно поступает сто сотен новых позиций, почти столько же выводится. Они поступают со складов 7 предприятий. Каждое из них придерживается своих правил формирования названий изделий.


Заказы собираются из элементов от разных поставщиков. Для обслуживания существует большой коммерческий отдел. Менеджеры стараются быстро сделать требуемую работу. Многие товары некорректно разделены по группам. Это снижает скорость поиска и эффективность деятельности.


Разнесением занимаются два эксперта, которые уделяется недостаточно времени этому процессу. Поэтому появился запрос на создание автоматизированной системы массовой классификации. Необходимо придумать и реализовать оригинальную идею по текстовому анализу.


Так появилось следующее. Во-первых, представить каждую группу словами названий товаров, которые содержатся в ней. Для этого извлекать только самые близкие к самому началу. Во-вторых, произвести пересечение несвязанных позиций и ранее корректно собранных. В случаях появления пересечений появляется список похожих объединений.


Для реализации применялась аналитическая платформа Loginom. Первоначально придумана такая схема решения. Одна часть будет использоваться для построения модели. В ней находится качественный контент. В другой – строки с невысоким качеством, для неё будет применяться созданная структура.

В отдельных файлах содержатся реестр ненужных сочетаний и таблица для ключевых параметров. Это шаблон регулярного выражения, границы суммирования и отсечения. Для пользователя предлагается множество регулировок. Данные и метаданные управляют алгоритмами сценария. Аккуратность здесь совсем не помешает, такова плата за «зрячее» разделение на классы.

Схема функциональных блоков сценария
Вид экранов построения сценария

На деле сценарий оказался быстрым, с ним можно работать в двух режимах. Это единичная обработка или серия итераций. Выходной файл является также и входным. В него записываются строки после анализа, обозначения и другие показатели. Добавляются наборы сочетаний, которые повлияли на выбор. Вдобавок величина уверенности показывает степень принадлежности.

Вид таблица товаров до и после обработки