Новый взгляд аналитики

ШАБЛОНЫ ПОИСКА ЗНАНИЙ

 

Компания уже давно продаёт металлорежущие инструменты. Большинство заказов выполняются по предварительным заявкам. Продукция поставляется с виртуальных складов, которые находятся у разных поставщиков. В случае отсутствия продукции её требуется изготовить за границей. В этом случае срок получения составляет 1-4 месяца.


Каждое техническое изделие имеет длинное наименование. В нём представлено множество характеристик. Все показатели важны для покупателя. У каждого поставщика есть свои правила написания. Их общее число в номенклатуре составляет более 200 тыс. Ежемесячно добавляется более 10 000. Количество групп насчитывает более тысячи.


Все товары собираются в справочной системе торговой компании. Подбор, продажу и оформление заказов осуществляют менеджеры. Для этого следует быстро найти элемент в базе данных, чтобы получить полные сведения о нём. Постоянно уделяется внимание качеству обслуживания покупателей.


Фирма представляет свои изделия на разных сайтах. Каждый из них имеет свою тематику и дизайн. Там же потенциальные покупатели может статься, что найдут самое необходимое. Большинство характеристик собрано в списки с имеющимися значениями. Раскрывая их, просто и легко сделать свой выбор.


В системе с обозначениями всегда был некий хаос. Периодически он становился больше или уменьшался. Потребность в чётком упорядочивании существовала всегда. Все сведения о товаре собраны в одной строке. Цифровые величины представлены символами текста. Внутри товарной группы описания имели текстовую сортировку.


Наведём порядок и составим план действий. Сначала проведём сбор информации. Сведения по всем изделиям извлечём из локальной базы данных. Перенесём их в отдельную таблицу. Проведём опрос специалистов по вопросу важности номенклатуры. Определим несколько больших групп продукции. В них отберём несколько элементов для анализа.


Проведём структурирование сведений в названиях. Каждую логическую цепочку можно разложить на три доли. Первая описывает сущность изделия. Во второй представлены малозначащие сопутствующие сведения. В последней части представлены материал, стандарт, бренд.


Доля 1 содержит сначала одно существительное и несколько прилагательных. Они могут быть написаны строчными и прописными буквами. Бывают сокращения и аббревиатуры. В начале слов иногда используется латинская буква. Далее указан массив размеров с числами, вместо запятой стоит точка. Указывается иногда единица измерения.


Часть 2 хранит данные о виде товара, назначении, его маркетинговой линии. Здесь имеются различные индексы и комплектность, вид теста и качество обработки. Может быть любая последовательность, большое число показателей. Это совершенно нестандартная структура.


В конце обычно описывается материал изготовления. Текст может быть сокращённым или полным. Потом описывается стандарт. Это может быть российский или иностранный норматив. В конце представлен бренд. Состоит из одного или нескольких слов. Различная степень подробности, иногда присутствуют буквы разных языков.


В процессе анализа собираются такие метаданные. Описание изделия может содержать до 20 составляющих. Общая длина часто превышает сто символов. Это ограничение накладывает требование базы данных. В процессе формирования новой последовательности будем придерживаться такого же порядка.


Сначала исходные обозначения расположены в одной таблице. Из каждого названия выбираем имеющиеся элементы. Исправляем их и создаём новые компоненты. Они записываются в разные столбцы. Потом объединяем в другом, новом порядке. Проводим проверку и сортировку. При необходимости сокращаем длину описания.


В работе с названиями постепенно накапливаются варианты разных компонентов. Поэтому были разработаны структуры для хранения. Эти коллекции постоянно применяются для хранения и обработки. Использование программирования в макросах превращают эту информацию в знания. В результате получаются корректные сочетания символов.


Для каждой коллекции предоставляется таблица, в скобках указано количество пунктов. Это набор регулярных выражений и типовых замен на правильные формы. Есть список для развёртывания сокращений. Набор брендов предназначен для извлечения и замены. В такие же структуры собраны обозначения материалов, допусков и квалитетов.

Таблица регулярных выражений

В начале разбираются строки и исправляются типичные дефекты. Удаляются лишние пробелы и обрабатываются единицы измерения. Устанавливается запятые в числах с помощью оригинального алгоритма. Он отличает величины с десятичными точками от похожих индексов. Остальное сделают встроенные функции и операторы подобия.


Функции извлечения элементов из последовательности разделены на 2 категории. Первая предполагает ввод свободных шаблонов для регулярных выражений. Есть макрос поиска набора символов между границами интервала. Все данные записываются вручную или копируются из коллекции шаблонов. Ко второй относятся типовые процедуры выделения характеристик на основе контента имеющихся структур.


Сначала осуществляется поиск необходимых компонентов в последовательности. Потом пытаются понять, что представляет собой каждый набор. Далее они выдают современное его написание. В основном это относится к материалам и брендам. Затем производится генерирование регулярных выражений. Все строки обрабатываются автоматически.


Выделим из первой части слова, числовые массивы и единицы измерения. Размеры могут быть метрическими или измеряться в дюймах. Далее из третьей отбираются другие пункты: модели, материалы, бренды. Используются ранее описанные операции. Потом формируется составляющая 2. Для этого из старого названия вычтем отдельные блоки. Далее составим конфигурацию в нужном порядке. И проведём сортировку товаров по новым описаниям.


В конце каждого цикла всего процесса проводится проверка. Корректируется длина названия, оцениваются дубликаты слов и чисел. Определяются нераспознанные части. При необходимости проводится обогащение. Целью выбора такого содержания и порядка процесса является высокая корректность названий и скорость обработки.

Таблица сравнения названий товаров
Таблица материалов
Таблица брендов