Новый взгляд аналитики

МАКРОСЫ ИЗВЛЕЧЕНИЯ ЗНАНИЙ

 

Компания продаёт металлорежущие инструменты. Заказы выполняются по заявкам. Продукция поставляется с виртуальных складов. При отсутствии приходится напрямую обращаться к производителю. В этом случае срок выполнения составляет до четырёх месяцев.

Изделия обозначены длинными названиями со многими параметрами. Строки по ним собираются в поисковой программе. Числовые значения представлены текстовыми символами. Номенклатура составляет двести тысяч позиций. Поставщики используют собственное понимание информации.

Документы подробно оформляют менеджеры. Необходимо найти конкретный элемент, хотя иерархия вмещает четыре уровня. Внутри групп действует текстовая сортировка. Время поиска товара нередко влияет на быстроту обслуживания покупателей.

Поэтому для решения воспользуемся табличным процессором Excel. Начнём работать с наиболее востребованными наборами. Сохраним каждый в отдельной таблице, так как везде существуют разные правила. Проведём анализ контента и определим специфику.

Каждую цепочку можно разделить на три части. Первая описывает сущность и базовые характеристики. Во второй записаны товарная линия, комплектность, качество поверхности и другие сведения. В последней хаотично расставлены материалы, стандарты, бренды.

На этапе очистки удалим лишние пробелы и неправильные буквы. Создадим макросы для метрических и дюймовых единиц измерения и замены десятичных точек на запятые. Применим регулярные выражения, встроенные и оригинальные функции, операторы подобия.

Таблица регулярных выражений

Для фазы обогащения реализуем специальные коллекции. Постепенно заполняясь, они накапливают новые знания о преобразованиях исходных элементов. Это верные написания торговых марок, металлов, типов обработки. Главный штрих: программирование для генерации символьных шаблонов.

При трансформации выстраиваем правильный порядок компонентов. Конкатенация исправленных долей формирует понятное наименование, содержащее до 20 составляющих. Длина часто превышает сто знаков. Для соблюдения ограничений производится сокращение до нужного размера.

Наконец проверяем результаты, оцениваем дубликаты и повторы сочетаний, сортируем и передаём как мастер-данные. Целью выбора такого процесса является корректность и прозрачность. Ниже сопоставлены оригиналы и последствия.

Таблица сравнения названий товаров
Таблица материалов
Таблица брендов