Новый взгляд анализа

СИЛА ЛИЧНОГО ПОТРЕБЛЕНИЯ

Большая семья переезжает в частный дом с готовой планировкой. В нём электрические коммуникации разведены на три части. Первый элемент представлен кухней с посудомоечной машиной, духовкой и микроволновкой.

Вторым является ванная со стиральной машиной и барабанным сушителем, также имеются холодильник и свет. В последней группе находятся электрический водонагреватель и кондиционер. Для каждой части установлен счётчик, учитывающий потребление электроэнергии и находящийся внутри дома.

За несколько лет с момента покупки жилья накопились данные о потреблении электроэнергии. За 47 месяцев собралось более 2075 тыс. записей с поминутной детализацией. Числовые значения с декабря 2006 по ноябрь 2010 годов распределены между несколькими измерениями. Ими являются общая активная мощность, общая реактивная мощность, сила и напряжение тока. Автоматические счётчики по ним находятся в закрытом уличном шкафу.

Задачей является предсказание ежедневного индивидуального потребления жильцами мощности из электрических розеток. Оно предусматривает построение прогнозной модели на основании наружной информации. Дополнительно семья предоставила сведения по домашним приборам учёта.

На первом этапе рассчитаем новое измерение. А именно найдём разность между активной мощностью и суммой величин указанных выше частей. Будем считать его индивидуальным потреблением семьи.

Проведём оценку качества данных, определим количество пропусков. Они составляют около 1,25%. Периоды отсутствия значений имеют различную продолжительность от одной минуты до целого дня. Для стабилизации колебаний сгруппируем минутные сведения по датам. Динамика за весь период ниже показана на рисунке. Представленный далее текст в стиле сторителлинг является гипотезой, основанный на этих данных.

График нестационарных исходных данных

Начиная с 16.12.2006 года производился ремонт дома для новой семьи и закончился 24.04.2007. Это показывает большой размах колебаний мощности и её максимальная величина. Они значительно превышают среднее за аналогичные месяцы последующих лет. Далее оставлена небольшая выдержка для дома.

Уже с мая в нём обосновались жильцы. В середине октября 2007 года они уезжали на регулярное недельное мероприятие. В начале декабря к ним приехали гости, совместная радость затянулась до конца новогодних праздников. Жарким в 2008 году выдался август. Большинство членов семьи уехало на длительный отдых.


В зимний сезон 2008-2009 годов снова вернулись гости. Все радовались жизни по выходным с утра до ночи. В последующий период таких торжеств не наблюдается. Ведь уже прошло два года с момента заселения. Семья стала меньше, и жизнь повернула в стабильное русло.

На втором этапе проведём очистку и трансформацию исходных данных. Удалим записи некорректных периодов в начале и конце временного массива. Они совершенно не отражают типичную динамику потребления. Это необходимо для построения качественной модели прогнозирования. Поэтому начальная граница данных сдвинулась на 04.06.2007 и конечная граница на 25.11.2010 года.

Далее используем данные с детализацией по часам каждого дня. Исходные пропуски заполним усреднёнными часовыми данными по номерам недель смежных лет. Объединим по датам сокращённые границами данные. Усредним значения с помощью окна и проведём сглаживание фильтрами. Передадим полученные результаты для обучения модели.

Использовалась нейросеть, специально подобранная для регрессии. В ней, наряду с начальными данными, ещё представляются и прогнозные для проверки модели. Все исходные данные были разделены случайным образом на 2 набора: тренировочный и проверочный в пропорции 82:18.

Данные первого были аналогично выделены на обучающее и тестовое множества в пропорции 90:10. Именно на них обучалась нейронная сеть. Минимальную ошибку в процессе показала архитектура 4x8x1.

На вход подавались значения четырёх факторов. Один скрытый слой содержит восемь нейронов, в них использовалась сигмоидная функция. Единственным выходом является величина индивидуального потребления.

В конце проведём моделирование на основе проверочного набора. На следующем рисунке можно увидеть и сравнить фактические, сглаженные и предсказательные данные. Отклонение сумм фактических и прогнозных значений за весь модельный период составило менее 0,4%.

График совмещения исходных и модельных данных