Визуализация как этап анализа данных

Берченко Дианна Андреевна
Магистрант,
Московский технологический университет (МИРЭА),
Россия, г. Москва
E-mail: dianna-dda@yandex.ru

Научный руководитель: Круг Петр Германович
д. т. н., профессор.
Кафедра «Автоматизированные системы управления»
Московский технологический университет (МИРЭА),
Россия, г. Москва

Ключевые слова: АНАЛИЗ, МЕТОДЫ ВИЗУАЛИЗАЦИИ, ЭКСПЕРТНЫЕ СИСТЕМЫ, ОБРАБОТКА ДАННЫХ.

Метод визуализации можно отнести к методам, рассчитанным на экспертные системы. Потому что, именно это метод позволяет сочетать находчивость человеческого ума, гибкость восприятия человеком «среды» и невероятные вычислительные ресурсы современных технологических решений.

Метод визуализации рассматривается как системное, основанное на правилах, динамическое и/или статическое графическое представление информации, способствующее «рождению» идей, помогающее разобраться в сложных понятиях, нацеленное на обобщение, анализ теории и опыта

То есть, основная идея методов визуализации заключается в предоставлении человеку-эксперту большой объем данных в форме, в которой будет удобно воспринимать информацию и проводить анализ.

Пользователю наиболее удобно работать с данными напрямую, рассматривать их с разных сторон и под различными углами зрения. Благодаря этому пользователь получает дополнительную информацию, которая ему помогает более четко сформулировать цели и задачи исследования, прийти к их решению. Для этих задач наиболее удобным является представление в виде визуальных образов. Полезность визуального анализа наиболее велика, если цель самого исследования не определена до конца и недостаточно информации о самих данных. Таким образом, можно сказать, что визуальный анализ данных является процессом генерации гипотез. Сгенерированные таким образом гипотезы можно проверить или автоматическими средствами используя Data Mining, или вновь прибегнуть к визуальному анализу для уточнения.

Такой подход имеет два основных преимущества:

легко работать с неоднородными и зашумленными данными, не многие автоматические средства обработки данных могут это делать;
представление данных с помощью визуальных образов интуитивно понятен и не требует сложных математических или статистических алгоритмов.

Визуальный анализ данных можно разделить на три этапа:

Беглый анализ — позволяет идентифицировать интересные шаблоны и сфокусироваться на одном или нескольких из них;
Увеличение и фильтрация — идентифицированные на предыдущем этапе шаблоны отфильтровываются в большом масштабе;
Детализация по необходимости — если пользователю нужно получить дополнительную информацию, он может визуализировать более детальные данные.

На самом деле исследователь сам решает на каком этапе он получает достаточное количество знаний и на каком уровне детализации он может остановиться.

Выделяют следующие виды данных, с которыми могут работать средства визуализации:

Одномерные данные;
Двумерные данные;
Многомерные данные(в состав многомерных данных можно включить и двумерные);
Тексты и гипертексты;
Иерархические и связанные структуры;
Алгоритмы и программы.

Для визуализации перечисленных типов данных используются различные визуальные образы и методы их создания.

Методы визуализации можно разделить на следующие типы:

Стандартные 2D/3D-образы — гистограммы, линейные графики и т.п.;
Геометрические преобразования — диаграмма разброса данных и т.п.;
Отображение иконок — линейчатые фигуры и звезды;
Методы, ориентированные на пиксели — рекурсивные шаблоны и т.п.;
Иерархические образы — наложение измерений и древовидные карты.

Графики, гистограммы, диаграммы, и т.п. — самые простые методы визуализации. Основной недостаток этого метода — невозможность легко воспринимаемой визуализации сложных данных и данных в большом количестве.

Методы геометрического преобразования направлены н трансформацию многомерных наборов данных с целью отображения их геометрических пространствах в декартовом и в недекартовом.

Другим классом визуализации данных являются методы отображения иконок. Их основной идеей является отображение значений элементов многомерных данных в свойства образов, которые могут представлять собой: человеческие лица, стрелки, звезды и т.д. Визуализация генерируется отображением атрибутов элементов данных в свойства образов. Такие образы можно группировать для целостного анализа данных. Результирующая визуализация представляет собой шаблон текстур, которые имеют различия, соответствующие характеристикам данных.

Основной идеей методов, ориентированных на пиксели, является отображение каждого измерения значения в цветной пиксель и из группировки по принадлежности к измерению. Так как один пиксель используется для отображения одного значения, то, следовательно, данный метод позволяет визуализировать большое количество данных (свыше одного миллиона значений).

Методы иерархических образов предназначены для представления данных, имеющих иерархическую структуру. В случае многомерных данных должны быть правильно выбраны измерения, которые используются для построения иерархии.

Эти методы можно сравнить по основным параметрам (Таблица 1): типу данных, к которым тот или иной метод можно применить и возможность применения этого метода для обработки больших данных.

Метод визуализации	Обрабатываемые данные					Обработка больших данных
Метод визуализации	Одномерные	Многомерные	Тексты /гипертексты	Иерархические и связанные структуры	Алгоритмы и программы	Обработка больших данных
Стандартные 2D/3D-образы	+	_	_	_	_	_
Геометрические преобразования	+	+	_	_	+	+
Отображение иконок	_	+	+	_	_	+
Методы, ориентированные на пиксели	+	+	+	+	+	+
Иерархические образы	_	+	_	+	_	_

Таблица 1 — Сравнение методов визуализации

Нельзя однозначно выделить один наилучший и универсальный метод визуализации данных, так как каждый метод предназначен для своих целей, и только исследователь может самостоятельно выбрать метод, подходящий для решения его задач.

Ни один метод визуализации, конечно, не совершенен, как и не совершенен сам по себе ни один другой метод анализа данных. Но у исследователя всегда есть возможность совместить различные способы обработки и анализа данных, чтобы получить максимальные знания — экспертизу. Так же важно помнить, что новая информация — дает толчок к развитию технологий, а новые технологии — помогают улучшить качество получаемых из информации знаний.

Список используемых источников

Feldman R., Sanger J. The Text Mining Handbook, Cambr >

источник

По данным университета Беркли ежегодный прирост информации в мире составляет 1 миллион терабайт (1 экзобайт).
Причём большая часть информации представлена в цифровом виде. Это означает, что за последующие три года прирост информации превысит объём информации, накопленный за всю историю человечества до этого момента.

Откуда же берётся такое большое число данных?

Различные электронные датчики постоянно регистрируют такие процессы как использование кредитной карты, разговор по телефону и т.п. Причём многие данные сохраняются с большой степенью детализации. Делается это потому, что для людей представляет ценность эта информация. Она может содержать в себе скрытые знания, закономерности и потому, при соответствующем анализе, способна оказать влияние при принятии решений в различных областях человеческой деятельности.

Существует множество способов поиска скрытых закономерностей в данных машиной, алгоритмами, но также не стоит упускать из вида возможности человека по анализу данных. Полезно сочетать огромные вычислительные ресурсы современных компьютеров с творческим и гибким человеческим мышлением. Визуальный анализ данных призван вовлечь человека в процесс отыскания знаний в данных. Основная идея заключается в том, чтобы представить большие объёмы данных в такой форме, где человек мог бы увидеть то, что трудно выделить алгоритмически. Чтобы человек смог погрузиться в данные, работать с их визуальным представлением, понять их суть, сделать выводы и напрямую взаимодействовать с данными. Из-за сложности информации это не всегда возможно и в простейших графических видах представления знаний, таких как деревья решений, дейтаграммы, двумерные графики и т.п.

В связи с этим возникает необходимость в более сложных средствах отображения информации и результатов анализа. С помощью новых технологий пользователи способны оценивать: большие объекты и маленькие, далеко они находятся или близко. Пользователь в реальном времени может двигаться вокруг объектов или кластеров объектов и рассматривать их со всех сторон.
Это позволяет использовать для анализа естественные человеческие перцепционные навыки в обнаружении неопределённых образцов в визуальном трёхмерном представлении данных.

Визуальный анализ данных особенно полезен, когда о самих данных мало что известно и цели исследования до конца не понятны.
За счёт того, что пользователь напрямую работает с данными, представленными в виде визуальных образов, которые он может рассматривать с разных сторон и под любыми углами зрения, в прямом смысле этого слова, он может получить дополнительную информацию, которая поможет ему более чётко сформулировать цели исследования.

Таким образом, визуальный анализ данных можно представить как процесс генерации гипотез. При этом сгенерированные гипотезы можно проверить или автоматическими средствами (методами статистического анализа или методами Data Mining), или средствами визуального анализа.
Кроме того, прямое вовлечение пользователя в визуальный анализ имеет два основных преимущества перед автоматическими методами:

визуальный анализ данных позволяет легко работать с неоднородными и зашумлёнными данными, в то время как не все автоматические методы могут работать с такими данными и давать удовлетворительные результаты;
визуальный анализ данных интуитивно понятен и не требует сложных математических или статистических алгоритмов.

Визуальный анализ данных обычно выполняется в три этапа:

беглый анализ — позволяет идентифицировать интересные шаблоны и сфокусироваться на одном или нескольких из них;
увеличение и фильтрация — идентифицированные на предыдущем этапе шаблоны отфильтровываются и рассматриваются в большем масштабе;
детализация по необходимости — если пользователю нужно получить дополнительную информацию, он может визуализировать более детальные данные.

Существует достаточно большое количество средств визуализации данных, предоставляющих различные возможности.
Для выбора таких средств рассмотрим более подробно три основные характеристики средств визуализации данных:

характер данных, которые нужно визуализировать с помощью данного средства;
методы визуализации и образцы, в виде которых могут быть представлены данные;
возможности взаимодействия с визуальными образами и методами для лучшего анализа данных.

Выделяют следующие виды данных, с которыми могут работать средства визуализации:

одномерные данные — одномерные массивы, временные ряды и т.п.;
двумерные данные — точки двумерных графиков, географические координаты и т.п.;
многомерные данные — финансовые показатели, результаты экспериментов и т.п.;
тексты и гипертексты — газетные статьи, веб-документы и т.п.;
иерархические и связанные — структура подчинённости в организации, электронная переписка людей, гиперссылки документов и т.п.;
алгоритмы и программы — информационные потоки, отладочные операции и т.п.

Для визуализации перечисленных типов данных используются различные визуальные образы и методы их создания.
Очевидно, что количество визуальных образов, которыми могут представляться данные, ограничиваются только человеческой фантазией. Основное требование к ним — это наглядность и удобство анализа данных, которые они представляют. Методы визуализации могут быть как самые простые (линейные графики, диаграммы, гистограммы и т.п.), так и более сложные, основанные на сложном математическом аппарате. Кроме того, при визуализации могут использоваться комбинации различных методов. Выделяют следующие типы методов визуализации:

стандартные 2D/3D-образы — гистограммы, линейные графики и т.п.;
геометрические преобразования — диаграмма разброса данных, параллельные координаты и т.п.;
отображение иконок — линейчатые фигуры (needle icons) и звёзды (star icons);
методы, ориентированные на пикселы — рекурсивные шаблоны, циклические сегменты и т.п.;
иерархические образы — древовидные карты и наложение измерений.

К простейшим методам визуализации относятся графики, диаграммы, гистограммы и т.п. Основным их недостатком является невозможность приемлемой визуализации сложных данных и большого количества данных.
Методы геометрических преобразований визуальных образов направлены на трансформацию многомерных наборов данных с целью отображения их в декартовом и в недекартовом геометрических пространствах. Данный класс методов включает в себя математический аппарат статистики.
Другим классом методов визуализации данных являются методы отображения иконок. Их основной идеей является отображение значений элементов многомерных данных в свойства образов. такие образы могут представлять собой: человеческие лица, стрелки, звёзды и т.п. Визуализация генерируется отображением атрибутов элементов данных в свойства образов. Такие образы можно группировать для целостного анализа данных. Результирующая визуализация представляет собой шаблоны текстур, которые имеют различия, соответствующие характеристикам данных.
Основной идеей методов, ориентированных на пикселы, является отображение каждого измерения значения в цветной пиксел и из группировка по по принадлежности к измерению. Так как один пиксел используется для отображения одного значения, то, следовательно, данный метод позволяет визуализировать большое количество данных (свыше одного миллиона значений).
Методы иерархических образов предназначены для представления данных, имеющих иерархическую структуру. В случае многомерных данных должны быть правильно выбраны измерения, которые используются для построения иерархии.

К методам геометрических преобразований относятся:

Матрица диаграмм разброса;
параллельные координаты;
Методы, ориентированные на пикселы
Рекурсивные шаблоны;
циклические сегменты;
Иерархические образы
Наложение измерений.

В результате применения методов визуализации будут построены визуальные образы, отражающие данные. Однако этого не всегда бывает достаточно для полного анализа. Пользователь должен иметь возможность работать с образами: видеть их с разных сторон, в разном масштабе и т.п. Для этого у него должны быть соответствующие возможности взаимодействия с образами:

динамическое проецирование;
интерактивная фильтрация;
масштабирование образов;
интерактивное искажение;
интерактивное комбинирование.

Основная идея динамического проецирования заключается в динамическом изменении проекций при проведении исследования многомерных наборов данных. Примером может служить проецирование в двумерную плоскость всех интересующих проекций многомерных данных в виде диаграмм разброса (scatter plots). Необходимо обратить внимание, что количество возможных проекций экспоненциально увеличивается с ростом числа измерений, и, следовательно, при большом количестве измерений проекции будут тяжело воспринимаемы.
При исследовании большого количества данных важно иметь возможность разделять наборы данных и выделять интересующие поднаборы — фильтровать образы. при этом важно, чтобы данная возможность предоставлялась в режиме реального времени работы с визуальными образами (т.е. интерактивно). Выбор поднабора может осуществляться или напрямую из списка, или с помощью определения свойств интересующего поднабора.
Примером масштабирования образов является «магическая линза» (Magic Lenses). Её основная идея состоит в использовании инструмента, похожего на увеличительное стекло, чтобы выполнять фильтрацию непосредственно при визуализации. Данные, попадающие под увеличительное стекло, обрабатываются фильтром, и результат отображается отдельно от основных данных. Линза показывает модифицированное изображение выбранного региона, тогда как остальные визуализированные данные не детализируются.

Масштабирование — это хорошо известный метод взаимодействия, используемый во многих приложениях. При работе с большим объёмом данных этот метод хорош тем для представления данных в общем сжатом виде, и, в то же время, он предоставляет возможность отображения любой их части в более детальном виде. Масштабирование может заключаться не только в простом увеличении объектов, но в изменении их представления на разных уровнях. Так, например, на нижнем уровне объект может быть представлен пикселом, на более высоком уровне — неким визуальным образом, а на следующем — текстовой меткой.
Метод интерактивного искажения поддерживает процесс исследования данных с помощью искажения масштаба данных при частичной детализации. Основная идея этого метода заключается в том, что часть данных отображается с высокой степенью детализации, а одновременно с этим остальные данные показываются с низким уровнем детализации. Наиболее популярные методы — это гиперболическиое и сферическое искажения.

Существует достаточно много методов визуализации, но все они имеют как достоинства, так и недостатки. Основная идея комбинирования заключается в объединении различных методов визуализации для преодоления недостатков одного из них. Различные проекции рассеивания точек, например, могут быть скомбинированы с методами окрашивания и компоновки точек во всех проекциях.

Любое средство визуализации может быть классифицировано по всем трём параметрам, т.е. по виду данных, с которым оно работает, по визуальным образам, которые оно может предоставлять, и по возможностям взаимодействия с этими визуальными образами. Очевидно, что одно средство визуализации может поддерживать разные виды данных, разные визуальные образы и разные способы взаимодействия с образами.

источник

Когда стандартные таблицы в Excel не раскрывают полную картину и нет возможности привлечь к созданию отчетов аналитиков, на помощь приходят сервисы и инструменты для визуализации данных.

В этой статье мы расскажем, зачем визуализировать данные и как правильно это делать, какие инструменты можно использовать для создания интерактивных дашбордов без помощи разработчиков и как выбрать тот, который подойдет именно вам.

Если вы хотите, чтобы ваш пост в Facebook прочитало как можно больше людей, что вы сделаете? Правильно, добавите интересную картинку или фото. Этот прием прекрасно работает и с отчетами. Информация в графическом виде привлекает больше внимания, легче воспринимается и помогает быстрее донести до аудитории ваше сообщение. С помощью наглядных графиков и дашбордов можно сделать понятными даже сложные наборы данных.

Почему так происходит? Потому что большинство людей в мире — визуалы. И если вы хотите, чтобы большая часть ваших партнеров, коллег или клиентов могли взаимодействовать с вашими данными, нужно превратить скучные таблицы в красивые и динамичные графики.

Вот несколько интересных цифр, полученных в результате различных исследований, которые подтверждают важность визуализации:

90% информации об окружающей среде человек получает с помощью глаз.
50% нейронов мозга участвуют в обработке визуальной информации.
Наличие картинок на 80% повышает желание прочесть текст.
Человек запоминает 10% того, что услышал, 20% того, что прочитал, и 80% того, что увидел.
Если в инструкции к лекарству нет иллюстраций, человек усвоит 70% информации. Если добавить туда картинки, то цифра увеличится до 95%.

Если список показался вам скучным, есть инфографика, которая описывает эти же факты, но в более веселом и наглядном формате 😉

Грамотная визуализация данных принесет вашему бизнесу ряд преимуществ:

Скорость принятия решений. Проще и быстрее сделать вывод, глядя на график, где один из столбцов или одна из точек взаимодействия находится намного выше всех остальных, чем пролистать несколько страниц статистики в Google Sheets либо Excel.
Больше привлеченной аудитории. Как мы уже говорили, большинство людей лучше воспринимает и запоминает зрительную информацию.
Высокая вовлеченность читателей. Красивый яркий график с понятным посылом привлечет к себе внимание ваших читателей.
Лучшее понимание данных. Идеальные отчеты понятны не только технических специалистам, аналитикам и Data Scientists, но и маркетинг-директору или SEO и позволяют каждому сотруднику принимать решения в своей зоне ответственности.

Первое, что нужно сделать перед созданием графика — проверить данные на точность и корректность. К примеру, если у вас коэффициент конверсии где-то равен 300%, а в среднем он обычно составляет 50-70%, проверьте, откуда взялось такое число. Возможно, это было поле total и у вас суммировались все данные. Возможно, это какой-то выброс, который нужно удалить с визуализации, иначе этот скачок поломает всю картину — 300% нивелируют разницу между 50% и 70%. Из-за такого выброса в отчете вы можете ошибиться и принять неверное решение.

В обычной жизни мы привыкли к тому, что правильное сообщение нужно донести до правильного человека в правильное время. При визуализации данных есть три похожих правила:

Нужно выбрать правильный график в зависимости от того, какая у вас цель.
Убедиться, что посыл вашего графика подходит аудитории.
Оформить график в правильном дизайне.

Если вы сделали своевременное сообщение, но график не отображает динамику, у него неправильный посыл либо сложный дизайн, то результата, на который вы рассчитывали, не получится.

Если график выбран неудачно, человек, который его смотрит, может запутаться либо ошибочно интерпретировать данные. Поэтому перед созданием отчета важно определиться, какие данные вы хотите визуализировать и с какой целью:

Сравнить разные показатели.
Показать распределение данных. Например, какие показатели встречаются чаще, а какие реже.
Показать структуру чего-либо с помощью данных.
Проследить взаимосвязь между показателями.

Давайте рассмотрим самые популярные виды графиков и разберемся, для каких целей они подходят.

1. Линейный график (Line Chart)

Линейный график отображает динамику по одному или нескольким показателям. Его удобно использовать, чтобы сравнить, как меняются со временем разные наборы данных. Например, посмотреть статистику посещений трех посадочных страниц.

2. Столбиковая диаграмма (Bar Chart)

Еще одна диаграмма, которая идеально подходит для сравнения нескольких наборов данных. Горизонтальные столбиковые диаграммы обычно используют, когда нужно сравнить большое количество показателей или визуально выделить явное превосходство одного из них. А вертикальные столбцы хорошо иллюстрируют, как менялись показатели в разные периоды, например, ежегодная прибыль компании за несколько лет.

Гистограмму часто путают со столбиковой диаграммой из-за визуального сходства, но все же у этих графиков разные цели. Гистограмма показывает, как распределяются данные в рамках непрерывного интервала или определенного периода времени. На вертикальной оси этого графика находится частотность, а на горизонтальной — интервалы или временной период.

Столбиковая диаграмма в отличие от гистограммы, не связана с непрерывным интервалом — здесь каждый столбик означает отдельную категорию. Например, показать количество покупок в разные годы удобнее с помощью столбиковой диаграммы. Если же вы хотите узнать, в пределах какой суммы (от $10 — $100, $101 — $200, 201 — 300 и т.д.) совершается больше всего покупок, лучше выбрать гистограмму.

4. Круговая диаграмма (Pie Chart)

Круговая диаграмма показывает долю каждого значения внутри множества. Её используют, чтобы показать структуру какого-нибудь набора данных — из чего он состоит. Например, какой процент от общих продаж приносит каждая категория товаров.

5. График рассеяния или точечная диаграмма (Scatterplot)

График рассеяния помогает найти взаимосвязь между двумя показателями. Например, с его помощью можно узнать, как меняется коэффициент конверсии в зависимости от размера скидки на товар.

6. Пузырьковая диаграмма (Bubble Chart)

Интересный график, который позволяет сравнить два параметра по третьему. Возьмем коэффициент конверсии и размер скидки из предыдущего примера, добавим к ним доход (за который отвечает размер круга) и получим примерно такую диаграмму.

Глядя на этот график, легко заметить, что самая высокая конверсия у товаров со скидкой 30%, однако больше всего дохода приносят товары без скидки и товары со скидкой 5%.

8. Географическая диаграмма (Geo Chart)

С географической диаграммой все просто — ее используют, когда хотят увидеть, распределение определенного показателя по регионам, странам, материкам.

Мы перечислили одни из самых популярных диаграмм, но далеко не все. Посмотреть остальные типы графиков вы можете в «Каталоге визуализации данных». Также рекомендуем вам удобную схему, которая поможет правильно выбрать график, подходящий для ваших целей.

Второй важный момент, который необходимо учитывать при визуализации данных — это правильный месседж и выбор аудитории. Вашим читателям должны быть близки и понятны данные, о которых вы хотите рассказать в отчете.

Перед вами график, который в 2016 году был отмечен престижной премией Data Journalism Award. Для человека, незнакомого с предысторией, график выглядит, как рисунок трехлетнего ребенка. Однако, стоит узнать о нем чуть больше — и становится понятно, что его авторы проделали огромную работу.

Чарльз Сейф и Питер Олхоуз, редакторы Buzzfeed News, с помощью языка R визуализировали данные о полетах, которые совершают агенты FBI и DHS для воздушного наблюдения. Конкретно на этом графике изображены полеты над домом и мечетью преступников, которые устроили стрельбу в Сан-Бернардино в декабре 2015 года.

При выборе параметров, которые вы хотите визуализировать на одном графике, нужно убедиться, что их действительно можно сочетать. Бывает так, что связь данных, которые на первый взгляд идеально коррелируют друг с другом, совершенно лишена логики. Вот пример такого графика с ошибочной корреляцией. Он показывает, что число утонувших в бассейне тесно связано с количеством фильмов, в которых снимался Николас Кейдж.

Следующие вещи, на которые стоит обратить внимание при создании графика — это правильные шкала и масштаб. Люди привыкли, что отсчет на осях координат начинается снизу вверх и слева направо. Если вы измените порядок отсчета, это может ввести в заблуждение не внимательную аудиторию. Стоит оговориться, что обратная шкала допустима, если вы используете ее в качестве тактического приема, как в этом примере:

При первом взгляде на этот график может показаться, что количество убийств с применением огнестрельного оружия с годами падает. На самом деле все наоборот, так как отсчет на шкале идет сверху вниз. Вероятно, автор графика сделал это специально, чтобы снизить негативное впечатление от данных, представленных в отчете.

Правильно подобранный масштаб также сделает ваш график более наглядным и понятным. Если в отчете показаны очень близкие между собой показатели и в классическом масштабе вы не видите динамику и разницу, попробуйте изменить масштаб. Начните отсчет не с нуля, разбейте шкалу на более мелкие единицы — и картина сразу прояснится.

Прежде, чем отдать отчет конечным пользователям, позаботьтесь о том, чтобы график работал быстро. Медленная работа убьет все ваши труды. К примеру, если вы визуализируете данные в Google Sheets, скорее всего, параметры хранятся на этом же листе или на соседнем и не подтягиваются из третьего источника. Если же вы делаете отчет в Data Studio, то данные вы будете откуда-то импортировать. В таком случае нужно позаботиться о доступности этого ресурса и о скорости передачи данных. Иначе вы увидите некрасивую картинку, когда макеты графиков есть, а данные не подгрузились.

В дизайне ваших диаграмм всегда придерживайтесь принципа простоты. Если вам нужно подготовить какой-нибудь стандартный отчет, не стоит изобретать велосипед или заниматься «украшательством». Избегайте лишних элементов, которые только засоряют график: обилие разных цветов и структур, 3D-объем, тени, градиент и т.д.

Поверьте, чем проще график, тем лучше воспринимается информация, которую вы хотели донести.

Не делайте визуализацию слишком мелкой, не накладывайте все графики на одну страницу дашборда. Использовать на одном слайде либо на одной странице дашборда более трех видов графиков считается дурным тоном. Если вам действительно нужно столько типов графиков, разместите их на разных страницах — так их будет легче воспринимать.

Не бойтесь экспериментировать. Если у вас нетипичная задача, вполне возможно, что решение тоже будет нетипичным. На инфографике ниже мы видим траекторию движения крыльев разных животных. Здесь динамическая визуализация вполне уместна.

Давайте разберемся, какие есть инструменты для визуализации данных и как выбрать тот, который подойдет вам.

Сейчас на рынке есть очень много инструментов для визуализации. Некоторые из них платные, некоторые нет. Одни работают в онлайне, другие можно установить на десктоп и работать в онлайне, а третьи только офлайновые. Мы сделали список из 10 инструментов, которые чаще остальных встречаются вместе со словами «визуализация данных»:

До пятого пункта — это инструменты и сервисы крупных корпораций, которые специализируются на визуализации данных. После шестой строчки мы разместили достаточно интересные инструменты, преимущественно бесплатные и онлайновые. В них можно увидеть нестандартные виды визуализации и, возможно, найти новый подход к вашим данным.

Чем руководствоваться при выборе инструмента для создания отчетов?

Отталкивайтесь от тех задач, которые вы хотите решить. К примеру, сейчас основной тренд на рынке — это возможность смотреть отчеты в динамике. Если инструмент не умеет работать с динамическими отчетами, это может сыграть не в его пользу.
Учитывайте сумму, которую вы готовы за это заплатить. Если у вас достаточно большая команда и каждый сотрудник должен работать с инструментом визуализации, то стоимость подписки на одного человека может стать стоп-фактором.
Продумайте, кто и как будет пользоваться инструментом: динамически или нет, возможно ли групповое редактирование. Насколько легко начать работу, понятный ли интерфейс. Есть ли возможность создать отчет без знания языков программирования. К примеру, R Studio — классный сервис особенно для поиска трендов, построения модели атрибуции, модели корреляции. Однако, если вы не знаете язык программирования, не умеете подключать специфические библиотеки, то есть не являетесь техническим специалистом, вам будет сложно начать работу с этим инструментом.

Мы выбрали пятерку сервисов и подготовили сравнительную таблицу с плюсами, минусами и основными характеристиками. Прежде чем к ней перейти, поясним чем отличаются строчки «Динамика в отображении данных» и «Динамические отчеты».

Под динамическими отчетами мы имели в виду способность подгружать данные из различных источников на лету. Например, у Google Data Studio нет динамического отчета. Допустим, мы подключили к Data Studio запрос из Google BigQuery, а затем в запросе что-то поменяли. Чтобы эти изменения отразились в отчете, нужно как минимум обновить страницу в Data Studio. Однако, если мы в Google BigQuery добавили или удалили какое-то поле (не просто поменяли логику расчета, а изменили структуру таблицы) то Data Studio закроет отчет с ошибкой. Его придется переделывать.

Динамика в отображении данных — это возможность, к примеру, посмотреть в рамках одного сеанса сводную статистику за разные даты. Как в Google Analytics: вы меняете временной интервал, и у вас подгружается статистика за нужные даты.

Мы хотим подробнее остановится на трех инструментах, которые активно используем в OWOX BI. Это Google Data Studio, Google Sheets и OWOX BI Smart Data.

Data Studio позволяет подключать свои источники, визуализировать данные и, что самое удобное, легко делиться отчетами с коллегами, по аналогии с остальными продуктами Google.

Бесплатно.
Более 150 коннекторов, просто интегрируется.
Можно использовать данные из нескольких источников на одном дашборде.
Удобно делиться отчетами.

Это бесплатный инструмент, у которого очень много коннекторов. 17 нативных, которые предоставляет Google. Они проверены, работают хорошо и в целом для основных задач их достаточно. И есть коннекторы, которые предоставляют партнеры. Однако, нужно понимать, что писать коннекторы могут разработчики с разным уровнем знаний и не факт, что они все будут работать корректно.

Кстати, если вы хотите видеть в отчетах Data Studio статистику из Facebook или Яндекс.Директ, вы можете импортировать данные в Google BigQuery с помощью OWOX BI. При этом, если в других коннекторах какая-то часть аналитики может быть не учтена, то в BigQuery выгружается полная аналитика из вашего FB-аккаунта.

В Google Data Studio есть удобная галерея с готовыми шаблонами, которые вы можете использовать для своих отчетов.

У нас тоже есть готовые шаблоны дашбордов, которыми мы готовы поделиться. Первый — это Marketing Attribution Dashboard. На нем собраны все необходимые параметры и показатели, которые маркетологи и аналитики используются на постоянной основе.

Второй дашборд Digital Marketing Paid Channels KPI — на нем подробнее отображается информация в разрезе конкретных источников. То есть отфильтрованы данные по Facebook, Вконтакте и т.д.

Это demo-дашборды. Вы можете скопировать их, изменить источник данных на свой и использовать отчеты в вашей работе.

Одно из недавних обновлений Data Studio — возможность фильтровать данные по представлению (View). Например, чтобы сравнить показатели за текущий период и предыдущий год. Как это делать, мы наглядно показали в практической части вебинара «Сравнение инструментов для построения отчетов». Вы можете получить запись и презентацию вебинара, заполнив небольшую форму.

Еще одно интересное обновление в Data Studio — возможность менять тип графика уже в интерфейсе после того, как он построен. Раньше, когда вы создавали график, его нужно было удалить и создать новый. Сейчас можно поменять стиль графика непосредственно в интерфейсе.

Самый популярный инструмент для отчетов, которым хоть раз пользовался любой маркетолог. Интерфейс у Google Sheets довольно простой и понятный особенно для тех, кто начинал работать с аналитикой в Excel.

Бесплатный.
Гибкий: можно использовать динамические параметры, сводные таблицы и т.д.
Легко интегрируется с вашими источниками данных.
Удобно делиться отчетами при помощи ссылки.

Набор графиков и отчетов, которые есть в Google Sheets, аналогичен набору отчетов в Google Data Studio.

Также есть возможность управлять цветом и выбирать форматирование ячеек:

Наверное, самое главное преимущество Google Sheets — это сводные таблицы. Недавно в Google Data Studio вышло обновление, которое позволяет выводить в одной сводной таблице более 3 полей и порядка 10 столбцов. Это значительно упростило жизнь аналитиков, которые используют сервис, но все-таки возможности Data Studio не безграничны и в Google Sheets работать со сводными таблицами по-прежнему удобнее.

У Google Sheets есть бесплатный аддон, который позволяет загружать данные напрямую из Google Analytics и строить отчеты уже на агрегированных данных. Также вы можете обращаться запросами к данным GA. На этой гифке видно, как импортировать данные, какие параметры и метрики можно задавать.

Хотим поделиться нашим любимым примером отчета в Google Sheets — когортным анализом.

По ссылке доступен шаблон этого отчета. Вы можете посмотреть там инструкцию и формулы, которые мы использовали. Цветом выделены поля, которые необходимо заполнить и те поля, которые сами обновятся с помощью формул. Очень много расчетных показателей, но это очень сложный и трудоемкий отчет. Надеемся, что вам этот шаблон будет вам полезен. Кроме того, вы можете почитать статью «Когортный анализ в Google Analytics и Google Sheets», в которой мы приводим очень подробные инструкции. Также мы провели вебинар по когортному анализу.

С OWOX BI Smart Data вам не понадобится знание SQL-синтаксиса. Достаточно задать вопрос на русском или английском языке, так как вы это делаете в жизни. Сервис сам обработает запрос, переведет его на технический язык и выдаст красивую картинку и таблицу с ответом на ваш вопрос.

Не нужна специальная техническая подготовка.
Быстрые ответы на вопросы.
Дружественный интерфейс.
Доступно 2 языка: русский и английский.

У нас довольно подробно расписана справка, где можно узнать детальнее о каждом типе отчетов, которые можно создавать в Smart Data.

Действия пользователей на вашем сайте:

Расходы на рекламные кампании:

После того, как данные собраны, можно задавать вопросы. Мы добавляем в OWOX BI Smart Data все отчеты, которые необходимы нашим клиентам и группируем их в тематические блоки, чтобы было удобнее находить нужный отчет. У нас есть блоки с ROPO-отчетами, отчетами по атрибуции, по CPA-партнерам, отчеты с данными из CRM и многие другие.

Все параметры и метрики в вопросах, выделенные квадратными скобками, можно легко менять. Вы можете кликнуть на метрику или параметр и из выпадающего списка выбрать то, что вам интересно.

Вопросы к вашим онлайн-данным:

Как изменялась [метрика] по [параметру] за [период]?
Как [метрика] зависела от [параметра]?
Как [метрика] распределена по [параметру]?
Сколько [метрика] было на сайте?

Какая реальная ценность рекламных каналов, кампаний и ключевых слов?
Какими были основные показатели эффективности рекламных кампаний: ROAS, ROI, ДРР по модели Funnel Based?
Как распределялась ценность конверсий (например, регистраций) по каналам и кампаниям?
Какие источники имеют бОльшую или мЕньшую ценность по сравнению с моделью Last Non-direct.
Какие кампании и ключевые слова лучше всего привлекают новых пользователей?
Какие каналы и кампании лучше всего работают на каждом из шагов воронки?
Какие цепочки последовательностей источников и каналов приводят к транзакциям?

Вопросы к данным на стыке CRM + онлайн:

Как исполняемость заказов зависела от кампании?
Как изменялась валовая прибыль по группам каналов по дням?
Как количество пользователей из CRM и количество заказов в CRM зависело от города?
Как ROAS по валовой прибыли зависел от источника и канала?
Как количество заказов в CRM зависело от типа оплаты и типа доставки?
Как конверсия и среднее время доставки зависели от города?
Как количество заказов в CRM и количество пользователей из CRM зависело от магазина?

В нашей справке вы можете ознакомиться с полной структурой данных для выгрузки из CRM.

Вопросы о CPA-кампаниях помогут:

Обнаружить подмену источника трафика.
Обнаружить покупку рекламы на брендовые запросы.
Определить, какому партнеру платить за действие при пересечении транзакций.
Определить качество сессий, генерируемых CPA-партнерами.

Узнать больше об отчетах по CPA-кампаниям вы можете в нашей статье «Примеры нечестной игры в CPA-маркетинге» или в этом видео.

Вопросы о ROPO (Research Online — Purchase Offline) помогут:

Рассчитать влияние онлайн-рекламы на офлайн-покупки.
Понять реальное конверсионное окно ROPO-покупок, а также отследить зависимость ценности транзакции и количества дней, которое необходимо пользователю для принятия решения о покупке.
Узнать, как покупатели, транзакции и доход распределены по дням до совершения офлайн-покупки.
Узнать, сколько дней необходимо пользователю для принятия решения о наиболее ценной покупке.

Также мы собрали небольшой блок с частыми вопросам, которые задают пользователи OWOX BI Smart Data. Как построить запрос, какая у него должна быть структура. Как проверить есть ли параметры или метрики, которые вы хотите увидеть и т.д.

Сколько метрик по параметрам можно выбрать за один раз?

Отчет в Smart Data не ограничивает вас в количестве метрик, которые вы можете использовать. Однако при большом количества метрик, строить визуализацию будет удобнее в Google Data Studio.
Со списком всех доступных метрик и параметров можно ознакомиться в справке.

Как построить запрос, какая должна быть структура?

Примеры и структуру вопросов можно найти в нашей справке:

Точно ли эти графики показывают корректные значения?

Отчеты в Smart Data основаны на ваших полных данных и готовых SQL-запросах, которые вы можете скопировать и проверить в вашем проекте Google BigQuery.

Напоследок хотим поделиться полезными книгами и ссылками про визуализацию данных, которые нам понравились:

источник

Интерпретация полученных в диагностике данных — самоценный и особенно спорный этап. Это связано с трудностями при отборе и обосновании критериев оценки, выборе методик статистической обработки данных, учете личностной обусловленности оценок.

В связи с этим требуется отдельное рассмотрение вопроса интерпретации диагностических данных. Первый шаг на этом пути — визуализация полученных данных, их графическое представление.

Визуализация данных исследования.Нередко в научной работе графическое представление данных исследования позволяет обойтись в их анализе без трудоемкой и длительной статистической обработки. Выводы при этом представляются лаконичными и универсальными для понимания. К основным способам визуализации данных относятся таблицы, рисунки, фотографии, схемы, графы, диаграммы, графики.

Таблица — это такой способ представления данных, когда цифровой или текстовый материал распределяется по столбцам (колонкам, графам) и строкам. Таблицы используются для приведения данных в определенную систему, когда требуется их сопоставление. При этом, как правило, в каждой строке помещаются данные об одном испытуемом (или случае), а по столбцам — значения переменных (параметров, факторов).

Аналитические таблицы представляют собой результат обработки и анализа показателей. Обычно на их основе делают обобщающий вывод, в котором устанавливается и формулируется определенная закономерность. В неаналитических таблицах приводятся необработанные диагностические данные, на основании которых не делается никаких выводов. Это информативный и иллюстративный материал.

В таблицах необходимо представить данные для последующей их обработки в табличном процессоре Ехсе1 или других компьютерных программах обработки данных.

В состав таблицы входят порядковый номер и тематический заголовок (название), боковик (перечень параметров, размещаемых по горизонтали), заголовки столбцов (головки) и сами строки и столбцы (горизонтальные и вертикальные графы). Образец оформления таблицы представлен на рис. 9.

Название таблицы

Головка	Заголовок столбцов	Заголовок столбцов
Подзаголовок столбца	Подзаголовок столбца	Подзаголовок столбца	Подзаголовок столбца
Боковик	Столбцы

Рис. 9. Образец оформления таблицы

Поскольку таблицы часто используют для различного рода отчетности (в том числе для отчетов по итогам диагностики), сформулируем основные требования к оформлению таблицы.

1. Название таблицы, заголовки столбцов в ней должны быть максимально краткими и точно отражать ее содержание. В заголовках столбцов не повторяются общее название таблицы или названия ее отдельных частей. Единицы измерения параметров вносят в название таблицы или столбцы.

2. Боковик таблицы также должен быть предельно лаконичным, повторяющиеся слова нужно выносить в объединяющие рубрики, общие для всех заголовков слова помещают в заголовок над боковиком. В конце заголовков знаки препинания не ставятся.

3. Основные заголовки внутри таблицы пишутся с прописной буквы, подчиненные — со строчной, если образуют единое целое предложение с основным заголовком, или с прописной, если имеют самостоятельное значение. Параметры по столбцам называются в единственном числе («Фамилия, имя учащегося» или «Оценка»).

4. Все таблицы должны иметь сквозную нумерацию арабскими цифрами. Над правым верхним углом таблицы помещается надпись «Таблица» с указанием порядкового номера (например, «Таблица 7». Знак номера и точка после цифры не ставятся. Если в тексте имеется только одна таблица, то она не нумеруется и слово «таблица» не пишется. •’

5. При переносе таблицы на следующую страницу головка таблицы воспроизводится, а над ней помещается надпись «Продолжение таблицы 7». Если головка громоздкая, то столбцы нумеруются и на следующих страницах повторяется их нумерация. Заголовок таблицы не воспроизводится.

6. Шрифт текста таблицы, как правило, меньше шрифта основного текста на 2 пункта (пт), а шрифт головки — на 2 пт меньше шрифта текста таблицы. При оформлении головки используется только прямое светлое начертание шрифта, текст располагается по центру столбца. Для названия таблицы используют формулировки, имеющиеся в основном тексте или в заголовках его частей, но полужирного начертания.

Использование таблиц целесообразно в случае большого массива текстовых и цифровых данных, которые нуждаются в классификации и наглядном сопоставлении.

Рисунки используются для иллюстрации идей, положений, выводов, воссоздания образов. Они (в отличие от таблиц) подписываются внизу: «Рис.2. Название рисунка или фотографии». В подпись часто входит экспликация: детали иллюстрации нумеруются, а в подписи они поясняются текстом. При этом применяется шрифт на 2 пт меньше шрифта основного текста, подпись располагается по центру иллюстрации, нумерация сквозная для

всех иллюстраций. В тексте делаются ссылки на иллюстративный материал с указанием его порядкового номера, например «(рис. 2)» или «как видно на рис. 2». Эти же правила распространяются и на другие иллюстративные средства.

Фотографии применяются тогда, когда требуется отобразить объект с документальной точностью или его индивидуальными особенностями. При этом они должны быть технически воспроизводимы средствами копирования, поясняться в подписях и тексте.

Схема — это изображение, выполненное с помощью условных обозначений и без соблюдения масштаба. Она предназначена для наиболее емкого и наглядного выражения идеи, соподчиненно-сти понятий. Фактически схема представляет модель изучаемого объекта, его структуры, взаимосвязей и взаимозависимостей. В блок-схемах для простоты элементы изображают прямоугольниками и другими геометрическими фигурами, а их связи — простыми линиями. По функциям схемы подразделяются на логические, последовательные, локальные, сущностные и технические.

При оформлении схемы используемые геометрические знаки подбираются в зависимости от их количества и поля чертежа; они могут быть разными по форме, но близкими по размерам; для изображения основных и вспомогательных элементов, их связей используются линии одинаковой толщины; звенья располагаются по возможности симметрично.

Графы (от греч. %гарко — пишу) являются разновидностью блок-схем и представляют собой расположенные на плоскости геометрические конструкции, которые состоят из вершин, соединенных определенным образом ориентированными линиями, и воспроизводят изучаемый процесс или явление. С помощью графов можно изобразить связи между свойствами и качествами, описать связи между отдельными составляющими процесса, выделить ряд особо важных в логическом плане компонентов системы, имеющих наибольшее число связей с другими компонентами.

Диаграмма (от греч. сИа§гатта — изображение, рисунок, чертеж) — графическое изображение, наглядно показывающее соотношение каких-либо величин. Диаграмма используется для облегчения сравнений (сопоставлений), выявления закономерностей и тенденций данных. Она помогает увидеть динамику процесса.

По форме построения диаграммы бывают линейные, плоскостные и объемные; столбчатые (ленточные) и круговые (секторные); простые и составные.

В многочисленных компьютерных программах имеется возможность выбора из нескольких типов диаграмм и графиков, причем каждый тип имеет несколько разновидностей (видов). К примеру, Мкюзо/1 Ехсе1 позволяет выбрать один из 14 основных (стандартных) типов диаграмм (графиков) и 20 дополнительных (нестан-

дартных) типов диаграмм. Внутри каждого из основных типов диаграмм можно выбрать конкретный подтип. Правильный выбор типа диаграммы (графика) дает возможность представить данные наглядным образом.

Круговая (секторная) диаграмма представляет собой круг, разделенный на секторы, величина которых пропорциональна величине частей отображаемого объекта или явления. По такой диаграмме можно выявить соотношение компонентов внутри одного целого, но она не дает возможности проследить динамику изменения величин и их соотношений. К тому же наглядность круговой диаграммы снижается при возрастании количества сравниваемых величин и небольшом их различии.

Столбчатая (ленточная) диаграмма (гистограмма) представляет собой ряд расположенных на одинаковом расстоянии друг за другом прямоугольников одинаковой ширины. Такие прямоугольники располагаются вертикально (столбики) или горизонтально (ленточки). Высота (или длина) прямоугольников пропорциональна изображаемым ими величинам. Ширина прямоугольников зависит от их количества и рабочего поля чертежа.

Ярусная (или составная) гистограмма позволяет проследить динамику распределения составляющих. При этом есть возможность сравнивать только изменения соотношения, когда соседние столбики остаются одинаковой высоты, принимаемой за 100%, а составляющие их прямоугольники пропорциональны относительной величине компонента в составе целого (рис. 10). Можно также сравнивать одновременно изменение абсолютных величин компонентов и целого (рис. 11).

Как правило, такие гистограммы менее информативны. Это можно видеть из сравнения рис. 10 и 11.

Изобразительные диаграммы являются иллюстративно-информационным изображением, в них простые геометрические фигуры заменяются символами, воспроизводящими образ предмета. Они могут быть следующих видов:

— в качестве графических знаков служат символы сравниваемых параметров, различающиеся по величине;

— символы-знаки помещены внутри столбиков, полос или секторов, причем прямоугольники или секторы вписываются точно по масштабу, а символы не меняют своей величины;

— соблюдается и масштабность, и изобразительность, а в зоне рисунка вычерчивается ломаная линия, соединяющая показатели;

— показатели оформляются не точками, а кружочками со вписанными числовыми значениями и соединяются не линиями, а широкими полосами;

— диаграммы могут содержать цветовые выделения.

Графики (от греч. §гарЫкоз — начертанный) — условное изображение характера зависимости одной величины от другой или динамики изменения величины. Кривая на графике может быть ломаной или сглаженной в зависимости от требований наглядности.

График включает в себя заголовок, словесное пояснение условных знаков и значения отдельных элементов графического образа, оси координат, шкалу с масштабом, числовые сетки и числовые данные, дополняющие или уточняющие величину нанесенных на график показателей.

Координатные оси вычерчиваются сплошными линиями без стрелок на концах. Если это необходимо для повышения наглядности, оси дополняются координатной сеткой, соответствующей выбранному масштабу. Числовые значения штрихов, как правило, пишут за пределами графика (левее вертикальной оси и ниже горизонтальной), избегая дробных величин. При этом значения можно откладывать не с нуля, а в пределах рассматриваемой зависимости. Независимую переменную откладывают по горизонтальной оси. Масштаб каждой оси может быть разным.

По координатным осям указывают условные обозначения и размерности отложенных величин в принятых сокращениях. На графике используются только принятые в тексте условные обозначения, аббревиатуры и сокращения. Надписи, относящиеся к кривым и точкам, должны быть краткими и немногочисленными. Все обозначения на графике обязательно комментируются в тексте.

Организация стока поверхностных вод: Наибольшее количество влаги на земном шаре испаряется с поверхности морей и океанов (88‰).

Общие условия выбора системы дренажа: Система дренажа выбирается в зависимости от характера защищаемого.

Механическое удерживание земляных масс: Механическое удерживание земляных масс на склоне обеспечивают контрфорсными сооружениями различных конструкций.

Поперечные профили набережных и береговой полосы: На городских территориях берегоукрепление проектируют с учетом технических и экономических требований, но особое значение придают эстетическим.

источник

Меня зовут Анна Пономарева, я Game Analyst в Plarium Kharkiv. В этом году наш департамент запустил мобильный RPG-проект Stormfall: Saga of Survival и теперь занимается его поддержкой. Моя задача в проекте — оперативно анализировать игровые процессы и предоставлять отчеты для корректной настройки баланса.

Визуализация — один из самых эффективных инструментов презентации данных. Она позволяет наглядно отследить основные тенденции, зависимости, распределения и отклонения исследуемых признаков, найти корреляцию показателей, оценить изменения, помочь принять правильные бизнес-решения.

Важно не просто показать информацию, а сделать это максимально понятно и прозрачно для заказчика, выделив ключевые показатели. Как именно это сделать, я и постараюсь рассказать в статье.

Часто в попытке выжать из имеющейся информации всё мы можем получить нечто несуразное и пугающее.

Помните, что много не значит хорошо. При этом, глядя на дашборд, пользователь должен находить ответы на все вопросы, касающиеся конкретного анализа. Не будет толку, если ответ на один из вопросов потребует сопоставления информации с десяти вкладок.

Прежде чем приступить к визуализации, рассмотрим все этапы анализа данных.

Каждое исследование должно отвечать на ряд поставленных вопросов — не нужно плодить исследования для исследований.

На этом этапе аналитик или работает с уже собранными данными, или участвует в процессе постановки задания на сбор данных (фактически решает, какая информация ему необходима и в каком виде).

В первом случае особое внимание стоит уделить правильной интерпретации данных, которые записаны в базу, и зачастую смириться с существующим форматом данных, дизайном таблиц и т. д. Во втором случае аналитик сталкивается с проблемой построения грамотного сценария сбора данных — он может особенно перестараться в планировании А/В-тестов, логировании событий и т. п. Здесь важна коммуникация с программистами, которые могут помочь в понимании процессов и оценке масштабов планируемых записей.

«Мусор на входе — мусор на выходе» — правило, о котором всегда нужно помнить. Структурирование, устранение ошибок, изменение форматов содержимого, разбор аномальных результатов, очистка от выбросов, устранение дубликатов, интеграции данных из разных источников — одни из важнейших пунктов в анализе данных.

Иногда требуется расширение метрик, например добавление вычислительной информации (прирост, ранг, номер и т. п.). Иногда следует сократить количество признаков (переменных) или перейти к вспомогательным переменным, принимающим одно из двух значений: true (1)/false(0).

На этом этапе сырые данные превращаются в полезную входную информацию для моделирования и анализа.

Для правильной интерпретации многомерных данных необходимо посмотреть на них в разрезе как конкретного признака, так и группы признаков. Также следует представить ключевые показатели в динамике с планами и фактическими результатами. Именно на этом этапе подбирается формат будущей визуализации.

Каждое исследование должно заканчиваться результатами и выводами. Даже если они негативные, их стоит проговорить и обсудить. При этом правильная постановка задачи, методика проведения сбора данных, правильная интерпретация результатов, выявленные ошибки и многое другое должны послужить базой для последующих исследований.

Время, затрачиваемое аналитиком на каждую фазу, зависит от многих переменных: начиная от опыта работы и уровня знания данных, заканчивая перечнем используемых инструментов и технических характеристик ПК.

Необходимо также понимать, что процесс анализа данных имеет итерационный характер и может быть представлен циклом.

Чтобы сформулировать окончательные выводы, иногда необходимо пройтись по циклу несколько раз. Каждый раз уточняя данные, перестраивая модели обработки и представления данных, получая всё новые знания об анализируемой сущности. Чтобы уменьшить количество итераций этого цикла и время, затрачиваемое на анализ, аналитик должен быть не только специалистом в области Big Data, но и хорошо знать свою предметную область (будь то игровые механики или интернет вещей).

При этом только опыт помогает понять, какие данные и методы анализа нужны в каждом отдельном случае и как интерпретировать результаты.

Чтобы правильно выбрать диаграмму, необходимо в первую очередь сформулировать цель: что конкретно она должна показать. Если целей несколько, возможно, стоит построить отдельную диаграмму для каждой из них.

Джин Желязны в книге «Говори на языке диаграмм» пишет, что (почти) каждая идея может быть выражена с помощью сравнения. Требуется лишь определить тип сравнения данных:

покомпонентное: процент от целого;
позиционное: соотношение объектов;
временное: изменения во времени;
частотное: число объектов в интервалах;
корреляционное: зависимость между переменными.

Автор предлагает использовать следующую таблицу для выбора диаграмм:

Если проводить классификацию по объектам, то можно выделить такие типы визуализации:

детерминированные зависимости: графики, диаграммы, временные ряды;
статистические распределения: гистограммы, матрицы диаграмм рассеяния, график «ящик с усами»;
иерархии: диаграммы связей, дендрограммы;
сети: графы, дуговые диаграммы;
геовизуализация: карты, картограммы.

Чтобы упростить себе работу, я использую схему по выбору диаграмм Эндрю Абела, в которую внесла некоторые правки и адаптировала под свои задачи.

Оригинальную схему Эндрю Абела можно посмотреть тут.

Мне необходимо было создать дашборд для контроля income/outcome-ресурсов, которые игроки добывают, находят или получают в награду. Это была достаточно сложная задача, требующая собрать воедино несколько таблиц, учесть множество нюансов и не упустить из виду ни одного источника/потребителя ресурсов.

Сначала я расписала, как собрать данные, какие показатели необходимо рассчитать и как именно это сделать, как должна выглядеть визуализация. Затем специалисты из Game BI Department (отвечают за базу данных для всех наших проектов) проверили правильность алгоритма сбора, оптимизировали запрос и сформировали дашборд по моему дизайну.

Для выбора диаграммы я использовала методику, описанную выше.

Сравниваем 2 признака (количество получаемых и затрачиваемых ресурсов) — значит используем столбчатую диаграмму.
У нас несколько источников для получения ресурсов и способов их расхода — поэтому добавляем структуру к столбчатой диаграмме (каждый источник и потребитель обозначаем своим цветом).
Отслеживаем, как изменяется приход и расход ресурсов в зависимости от игрового дня, — горизонтальной оси задаем соответствующий параметр.
Для удобного чтения все income-действия (приход) отображаем сверху горизонтальной оси, а outcome (расход) — снизу. Это позволяет визуально оценить величину разницы.
Чтобы было понятно, в какие периоды жизни игрока возникает профицит, а в какие дефицит того или иного ресурса, накладываем на столбчатую диаграмму линейный график, который визуализирует вычисляемое поле разницы.

Пример выявленного профицита предмета (линейный график выше столбцов).

Пример жизненного цикла ресурса и его перехода из профицитной категории к дефицитной (линейный график ниже горизонтальной оси).

В итоге наша диаграмма показывает приход и расход ресурсов в разные игровые дни и демонстрирует наличие дефицита или профицита ресурсов.

Также мы хотели посмотреть, как на движение ресурсов влияют корректировки баланса игры. Для этого мы дополнили дашборд диаграммой изменения структуры ресурсов во времени, где по горизонтальной оси теперь была выбрана дата. Так мы обеспечили мониторинг жизненного цикла ресурсов в нескольких признаковых разрезах: жизненного цикла игрока и во временном.

Большинство выводов по исследованиям теряют актуальность со временем. Некоторые данные необходимо уточнять ежедневно, некоторые мониторить ежемесячно и т. д. Необходимо сразу четко классифицировать признаки с точки зрения частоты обновления:

требующие непрерывного мониторинга (стандартные показатели retention, конверсии и т. п.);
данные, динамику которых следует оценивать периодически (результаты А/В-тестов, динамику набора уровней и т. п.).

Опять таки, волшебной таблетки в этой задаче не существует, ведь признаки, которые требуется отслеживать, очень привязаны к предметной области (к жанру игры, реализованным механикам и т. д.).

Автоматизировать этот процесс пока проблематично — разработка инструментов для непрерывного мониторинга абсолютно всех показателей ни к чему хорошему не приведет. Как мы уже говорили, обработка больших объемов данных включает этапы сбора и первичной обработки информации, загрузку в хранилище, анализ данных и предоставление результатов в удобном для восприятия виде. Требование обработки в режиме реального времени делает задачу еще более сложной и ресурсозатратной.

Хочется еще раз подчеркнуть, что грамотная аналитика никогда не делается быстро, требует очень внимательного подхода и всегда начинается с вопросов. Главное, что должен непременно контролировать аналитик, — чтобы после его отчета количество этих вопросов уменьшалось, а не росло.

источник