Меню Рубрики

Как провести графический анализ данных

  1. Ввести понятие диаграммы, объяснить необходимость ее использования; познакомить обучающихся с типами диаграмм; формирование навыков анализа данных с помощью диаграмм различных типов.
  2. Развитие творческих способностей, логического и аналитического мышления.
  3. Нравственное воспитание личности, формирование целеустремленности, аккуратности при работе за ЭВМ
  1. На доске – текст домашнего задания
  2. Презентация для демонстрации во время объяснения нового материала (Приложение 3).
  3. Для контроля знаний, полученных на предыдущем занятии:
  1. Для закрепления материала на рабочих столах каждой ЭВМ разместить файл в формате Excel с готовыми текстами заданий (Приложение 4).

Группа обучающихся по усмотрению преподавателя условно делится на 3 подгруппы: обучающиеся первой подгруппы выполняют компьютерное тестирование (Приложение 1), обучающиеся второй подгруппы определяют значение формулы, образованной копированием по карточкам (Приложение 2).

С оставшимися обучающимися проводится фронтальный опрос:

  1. Назначение и запуск приложения Excel.
  2. Типы данных, используемые в Excel.
  3. Понятие относительных и абсолютных ссылок.
  4. Понятие функции. Виды функций (привести примеры).

Объяснение материала ведется с использованием презентации (Приложение 3).

После того, как рабочая таблица на листе построена, можно с ней работать. И хотя в таблице сразу выводится результат после ввода в нее данных, вычисления обычно на этом не заканчиваются. Далее, как правило, начинается анализ результатов, оценка иных вариантов ситуации, т.е. рассуждения на тему «А что было бы, если бы…» («… что было бы, если бы ананасов завезли на 20 кг меньше, а рыбы – на 100 больше?»).

Такой подход – перебор вариантов решения задачи – очень полезен. Для многих задач это единственный способ нахождения приемлемого варианта решения задачи. Для этих целей Excel незаменим: быстро меняем данные – мгновенно получаем результат.

С развитием компьютерных технологий развилась одна из областей применения ЭВМ – визуализация информации. Существует несколько направлений в этой области: инженерная графика, деловая графика и ряд других. Построение диаграмм с помощью ЭВМ – одно из основных средств деловой графики.

Диаграмма – это условное изображение числовых величин или их соотношений графическим способом Примером диаграммы, ее частным случаем является всем известный график функции.

В деловой, финансовой, экономической сферах роль диаграмм очень велика. Сколько же времени должен затратить экономист фирмы, впиваясь взглядом в таблицу, выискивая в ней максимальные и минимальные значения различных показателей, выявляя соотношения этих значений для различных подразделений! Естественно, что подобный анализ многократно упрощается при наличии диаграмм. Иногда достаточно одного-двух взглядов на диаграмму для получения нужной информации.

Диаграммы MS Excel дают возможность графического представления различных числовых данных. Выбрав тип, макет и стиль диаграммы, которые в новой версии Office Excel 2007 всегда доступны на ленте, каждую диаграмму можно быстро и профессионально обработать.

В Excel можно строить два типа диаграмм: внедренные и диаграммы на отдельных листах. Внедренные создаются на рабочих листах рядом с таблицами, данными и текстом и используются при создании отчетов. Диаграммы на отдельном листе удобны для подготовки слайдов или для вывода на печать.

Excel предлагает различные типы диаграмм и предусматривает широкий спектр возможностей для их изменения (типа диаграммы, надписей, легенды и т.д.) и для форматирования всех объектов диаграммы.

Для создания диаграмм в MS Excel прежде всего следует подготовить данные для построения диаграмм и определить ее тип. Построение диаграммы выполняется с помощью Мастера диаграмм. Это программа с большими возможностями. Для решения задачи необходимо выделить в таблице диапазон ячеек, значения которых следует представить в виде диаграммы, и уяснить для себя: данные какого столбца (строки) следует откладывать по оси Х (т.е. рассматривать как категории), а каких столбцов (строк) – по оси Y (рассматривать как значения).

Количество рядов данных (У) должно быть меньше, чем категория (Х). Исходя из этого, определяется расположение рядов (в строках или столбцах) если диаграмма строится для диапазона ячеек, имеющего больше столбцов, чем строк, или равное их число, то рядами данных считают строки. Если диапазон ячеек имеет больше строк, то рядами данных считают столбцы. Excel предполагает, что названия, связанные с рядами данных, считаются их именами и составляют легенду диаграммы. Данные, интерпретируемые как категории, считаются названиями категорий и выводятся вдоль оси Х.

Excel 2007 поддерживает различные типы диаграмм, помогая пользователям отображать данные понятным для конкретной аудитории способом. При создании или изменении существующей диаграммы можно выбрать один из множества доступных подтипов диаграмм каждого типа.

Гистограммы. Данные, которые расположены в столбцах или строках, можно изобразить в виде гистограммы. Гистограммы используются для демонстрации изменений данных за определенный период времени или для иллюстрирования сравнения объектов. В гистограммах категории обычно формируются по горизонтальной оси, а значения — по вертикальной.

Линейчатые диаграммы. Похожи на гистограммы (отличие – повернуты на 90 0 по часовой стрелке). Используются для сопоставления отдельных значений в определенный момент времени, не дают представления об изменении объектов во времени. Горизонтальное расположение полос позволяет подчеркнуть положительные или отрицательные отклонения от некоторой величины.

Линейчатые диаграммы можно использовать для отображения отклонений по разным статьям бюджета в определенный момент времени. Можно перетаскивать точки в любое положение. Линейчатые диаграммы иллюстрируют сравнение отдельных элементов.

Графики. Графики позволяют изображать зависимость данных (ось У) от величины, которая меняется с постоянным шагом (ось Х). Метки оси категорий должны располагаться по возрастанию или убыванию.

Графики чаще используют для коммерческих или финансовых данных, равномерно распределенных по времени (отображение непрерывных данных), или таких категорий, как продажи, цены и т.п.

Может возникнуть необходимость использовать графики для отображения равномерно распределенных значений, например, месяцев, кварталов или финансовых лет. Это особенно важно при наличии нескольких рядов — для одного ряда можно использовать ось категорий. Также графики можно использовать при наличии нескольких равномерно распределенных числовых меток, особенно лет. Если числовых меток больше десяти, вместо графика лучше использовать точечную диаграмму.

Круговые диаграммы. Данные, которые расположены в одном столбце или строке, можно изобразить в виде круговой диаграммы. Круговая диаграмма демонстрирует размер элементов одного ряда данных пропорционально сумме элементов. Точки данных на круговой диаграмме выводятся в виде процентов от всего круга. Эти диаграммы можно использовать, когда компоненты в сумме составляют 100%.

Точечные диаграммы. Точечная диаграмма показывает отношения между численными значениями в нескольких рядах данных или отображает две группы чисел как один ряд координат x и y.

Точечная диаграмма имеет две оси значений, при этом один набор значений выводится вдоль горизонтальной оси (оси X), а другой — вдоль вертикальной оси (оси Y). На точечной диаграмме эти значения объединяются в одну точку данных и выводятся с неравными интервалами, или кластерами. Точечные диаграммы обычно используются для представления и сравнения числовых значений, например, научных, статистических или инженерных данных. Для вывода данных таблицы в виде точечной диаграммы следует поместить данные по оси X в одну строку или столбец, а соответствующие данные по оси Y — в соседние строки или столбцы.

Диаграммы с областями. Диаграммы с областями иллюстрируют величину изменений в зависимости от времени и могут использоваться для привлечения внимания к суммарному значению в соответствии с трендом.

Например, данные, отражающие прибыль в зависимости от времени, можно отобразить в диаграмме с областями, чтобы обратить внимание на общую прибыль.

Отображая сумму значений рядов, такая диаграмма наглядно показывает вклад каждого ряда.

Поверхностные диаграммы. Поверхностная диаграмма используется, когда требуется найти оптимальные комбинации в двух наборах данных. Как на топографической карте, цвета и штриховки выделяют зоны одинаковых диапазонов значений. Поверхностные диаграммы можно использовать для иллюстрации категорий и наборов данных, представляющих собой числовые значения.

Кольцевые диаграммы. Как и круговая диаграмма, кольцевая диаграмма отображает отношение частей к целому, но может содержать более одного ряда

Создание диаграмм в приложении Excel. Чтобы создать в Excel базовую диаграмму, которую впоследствии можно изменять и форматировать, сначала введите на лист данные для этой диаграммы. Затем просто выделите эти данные и выберите нужный тип диаграммы на ленте (вкладка Вставка, группа Диаграммы).

Изменение диаграмм. Создав диаграмму, можно вносить в нее изменения. Например, можно изменить вид осей, добавить название диаграммы, переместить или скрыть легенду, а также добавить дополнительные элементы диаграммы.

Имеются следующие возможности изменения диаграммы:

  1. Изменение вида осей диаграммы. Можно указать масштаб осей и изменить промежутки между значениями или категориями.
  2. Добавление к диаграмме названия и подписи. Для пояснения отображенных на диаграмме данных можно добавить название диаграммы, названия осей и подписи.
  3. Добавление легенды и таблицы данных. Можно отобразить или скрыть легенду либо изменить ее расположение. В некоторых диаграммах также можно отобразить таблицу данных и значения, представленные на диаграмме.

Эффектный формат диаграмм. Помимо применения встроенного стиля диаграммы можно легко изменить форматирование ее отдельных элементов, например, маркеров данных, области диаграммы, области построения, чисел и текста в названиях и подписях, что привлечет внимание и сделает диаграмму оригинальной.

Имеются следующие возможности форматирования диаграммы:

  1. Заливка элементов диаграммы. Для привлечения внимания к определенным элементам диаграммы можно залить их цветом, текстурой, рисунком или применить градиентную заливку.
  2. Изменение контуров элементов диаграммы. Для выделения элементов диаграммы можно изменить их цвет, стиль или толщину линий.
  3. Добавление специальных эффектов к элементам диаграммы. Для придания диаграмме завершенности к ее элементам можно применить специальные эффекты, например, тень, отражение, свечение, сглаживание, рельеф или объемное вращение.
  4. Форматирование текста и чисел. Текст и числа в названиях, подписях и надписях на диаграмме можно форматировать так же, как текст и числа на листе. Чтобы выделить текст или число, можно также применять стили WordArt.

Изменение типа существующей диаграммы. Для большинства плоских диаграмм можно изменить тип всей диаграммы, придав ей совершенно другой вид, или выбрать другой тип диаграммы для любого одиночного ряда данных, превратив диаграмму в смешанную диаграмму.

Для создания диаграмм на рабочих столах имеются файлы приложения Excel с готовыми заданиями (Приложение 4).

При выполнении задания 1 обучающиеся определяют выделяемый диапазон ячеек, объясняют тип диаграммы, дополняют диаграмму подписями, заголовками. Готовую диаграмму форматируют. Анализируя данные диаграммы, обучающиеся должны ответить на вопрос: чем объясняется спад объема продаж в 90-х гг.

Задание 2 выполняется самостоятельно. Обучающиеся создают таблицу значений аргументов, вводят формулы и копируют их для вычисления значений функции. По имеющимся данным создают график, форматируют его. Определяют значения аргумента, при которых функция имеет отрицательные значения.

Задание 3 также выполняется обучающимися самостоятельно. Необходимо составить диаграмму, отражающую долю стоимости устройств компьютера в общей его стоимости. Заметно ли подорожает компьютер при приобретении более производительных схем процессора и оперативной памяти?

  1. Что такое диаграмма?
  2. В каких случаях возникает необходимость исследовать или отобразить данные с помощью диаграмм?
  3. Когда используют внедренные диаграммы?
  4. Когда создают диаграммы на отдельных листах?
  5. С чего начать построение диаграммы?
  6. Что такое категории и значения?
  7. Какие типы диаграмм вам известны?
  8. Что вы знаете о гистограмме?
  9. Когда используют линейчатые диаграммы?
  10. Что изображают графики?
  11. Если данные расположены в одном столбце или строке – используют…
  12. Перечислите еще известные вам типы диаграмм.
  13. Как создать диаграмму по имеющимся данным?
  14. Какие способы форматирования диаграмм вы знаете?

Создать таблицу зависимости средней температуры воздуха в зависимости от времени года (разбить по кварталам). Использовать данные, полученные на уроках биологии. Проанализировать результаты прогноза с помощью диаграмм.

Во время записи домашнего задания выставить оценки по результатам тестирования, проверить карточки, оценить работы за ЭВМ. Дать качественную оценку работ.

Обобщение материала. Устранение пробелов знаниях.

источник

Решение. Проведем графический анализ имеющихся данных, для этого построим диаграмму отражающую связь между признаками

Проведем графический анализ имеющихся данных, для этого построим диаграмму отражающую связь между признаками, представленными в таблице (рис. ).

Анализ рисунка показывает наличие близкой к прямолинейной зависимости, так как точки расположены практически на прямой линии.

Построим линейную регрессионную модель с помощью встроенного средства в MS Excel Анализ данных.

Объясняемая переменная Y– Сумма активов

Объясняющая переменная X– Кредитные вложения

Надо найти оценки коэффициентов модели

Для этого проделываем следующие действия:

1. Запишем исходные данные в виде таблицы Excel

2. Используя команду Сервис – Анализ данных, проведем регрессионный анализ имеющихся данных.

Проанализируем полученные данные.

1. Таблица Регрессионная статистика

Регрессионная статистика
Множественный R 0,787216748
R-квадрат 0,619710208
Нормированный R-квадрат 0,543652249
Стандартная ошибка 685,9893982
Наблюдения

Так как полученный множественный коэффициент корреляции R=0,78 и он больше 0,7 то это говорит о наличии сильной линейной связи между переменными Х и Y.

Коэффициент детерминации R-квадрат равен 0,61 что составляет 61%. Этот результат можно истолковать так: исследуемый воздействующий фактор объем кредитных вложений объясняет 61% вариации анализируемой функции, остальные 39% остаются не объясненными и могут быть связано с влиянием других, неучтенных факторов.

Сравним расчетную величину R 2 расч =0,61(это то, что нам выдал Excel) с табличными (критическими) значениями R 2 крит , который для соответствующего уровня значимости (0,05) равен 0,569. Имеем, что R 2 расч> R 2 крит, следовательно с упомянутой степенью вероятности (95%) можно утверждать, что анализируемая регрессии является значимой.

Стандартная ошибка показывает, что фактическая величина суммы активов отличается от прогнозируемых показателей не более чем на 685, 98 млр. руб. под воздействием величины кредитных вложений.

2. Таблица Дисперсионный анализ

Дисперсионный анализ
df SS MS F Значимость F
Регрессия 3834235,59 8,147868 0,035637501
Остаток 2352907,27 470581,5
Итого 6187142,86

Число степеней свободы df, суммы квадратов SS, дисперсии MS используются для вычисления критериальной статистики F, и Значимости F.

Итак, по полученным данным оценим значимость уравнения регрессии.

Уравнение регрессии значимо на уровне , если , где — табличное значение F-критерия Фишера ( ). Для нашей модели и по таблице фишера .

Поскольку 8,14> 6,61, то с вероятностью 95 % можно утверждать, что рассматриваемое уравнение адекватно (его коэффициенты отличны от нуля) и способно с указанной достоверностью предсказывать экспериментальные результаты.

Вероятность вычисленного значения критериальной статистики составила 0,03 (столбец F-значение). Так как полученная вероятность меньше заданного уровня значимости, равного 0,05, то мы принимаем гипотезу о том, что все коэффициенты регрессии не равны нулю.

Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95% Нижние 95,0% Верхние 95,0%
Y-пересечение 816,29 521,59 1,57 0,18 -524,49 2157,07 -524,49 2157,07
Кредитные вложения, млрд руб 1,04 0,37 2,85 0,04 0,10 1,98 0,10 1,98

По данным первого столбца получаем вид уравнения регрессии .

Стандартные ошибки коэффициентов во втором столбце указывают на отклонение фактических коэффициентов от прогнозируемых.

t-статистика третьего столбца говорит о статистической значимости коэффициентов регрессии:

– критическая точка распределения Стьюдента, .

Так как , то коэффициент является статистически не значимым и его можно исключить из модели уравнения.

Р-значение третьего столбца позволяет определить значимость коэффициентов регрессии.

Так как Р-значение коэффициента : 0,18 и оно больше 0,05, то коэффициент незначим и следовательно равен нулю.

Так как Р-значение коэффициента : 0,04 и оно меньше 0,05, то коэффициент значим и, следовательно, неравен нулю.

В последних столбцах рассматриваемой таблицы указаны доверительные интервалы попадания коэффициентов регрессии.

ВЫВОД ОСТАТКА
Наблюдение Предсказанное Сумма активов, млрд руб. Остатки Стандартные остатки
1140,628 -622,6281 -0,99426
1502,515 -308,515 -0,49266
1632,878 1308,1223 2,088919
2007,279 -142,2794 -0,2272
2191,873 -194,873 -0,31119
2862,459 203,54126 0,325032
3419,368 -243,3682 -0,38863

Во втором столбце представлены значения функции регрессии, вычисленные от имеющихся значений переменной Х.

В столбце остатки представлена разница между фактическими значениями переменой Y и вычисленными значениями в первом столбце последней таблицы.

Стандартные остатки в последнем столбце говорят о наличии выбросов в первоначальном наборе данных, если стандартный остаток больше 2 и меньше -2. из таблицы видно, что выбросом является 3 значение таблицы.

4. таблица Вывод вероятности

ВЫВОД ВЕРОЯТНОСТИ
Персентиль Сумма активов, млрд руб.
7,14285714
21,4285714
35,7142857
64,2857143
78,5714286
92,8571429

По данным этой таблицы строится график нормального распределения для визуальной оценки степени линейности между переменными Х и Y.

1. Определить направление и тесноту связи, предварительно установив характер связи между четырьмя факторам по 15 банкам:

№ Банка Суммарный актив, млрд долл. Объем вложений акционеров, млрд долл. Чистый доход, млрд долл. Депозиты млрд долл.
507,2 19,5 352,9 448,1
506,6 19,8 187,1 451,9
487,8 21,1 375,2 447,9
496,0 18,6 287,9 444,3
493,6 19,6 44,0 443,2
458,9 11,7 462,4 411,7
429,3 10,5 459,5 328,6
386,9 13,6 511,3 314,7
311,5 10,8 328,6 259,4
302,2 10,9 350,0 187,7
262,0 10,3 298,7 238,5
242,4 10,6 529,3 269,4
231,9 8,5 320,0 284,0
214,3 6,7 502,0 172,3
208,4 8,3 194,9 166,4

Провести регрессионный анализ, возможных связей между факторами.

2. По данным о сумме активов (y), кредитных вложений ( ) и величине собственного капитала ( ) коммерческих банков построить множественное уравнение связи. Связь предполагается линейной. Провести анализ полученной модели.

источник

Деловая графика создается с помощью программы Microsoft Graph, которая может вызываться из различных приложений Microsoft Office. Наиболее часто деловая графика используется для анализа информации в Microsoft Excel. С помощью деловой графики с учетом некоторых ограничений (табл. 3) можно:

Читайте также:  Географический язык какие анализы сдать

— выполнять статистическую обработку данных (построение рядов, гистограмм распределения, графиков сглаживания и т.п.);

— прогнозировать значение экономических показателей (построение трендовых моделей);

— визуально подбирать параметры моделей.

Основные технические ограничения Microsoft Graph

Параметр Ограничение
Диаграммы, использующие данные листа Объем доступной оперативной памяти
Листы, используемые диаграммой
Ряды данных в диаграмме
Точки данных в одном ряду данных для плоских диаграмм 32 000
Точки данных в одном ряду данных для объемных диаграмм 4 000
Точки данных во всех рядах данных одной диаграммы 256 000
Стили линии
Варианты толщины линии
Отображаемые на экране узоры для заливки плоских фигур
Всего возможных сочетаний узора и цвета (цветной монитор и принтер) 56 448
Число полей данных в отчете сводной диаграммы
Формулы вычисляемых элементов в отчете сводной диаграммы Объем доступной оперативной памяти

Диаграммы являются средством наглядного представления данных и облегчают выполнение сравнений, выявление закономерностей и тенденций изменения данных. Например, вместо анализа нескольких столбцов чисел на листе можно, взглянув на диаграмму, узнать, падают или растут объемы продаж по кварталам или как действительные объемы продаж соотносятся с планируемыми.

Диаграмма состоит из следующих стандартных элементов:

— область диаграммы – прямоугольник, в котором находится область построения диаграммы, заголовки диаграммы, легенда;

— область построения диаграммы – включает диаграмму вместе с осями и рядами данных;

— ряд данных – набор связанных между собой элементов данных, отображаемых на диаграмме. Каждому ряду данных на диаграмме соответствует отдельный цвет или способ обозначения, указанный на легенде диаграммы. Диаграммы всех типов, кроме круговой, могут содержать несколько рядов данных;

— точка ряда – отдельное значение;

— ось значений – для отображения значения точек ряда;

— ось категорий – для отображения меток, с которыми связаны значения рядов;

— стены и углы – только для объемных диаграмм;

— основные и вспомогательные линии, линии сетки;

— легенда – для вывода условных графических обозначений рядов.

Для построения диаграмм с помощью Мастера диаграмм выполняется команда меню Вставка > Диаграмма… Появляется диалоговое окно Мастер диаграмм (рис. 13).

Рис. 13. Диалоговое окно Мастер диаграмм (шаг 1 из 4).

Построение диаграммы происходит пошагово. На первом шаге выбирается тип диаграммы. Различают стандартные и нестандартные типы диаграмм. Внутри выбранного типа существуют специфические форматы диаграмм. По внешнему виду различают плоскостные и объемные диаграммы.

Основные типы стандартных диаграмм Microsoft Graph.

§ Гистограмма – позволяет сопоставить данные одного или нескольких рядов (обычная гистограмма), увидеть вклад каждой составляющей в общий итог (гистограмма с накоплением) или вычислить удельный вес каждой составляющей в общем итоге (нормированная гистограмма). Исходные данные можно представлять в виде отдельных вектор-строк или вектор-столбцов, а также в виде матрицы.

§ Линейчатая – аналог развернутой на 90° Гистограммы.

§ График – позволяет сопоставить данные, меняющиеся во времени или по категориям (график), увидеть изменение вклада каждой составляющей в общий итог (график с накоплением) или отобразить изменение удельного веса каждой составляющей в общем итоге (нормированный график).

§ Круговая – позволяет увидеть вклад каждой составляющей в общий итог (круговая), возможно с выделением отдельных значений в виде «кусков пирога» (разрезанная круговая), показывает разделение одной из составляющих по частям в виде круговой диаграммы (вторичная круговая) или вынесенными в гистограмму (вторичная гистограмма).

§ Точечная – аналог Графика, значениям рядов соответствуют точки, которые могут соединяться линиями (отрезками или сглаженными кривыми).

§ С областями – аналог Графика, только вместо линий используются заполненные области.

§ Кольцевая – аналог Круговой, но для нескольких рядов данных, располагаемых слоями.

§ Лепестковая – аналог Графика в полярной системе координат, изображает ряды значений относительно начала координат.

§ Поверхность – изображение в виде поверхности, состоящей из областей, отражающих интервалы данных в трех измерениях (поверхность) или в двух (контурная).

§ Пузырьковая – изображение наборов из трех значений, подобна Точечной диаграмме, но размер пузырька – значение третьей переменной.

§ Биржевая – изображение наборов из трех – пяти значений (объем, курс открытия, самый высокий курс, самый низкий курс, курс закрытия).

§ Цилиндрическая – аналог гистограммы (и линейчатой) со столбцами в виде цилиндров.

§ Коническая – аналог гистограммы (и линейчатой) со столбцами в виде конусов.

§ Пирамидальная – аналог гистограммы (и линейчатой) со столбцами в виде пирамид.

Для изменения типа существующей диаграммы после активизации диаграммы выполняется команда меню Диаграмма > Тип диаграммы…

На втором шаге выбирается источник данных диаграммы (рис. 14). На вкладке Диапазон данных указывается Диапазон ячеек, для которых строится диаграмма. Диапазон ячеек для построения диаграммы не обязательно должен быть смежным. Для выделения несмежного диапазона ячеек используется клавиша Ctrl. Ряды обязательно должны включать данные числового типа. Если выделен блок ячеек, содержащий несколько строк и несколько столбцов, указывается ориентация данных Ряды в: строках или столбцах.

На вкладке Ряд каждому ряду может быть присвоено Имя – вручную или в виде ссылки на ячейку листа. Все ряды имеют одинаковую подпись по оси Х, в качестве которой указывается блок ячеек. Размерность блока для подписи по оси X соответствует числу точек рядов. Если подпись по оси Х не указывается, автоматически используются последовательные номера точек рядов.

Для изменения состава рядов или точек рядов существующей диаграммы надо выбрать команду меню Диаграмма > Исходные данные… К активизированной диаграмме можно добавлять новые ряды данных с помощью команды меню Диаграмма > Добавить данные… Размерность новых рядов диаграммы должна соответствовать размерности исходных рядов. Можно изменять исходные диапазоны ячеек для существующих рядов диаграммы.

Для изменения диапазона данных существующей диаграммы:

— выберите изменяемую диаграмму;

— выберите команду меню Диаграмма > Исходные данные… В появившемся диалоговом окне Исходные данные перейдите на вкладку Диапазон данных;

— убедитесь, что в поле Диапазон: полностью выделен блок необходимых ячеек. Если нет, то на рабочем листе выберите ячейки, содержащие данные, которые должны появиться в диаграмме.

Рис. 14. Диалоговое окно Мастер диаграмм (шаг 2 из 4).

Чтобы заголовки столбца или строки для новых данных появились в диаграмме, в область выбираемых ячеек нужно включить те, которые содержат эти заголовки.

На третьем шаге устанавливаются параметры диаграммы (рис. 15). Можно указать Заголовки (общее название и подписи осей), выбрать Оси, задать Линии сетки по осям, указать вывод и местоположение легенды. Для точек рядов можно указать наличие Подписи данных. Вместе с диаграммой можно вывести Таблицу данных.

Рис. 15. Диалоговое окно Мастер диаграмм (шаг 3 из 4).

Для изменения параметров существующей диаграммы следует выбрать команду меню Диаграмма > Параметры диаграммы…

Для удаления данных с листа и с диаграммы удалите данные с листа. Диаграмма будет обновлена автоматически.

Для удаления данных только с диаграммы выберите на ней ряд данных, который требуется удалить, и нажмите клавишу DEL.

На четвертом шаге указывается место размещения диаграммы (рис. 16). Она может размещаться на отдельном листе либо на листе с данными.

Рис. 16. Диалоговое окно Мастер диаграмм (шаг 4 из 4).

Для изменения места размещения существующей диаграммы надо выбрать команду меню Диаграмма > Размещение…

Построенную диаграмму можно поэлементно форматировать. Для этого следует:

— активизировать область диаграммы щелчком левой кнопки мыши;

— активизировать элемент диаграммы щелчком левой кнопки мыши;

— выбрать команду меню Формат > (контекстно-зависимая от выбранного элемента команда)… или нажать комбинацию клавиш Ctrl + 1.

В определенных видах диаграмм для рядов данных может быть вставлена линия тренда или скользящее среднее.

Линия тренда – графическое представление направления изменения значений ряда данных. Например, повышающаяся линия обозначает увеличение продаж за определенное время. Линии тренда используются для анализа ошибок предсказания, что также называется регрессионным анализом. К линии тренда может быть выведено уравнение трендовой модели и рассчитан коэффициент аппроксимации тренда, показаны прогнозные значения ряда.

Скользящее среднее – последовательность средних значений, вычисленных по частям рядов данных. На диаграмме линия, построенная по точкам скользящего среднего, позволяет построить сглаженную кривую, более ясно показывающую закономерность в развитии данных.

Для добавления линии тренда на диаграмму:

— выберите изменяемую диаграмму;

— выберите команду меню Диаграмма > Добавить линию тренда… В появившемся диалоговом окне Линия тренда (рис. 17) перейдите на вкладку Тип и выберите нужный тип регрессионной линии тренда (или линии скользящего среднего). При выборе типа Полиномиальная введите в поле Степень: наибольшую степень для независимой переменной;

— выберите ряд данных, к которому нужно добавить линию тренда. В поле Построен на ряде: перечислены все ряды данных диаграммы, поддерживающие линии тренда. Для добавления линии тренда к другим рядам выберите нужное имя в поле;

— перейдите на вкладку Параметры и выберите нужные параметры.

Если вариант «Скользящее среднее» выбран для точечной диаграммы, результат будет зависеть от порядка расположения значений X во входном диапазоне. Чтобы получить правильный результат, необходимо отсортировать значения X перед построением линии скользящего среднего.

Для объемных диаграмм доступна команда Диаграмма > Объемный вид…, с помощью которой можно изменить проекцию диаграммы, выполнить поворот вдоль вертикальной и горизонтальной оси (рис. 18). Все параметры подбираются в соответствии с требованиями пользователя.

Рис. 17. Диалоговое окно Линия тренда.

Рис. 18. Диалоговое окно Формат трехмерной проекции.

Построить диаграмму динамики деятельности, отражающую результаты хозяйственной деятельности фирмы на начало и конец года (табл. 4). По каждой строке выполняется сопоставление значений показателей на начало и конец года.

Основные показатели хозяйственной деятельности фирмы (тыс. руб.)

Дата добавления: 2015-09-19 ; просмотров: 283 . Нарушение авторских прав

источник

Графический способ анализа позволяет выразить зависимость между показателями при помощи графиков или диаграмм. Графикипредставляют собой условное изображение числовых величин в форме линий, плоскостей, столбиков и других геометрических фигур. Числовые значения величин переводят в графическое изображение при помощи масштаба. Графический способ наглядно и доступно отражает взаимосвязь показателей между собой, тенденции и закономерности развития деятельности конкретного предприятия или отрасли в целом. При помощи графиков иллюстрируют взаимосвязь между различными показателями, сравнивают отчетные данные за несколько периодов, а также отчетные данные с плановыми, характеризуют структуру какого-либо явления.

Графики являются одной из форм оперативного контроля и управления хозяйственными процессами. Различают следующие виды графиков: линейные, круговые, столбиковые, ленточные, криволинейные диаграммы и др.

При построении графиков должны соблюдаться выразительность, наглядность, простота.

Однако графики имеют и ряд недостатков по сравнению с таблицами:

– не могут включать большое количество данных;

– указываются приблизительные данные;

– построение осуществляется вручную – это трудоемкий процесс, однако с использованием компьютера эта задача упрощается.

Составление таблиц широко используется в экономическом анализе для подготовки и обработки информации, так как обеспечивает:

– уменьшение объема исходных данных в отчетных документах;

– систематизацию данных и выявление закономерностей;

– уменьшение объема аналитических пояснений.

Таблица данных – это система строк и столбцов, в которых в определенной последовательности и связи излагаются информационные сведения об анализируемом явлении или объекте. В таблице слева находится подлежащее, справа – сказуемое. В подлежащем указывается объект, в сказуемом – его характеристика в количественной форме в виде системы показателей.

По характеру подлежащего таблицы бывают простые, групповые и комбинационные.

По аналитическому содержанию различают таблицы, отражающие:

– характеристику изучаемого объекта;

– порядок расчета показателей;

– структурные изменения в составе показателей;

– взаимосвязь показателей по различным признакам;

– результаты расчета влияния факторов на результативный показатель;

– методику подсчета резервов;

– сводные результаты анализа.

Заголовки граф таблицы содержат название показателей, единицы их измерения. Завершает таблицу итоговая строка.

В таблицах данные принято располагать в следующей последовательности:

– абсолютные, затем относительные показатели;

– исходная информация, затем расчетные показатели;

– факторы, а затем результативный показатель.

По результатам анализа составляют сводные таблицы, в которых систематизируют данные аналитического исследования хозяйственной деятельности предприятия.

8. Порядок расчета влияния факторов способом

Способ относительных разниц применяется в детерминированном факторном анализе для измерения влияния факторов в мультипликативных моделях. Данный способ применяется тогда, когда исходные данные уже содержат определенные ранее относительные приросты факторных показателей в процентах или коэффициентах.

Последовательность решения задачи с помощью данного способа следующая:

1. Построение математической факторной модели.

2. Деление факторов на количественные и качественные.

3. Деление количественных показателей на первичные, вторичные и т.д.

4. Составление факторной модели в таком виде, чтобы на первом месте стоял первичный количественный фактор, на втором – вторичный, на последнем – качественный.

5. Расчет влияния факторов.

6. Проверка правильности расчетов путем балансовой увязки и выводы.

Математическое описание способа относительных разниц:

; ;

для расчета влияния фактора «а» необходимо плановое значение результативного показателя умножить на относительный прирост данного фактора, который рассчитывается делением абсолютного прироста фактора «а» на плановое значение фактора «а»:

;

для расчета влияния фактора «в» необходимо к плановому значению результативного показателя прибавить величину влияния фактора «а» на результативный показатель и полученную сумму умножить на относительный прирост фактора «в»:

;

для расчета влияния фактора «с» необходимо к плановому значению результативного показателя прибавить величину влияния факторов «а» и «в» на результативный показатель и полученную сумму умножить на относительный прирост фактора «с»:

;

балансовая увязка влияния факторов на результативный показатель:

; .

Не нашли то, что искали? Воспользуйтесь поиском:

Лучшие изречения: Для студентов недели бывают четные, нечетные и зачетные. 9547 — | 7477 — или читать все.

195.133.146.119 © studopedia.ru Не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования. Есть нарушение авторского права? Напишите нам | Обратная связь.

Отключите adBlock!
и обновите страницу (F5)

очень нужно

источник

Графические методы анализа данных

Краткий обзор типов графиков

2М графики
Столбцы
Отклонения
По левой оси Y
По правой оси Y
Столбцы сверху
Столбцы по X
Размах
Вероятностные с исключ. трендом
Полунорм. вероятностные
Висячие стобцы
Гистограммы
Линейные
Круговые диаграммы
Вероятностные
Вероят.-вероятн.
Квант.-квантиль
Диапазоны
Диаграммы рассеяния
Послед./Налож.
Диагр. Вороного

2М категоризованные графики
Вероятностные с исключ. трендом
Полунормальн. вероятностные
Норм. вероятн.
Вероят.-вероятн.
Квант.-квантиль

3М XYZ графики
Диаграммы рассеяния
Исходные данные
Тернарные графики
Трассировочные графики
График поверхности
Последовательная поверхность
Зонная карта
Карта линий
Карта линий уровня
Пространственный график
Спектральная диаграмма
Диаграмма всплесков
Диаграмма отклонений

3М Тернарные графики
График поверхности
Диаграмма отклонений
Зонная карта
Карта линий
Пространственный график
Трассировочный график

Матричные графики
Столбчатые диаграммы
Линейные графики
Диаграммы рассеяния

3М последовательные графики
Гистограммы двух переменных
Диаграмма размаха
Дискретная карта линий уровня
Карта линий уровня
График поверхности
Всплески
Диаграммы исходных данных
Блоковые
Всплески
График поверхности
Дискретная карта линий уровня
Карта линий уровня
Ленточные
Линейные
Столбчатые
3М диаграммы диапазонов
Диапазоны двойных лент
Диапазоны ошибок
Летящие блоки
Летящие ящики
Точечные диапазоны
3М диаграммы размаха
Диапазоны двойных лент
Граничные диапазоны
Столбцы ошибок
Летящие блоки
Летящие ящики
Точечные диапазоны

3М категоризованные графики
Карты линий
Диаграмма отклонений
Диаграмма рассеяния
Пространственный график
Спектральная диаграмма
График поверхности
Зонная карта

Тернарные категоризованные графики
Тернарная зонная карта
Тернарная карта линий
Тернарная диаграмма рассеяния
Тернарный график поверхности
Тернарный пространственный график
Тернарный трассировочный график

n-мерные пиктографики
Лица Чернова
Столбцы
Линии
Круг. диагр.
Многоугольн.
Профили
Звезды
Лучи

Типичные методы визуализации

Одним из наиболее мощных аналитических методов исследования является разделение («разбиение») данных на группы для сравнения структуры получившихся подмножеств. Эти методы широко применяются как в разведочном анализе данных, так и при проверке гипотез и известны под разными названиями (классификация, группировка, категоризация, разбиение, расслоение и пр.). Например, взаимосвязь между возрастом и риском инфаркта может отличаться для мужчин и женщин (для мужчин эта зависимость сильнее). Или например, зависимость между приемом лекарств и снижением уровня холестерина может наблюдаться только для женщин с пониженным давлением и в возрасте 30-40 лет. Производительность или гистограммы мощности могут различаться для временных промежутков, когда управление осуществляется разными операторами. Разным экспериментальным группам также могут соответствовать разные наклоны линий регрессии.

Для количественного описания различий между группами наблюдений разработаны многочисленные вычислительные методы, основанные на группировке данных (например, дисперсионный анализ). Однако графические средства (такие как рассматриваемые в этом разделе категоризованные графики) дают особые преимущества и позволяют выявить закономерности, которые трудно поддаются количественному описанию и которые весьма сложно обнаружить с помощью вычислительных процедур (например, сложные взаимосвязи, исключения или аномалии). В этих случаях графические методы предоставляют уникальные возможности многомерного аналитического исследования или «добычи» данных.

Читайте также:  Виды экономического анализа какой прогноз

Что такое категоризованные графики

Термин «категоризованные графики» впервые был использован в программе STATISTICA компании StatSoft в 1990 году (кроме того, Becker, Cleveland и Clark из Bell Labs называют их графиками на решетке). Эти графики представляют собой наборы двумерных, трехмерных, тернарных или n-мерных графиков (таких как гистограммы, диаграммы рассеяния, линейные графики, поверхности, тернарные диаграммы рассеяния и пр.), по одному графику для каждой выбранной категории (подмножества) наблюдений, например, опрашиваемых из Нью-Йорка, Чикаго или Далласа. Эти «входящие» графики располагаются последовательно в одном графическом окне, позволяя сравнивать структуру данных для каждой из указанных подгрупп (например, городов).

Для выбора подгрупп можно использовать множество методов, самый простой из них — это введение категориальной переменной (например, переменной City с значениями New York, Chicago и Dallas). На следующем графике показаны гистограммы переменной, представляющей данные о самооценке стресса жителями каждого из трех городов.

На основе этих данных можно сделать вывод о том, что жители Далласа не очень подвержены стрессам, в то время как распределения уровня стресса в Нью-Йорке и Чикаго довольно похожи.

Некоторые программы (например, система STATISTICA) поддерживают двухвходовую или многомерную категоризацию, где для задания подгрупп используется не один (например, City), а два или более критериев (например, City и Time ). Двухвходовые категоризованные графики можно рассматривать как «таблицы графиков», где каждый входящий график находится на «пересечении» определенных значений первой (например, City) и второй (например, Time) группирующих переменных.

Добавление второго фактора показывает, что картины стрессовых нагрузок в Нью-Йорке и Чикаго в действительности сильно различаются, если учитывается время опроса, в то время как фактор времени практически ничего не меняет в Далласе.

Категоризованные и матричные графики. Матричные графики также состоят из нескольких графиков; однако здесь каждый из них основывается (или может основываться) на одном и том же множестве наблюдений, и графики строятся для всех комбинаций переменных из одного или двух списков. Для категоризованных графиков требуется такой же выбор переменных, как и для некатегоризованных графиков соответствующего типа (например, две переменных для диаграммы рассеяния). В то же время для категоризованных графиков необходимо указать по крайней мере одну группирующую переменную (или способ разбиения наблюдений на категории), где содержалась бы информация о принадлежности каждого наблюдения к определенной подгруппе (например, Chicago, Dallas). Группирующая переменная не будет непосредственно изображена на графике (т.е. не будет построена), однако она будет служить критерием для разделения всех анализируемых наблюдений на отдельные подгруппы. Как показано выше, для каждой группы (категории), определяемой группирующей переменной, будет построен один график.

Общие и независимые шкалы. Каждый элементарный график, входящий в состав категоризованного графика, может быть масштабирован в соответствии со своим собственным диапазоном значений (независимые шкалы).

Или все графики могут иметь общую шкалу, достаточно широкую, чтобы охватить весь диапазон значений.

Общий масштаб позволяет сравнивать диапазоны и распределения значений разных категорий. Однако, если эти диапазоны сильно различаются (что приводит к очень большой общей шкале), то исследование некоторых графиков может быть затруднено. Использование независимого масштаба может упростить выявление трендов и определенных закономерностей внутри категорий, но в то же время затруднить сравнение диапазонов значений разных подгрупп.

Существует пять основных методов категоризации значений, которые будут кратко описаны в этом разделе: целые числа, категории, границы, коды и сложные подгруппы. Обратите внимание, что одни и те же методы категоризации можно использовать как для разбиения наблюдений по входящим графикам, так и для категоризации наблюдений внутри входящих графиков ( например, на гистограммах или диаграммах размаха).

Целые числа. При использовании этого режима для определения категорий будут использованы целые значения выбранной группирующей переменной, и для всех наблюдений, принадлежащих каждой категории (заданной этими целыми числами), будет построено по одному графику. Если выбранная группирующая переменная содержит не целочисленные значения, то программа автоматически округлит каждое значение выделенной переменной до целого числа.

Категории. В этом режиме категоризации нужно указать желаемое число категорий. Программа разделит весь диапазон значений выбранной группирующей переменной (от минимального до максимального) на указанное число интервалов равной длины.

Границы. Метод границ также представляет собой интервальную категоризацию, однако в этом случае интервалы могут иметь произвольную (например, различную) длину, определяемую пользователем (например, «меньше -10», «больше или равно -10, но меньше 0», «больше или равно 0, но меньше 10» и «больше или равно 10»).

Коды. Этот метод следует использовать в том случае, если выбранная группирующая переменная содержит «коды » (т.е. особые смысловые значения, такие как Male, Female), по которым можно разбить данные на категории.

Сложные подгруппы. Этот метод дает возможность пользователю использовать для выделения подгрупп более одной переменной. Другими словами, категоризация, основанная на выделении сложных подгрупп, может представлять не распределения конкретных переменных, а распределения частот определенных «событий» при заданной комбинации значений любого числа переменных текущего набора данных. Например, можно указать шесть категорий, задаваемых комбинациями значений трех переменных Gender, Age и Employment.

Гистограммы используются для изучения распределений частот значений переменных. Такое частотное распределение показывает, какие именно конкретные значения или диапазоны значений исследуемой переменной встречаются наиболее часто, насколько различаются эти значения, расположено ли большинство наблюдений около среднего значения, является распределение симметричным или асимметричным, многомодальным (т.е. имеет две или более вершины) или одномодальным и т.д. Гистограммы также используются для сравнения наблюдаемых и теоретических или ожидаемых распределений.

Категоризованные гистограммы представляют собой наборы гистограмм, соответствующих различным значениям одной или нескольких категоризующих переменных или наборам логических условий категоризации (см. Методы категоризации).

Частотные распределения могут представлять интерес по двум основным причинам.

  • По форме распределения можно судить о природе исследуемой переменной (например, бимодальное распределение позволяет предположить, что выборка не является однородной и содержит наблюдения, принадлежащие двум различным множествам, которые в свою очередь нормально распределены).
  • Многие статистики основываются на определенных предположениях о распределениях анализируемых переменных; гистограммы позволяют проверить, выполняются ли эти предположения.

Как правило, работа с новым набором данных начинается с построения гистограмм всех переменных.

Гистограммы и группировка. Категоризованные гистограммы предоставляют такую же информацию о данных, как и группировка (например, среднее, медиану, минимум, максимум, разброс и т.п.; см. главу Основные статистики и таблицы). Хотя конкретные (числовые) значения описательных статистик легко увидеть в таблице, в то же время общую структуру и глобальные характеристики распределения проще изучать на графике. Более того, график дает качественную информацию о распределении, которую невозможно отразить с помощью какого-либо одного параметра. Например, по асимметрии распределения значений дохода можно сделать вывод о том, что большинство населения имеет низкий, а не высокий уровень доходов. Если помимо этого провести группировку данных по этническому и половому признакам, то можно обнаружить, что в некоторых подгруппах эта структура распределения станет еще более ярко выраженной. Хотя эта информация содержится в значении коэффициента асимметрии (для каждой подгруппы), но она легче воспринимается и запоминается, будучи графически представленной на гистограмме. Кроме того, на гистограмме можно наблюдать некоторые «впадины и выпуклости», которые могут свидетельствовать о социальном расслоении в исследуемой группе населения или об аномалиях в распределении дохода отдельных подгрупп, связанных с недавней налоговой реформой.

Категоризованные гистограммы и диаграммы рассеяния. Полезное применение категоризации для непрерывных переменных — это представление взаимосвязи трех переменных одновременно. Ниже показана диаграмма рассеяния для двух переменных Load 1 и Load 2.

Предположим, к ним нужно добавить третью переменную (Output) и исследовать ее распределение при различных значения совместного распределения переменных Load 1 и Load 2. Для этого можно построить следующий график:

На этом графике обе переменные Load 1 и Load 2 сгруппированы в 5 интервалов, и для каждой комбинации этих интервалов вычислено распределение переменной Output. Обратите внимание, что внутри «прямоугольника» (параллелограмма) находятся наблюдения, одинаковые для обоих показанных выше графиков.

Двумерные диаграммы рассеяния используются для визуализации взаимосвязей между двумя переменными X и Y (например, весом и ростом). На этих диаграммах отдельные точки данных представлены маркерами на плоскости, где оси соответствуют переменным. Две координаты (X и Y), определяющие положение точки, соответствуют значениям переменных. Если между переменными существует сильная взаимосвязь, то точки на графике образуют упорядоченную структуру (например, прямую линию или характерную кривую). Если переменные не взаимосвязаны, то точки образуют «облако».

Можно построить также категоризованные диаграммы рассеяния, сгруппированные по значениям одной или нескольких переменных, а с помощью метода сложных подгрупп (см. Методы категоризации) — диаграммы рассеяния, категоризованные по заданным логическим условиям выбора подгрупп наблюдений.

Категоризованные диаграммы рассеянияпредставляют собой мощный исследовательский и аналитический метод для изучения взаимосвязей между двумя и более переменными среди различных подгрупп.

Однородность двумерных распределений (форма взаимосвязей).Диаграммы рассеяния обычно используются для выявления природы взаимосвязи двух переменных (например, кровяного давления и уровня холестерина), поскольку они предоставляют гораздо больше информации, чем коэффициент корреляции.

Например, неоднородность выборки, по которой рассчитываются корреляции, может привести к искажению значений коэффициента корреляции. Предположим, коэффициент корреляции рассчитывается по данным, полученным в двух экспериментальных группах, но этот факт при вычислениях игнорируется. Пусть эксперимент в одной из подгрупп привел к увеличению значений обеих переменных, и на диаграмме рассеяния данные из каждой группы образуют отдельные «облака» (как показано на картинке).

В этом примере большое значение коэффициента корреляции целиком обусловлено распределением по группам и не отражает «истинную» взаимосвязь между двумя переменными, которая практически близка к 0 (это хорошо видно, если рассматривать каждую группу отдельно).

Если вы предполагаете, что подобная структура присутствует и в ваших данных, и знаете, каким образом выделить «подгруппы» наблюдений, то имеет смысл построить категоризованную диаграмму рассеяния.

Такой график поможет вам прояснить структуру взаимосвязей между переменными X и Y внутри каждой подгруппы (после соответствующего разбиения наблюдений).

Нелинейные зависимости. С помощью диаграмм рассеяния можно исследовать и нелинейные взаимосвязи между переменными. При этом не существует каких-либо «автоматических» или простых способов оценки нелинейности. Стандартный коэффициент корреляции Пирсона r позволяет оценить только линейность связи, а некоторые непараметрические корреляции, например, Спирмена R, дают возможность оценить нелинейность, но только для монотонных зависимостей. На диаграммах рассеяния можно изучить структуру взаимосвязей, чтобы затем с помощью преобразования привести данные к линейному виду или выбрать подходящую нелинейную подгонку.

Существует три типа категоризованных вероятностных графиков: нормальные, полунормальные и с исключенным трендом. Нормальные вероятностные графики — это быстрый способ визуальной проверки степени соответствия данных нормальному распределению.

В свою очередь категоризованные вероятностные графики дают возможность исследовать близость к нормальному распределению различных подгрупп данных .

Категоризованные нормальные вероятностные графики представляют собой эффективный инструмент для исследования однородности группы наблюдений с точки зрения соответствия нормальному распределению.

Категоризованные графики квантиль-квантиль (или К-К) используются для поиска в определенном семействе распределений того распределения, которое наилучшим образом описывает имеющиеся данные.

В случае категоризованных графиков К-К строится набор графиков квантиль-квантиль, по одному для каждого значения категориальных переменных (X или X и Y) или для заданных условий выбора сложных подгрупп (см. Методы категоризации). Для графиков К-К используются следующие семейства распределений: экспоненциальное, экстремальное, нормальное, Релея, бета-, гамма-, логнормальное и Вейбулла.

Категоризованные графики вероятность-вероятность (или В-В) используются для проверки соответствия конкретного теоретического распределения имеющимся исходным данным. На этих графиках для каждого значения категориальных переменных (X или X и Y) или для заданных условий выбора сложных подгрупп (см. Методы категоризации) создается по одному графику вероятность-вероятность.

На графиках В-В строится наблюдаемая функция распределения (доля непропущенных значений x) в зависимости от теоретической функции распределения, чтобы оценить соответствие этой теоретической функции наблюдаемым данным. Если все точки этого графика располагаются на диагонали (содержащей точку 0 и имеющей наклон 1), то можно заключить, что наблюдаемое распределение хорошо аппроксимируется данной теоретической функцией.

Если не все точки данных располагаются на диагональной линии, то на таком графике можно визуально выделить группы наблюдений, соответствующие и не соответствующие искомому распределению (если, к примеру, точки образуют кривую S-образной формы вокруг диагональной линии, то к ним можно применить определенное преобразование для приведения к нужной форме распределения).

На линейных графиках отдельные точки данных соединяются линиями. Это простой способ визуального представления последовательности значений (например, цены на фондовом рынке за несколько дней торгов). Категоризованные линейные графики строятся в том случае, если необходимо разбить данные на несколько групп (категоризовать) с помощью группирующей переменной (например, цены при закрытии рынка по понедельникам, вторникам и т.д.) или с помощью логических условий, составленных по нескольким переменным (например, цены при закрытии рынка в те дни, когда две другие акции и индекс Доу Джонса выросли по сравнению с другими ценами закрытия; см. Методы категоризации).

На диаграммах размаха (этот термин был впервые использован Тьюки в 1970 году) представлены диапазоны значений выбранной переменной (или переменных) для отдельных групп наблюдений. Для выделения этих групп используются от одной до трех категориальных (группирующих) переменных или набор логических условий выбора подгрупп.

Для каждой группы наблюдений вычисляется центральная тенденция (медиана или среднее), а также размах или изменчивость (квартили, стандартные ошибки или стандартные отклонения). Выбранные параметры отображаются на графике одним из пяти способов (Прямоугольники-Отрезки, Отрезки, Прямоугольники, Столбцы или Верхние-нижние засечки). На этом графике можно показать и выбросы (см. разделы о выбросах и крайних точках).

На следующем графике, например, выбор факторов можно было бы считать вполне удачным, если бы не «досадное» несоответствие, на которое указывают выделенные на рисунке выбросы (в данном случае это значения, попадающие за пределы 1,5 квартильных размахов):

А на следующем рисунке не показаны ни выбросы, ни крайние точки.

Можно выделить два основных направления использования диаграмм размаха: (a) отображение диапазонов значений отдельных элементов, наблюдений или выборок (например, типичные минимаксные графики цен на акции или товары или графики агрегированных данных с диапазонами), (б) отображение изменения значений в отдельных группах или выборках (например, когда точкой внутри прямоугольника представлено среднее значение для каждой выборки, сам прямоугольник соответствует значениям стандартной ошибки, а меньший прямоугольник или пара «отрезков» обозначает стандартное отклонение от среднего).

С помощью диаграмм размаха, на которых представлены характеристики изменчивости, можно быстро оценить и «интуитивно представить» силу связи между группирующей и зависимой переменной. Предположив, что зависимая переменная нормально распределена, и зная долю наблюдений, попадающих, к примеру, в интервал ±1 или ±2 стандартных отклонения от среднего (см. Элементарные понятия статистики), можно сделать, например, вывод о том, что 95% наблюдений из экспериментальной группы 1 попадают в другой диапазон значений, нежели 95% наблюдений из группы 2.

На этих графиках можно изобразить и так называемые усеченные средние (этот термин был впервые использован Тьюки в 1962 году), которые вычисляются после исключения заданного пользователем процента наблюдений с концов (хвостов) распределения.

Одним из наиболее широко используемых типов графического представления данных являются круговые диаграммы, на которых показаны пропорции или сами значения переменных. Категоризованные графики этого типа состоят из нескольких круговых диаграмм, где данные разделены по группам с помощью одной или нескольких группирующих переменных (например, gender) или категоризованы согласно логическим условиям выбора подгрупп (см. Методы категоризации).

В дальнейшем, говоря о категоризации этих графиков, мы будем иметь ввиду круговые диаграммы частот (в противоположность круговым диаграммам значений). Эти типы графиков, называемые также частотными круговыми диаграммами, представляют данные аналогично гистограммам. Все значения выбранной переменной категоризуются с помощью заданного метода категоризации, а затем относительные значения частот отображаются в виде сегментов круговой диаграммы пропорционального размера. Таким образом, эти графики являются альтернативным представлением гистограммы частот (см. раздел о категоризованных гистограммах).

Диаграммы рассеяния круговых диаграмм. Еще одно очень полезное применение категоризованных круговых диаграмм — это представление относительных частот значений какой-либо переменной в различных «местах» совместного распределения двух других переменных. Например:

Обратите внимание, что круговые диаграммы изображены только в тех «местах», где имеются данные. Показанный выше график напоминает диаграмму рассеяния (переменных L1 и L2), где маркерами точек являются круговые диаграммы. Однако помимо обычной информации, содержащейся в диаграмме рассеяния, здесь в каждой точке дополнительно показано относительное распределение третьей переменной (а именно, доля значений Low, Medium и High Quality).

Графики пропущенных значений и данных вне диапазона

На этих графиках можно наглядно представить структуру распределения точек данных, содержащих пропущенные значения или находящихся «вне диапазонов», заданных пользователем. При этом строится по одной двумерной диаграмме для каждой группы наблюдений, выделенной с помощью группирующих переменных или с помощью условий выбора сложных подгрупп (см. Методы категоризации).

Эти типы графиков используются в разведочном анализе данных, чтобы определить, является ли случайным распределение точек с пропущенными значениями, а также для оценки их диапазона.

Читайте также:  Простата анализ какие надо сдать

Трехмерные диаграммы рассеяния (пространственные, спектральные, трассировочные и диаграммы отклонений), карты линий уровня и поверхности также можно построить для подгрупп наблюдений, заданных с помощью выбранной категориальной переменной или логических условий выбора (см. Методы категоризации). Основная задача этих графиков — упростить сравнение взаимосвязей между тремя и более переменными для различных групп или категорий наблюдений.

Применения. Трехмерные графики в координатах XYZ отображают взаимосвязи между тремя переменными. С помощью различных способов категоризации можно исследовать эти зависимости при различных условиях (т.е. в разных группах).

Изучая, например, показанный ниже категоризованный график поверхности, можно сделать вывод о том, что величина допуска прибора не влияет на измерения (переменные Depend1, Depend2 и Height), кроме случая, когда она 3.

Этот вывод становится еще более очевидным, если использовать вместо поверхности карту линий уровня.

Категоризованные тернарные графики используются для исследования взаимосвязей между тремя и более переменными, три из которых представляют собой компоненты смеси (т.е. для каждого наблюдения значения их суммы являются постоянной величиной), при этом отдельный график строится для каждого уровня группирующей переменной.

Для построения тернарных графиков используется треугольная система координат на плоскости или в пространстве и строится зависимость между четырьмя (или более) переменными (компонентами X, Y и Z и откликами V1, V2 и т.д.). При этом накладываются ограничения на относительные значения каждой из компонент, чтобы они в сумме давали одинаковую величину для каждого наблюдения (например, 1).

На категоризованных тернарных графиках строится по одному графику для каждого значения группирующей переменной (или заданного пользователем подмножества данных), и все они отображаются в одном графическом окне, чтобы можно было сравнивать различные подгруппы наблюдений.

Применения. Эти графики применяются для анализа результатов эксперимента, в котором измеряемый отклик зависит от относительного соотношения трех компонент (например, трех химических веществ при составлении смесей), которое варьируется с целью определения его оптимального значения. Эти типы графического представления можно использовать и в других случаях, когда взаимосвязь между переменными, на которые наложены определенные ограничения, необходимо исследовать для различных групп или категорий наблюдений.

Закрашивание является одним из первых и, по-видимому, наиболее широко распространенных методов, известных как графический разведочный анализ данных. Этот метод позволяет интерактивно выделять на экране отдельные точки или подмножества данных и задавать их характеристики, или исследовать их влияние на взаимосвязи между переменными (например, на матрицах диаграмм рассеяния) и идентифицировать выбросы(например, с помощью меток).

Связи между переменными можно наглядно представить с помощью аппроксимирующих функций (например, двумерных кривых или трехмерных поверхностей) и доверительных интервалов. Интерактивно удаляя или добавляя определенные подгруппы наблюдений, можно наблюдать за изменениями этих функций и их параметров. Одно из применений метода закрашивания — это, например, выделение на матричной диаграмме рассеяния всех точек данных, принадлежащих определенной категории (например, на показанном ниже рисунке на правом верхнем графике выделена группа наблюдений, соответствующих значению «среднего» уровня дохода).

Такое исследование помогает определить, как эти конкретные наблюдения влияют на связи между другими переменными того же набора данных (например, на корреляцию между «расходами» и «активами»).

В режиме «динамического закрашивания» (см. следующий пример) или «автоматического обновления функции подгонки» можно задать движение кисти по определенным последовательным диапазонам выбранной переменной (например, непрерывной, а не дискретной, как на показанном ранее примере) и исследовать динамику вклада этой переменной в связи между другими переменными этого набора данных.

Сглаживание двумерных распределений

Для наглядного представления таблицы значений двух переменных используются трехмерные гистограммы. Их можно рассматривать как объединение двух простых гистограмм для совместного анализа частот значений двух переменных. Чаще всего на этом графике для каждой «ячейки» таблицы нарисован один трехмерный столбец, а его высота соответствует частоте значений в этой ячейке. При построении трехмерной гистограммы для каждой из двух переменных можно использовать свой метод категоризации (см. ниже).

Когда предусмотрены процедуры сглаживания данных, то трехмерное представление частот значений можно аппроксимировать поверхностью. Такое сглаживание можно осуществить для любой трехмерной гистограммы. Для достаточно простой структуры данных (как на предыдущем рисунке) такое сглаживание не имеет особого смысла.

Однако, в случае более сложной картины распределения частот эта процедура может оказаться эффективным инструментом разведочного анализа данных

и позволит выявить особенности, которые трудно обнаружить на обычной трехмерной гистограмме (например, показанную выше «волновую структуру» поверхности).

На графиках этого типа за счет сокращения области основного графика освобождается место для графиков на полях, которые располагаются в правой и верхней части графического окна (включая маленький угловой график). Эти графики на полях представляют собой соответственно вертикально и горизонтально сжатые изображения основного графика.

Послойное сжатие двумерных графиков является методом разведочного анализа данных, который дает возможность скрытые тренды и структуры двумерных наборов данных. Рассмотрим следующий рисунок.

Здесь на примере, приведенном Кливландом (Cleveland, 1993), можно убедиться, что в каждом цикле солнечной активности число пятен уменьшается гораздо медленнее, чем нарастает в начале цикла. Такое поведение совершенно не очевидно при исследовании обычного линейного графика, в то время как сжатый график позволяет обнаружить эту скрытую картину.

Проекции трехмерных наборов данных

Полезным методом изучения и аналитического исследования структуры поверхности (созданной, как правило, по трехмерным наборам данных) является построение ее проекции на плоскость в виде карты линий уровня.

Эти графики менее эффективны для быстрого визуального анализа формы трехмерных структур по сравнению с графиками поверхности,

однако их преимущество заключается в возможности точного исследования формы поверхности —

на картах линий уровня отображается ряд не искаженных горизонтальных «сечений».

На пиктографиках каждое наблюдение представлено в виде многомерного символа, что позволяет использовать эти типы графического представления данных в качестве не очень простого, но мощного исследовательского инструмента. Главная идея такого метода анализа основана на человеческой способности «автоматически» фиксировать сложные связи между многими переменными, если они проявляются в последовательности элементов (в данном случае «пиктограмм»). Иногда понимание (или «чувство») того, что некоторые элементы «чем-то похожи» друг на друга, приходит раньше, чем наблюдатель (аналитик) может объяснить, какие именно переменные обусловливают это сходство (Lewicki, Hill, & Czyzewska, 1992). Конкретную природу проявившихся взаимосвязей между переменными позволяет выявить уже последующий анализ данных, основанный на изучении этого интуитивно обнаруженного сходства.

Основная идея пиктографиков заключается в представлении элементарных наблюдений как отдельных графических объектов, где значения переменных соответствуют определенным чертам или размерам объекта (обычно одно наблюдение = одному объекту). Это соответствие устанавливается таким образом, чтобы общий вид объекта менялся в зависимости от конфигурации значений.

Таким образом, объекты имеют определенный «внешний вид», который уникален для каждой конфигурации значений и может быть идентифицирован наблюдателем. Изучение таких пиктограмм помогает выявить как простые связи, так и сложные взаимодействия между переменными.

Целесообразно проводить анализ пиктографиков в пять этапов.

  1. Сначала выберите порядок анализируемых переменных. В большинстве случаев наилучшим вариантом оказывается случайная последовательность. Кроме того, можно попробовать расположить их в порядке, соответствующем полученному уравнению множественной регрессии, факторным нагрузкам или объясняемым факторам (см. главу Факторный анализ). Таким образом можно упростить и сделать более «однородным» общий вид пиктограмм, чтобы легче идентифицировать слабо выраженные различия. В то же время такой подход может затруднить идентификацию некоторых структур. На этом этапе можно дать только один универсальный совет: прежде чем использовать какие-либо сложные методы, попробуйте наиболее простой и быстрый вариант, а именно, случайную последовательность переменных.
  2. Попробуйте обнаружить какие-либо закономерности, например, сходства между группами пиктограмм, выбросы или определенные связи между элементами (например, » если первые два луча звезды длинные, то как правило, с другой стороны есть один или два коротких луча»). На этом этапе лучше использовать пиктографики кругового типа.
  3. При обнаружении закономерностей постарайтесь сформулировать их в терминах конкретных переменных.
  4. Измените соответствие переменных и элементов пиктограмм (или переключитесь на один из последовательных пиктографиков), чтобы проверить обнаруженную структуру взаимосвязей (например, попробуйте переместить ближе друг к другу элементы, между которыми обнаружена связь). В некоторых случаях в конце этого этапа целесообразно исключить из рассмотрения те переменные, которые не вносят явного вклада в обнаруженную структуру.
  5. И наконец, используйте один из численных методов (таких как регрессионный анализ, нелинейное оценивание, дискриминантный или кластерный анализ), чтобы проверить и попытаться количественно оценить обнаруженные закономерности или хотя бы их часть.

Большинство пиктографиков можно отнести к одной из двух групп: круговые и последовательные.

Круговые пиктографики. Круговые пиктографики (звезды, лучи, многоугольники) имеют вид «велосипедного колеса», на них значения переменных представлены расстояниями между центром пиктограммы («втулкой») и их концами.

Такие графики могут помочь в обнаружении связей между переменными, которые проявляются в общей структуре пиктограмм и зависят от конфигурации значений самих переменных.

Чтобы описать такую » общую картину» в терминах конкретных моделей или проверить имеющиеся предположения, имеет смысл использовать последовательные пиктографики, которые могут оказаться более эффективными, если уже известно, что именно требуется обнаружить.

Последовательные пиктографики. Последовательные пиктографики (столбцы, профили, линии) представляют собой набор картинок с маленькими последовательными графиками (различных типов).

Значения переменных представлены здесь расстояниями между основанием пиктограммы и последовательными точками (например, высотами показанных выше столбцов). Эти графики менее эффективны на начальной стадии разведочного анализа, поскольку пиктограммы очень похожи между собой. Однако, как уже упоминалось ранее, такое представление может быть весьма полезным для проверки уже сформулированной гипотезы.

Пиктограммы круговых диаграмм. Эти пиктографики нельзя однозначно отнести к одной из двух групп. Все они имеют круговую форму, но в то же время последовательно разделены в соответствии с значениями переменных.

Их можно отнести скорее к последовательным, чем к круговым пиктографикам, но можно использовать и в том, и в другом случае.

«Лица Чернова». Этот тип пиктографиков составляет отдельную группу. Здесь каждое наблюдение представляет собой схематичное изображение лица, определенным чертам которого соответствуют относительные значения выбранных переменных.

Некоторые исследователи рассматривают этот способ графического представления данных как уникальный многомерный метод разведочного анализа, позволяющий выявить такие скрытые картины взаимосвязей между переменными, которые не могут быть обнаружены другими методами. Вероятно, такое заявление можно считать преувеличением. Кроме того, следует заметить, что этот способ исследования весьма непрост в применении и требует большого опыта в том, что касается сопоставления переменных чертам лица. См. также раздел Методы «добычи данных» .

Как правило, при построении пиктографиков значения переменных должны быть стандартизованы, чтобы их можно было сравнивать в пределах одной пиктограммы. Исключения составляют те случаи, когда на пиктограммах необходимо отобразить глобальные различия диапазонов выбранных переменных. Поскольку масштаб пиктограммы определяется наибольшим значением, то на пиктограмме могут отсутствовать те переменные, которые имеют значения другого порядка малости, например, на пиктограмме звезды некоторые лучи могут оказаться настолько короткими, что совсем не будут видны..

Пиктографики обычно используются: (1) для обнаружения структур или кластеров наблюдений и (2) для исследования сложных взаимосвязей между несколькими переменными. Первый вариант соответствует кластерному анализу; т.е. процедуре классификации наблюдений.

Предположим, вы изучали характеры актеров и записали их ответы на вопросы анкеты. С помощью пиктографика можно определить, существуют ли группы артистов, которые отличаются по их ответам на заданные вопросы (можно, к примеру, обнаружить, что некоторые артисты являются творческими, недисциплинированными и независимыми личностями, в то время как другая группа состоит из умных, дисциплинированных людей, которые ценят свою популярность).

Другая область применений — изучение взаимосвязей между переменными — напоминает факторный анализ, который используется для исследования вопроса о зависимости переменных. Предположим, изучалось мнение группы людей о различных марках автомобилей. В файле данных записаны средние оценки по каждому из свойств (рассматриваемых как переменные) для каждого из автомобилей (рассматриваемых как наблюдения).

При изучении «лиц Чернова» (где каждое лицо представляет мнение об одном из автомобилей) может оказаться, что улыбающиеся лица обычно имеют большие уши; при этом, если цене соответствует «ширина» улыбки, а динамическим качествам — размер ушей, то это «открытие» означает, что быстрые машины являются более дорогими. Разумеется, это очень простой пример; однако при реальном анализе данных применение этого метода может сделать более очевидными сложные взаимосвязи между многими переменными.

Близкие способы графического представления

Связи между переменными из одного или двух списков могут быть представлены на матричных графиках. Использование матричных графиков одновременно с выделением подгрупп позволяет получить информацию, подобную той, которая отображается на пиктографиках.

Если использовать методы выделения подгрупп на диаграммах рассеяния, то для исследования взаимосвязей между двумя переменными можно использовать обычные 2М диаграммы рассеяния; а в случае трех переменных — 3Мдиаграммы рассеяния.

Существуют различные типы пиктографиков.

«Лица Чернова». Для каждого наблюдения рисуется отдельное «лицо»; при этом относительные значения выбранных переменных соответствуют форме и размерам определенных его черт (например, длине носа, изгибу бровей, ширине лица).

Звезды. Это пиктографики кругового типа. Для каждого наблюдения рисуется пиктограмма в виде звезды; относительные значения выбранных переменных соответствуют относительным длинам лучей каждой звезды (по часовой стрелке, начиная с 12:00). Концы лучей соединены линиями.

Лучи. Эти пиктографики также относятся к круговому типу. Для каждого наблюдения строится одна пиктограмма. Каждый луч соответствует одной из выбранных переменных (по часовой стрелке, начиная с 12:00), и на нем отложено значение соответствующей переменной. Эти значения соединены линиями.

Многоугольники. Это пиктографикикругового типа. Для каждого наблюдения рисуется отдельный многоугольник; относительные значения выбранных переменных соответствуют расстояниям вершин от центра многоугольника (по часовой стрелке, начиная с 12:00).

Круговые диаграммы. Это пиктографики кругового типа. Для каждого наблюдения рисуется круговая диаграмма; относительные значения выбранных переменных соответствуют размерам сегментов диаграммы (по часовой стрелке, начиная с 12:00).

Столбцы. Это пиктографики последовательного типа. Для каждого наблюдения строится столбчатая диаграмма; относительные значения выбранных переменных соответствуют высотам последовательных столбцов.

Для каждого наблюдения строится линейный график; относительные значения выбранных переменных соответствуют расстояниям точек излома линии от основания графика.

Профили. Это пиктографики последовательного типа. Для каждого наблюдения строится зонный график; относительные значения выбранных переменных соответствуют расстояниям последовательных пиков сечения над линией основания.

Если программа позволяет вам выделять подгруппы наблюдений, то это свойство можно использовать и для маркировки соответствующих пиктограмм. При этом вокруг выделенных пиктограмм будут нарисованы рамки.

Шаблоны рамок, идентифицирующих заданные подгруппы, будут показаны в условных обозначениях рядом с текстом соответствующих условий выбора наблюдений. На следующем графике показан пример маркированных подгрупп.

Все наблюдения, удовлетворяющие условию для подгруппы 1 (значение переменной Iristype равно значению переменной Setosa и номер наблюдения меньше 100), обозначены специальной рамкой вокруг пиктограммы.

А все наблюдения, которые удовлетворяют условию для подгруппы 2 (значение переменной Iristype равно значению переменной Virginic и номер наблюдения меньше 100), обозначены на графике рамкой другого цвета.

Иногда отображение на графике слишком большого числа точек данных затрудняет изучение их структуры (см. следующий рисунок). Если файл данных слишком большой, то имеет смысл показать на графике лишь подмножество наблюдений, чтобы общая картина не была скрыта маркерами точек.

Некоторые программы предлагают методы выборки (или оптимизации) данных, которые в ряде случаев могут оказаться весьма полезны. При этом пользователь может задать целое число n, меньшее числа наблюдений в файле данных, а программа случайным образом выберет из этого файла приблизительно n допустимых наблюдений и именно их построит на графике.

Заметим, что такие методы сокращения набора данных (или размера выборки) эффективно отображают случайную структуру этих данных. Очевидно, эти методы принципиально отличаются от методов выделения конкретного подмножества или подгруппы наблюдений с помощью определенных критериев (например, по полу, области или уровню холестерина). Последние можно применять интерактивно (например, в режиме динамического закрашивания) или каким-либо другим способом (например, на категоризованных графиках или с помощью условий выбора наблюдений). Все эти методы в равной мере могут помочь в идентификации сложной структуры большого набора данных.

Вращение (в трехмерном пространстве)

Изменение угла зрения при отображении трехмерной диаграммы рассеяния (простой, спектральной или пространственной) может оказаться эффективным средством для выявления некоторой структуры, которая видна только при определенном повороте «облака» точек (см. следующий рисунок).

Некоторые программы предоставляют полезный инструмент для интерактивного изменения перспективы и вращения изображения. Эти средства контроля изображения позволяют подобрать подходящий угол зрения и перспективу, чтобы найти наиболее удачное расположение «точки зрения» на график, а также дают возможность управлять его вращением в горизонтальной и вертикальной плоскости.

Эти инструменты могут оказаться весьма полезными не только при начальном разведочном анализе данных, но и при исследовании факторного пространства (см.Факторный анализ) или пространства размерностей (см. Многомерное шкалирование).

Все права на материалы электронного учебника принадлежат компании StatSoft

источник