Меню Рубрики

Как сделать факторный анализ данных

Все процессы, происходящие в бизнесе, взаимосвязаны. Между ними прослеживается как прямая, так и косвенная связь. Различные экономические параметры изменяются под действием различных факторов. Факторный анализ (ФА) позволяет выявить эти показатели, проанализировать их, изучить степень влияния.

Факторный анализ – это многомерная методика, позволяющая изучить взаимосвязи между параметрами переменных. В процессе происходит исследование строения ковариационных или корреляционных матриц. Факторный анализ используется в самых различных науках: психометрике, психологии, экономике. Основы этого метода были разработаны психологом Ф. Гальтоном.

Для получения достоверных результатов лицу требуется сравнить показатели по нескольким шкалам. В процессе определяется корреляция полученных значений, их сходство и различия. Рассмотрим базовые задачи факторного анализа:

  • Обнаружение существующих значений.
  • Подбор параметров для полноценного анализа значений.
  • Классификация показателей для системной работы.
  • Обнаружение взаимосвязей между результативными и факторными значениями.
  • Определение степени влияния каждого из факторов.
  • Анализ роли каждого из значений.
  • Применение факторной модели.

Исследован должен быть каждый параметр, который влияет на итоговое значение.

Методы ФА могут использоваться как в совокупности, так и раздельно.

Детерминированный анализ используется наиболее часто. Связано это с тем, что он достаточно прост. Позволяет выявить логику воздействия основных факторов компании, проанализировать их влияние в количественных значениях. В результате ДА можно понять, какие факторы следует изменить для улучшения эффективности работы компании. Преимущества метода: универсальность, легкость использования.

Стохастический анализ позволяет проанализировать существующие косвенные связи. То есть происходит исследование опосредованных факторов. Метод используется в том случае, если невозможно найти прямые связи. Стохастический анализ считается дополнительным. Он используется только в некоторых случаях.

Что понимается под косвенными связями? При прямой связи при изменении аргумента изменятся и значение фактора. Косвенная связь предполагает изменение аргумента с последующим изменением сразу нескольких показателей. Метод считается вспомогательным. Связано это с тем, что специалисты рекомендуют изучать в первую очередь прямые связи. Они позволяют составить более объективную картину.

Анализ по каждому фактору дает объективные результаты. Однако применяется он крайне редко. Связано это с тем, что в процессе выполняются сложнейшие вычисления. Для их проведения потребуется специальное программное обеспечение.

  1. Установление цели проведения расчетов.
  2. Отбор значений, которые непосредственно или косвенно влияют на конечный результат.
  3. Классификации факторов для комплексного исследования.
  4. Обнаружение зависимости между выбранными параметрами и конечным показателем.
  5. Моделирование взаимных связей между результатом и факторами, влияющими на него.
  6. Определение степени воздействия значений и оценка роли каждого из параметров.
  7. Использование образованной факторной таблицы в деятельности предприятия.

К СВЕДЕНИЮ! Факторный анализ предполагает сложнейшие вычисления. Поэтому лучше доверить его проведение профессионалу.

ВАЖНО! Крайне важно при проведении расчетов правильно отобрать факторы, которые влияют на результат деятельности предприятия. Отбор факторов зависит от определенной сферы.

ФА рентабельности проводится для анализа рациональности распределения ресурсов. В результате можно определить, какие факторы наибольшим образом влияют на конечный результат. В результате можно оставить только те факторы, которые наилучшим образом воздействуют на эффективность. На основании полученных данных можно изменить ценовую политику компании. На себестоимость продукции могут влиять следующие факторы:

  • постоянные издержки;
  • переменные издержки;
  • прибыль.

Уменьшение издержек провоцирует повышение прибыли. При этом себестоимость не изменяется. Можно сделать вывод о том, что на прибыльность влияют имеющиеся издержки, а также объем проданной продукции. Факторный анализ позволяет определить степень влияния этих параметров. Когда имеет смысл его проводить? Основной повод к проведению – уменьшение или повышение прибыльности.

Факторный анализ проводится посредством следующей формулы:

Rв= ((Вт-СБ -КРБ-УРБ)/ Вт) — (ВБ-СБ-КРБ-УРБ)/ВБ, где:

ВТ – выручка за нынешний период;

СБ – себестоимость за нынешний период;

КРБ – коммерческие траты за нынешний период;

УРБ – управленческие траты за предшествующий период;

ВБ – выручка за предшествующий период;

КРБ – коммерческие траты за предшествующий период.

Рассмотрим формулу расчета степени воздействия себестоимости на прибыльность:

Rс= ((Вт-СБот -КРБ-УРБ)/ Вт) — (Вт-СБ-КРБ-УРБ)/Вт,

СБот – это себестоимость продукции за нынешний период.

Формула для расчета влияния управленческих трат:

Rур= ((Вт-СБ -КРБ-УРот)/ Вт) — (Вт-СБ-КРБ-УРБ)/Вт,

УРот – это управленческие траты.

Формула для вычисления степени воздействия коммерческих издержек:

Rк= ((Вт-СБ -КРо-УРБ)/ Вт) — (Вт-СБ-КРБ-УРБ)/Вт,

КРо – это коммерческие траты за предыдущее время.

Совокупное воздействие всех факторов высчитывается по следующей формуле:

Rоб=Rв+Rс+Rур+Rк.

ВАЖНО! При расчетах имеет смысл высчитывать влияние каждого фактора в отдельности. Результаты общего ФА имеют небольшую ценность.

Рассмотрим показатели организации за два месяца (за два периода, в рублях). В июле доход организации составил 10 тысяч, себестоимость продукции – 5 тысяч, административные траты – 2 тысячи, коммерческие траты – 1 тысяча. В августе доход компании составил 12 тысяч, себестоимость продукции – 5,5 тысяч, административные траты – 1,5 тысячи, коммерческие траты – 1 тысяча. Проводятся следующие расчеты:

R=((12 тысяч-5,5 тысяч-1 тысяча-2 тысячи)/12 тысяч)-((10 тысяч- 5,5 тысяч-1 тысяча-2 тысячи)/10 тысяч)=0,29-0,15=0,14

Из этих расчетов можно сделать вывод о том, что прибыль организации повысилась на 14%.

Сначала требуется рассчитать балансовую прибыль организации:

РР – прибыль от реализации;

РФ – результаты финансовой деятельности;

РВН – сальдо доходов и расходов от внереализационных действий.

Затем нужно определить результат от продажи товаров:

N – выручка от продажи товаров по отпускным ценам;

S1 – себестоимость проданной продукции;

S2 – коммерческие и управленческие траты.

Ключевым фактором при расчете прибыли является оборот компании по продаже компании.

К СВЕДЕНИЮ! Факторный анализ крайне сложно проводить вручную. Для него можно использовать специальные программы. Самая простая программа для расчетов и автоматического анализа – Microsoft Excel. В ней есть инструменты для анализа.

источник

Главные компоненты и факторный анализ

Главными целями факторного анализа являются: (1) сокращение числа переменных (редукция данных) и (2) определение структуры взаимосвязей между переменными, т.е. классификация переменных. Поэтому факторный анализ используется или как метод сокращения данных или как метод классификации. Ниже описываются принципы факторного анализа и способы его применения для достижения этих двух целей. Предполагается, что вы знакомы с логикой статистических выводов в объеме, содержащемся в разделе Элементарные понятия статистики. Предполагается также, что вы знакомы с понятиями дисперсии и корреляции (см. например, раздел Основные статистики и таблицы).

Существует множество прекрасных книг по факторному анализу. Практические примеры и советы по применению можно, например, найти в книге Стивенса (Stevens, 1986); более подробное описание приводят Кули и Лонес (Cooley, Lohnes, 1971); Харман (Harman, 1976); Ким и Мюллер (Kim, Mueller, 1978a, 1978b); Лоули и Максвелл (Lawley, Maxwell, 1971); Линдеман, Меренда и Голд (Lindeman, Merenda, Gold, 1980); Моррисон (Morrison, 1967) и Мулэйк (Mulaik, 1972). Интерпретация вторичных факторов в иерархическом факторном анализе, как альтернатива традиционному вращению факторов, дана Верри (Wherry, 1984).

Подтверждающий факторный анализ. Моделирование структурными уравнениями (SEPATH) позволяет проверять частные гипотезы о факторной структуре для множества переменных (подтверждающий факторный анализ) в одной или нескольких выборках (например, вы сможете сравнить факторные структуры разных выборок (опытов)).

Анализ соответствий. Анализ соответствий — это описательные/разведочные методы, предназначенные для анализа двух- и многовходовых таблиц, содержащих некоторые взаимосвязи между строками и столбцами. Результаты этого анализа дают информацию, похожую на ту, которую предоставляет факторный анализ, и позволяют изучить структуру категориальных переменных, входящих в таблицу. За более полной информацией об этих методах обратитесь к описанию Анализа соответствий.

Факторный анализ как метод редукции данных

Предположим, что вы проводите (до некоторой степени «глупое») исследование, в котором измеряете рост ста людей в дюймах и сантиметрах. Таким образом, у вас имеются две переменные. Если далее вы захотите исследовать, например, влияние различных пищевых добавок на рост, будете ли вы продолжать использовать обе переменные? Вероятно, нет, т.к. рост является одной характеристикой человека, независимо от того, в каких единицах он измеряется.

Теперь предположим, вы хотите измерить удовлетворенность людей жизнью, для чего составляете вопросник с различными пунктами; среди других вопросов задаете следующие: удовлетворены ли люди своим хобби (пункт 1) и как интенсивно они им занимаются (пункт 2). Результаты преобразуются так, что средние ответы (например, для удовлетворенности) соответствуют значению 100, в то время как ниже и выше средних ответов расположены меньшие и большие значения, соответственно. Две переменные (ответы на два разных пункта) коррелированы между собой. (Если вы не знакомы с понятием коэффициента корреляции, рекомендуем обратиться к разделу Основные статистики и таблицы — Корреляции). Из высокой коррелированности двух этих переменных можно сделать вывод об избыточности двух пунктов опросника.

Объединение двух переменных в один фактор. Зависимость между переменными можно обнаружить с помощью диаграммы рассеяния. Полученная путем подгонки линия регрессии дает графическое представление зависимости. Если определить новую переменную на основе линии регрессии, изображенной на этой диаграмме, то такая переменная будет включить в себя наиболее существенные черты обеих переменных. Итак, фактически, вы сократили число переменных и заменили две одной. Отметим, что новый фактор (переменная) в действительности является линейной комбинацией двух исходных переменных.

Анализ главных компонент. Пример, в котором две коррелированные переменные объединены в один фактор, показывает главную идею факторного анализа или, более точно, анализа главных компонент (это различие будет обсуждаться позднее). Если пример с двумя переменными распространить на большее число переменных, то вычисления становятся сложнее, однако основной принцип представления двух или более зависимых переменных одним фактором остается в силе.

Выделение главных компонент. В основном процедура выделения главных компонент подобна вращению, максимизирующему дисперсию (варимакс) исходного пространства переменных. Например, на диаграмме рассеяния вы можете рассматривать линию регрессии как ось X, повернув ее так, что она совпадает с прямой регрессии. Этот тип вращения называется вращением, максимизирующим дисперсию, так как критерий (цель) вращения заключается в максимизации дисперсии (изменчивости) «новой» переменной (фактора) и минимизации разброса вокруг нее (см. Стратегии вращения).

Обобщение на случай многих переменных. В том случае, когда имеются более двух переменных, можно считать, что они определяют трехмерное «пространство» точно так же, как две переменные определяют плоскость. Если вы имеете три переменные, то можете построить 3М диаграмму рассеяния.

Для случая более трех переменных, становится невозможным представить точки на диаграмме рассеяния, однако логика вращения осей с целью максимизации дисперсии нового фактора остается прежней.

Несколько ортогональных факторов. После того, как вы нашли линию, для которой дисперсия максимальна, вокруг нее остается некоторый разброс данных. И процедуру естественно повторить. В анализе главных компонент именно так и делается: после того, как первый фактор выделен, то есть, после того, как первая линия проведена, определяется следующая линия, максимизирующая остаточную вариацию (разброс данных вокруг первой прямой), и т.д. Таким образом, факторы последовательно выделяются один за другим. Так как каждый последующий фактор определяется так, чтобы максимизировать изменчивость, оставшуюся от предыдущих, то факторы оказываются независимыми друг от друга. Другими словами, некоррелированными или ортогональными.

Сколько факторов следует выделять? Напомним, что анализ главных компонент является методом сокращения или редукции данных, т.е. методом сокращения числа переменных. Возникает естественный вопрос: сколько факторов следует выделять? Отметим, что в процессе последовательного выделения факторов они включают в себя все меньше и меньше изменчивости. Решение о том, когда следует остановить процедуру выделения факторов, главным образом зависит от точки зрения на то, что считать малой «случайной» изменчивостью. Это решение достаточно произвольно, однако имеются некоторые рекомендации, позволяющие рационально выбрать число факторов, как показано в Обзоре результатов анализа главных компонент, см. раздел Собственные значения и задача о числе факторов.

Обзор результатов анализа главных компонент. Посмотрим теперь на некоторые стандартные результаты анализа главных компонент. При повторных итерациях вы выделяете факторы с все меньшей и меньшей дисперсией. Для простоты изложения считаем, что обычно работа начинается с матрицы, в которой дисперсии всех переменных равны 1.0. Поэтому общая дисперсия равна числу переменных. Например, если вы имеете 10 переменных, каждая из которых имеет дисперсию 1, то наибольшая изменчивость, которая потенциально может быть выделена, равна 10 раз по 1. Предположим, что при изучении степени удовлетворенности жизнью вы включили 10 пунктов для измерения различных аспектов удовлетворенности домашней жизнью и работой. Дисперсия, объясненная последовательными факторами, представлена в следующей таблице:

STATISTICA
ФАКТОРНЫЙ
АНАЛИЗ
Собственные значения (factor.sta)
Выделение: Главные компоненты
Значение Собственные
значения
% общей
дисперсии
Кумулят.
соб. знач.
Кумулят.
%
1
2
3
4
5
6
7
8
9
10
6.118369
1.800682
.472888
.407996
.317222
.293300
.195808
.170431
.137970
.085334
61.18369
18.00682
4.72888
4.07996
3.17222
2.93300
1.95808
1.70431
1.37970
.85334
6.11837
7.91905
8.39194
8.79993
9.11716
9.41046
9.60626
9.77670
9.91467
10.00000
61.1837
79.1905
83.9194
87.9993
91.1716
94.1046
96.0626
97.7670
99.1467
100.0000

Собственные значения
Во втором столбце (Собственные значения) таблицы результатов вы можете найти дисперсию нового, только что выделенного фактора. В третьем столбце для каждого фактора приводится процент от общей дисперсии (в данном примере она равна 10) для каждого фактора. Как можно видеть, первый фактор (значение 1) объясняет 61 процент общей дисперсии, фактор 2 (значение 2) — 18 процентов, и т.д. Четвертый столбец содержит накопленную или кумулятивную дисперсию. Дисперсии, выделяемые факторами, названы собственными значениями. Это название происходит из использованного способа вычисления.

Собственные значения и задача о числе факторов
Как только получена информация о том, сколько дисперсии выделил каждый фактор, вы можете возвратиться к вопросу о том, сколько факторов следует оставить. Как говорилось выше, по своей природе это решение произвольно. Однако имеются некоторые общеупотребительные рекомендации, и на практике следование им дает наилучшие результаты.

Критерий Кайзера. Сначала вы можете отобрать только факторы, с собственными значениями, большими 1. По существу, это означает, что если фактор не выделяет дисперсию, эквивалентную, по крайней мере, дисперсии одной переменной, то он опускается. Этот критерий предложен Кайзером (Kaiser, 1960), и является, вероятно, наиболее широко используемым. В приведенном выше примере на основе этого критерия вам следует сохранить только 2 фактора (две главные компоненты).

Критерий каменистой осыпи. Критерий каменистой осыпи является графическим методом, впервые предложенным Кэттелем (Cattell, 1966). Вы можете изобразить собственные значения, представленные в таблице ранее, в виде простого графика.

Читайте также:  На какие инфекции сдают анализы

Кэттель предложил найти такое место на графике, где убывание собственных значений слева направо максимально замедляется. Предполагается, что справа от этой точки находится только «факториальная осыпь» — «осыпь» является геологическим термином, обозначающим обломки горных пород, скапливающиеся в нижней части скалистого склона. В соответствии с этим критерием можно оставить в этом примере 2 или 3 фактора.

Какой критерий следует использовать. Оба критерия были изучены подробно Брауном (Browne, 1968), Кэттелем и Джасперсом (Cattell, Jaspers, 1967), Хакстианом, Рожерсом и Кэттелем (Hakstian, Rogers, Cattell, 1982), Линном (Linn, 1968), Тюкером, Купманом и Линном (Tucker, Koopman, Linn, 1969). Теоретически, можно вычислить их характеристики путем генерации случайных данных для конкретного числа факторов. Тогда можно увидеть, обнаружено с помощью используемого критерия достаточно точное число существенных факторов или нет. С использованием этого общего метода первый критерий (критерий Кайзера) иногда сохраняет слишком много факторов, в то время как второй критерий (критерий каменистой осыпи) иногда сохраняет слишком мало факторов; однако оба критерия вполне хороши при нормальных условиях, когда имеется относительно небольшое число факторов и много переменных. На практике возникает важный дополнительный вопрос, а именно: когда полученное решение может быть содержательно интерпретировано. Поэтому обычно исследуется несколько решений с большим или меньшим числом факторов, и затем выбирается одно наиболее «осмысленное». Этот вопрос далее будет рассматриваться в рамках вращений факторов.

Анализ главных факторов
Прежде, чем продолжить рассмотрение различных аспектов вывода анализа главных компонент, введем анализ главных факторов. Вернемся к примеру вопросника об удовлетворенности жизнью, чтобы сформулировать другую «мыслимую модель». Вы можете представить себе, что ответы субъектов зависят от двух компонент. Сначала выбираем некоторые подходящие общие факторы, такие как, например, «удовлетворение своим хобби», рассмотренные ранее. Каждый пункт измеряет некоторую часть этого общего аспекта удовлетворения. Кроме того, каждый пункт включает уникальный аспект удовлетворения, не характерный для любого другого пункта.

Общности. Если эта модель правильна, то вы не можете ожидать, что факторы будут содержать всю дисперсию в переменных; они будут содержать только ту часть, которая принадлежит общим факторам и распределена по нескольким переменным. На языке факторного анализа доля дисперсии отдельной переменной, принадлежащая общим факторам (и разделяемая с другими переменными) называется общностью. Поэтому дополнительной работой, стоящей перед исследователем при применении этой модели, является оценка общностей для каждой переменной, т.е. доли дисперсии, которая является общей для всех пунктов. Доля дисперсии, за которую отвечает каждый пункт, равна тогда суммарной дисперсии, соответствующей всем переменным, минус общность. С общей точки зрения в качестве оценки общности следует использовать множественный коэффициент корреляции выбранной переменной со всеми другими (для получения сведений о теории множественной регрессии сошлемся на раздел Множественная регрессия). Некоторые авторы предлагают различные итеративные «улучшения после решения» начальной оценки общности, полученной с использованием множественной регрессии; например, так называемый метод MINRES (метод минимальных факторных остатков; Харман и Джоунс (Harman, Jones, 1966)), который производит испытание различных модификаций факторных нагрузок с целью минимизации остаточных (необъясненных) сумм квадратов.

Главные факторы в сравнении с главными компонентами. Главные факторы в сравнении с главными компонентами. Основное различие двух моделей факторного анализа состоит в том, что в анализе главных компонент предполагается, что должна быть использована вся изменчивость переменных, тогда как в анализе главных факторов вы используете только изменчивость переменной, общую и для других переменных. Подробное обсуждение всех «за» и «против» каждого подхода находится за пределами данного введения. В большинстве случаев эти два метода приводят к весьма близким результатам. Однако анализ главных компонент часто более предпочтителен как метод сокращения данных, в то время как анализ главных факторов лучше применять с целью определения структуры данных (см. следующий раздел).

Факторный анализ как метод классификации

Возвратимся к интерпретации результатов факторного анализа. Термин факторный анализ теперь будет включать как анализ главных компонент, так и анализ главных факторов. Предполагается, что вы находитесь в той точке анализа, когда в целом знаете, сколько факторов следует выделить. Вы можете захотеть узнать значимость факторов, то есть, можно ли интерпретировать их разумным образом и как это сделать. Чтобы проиллюстрировать, каким образом это может быть сделано, производятся действия «в обратном порядке», то есть, начинают с некоторой осмысленной структуры, а затем смотрят, как она отражается на результатах. Вернемся к примеру об удовлетворенности; ниже приведена корреляционная матрица для переменных, относящихся к удовлетворенности на работе и дома.

STATISTICA
ФАКТОРНЫЙ
АНАЛИЗ
Корреляции (factor.sta)
Построчное удаление ПД
n=100
Переменная РАБОТА_1 РАБОТА_2 РАБОТА_3 ДОМ_1 ДОМ_2 ДОМ_3
РАБОТА_1
РАБОТА_2
РАБОТА_3
ДОМ_1
ДОМ_2
ДОМ_3
1.00
.65
.65
.14
.15
.14
.65
1.00
.73
.14
.18
.24
.65
.73
1.00
.16
.24
.25
.14
.14
.16
1.00
.66
.59
.15
.18
.24
.66
1.00
.73
.14
.24
.25
.59
.73
1.00

Переменные, относящиеся к удовлетворенности на работе, более коррелированы между собой, а переменные, относящиеся к удовлетворенности домом, также более коррелированы между собой. Корреляции между этими двумя типами переменных (переменные, связанные с удовлетворенностью на работе, и переменные, связанные с удовлетворенностью домом) сравнительно малы. Поэтому кажется правдоподобным, что имеются два относительно независимых фактора (два типа факторов), отраженных в корреляционной матрице: один относится к удовлетворенности на работе, а другой к удовлетворенности домашней жизнью.

Факторные нагрузки. Теперь проведем анализ главных компонент и рассмотрим решение с двумя факторами. Для этого рассмотрим корреляции между переменными и двумя факторами (или «новыми» переменными), как они были выделены по умолчанию; эти корреляции называются факторными нагрузками.

STATISTICA
ФАКТОРНЫЙ
АНАЛИЗ
Факторные нагрузки (Нет вращения)
Главные компоненты
Переменная Фактор 1 Фактор 2
РАБОТА_1
РАБОТА_2
РАБОТА_3
ДОМ_1
ДОМ_2
ДОМ_3
.654384
.715256
.741688
.634120
.706267
.707446
.564143
.541444
.508212
-.563123
-.572658
-.525602
Общая дисперсия
Доля общей дисп.
2.891313
.481885
1.791000
.298500

По-видимому, первый фактор более коррелирует с переменными, чем второй. Это следовало ожидать, потому что, как было сказано выше, факторы выделяются последовательно и содержат все меньше и меньше общей дисперсии.

Вращение факторной структуры. Вы можете изобразить факторные нагрузки в виде диаграммы рассеяния. На этой диаграмме каждая переменная представлена точкой. Можно повернуть оси в любом направлении без изменения относительного положения точек; однако действительные координаты точек, то есть факторные нагрузки, должны, без сомнения, меняться. Если вы построите диаграмму для этого примера, то увидите, что если повернуть оси относительно начала координат на 45 градусов, то можно достичь ясного представления о нагрузках, определяющих переменные: удовлетворенность на работе и дома.

Методы вращения. Существуют различные методы вращения факторов. Целью этих методов является получение понятной (интерпретируемой) матрицы нагрузок, то есть факторов, которые ясно отмечены высокими нагрузками для некоторых переменных и низкими — для других. Эту общую модель иногда называют простой структурой (более формальное определение можно найти в стандартных учебниках). Типичными методами вращения являются стратегии варимакс, квартимакс, и эквимакс.

Идея вращения по методу варимакс была описана выше (см. Выделение главных компонент), и этот метод можно применить успешно и к рассматриваемой задаче. Как и ранее, вы хотите найти вращение, максимизирующее дисперсию по новым осям; другими словами, вы хотите получить матрицу нагрузок на каждый фактор таким образом, чтобы они отличались максимально возможным образом и имелась возможность их простой интерпретации. Ниже приведена таблица нагрузок на повернутые факторы.

STATISTICA
ФАКТОРНЫЙ
АНАЛИЗ
Факторные нагрузки (Варимакс нормализ.)
Выделение: Главные компоненты
Переменная Фактор 1 Фактор 2
РАБОТА_1
РАБОТА_2
РАБОТА_3
ДОМ_1
ДОМ_2
ДОМ_3
.862443
.890267
.886055
.062145
.107230
.140876
.051643
.110351
.152603
.845786
.902913
.869995
Общая дисперсия
Доля общей дисп.
2.356684
.392781
2.325629
.387605

Интерпретация факторной структуры. Теперь картина становится более ясной. Как и ожидалось, первый фактор отмечен высокими нагрузками на переменные, связанные с удовлетворенностью на работе, а второй фактор — с удовлетворенностью домом. Из этого вы должны заключить, что удовлетворенность, измеренная вашим вопросником, составлена из двух частей: удовлетворенность домом и работой, следовательно, вы произвели классификацию переменных.

Рассмотрим следующий пример, здесь к предыдущему примеру добавились четыре новых переменных Хобби.

На этом графике факторных нагрузок 10 переменных были сведены к трем факторам — фактор удовлетворенности работой (work), фактор удовлетворенности домом (home), и фактор удовлетворенности хобби (hobby/misc). Заметим, что факторные нагрузки для каждого фактора имеют сильно различающиеся значения для остальных двух факторов, но большие значения именно для этого фактора. Например, факторные нагрузки для переменных, относящихся к хобби (выделены зеленым цветом) имеют и большие, и малые значения для «дома» и «работы», но все четыре переменные имеют большие факторные нагрузки для фактора «хобби».

Косоугольные факторы. Некоторые авторы (например, Харман (Harman, 1976), Дженнрих и Сэмпсон (Jennrich, Sampson, 1966); Кларксон и Дженнрих (Clarkson, Jennrich, 1988)) обсуждали довольно подробно концепцию косоугольных (не ортогональных) факторов, для того чтобы достичь более простой интерпретации решений. В частности, были развиты вычислительные стратегии, как для вращения факторов, так и для лучшего представления «кластеров» переменных без отказа от ортогональности (т.е. независимости) факторов. Однако косоугольные факторы, получаемые с помощью этих процедур, трудно интерпретировать. Возвратимся к примеру, обсуждавшемуся выше, и предположим, что вы включили в вопросник четыре пункта, измеряющих другие типы удовлетворенности (Хобби). Предположим, что ответы людей на эти пункты были одинаково связаны как с удовлетворенностью домом (Фактор 1), так и работой (Фактор 2). Косоугольное вращение должно дать, очевидно, два коррелирующих фактора с меньшей, чем ранее, выразительностью, то есть с большими перекрестными нагрузками.

Иерархический факторный анализ. Вместо вычисления нагрузок косоугольных факторов, для которых часто трудно дать хорошую интерпретацию, вы можете использовать стратегию, впервые предложенную Томсоном (Thompson, 1951) и Шмидтом и Лейманом (Schmidt, Leiman, 1957), которая было подробно развита и популяризирована Верри (Wherry, 1959, 1975, 1984). В соответствии с этой стратегией, вначале определяются кластеры и происходит вращение осей в пределах кластеров, а затем вычисляются корреляции между найденными (косоугольными) факторами. Полученная корреляционная матрица для косоугольных факторов затем подвергается дальнейшему анализу для того, чтобы выделить множество ортогональных факторов, разделяющих изменчивость в переменных на ту, что относятся к распределенной или общей дисперсии (вторичные факторы), и на частные дисперсии, относящиеся к кластерам или схожим переменным (пунктам вопросника) в анализе (первичные факторы). Применительно к рассматриваемому примеру такой иерархический анализ может дать следующие факторные нагрузки:

STATISTICA
ФАКТОРНЫЙ
АНАЛИЗ
Вторичные и первичные факторные нагрузки
Фактор Вторич. 1 Первич. 1 Первич. 2
РАБОТА_1
РАБОТА_2
РАБОТА_3
ДОМ_1
ДОМ_2
ДОМ_3
ХОББИ_1
ХОББИ_2
ХОББИ_3
ХОББИ_4
.483178
.570953
.565624
.535812
.615403
.586405
.780488
.734854
.776013
.714183
.649499
.687056
.656790
.117278
.079910
.065512
.466823
.464779
.439010
.455157
.187074
.140627
.115461
.630076
.668880
.626730
.280141
.238512
.303672
.228351

Внимательное изучение позволяет сделать следующие заключения:

  1. Имеется общий (вторичный) фактор удовлетворенности, которому, по-видимому, подвержены все типы удовлетворенности, измеренные для 10 пунктов;
  2. Имеются вероятно две первичные уникальных области удовлетворения, которые могут быть описаны как удовлетворенностью работой, так и удовлетворенностью домашней жизнью.

Верри (Wherry, 1984) обсудил подробно примеры такого иерархического анализа и объяснил, каким образом могут быть получены значимые и интерпретируемые вторичные факторы.

Подтверждающий факторный анализ. Последние 15 лет так называемые методы подтверждения имели все большую популярность (например, см. Joreskog, Sorbom, 1979). Можно априори выбрать набор факторных нагрузок для некоторого числа ортогональных или косоугольных факторов, а затем проверить, может ли быть наблюдаемая корреляционная матрица воспроизведена при этом выборе. Подтверждающий факторный анализ может быть проведен с помощью Моделирования структурными уравнениями (SEPATH).

Другие результаты и статистики

Значения факторов. Вы можете оценить действительные значения факторов для отдельных наблюдений. Эти значения используются, когда желают провести дальнейший анализ факторов.

Воспроизведенные и остаточные корреляции. Дополнительным способом проверки числа выделенных факторов является вычисление корреляционной матрицы, которая близка исходной, если факторы выделены правильно. Эта матрица называется воспроизведенной корреляционной матрицей. Для того чтобы увидеть, как эта матрица отклоняется от исходной корреляционной матрицы (с которой начинался анализ), можно вычислить разность между ними. Полученная матрица называется матрицей остаточных корреляций. Остаточная матрица может указать на «несогласие», т.е. на то, что рассматриваемые коэффициенты корреляции не могут быть получены с достаточной точностью на основе имеющихся факторов.

Плохо обусловленные матрицы. Если имеются избыточные переменные, то нельзя вычислить обратную матрицу. Например, если переменная является суммой двух других переменных, отобранных для этого анализа, то корреляционная матрица для такого набора переменных не может быть обращена, и факторный анализ принципиально не может быть выполнен. На практике это происходит, когда вы пытаетесь применить факторный анализ к множеству сильно коррелированных (зависимых) переменных, что иногда случается, например, в исследованиях вопросников. Тогда вы можете искусственно понизить все корреляции в матрице путем добавления малой константы к диагональным элементам матрицы, и затем стандартизировать ее. Эта процедура обычно приводит к матрице, которая может быть обращена, и поэтому к ней применим факторный анализ; более того, эта процедура не влияет на набор факторов. Однако оценки оказываются менее точными.

STATISTICA
ФАКТОРНЫЙ
АНАЛИЗ
Вторичные и первичные факторные нагрузки
Фактор Вторич. 1 Первич. 1 Первич. 2
РАБОТА_1
РАБОТА_2
РАБОТА_3
ДОМ_1
ДОМ_2
ДОМ_3
ХОББИ_1
ХОББИ_2
ХОББИ_3
ХОББИ_4
.483178
.570953
.565624
.535812
.615403
.586405
.780488
.734854
.776013
.714183
.649499
.687056
.656790
.117278
.079910
.065512
.466823
.464779
.439010
.455157
.187074
.140627
.115461
.630076
.668880
.626730
.280141
.238512
.303672
.228351

Внимательное изучение позволяет сделать следующие заключения:

  1. Имеется общий (вторичный) фактор удовлетворенности, которому, по-видимому, подвержены все типы удовлетворенности, измеренные для 10 пунктов;
  2. Имеются вероятно две первичные уникальных области удовлетворения, которые могут быть описаны как удовлетворенностью работой, так и удовлетворенностью домашней жизнью.

Верри (Wherry, 1984) обсудил подробно примеры такого иерархического анализа и объяснил, каким образом могут быть получены значимые и интерпретируемые вторичные факторы.

Все права на материалы электронного учебника принадлежат компании StatSoft

Читайте также:  Как здают анализ на желочный

источник

Модель факторной системы — это математическая формула, выражающая реальные связи между анализируемыми явлениями. В общем виде она может быть представлена так:

где — результативный признак;

— факторные признаки.

Таким образом, каждый результативный показатель зависит от многочисленных и разнообразных факторов. В основе факторного анализа — лежат выявление, оценка и прогнозирование влияния факторов на изменение результативного показателя. Чем детальнее исследуется зависимость результативного показателя от тех или иных факторов, тем точнее результаты анализа и оценка качества работы предприятий. Без глубокого и всестороннего изучения факторов нельзя сделать обоснованные выводы о результатах деятельности, выявить резервы производства, обосновать планы и управленческие решения.

Основная модель факторного анализа записывается следующей системой равенств:

То есть полагается, что значения каждого признака xi могут быть выражены взвешенной суммой латентных переменных (простых факторов) fi, количество которых меньше числа исходных признаков, и остаточным членом εi с дисперсией σ 2 (εi),действующей только на xi, который называют специфическим фактором. Коэффициенты lij называются нагрузкой i-й переменной на j-й фактор или нагрузкой j-го фактора на i-ю переменную. В самой простой модели факторного анализа считается, что факторы fj взаимно независимы и их дисперсии равны единице, а случайные величины εi тоже независимы друг от друга и от какого-либо фактора fj.

Факторный анализ может быть одноступенчатым и многоступенчатым. Первый тип используется для исследования факторов только одного уровня (одной ступени) подчинения без их детализации на составные части. Например, . При многоступенчатом факторном анализе проводится детализация факторов a и b на составные элементы с целью изучения их поведения. Детализация факторов может быть продолжена и дальше. В этом случае изучается влияние факторов различных уровней соподчиненности.

Обязательные условия факторного анализа:

· Все признаки должны быть количественными;

· Число признаков должно быть в два раза больше числа переменных;

· Выборка должна быть однородна;

· Исходные переменные должны быть распределены симметрично;

· Факторный анализ осуществляется по коррелирующим переменным.

Коэффициент корреляции – это величина, которая может варьировать в пределах от +1 до –1. В случае полной положительной корреляции этот коэффициент равен плюс 1 (говорят о том, что при увеличении значения одной переменной увеличивается значение другой переменной), а при полной отрицательной – минус 1 (свидетельствуют об обратной связи, т.е. При увеличении значений одной переменной, значения другой уменьшаются).

Дисперсия (сигма квадрат) – рассеивание – мера разброса случайной величины.

— для негрупп: сумма(Х-Хср) 2 /н

— для сгрупп: сумма(Х-Хср.) 2 *частоту/суммарную частоту

Дисперсия – средний квадрат отклонения вариант от их средней величины. При расчете дисперсии не указываются ед измерения.

Св-ва дисперсии:

— если все значения признака уменьшить или увеличить на одну и туже пост величину А, то дисперсия от этого не изменится;

— если все значения признака уменьшить или увеличить в одно и тоже число И раз, то Д.соответсвенно уменьшиься или увеличется в И 2 раз.

Анализ изменений признака под влиянием контролируемых условий:

Фактор –качество, либо свойство, в соответствии с которым классифицируется данные. Каждый фактор имеет несколько уровней (высокий, низкий уровень обслуживания)

Уровень – общий термин, используемый для описания конкретного свойства, определяющего каждую категорию рассматриваемой классификации.

1. под влиянием одного фактора:

Модель факторной системы:

Модель однофакторного анализа:Уij = M + τj + ξij

Уij –значение наблюдаемое. i –номер наблюдения, j– номер класса.

M –общая средняя по выборке

τj –эффект столбца

Если не будет влияния качественного фактора, то: Уij = M + ξij

2. под влиянием нескольких факторов одновременно:

Модель двуфакторная: оценивает влияет или нет два качественных фактора. Пр.: оценить влияет ли образование (гуманит, технич. ) и опыт работы (с….; без… — это уровни фактора) на уровень зарплаты.

Уij = M +αi + βj + ξij

Yij – наблюдаемое значение.

M – средний уровень (Хср зарплаты, например)

ξij – случайная составляющая

Модель двуфакторная с взаимодействием факторов: Уij = M +αi + βj + ϒij + ξij

ϒij – совместное влияние iго и jго фактора.

При анализе в один фактор объединяются сильно коррелирующие между собой переменные, как следствие происходит перераспределение дисперсии между компонентами и получается максимально простая и наглядная структура факторов. После объединения коррелированность компонент внутри каждого фактора между собой будет выше, чем их коррелированность с компонентами из других факторов. Эта процедура также позволяет выделить латентные переменные, что бывает особенно важно при анализе социальных представлений и ценностей. Например, анализируя оценки, полученные по нескольким шкалам, исследователь замечает, что они сходны между собой и имеют высокий коэффициент корреляции, он может предположить, что существует некоторая латентная переменная, с помощью которой можно объяснить наблюдаемое сходство полученных оценок. Такую латентную переменную называют фактором. Данный фактор влияет на многочисленные показатели других переменных, что приводит нас к возможности и необходимости выделить его как наиболее общий, более высокого порядка. Для выявления наиболее значимых факторов и, как следствие, факторной структуры, наиболее оправданно применять метод главных компонентов (МГК). Суть данного метода состоит в замене коррелированных компонентов некоррелированными факторами. Другой важной характеристикой метода является возможность ограничиться наиболее информативными главными компонентами и исключить остальные из анализа, что упрощает интерпретацию результатов. Достоинство МГК также в том, что он — единственный математически обоснованный метод факторного анализа.

Весь процесс факторного анализа можно представить как выполнение 5 этапов:

Модель факторного анализа разрабатывалась для метрических данных. Поэтому первое требование к исходным данным — представление всех при­знаков в метрической шкале (не обязательно с одинаковыми средними и дис­персиями).

Включение в анализ порядковых или бинарных данных допустимо, но ис­следователь должен отдавать себе отчет, что искажения факторной структуры при этом будут соответствовать искажениям коэффициентов корреляций, и характер этих искажений неизвестен. В общем случае желательно перейти к единой шкале для всех признаков, либо ранговой, либо бинарной, затем вы­числять матрицу интеркорреляций, выбирая соответствующие меры взаимо­связи. Исследователь потеряет при этом существенную долю исходной ин­формации. Если цель факторного анализа заключается только в определении струк­туры взаимосвязей переменных, то допустимо применение порядковых дан­ных, но перед проведением факторного анализа необходимо перейти к ран­гам по каждой переменной. Допустимо также использовать факторный анализ в отношении дихотомических переменных, если задача ограничивается оп­ределением структуры взаимосвязей и дихотомические корреляции между переменными не очень велики (не превышают 0,7)’.

Порядковые и даже дихотомические данные могут использоваться для вычисления оценок факторов, но при условии действительно простой фак­торной структуры, высоких значениях общностей и факторных нагрузок переменных, определяющих каждый фактор При этом же­лательно проверять устойчивость факторной структуры на параллельных вы­борках.

Как и в других многомерных методах, недопустимы функциональные за­висимости между переменными и корреляции, близкие к единице.

Количественное соотношение признаков и объектов зависит от целей исследования. Если цель анализа — изучение структуры взаимосвязей при­знаков, уменьшение их исходного количества путем перехода к новым пере менным — факторам, то строгих ограничений нет. Желательно лишь, чтобы количество признаков было не меньше количества объектов. Если исследо­ватель хочет обнаружить и обосновать наличие факторов за взаимосвязями переменных, то желательно иметь в три раза больше объектов, чем призна­ков. Данное соотношение может сложиться и в процессе анализа — при отсе­ивании мало информативных переменных. Если же стоит задача обоснова­ния выявленной факторной структуры для генеральной совокупности, то объектов должно быть еще больше, для проверки устойчивости этой структу­ры на параллельных выборках.

2. Предварительное решение проблемы числа факторов.

На этом этапе матрица интеркорреляций исходных признаков обрабаты­вается с использованием анализа главных компонент. Применяется крите­рий отсеивания Р. Кеттелла и критерий Кайзера — величины собственного значения фактора, большего 1 (Eigenvalue, > 1). Эти критерии не являются жесткими, поэтому далее проверяется несколько гипотез о числе факторов. Начинать при этом рекомендуется с максимально возможного числа факто­ров, с учетом обоих критериев, постепенно уменьшая их число.

3. Факторизация матрицы интеркорреляций.

Выбирается метод факторизации, желательно — главных осей, наимень­ших квадратов или максимального правдоподобия. Задается число факторов, в соответствии с проверяемой гипотезой. Результатом данного этапа являет­ся матрица факторных нагрузок (факторная структура) до вращения, которая не подлежит интерпретации.

Полезной информацией на этом этапе могут являться суммарная доля дис­персии (информативность) факторов и значения общностей переменных. Суммарная доля дисперсии — показатель того, насколько полно выделяемые факторы могут представить данный набор признаков, а этот набор — выделя­емые факторы. Общность переменной — показатель ее «участия» в фактор­ном анализе, насколько она влияет на факторную структуру. Переменные с наименьшими общностями — ближайшие кандидаты на исключение из ана­лиза в дальнейшем.

4. Вращение факторов и их предварительная интерпретация.

На этом этапе выбирается один из аналитических методов вращения фак­торов, обычно — варимакс-вращение (Varimax normalized). Существуют и дру­гие методы вращения, в том числе косоугольного, но они выходят за рамки

нашего рассмотрения. В результате вращения достигается факторная струк­тура, наиболее доступная для интерпретации при данном соотношении пе­ременных и факторов.

Интерпретация факторов производится по таблице факторных нагрузок после вращения в следующем порядке. По каждой переменной (строке) выде­ляется наибольшая по абсолютной величине нагрузка — как доминирующая. Если вторая по величине нагрузка в строке отличается от уже выделенной менее чем на 0,2, то и она выделяется, но как второстепенная. После про­смотра всех строк — переменных, начинают просмотр столбцов — факторов. По каждому фактору выписывают наименования (обозначения) переменных, имеющих наибольшие нагрузки по этому фактору — выделенных на преды­дущем шаге. При этом обязательно учитывается знак факторной нагрузки переменной. Если знак отрицательный, это отмечается как противополож­ный полюс переменной. После такого просмотра всех факторов каждому из них присваивается наименование, обобщающее по смыслу включенные в него переменные. Если трудно подобрать термин из соответствующей теории, до­пускается наименование фактора по имени переменной, имеющей по срав­нению с другими наибольшую нагрузку по этому фактору.

5. Принятие решения о качестве факторной структуры.

Качество факторной структуры определяется степенью приближения к простой структуре.

Следует отметить общий принцип соотношения качества факторной струк­туры и качества исходных данных: чем ниже качество исходных данных в смысле требований, предъявляемых к метрическим переменным, тем выше требования к простоте факторной структуры, величине общностей и фактор­ных нагрузок.

В настоящее время не существует формальных критериев соответствия факторной структуры простой. Поэтому основным критерием остается воз­можность хорошей содержательной интерпретации каждого фактора по двум и более исходным переменным. Если перед исследователем стоит дополни­тельно проблема обоснования устойчивости (воспроизводимости) факторной структуры в генеральной совокупности, то добавляется требование однознач­ного соотнесения каждой переменной с одним из факторов. Это требование
означает, что каждая переменная имеет большую по абсолютной величине нагрузку (0,7 и выше) только по одному фактору и малые (0,2 и менее) — по всем остальным.

Можно предложить способы максимального приближения к простой структуре путем пошагового сокращения числа факторов и переменных.

Если по результатам интерпретации выявлен фактор, по которому ни одна из переменных не получила максимальной нагрузки (по строке), то это свидетельствует о необходимости сокращения количества факторов на один и повторения этапов 3 и 4 с новым числом факторов. То же касается фактора, идентифицируемого лишь по одной переменной, когда остальные в него не попадают даже с второстепенными нагрузками.

Определяются неоднозначные переменные. Каждая такая переменная имеет примерно одинаковые по абсолютной величине максимальные нагрузки по двум и более факторам. Если обосновывается устойчивость факторной структуры, то неоднозначной является переменная, у которой между макси­мальной и следующей за ней по величине нагрузкой разность менее 0,5. Нео­днозначные переменные поочередно удаляются из числа исходных перемен­ных, и каждый раз повторяются этапы 3 и 4.

Очевидно, что приближение к простой структуре связано с невосполни­мой потерей исходной эмпирической информации. И каждый раз исследо­ватель должен решать, насколько целесообразна эта потеря в свете стоящих перед ним задач. Наиболее жестки требования к простой структуре в случае обоснования устойчивости и воспроизводимости факторов, например, при разработке теста или факторной теоретической модели. Гораздо мягче тре­бования при решении наиболее часто встречающихся задач — при изуче­нии структуры взаимосвязей или при сокращении исходного набора при­знаков для дальнейшего исследования, например, различий между группами объектов.

Исследователь, в зависимости от своих целей, решает, сколько раз повто­рить эту последовательность, какие из этапов будут пропущены и насколько глубоко будет проработан каждый из них. Например, если исследователя ин­тересует только структура взаимосвязей признаков, то достаточно выполнить эту последовательность один раз, без последнего этапа.

Разведочный анализ (он осуществляется при исследовании скрытой факторной структуры без предположения о числе факторов и их нагрузках) или конформаторный (предназначенным для проверки гипотез о числе факторов и их нагрузках.Практическое выполнение факторного анализа начинается с проверки его условий) содержат 3 ступени (однако на практике, особенно при использовании гипотез необязательны):

1. Подготовка соответствующей матрицы ковариаций. Перед проведением ФА необходимо решить: использовать ли как исходную матрицу ковариации (корреляции) между переменными ИЛИ использовать корреляции между индивидуумами (объектами).

2. Выделение первоначальных факторов. На первом этапе может применятся модель общих факторов, а так же анализ главных компонент, цель которого отлична от цели ФА. В то же время оба метода широко используются эффективными взаимосвязями между переменнями. Их отличие др от др: мгк – линейная функция, а общ факторы – не выражаются через комбинацию наблюдаемых переменных.

Альтернатива анализа первоначальных факторов – образ-факторы, в которых предполагается, что наблюдаемые переменнные выбраны из бесконечного множества переменных, при чем вводятся «образы-факторы», являющиеся линейными комбинациями переменных.

Еще методы выделения первоначальных факторов: решение, получаемое методом максимального правдоподобия (включая канонический фа); решение по мнк; альфа-факторный анализ.

3. Вращение с целью получения окончательного решения. Вращение включает 2 варианта: ортогональное и косоугольное вращение. Косоугольные делятся: те, котороые основаны на прямом упрощении матрицы коэффициентов факторного отображения И те, которые используют упрощение матрицы нагрузок на вторичные оси.

Не нашли то, что искали? Воспользуйтесь поиском:

источник

Следующий пример основан на вымышленных данных, относящихся к изучению удовлетворенности жизнью. Предположим, что вопросник был направлен 100 случайно выбранным взрослым. Вопросник содержал 10 пунктов, предназначенных для определения удовлетворенности на работе, удовлетворенности своим хобби, удовлетворенностью домашней жизнью и общей удовлетворенностью в других областях жизни. Ответы на вопросы были введены в компьютер и промасштабированы таким образом, чтобы среднее для всех пунктов стало равным приблизительно 100.

Читайте также:  Замершая беременность генетика какие анализы

Результаты были помещены в файл данных Factor.sta. Открыть этот файл можно с помощью опции Файл — Открыть; наиболее вероятно, что этот файл данных находится в директории /Examples/Datasets. Ниже приводится распечатка переменных этого файла (для получения списка выберите Все спецификации переменных в меню Данные).

Цель анализа . Целью анализа является изучение соотношений между удовлетворенностью в различных сферах деятельности. В частности, желательно изучить вопрос о числе факторов, «скрывающихся» за различными областями деятельности и их значимость.

Выбор анализа. Выберите Факторный анализ в меню Анализ — Многомерный разведочный анализ для отображения стартовой панели модуля Факторный анализ. Нажмите на кнопку Переменные на стартовой панели (см. ниже) и выберите все 10 переменных в этом файле.

Другие опции . Для выполнения стандартного факторного анализа в этом диалоговом окне имеется все необходимое. Для получения краткого обзора других команд, доступных из стартовой панели, вы можете выбрать в качестве входного файла корреляционную матрицу (используя поле Файл данных). В поле Удаление ПД вы можете выбрать построчное или попарное исключение или подстановка среднего для пропущенных данных.

Задайте метод выделения факторов. Нажмем теперь кнопку OK для перехода к следующему диалоговому окну с названием Задайте метод выделения факторов. С помощью этого окна диалога вы сможете просмотреть описательные статистики, выполнить множественный регрессионный анализ, выбрать метод выделения факторов, выбрать максимальное число факторов, минимальные собственные значения, а также другие действия, относящиеся к специфике методов выделения факторов. А теперь перейдем во вкладку Описательные.

Просмотр описательных статистик. Теперь нажмите на кнопку Просмотреть корр./средние/ст.откл. в этом окне для того, чтобы открыть окно Просмотр описательных статистик.

Теперь вы можете рассмотреть описательные статистики графически или с помощью таблиц результатов.

Вычисление корреляционной матрицы. Нажмите на кнопку Корреляции во вкладке Дополнительно для того, чтобы отобразить таблицу результатов с корреляциями.

Все корреляции в этой таблице результатов положительны, а некоторые корреляции имеют значительную величину. Например, переменные Hobby_1 и Miscel_1 коррелированны на уровне 0.90. Некоторые корреляции (например, корреляции между удовлетворенностью на работе и удовлетворенностью дома) кажутся сравнительно малыми. Это выглядит так, как будто матрица имеет некоторую отчетливую структуру.

Метод выделения. Теперь нажмем кнопку Отмена в диалоговом окне Просмотр описательных статистик для того, чтобы вернуться в диалоговое окно Задайте метод выделения факторов. Вы можете сделать выбор из нескольких методов выделения во вкладке Дополнительно (см. вкладку Дополнительно диалогового окна Задайте метод выделения факторов для описания каждого метода, а также Вводный обзор с описанием метода Главных компонент и метода Главных факторов). В этом примере по умолчанию принимается метод Главных компонент, поле Макс. число факторов содержит значение 10 (максимальное число факторов в этом примере) и поле Мин. собств. значение содержит 0 (минимальное значение для этой команды).

Для продолжения анализа нажмите кнопку OK.

Просмотр результатов. Вы можете просмотреть результаты факторного анализа в окне диалога Результаты факторного анализа. Сначала выберите вкладку Объясненная дисперсия.

Отображение собственных значений . Назначение собственных значений и их полезность для пользователя при принятии решения о том, сколько следует оставить факторов (интерпретировать) были описаны в Вводном обзоре. Теперь нажмем на кнопку Собственные значения, чтобы получить таблицу с собственными значениями, процентом общей дисперсии, накопленными собственными значениями и накопленными процентами.

Как видно из таблицы, собственное значение для первого фактора равно 6.118369; т.е. доля дисперсии, объясненная первым фактором равна приблизительно 61.2%. Заметим, что эти значения случайно оказались здесь легко сравнимыми, так как анализу подвергаются 10 переменных, и поэтому сумма всех собственных значений оказывается равной 10. Второй фактор включает в себя около 18% дисперсии. Остальные факторы содержат не более 5% общей дисперсии. Выбор числа факторов. В разделе Вводный обзор кратко описан способ, как полученные собственные значения можно использовать для решения вопроса о том, сколько факторов следует оставить в модели. В соответствии с критерием Кайзера (Kaiser, 1960), вы должны оставить факторы с собственными значениями большими 1. Из приведенной выше таблицы следует, что критерий приводит к выбору двух факторов.

Критерий каменистой осыпи . Теперь нажмите на кнопку График каменистой осыпи, чтобы получить график собственных значений с целью применения критерия осыпи Кэттеля (Cattell, 1966). График, представленный ниже, был дополнен отрезками, соединяющими соседние собственные значения, чтобы сделать критерий более наглядным. Кэттель (Cattell) утверждает, основываясь на методе Монте-Карло, что точка, где непрерывное падение собственных значений замедляется и после которой уровень остальных собственных значений отражает только случайный «шум». На графике, приведенном ниже, эта точка может соответствовать фактору 2 или 3 (как показано стрелками). Поэтому испытайте оба решения и посмотрите, которое из них дает более адекватную картину.

Теперь рассмотрим факторные нагрузки.

Факторные нагрузки . Как было описано в разделе Вводный обзор, факторные нагрузки можно интерпретировать как корреляции между факторами и переменными. Поэтому они представляют наиболее важную информацию, на которой основывается интерпретация факторов. Сначала посмотрим на (неповернутые) факторные нагрузки для всех десяти факторов. Во вкладке Нагрузки диалогового окна Результаты факторного анализа в поле Вращение факторов зададим значение без вращения и нажмем на кнопку Факторные нагрузки для отображения таблицы нагрузок.

Вспомним, что выделение факторов происходило таким образом, что последующие факторы включали в себя все меньшую и меньшую дисперсию (см. раздел Вводный обзор). Поэтому не удивительно, что первый фактор имеет наивысшую нагрузку. Отметим, что знаки факторных нагрузок имеют значение лишь для того, чтобы показать, что переменные с противоположными нагрузками на один и тот же фактор взаимодействуют с этим фактором противоположным образом. Однако вы можете умножить все нагрузки в столбце на -1 и обратить знаки. Во всем остальном результаты окажутся неизменными.

Вращение факторного решения. Как описано в разделе Вводный обзор, действительная ориентация факторов в факторном пространстве произвольна, и всякое вращение факторов воспроизводит корреляции так же хорошо, как и другие вращения. Следовательно, кажется естественным повернуть факторы таким образом, чтобы выбрать простейшую для интерпретации факторную структуру. Фактически, термин простая структура был придуман и определен Терстоуном (Thurstone, 1947) главным образом для описания условий, когда факторы отмечены высокими нагрузками на некоторые переменные и низкими — для других, а также когда имеются несколько больших перекрестных нагрузок, т.е. имеется несколько переменных с существенными нагрузками на более чем один фактор. Наиболее стандартными вычислительными методами вращения для получения простой структуры является метод вращения варимакс, предложенный Кайзером (Kaiser, 1958). Другими методами, предложенными Харманом (Harman, 1967), являются методы квартимакс, биквартимакс и эквимакс (см. Harman, 1967).

Выбор вращения . Сначала рассмотрим количество факторов, которое вы желаете оставить для вращения и интерпретации. Ранее было решено, что наиболее правдоподобным и приемлемым числом факторов является два, однако на основе критерия осыпи было решено учитывать также и решение с тремя факторами. Нажмите на кнопку Отмена для того, чтобы возвратиться в окно диалога Задайте метод выделения факторов, и измените поле Максимальное число факторов во вкладке Быстрый с 10 на 3, затем нажмите кнопку OK для того, чтобы продолжить анализ.

Теперь выполним вращение по методу варимакс. Во вкладке Нагрузки диалогового окна Результаты факторного анализа в поле Вращение факторов установите значение Варимакс исходных.

Нажмем кнопку Факторные нагрузки для отображения в таблице результатов получаемых факторных нагрузок.

Отображение решения при вращении трех факторов. В таблице приведены существенные нагрузки на первый фактор для всех переменных, кроме относящихся к дому. Фактор 2 имеет довольно значительные нагрузки для всех переменных, кроме переменных связанных с удовлетворенностью на работе. Фактор 3 имеет только одну значительную нагрузку для переменной Home_1. Тот факт, что на третий фактор оказывает высокую нагрузку только одна переменная, наводит на мысль, а не может ли получиться такой же хороший результат без третьего фактора?

Обозрение решения при вращении двух факторов . Снова нажмите на кнопку Отмена в окне диалога Результаты факторного анализа для того, чтобы возвратиться к диалоговому окну Задайте метод выделения факторов. Измените поле Максимальное число факторов во вкладке Быстрый с 3 до 2 и нажмите кнопку OK для того, чтобы перейти в диалоговое окно Результаты факторного анализа. Во вкладке Нагрузки в поле Вращение факторов установите значение Варимакс исходных и нажмите кнопку Факторные нагрузки.

Фактор 1, как видно из таблицы, имеет наивысшие нагрузки для переменных, относящихся к удовлетворенности работой. Наименьшие нагрузки он имеет для переменных, относящихся к удовлетворенности домом. Другие нагрузки принимают промежуточные значения. Фактор 2 имеет наивысшие нагрузки для переменных, связанных с удовлетворенностью дома, низшие нагрузки — для удовлетворенности на работе средние нагрузки для остальных переменных.

Интерпретация решения для двухфакторного вращения . Можно ли интерпретировать данную модель? Все выглядит так, как будто два фактора лучше всего идентифицировать как фактор удовлетворения работой (фактор 1) и как фактор удовлетворения домашней жизнью (фактор 2). Удовлетворение своим хобби и различными другими аспектами жизни кажется относящимися к обоим факторам. Эта модель предполагает в некотором смысле, что удовлетворенность работой и домашней жизнью согласно этой выборке могут быть независимыми друг от друга, но оба дают вклад в удовлетворение хобби и другими сторонами жизни.

Диаграмма решения, основанного на вращении двух факторов . Для получения диаграммы рассеяния двух факторов нажмите на кнопку 2М график нагрузок во вкладке Нагрузки диалогового окна Результаты факторного анализа. Диаграмма, показанная ниже, попросту показывает две нагрузки для каждой переменной. Заметим, что диаграмма рассеяния хорошо иллюстрирует два независимых фактора и 4 переменных (Hobby_1, Hobby_2, Miscel_1, Miscel_2) с перекрестными нагрузками.

Теперь посмотрим, насколько хорошо может быть воспроизведена наблюдаемая ковариационная матрица по двухфакторному решению.

Воспроизведенная и остаточная корреляционная матрица. Нажмите на кнопку Воспроизведенные и остаточные корреляции во вкладке Объясненная дисперсия, для того чтобы получить две таблицы с воспроизведенной корреляционной матрицей и матрицей остаточных корреляций (наблюдаемых минус воспроизведенных корреляций).

Входы в таблице Остаточных корреляций могут быть интерпретированы как «сумма» корреляций, за которые не могут отвечать два полученных фактора. Конечно, диагональные элементы матрицы содержат стандартное отклонение, за которое не могут быть ответственны эти факторы и которые равны квадратному корню из единица минус соответствующие общности для двух факторов (вспомним, что общностью переменной является дисперсия, которая может быть объяснена выбранным числом факторов). Если вы тщательно рассмотрите эту матрицу, то сможете увидеть, что здесь фактически не имеется остаточных корреляций, больших 0.1 или меньшие -0.1 (в действительности только малое количество из них близко к этой величине). Добавим к этому, что первые два фактора включают около 79% общей дисперсии (см. накопленный % собственных значений в таблице результатов).

«Секрет» удачного примера . Пример, который вы только что изучили, на самом деле дает решение двухфакторной задачи, близкое к идеальному. Оно определяет большую часть дисперсии, имеет разумную интерпретацию и воспроизводит корреляционную матрицу с умеренными отклонениями (остаточными корреляциями). На самом деле реальные данные редко позволяют получить такое простое решение, и в действительности это фиктивное множество данных было получено с помощью генератора случайных чисел с нормальным распределением, доступного в системе. Специальным образом в данные были «введены» два ортогональных (независимых) фактора, по которым были сгенерированы корреляции между переменными. Этот пример факторного анализа воспроизводит два фактора такими, как они и были, (т.е. фактор удовлетворенности работой и фактор удовлетворенности домашней жизнью). Таким образом, если бы явление (а не искусственные, как в примере, данные) содержало эти два фактора, то вы, выделив их, могли бы кое-что узнать о скрытой или латентной структуре явления.

Другие результаты . Прежде, чем сделать окончательное заключение, дадим краткие комментарии к другим результатам.

Общности . Для получения общностей решения нажмите на кнопку Общности во вкладке Объясненная дисперсия диалогового окна Результаты факторного анализа. Вспомним, что общность переменной — это доля дисперсии, которая может быть воспроизведена при заданном числе факторов. Вращение факторного пространства не влияет на величину общности. Очень низкие общности для одной или двух переменных (из многих в анализе) могут указывать на то, что эти переменные не очень хорошо объяснены моделью.

Коэффициенты значений. Коэффициенты факторов могут быть использованы для вычисления значений факторов для каждого наблюдения. Сами коэффициенты представляет обычно малый интерес, однако факторные значения полезны при проведении дальнейшего анализа. Для отображения коэффициентов нажмите кнопку Коэффициенты значений факторов во вкладке Значения диалогового окна Результаты факторного анализа.

Значения факторов. Факторные значения могут рассматриваться как текущие значения для каждого опрашиваемого респондента (т.е. для каждого наблюдения исходной таблицы данных). Кнопка Значения факторов во вкладке Значения диалогового окна Результаты факторного анализа позволяет вычислить факторные значения. Эти значения можно сохранить для дальнейшего нажатием кнопки Сохранить значения.

Заключительный комментарий. Факторный анализ — это непростая процедура. Всякий, кто постоянно использует факторный анализ со многими (например, 50 или более) переменными, мог видеть множество примеров «патологического поведения», таких, как: отрицательные собственные значения и не интерпретируемые решения, особые матрицы и т.д. Если вы интересуетесь применением факторного анализа для определения или значащих факторов при большом числе переменных, вам следует тщательно изучить какое-либо подробное руководство (например, книгу Хармана (Harman, 1968)). Таким образом, так как многие критические решения в факторном анализе по своей природе субъективны (число факторов, метод вращения, интерпретация нагрузок), будьте готовы к тому, что требуется некоторый опыт, прежде чем вы почувствуете себя уверенным в нем. Модуль Факторный анализ был разработан специально для того, чтобы сделать легким для пользователя интерактивное переключение между различным числом факторов, вращениями и т.д., так чтобы испытать и сравнить различные решения.

Этот пример взят из справочной системы ППП STATISTICA фирмы StatSoft

источник