Меню Рубрики

Дискриминантный анализ как метод экономического анализа

Дискриминантный анализ используется для принятия решения о том, какие переменные различают (дискриминируют) две или более возникающие совокупности (группы). Например, некий исследователь в области образования может захотеть исследовать, какие переменные относят выпускника средней школы к одной из трех категорий: (1) поступающий в колледж, (2) поступающий в профессиональную школу или (3) отказывающийся от дальнейшего образования или профессиональной подготовки. Для этой цели исследователь может собрать данные о различных переменных, связанных с учащимися школы. После выпуска большинство учащихся естественно должно попасть в одну из названных категорий. Затем можно использовать Дискриминантный анализ для определения того, какие переменные дают наилучшее предсказание выбора учащимися дальнейшего пути.

Медик может регистрировать различные переменные, относящиеся к состоянию больного, чтобы выяснить, какие переменные лучше предсказывают, что пациент, вероятно, выздоровел полностью (группа 1), частично (группа 2) или совсем не выздоровел (группа 3). Биолог может записать различные характеристики сходных типов (групп) цветов, чтобы затем провести анализ дискриминантной функции, наилучшим образом разделяющей типы или группы.

С вычислительной точки зрения дискриминантный анализ очень похож на дисперсионный анализ (см. раздел Дисперсионный анализ). Рассмотрим следующий простой пример. Предположим, что вы измеряете рост в случайной выборке из 50 мужчин и 50 женщин. Женщины в среднем не так высоки, как мужчины, и эта разница должна найти отражение для каждой группы средних (для переменной Рост). Поэтому переменная Рост позволяет вам провести дискриминацию между мужчинами и женщинами лучше, чем, например, вероятность, выраженная следующими словами: «Если человек большой, то это, скорее всего, мужчина, а если маленький, то это вероятно женщина».

Вы можете обобщить все эти доводы на менее «тривиальные» группы и переменные. Например, предположим, что вы имеете две совокупности выпускников средней школы — тех, кто выбрал поступление в колледж, и тех, кто не собирается это делать. Вы можете собрать данные о намерениях учащихся продолжить образование в колледже за год до выпуска. Если средние для двух совокупностей (тех, кто в настоящее время собирается продолжить образование, и тех, кто отказывается) различны, то вы можете сказать, что намерение поступить в колледж, как это установлено за год до выпуска, позволяет разделить учащихся на тех, кто собирается и кто не собирается поступать в колледж (и эта информация может быть использована членами школьного совета для подходящего руководства соответствующими студентами).

В завершение заметим, что основная идея дискриминантного анализа заключается в том, чтобы определить, отличаются ли совокупности по среднему какой-либо переменной (или линейной комбинации переменных), и затем использовать эту переменную, чтобы предсказать для новых членов их принадлежность к той или иной группе.

Дисперсионный анализ. Поставленная таким образом задача о дискриминантной функции может быть перефразирована как задача одновходового дисперсионного анализа (ANOVA). Можно спросить, в частности, являются ли две или более совокупности значимо отличающимися одна от другой по среднему значению какой-либо конкретной переменной. Для изучения вопроса о том, как можно проверить статистическую значимость отличия в среднем между различными совокупностями, вы можете прочесть раздел Дисперсионный анализ. Однако должно быть ясно, что если среднее значение определенной переменной значимо различно для двух совокупностей, то вы можете сказать, что переменная разделяет данные совокупности.

В случае одной переменной окончательный критерий значимости того, разделяет переменная две совокупности или нет, дает F-критерий. Как описано в разделах Элементарные понятия статистики и Дисперсионный анализ, F статистика по существу вычисляется, как отношение межгрупповой дисперсии к объединенной внутригрупповой дисперсии. Если межгрупповая дисперсия оказывается существенно больше, тогда это должно означать различие между средними.

Многомерные переменные. При применении дискриминантного анализа обычно имеются несколько переменных, и задача состоит в том, чтобы установить, какие из переменных вносят свой вклад в дискриминацию между совокупностями. В этом случае вы имеете матрицу общих дисперсий и ковариаций, а также матрицы внутригрупповых дисперсий и ковариаций. Вы можете сравнить эти две матрицы с помощью многомерного F-критерия для того, чтобы определить, имеются ли значимые различия между группами (с точки зрения всех переменных). Эта процедура идентична процедуре Многомерного дисперсионного анализа (MANOVA). Так же как в MANOVA, вначале можно выполнить многомерный критерий, и затем, в случае статистической значимости, посмотреть, какие из переменных имеют значимо различные средние для каждой из совокупностей. Поэтому, несмотря на то, что вычисления для нескольких переменных более сложны, применимо основное правило, заключающееся в том, что если вы производите дискриминацию между совокупностями, то должно быть заметно различие между средними.

Пошаговый дискриминантный анализ

Вероятно, наиболее общим применением дискриминантного анализа является включение в исследование многих переменных с целью определения тех из них, которые наилучшим образом разделяют совокупности между собой. Например, исследователь в области образования, интересующийся предсказанием выбора, который сделают выпускники средней школы относительно своего дальнейшего образования, произведет с целью получения наиболее точных прогнозов регистрацию возможно большего количества параметров обучающихся, например, мотивацию, академическую успеваемость и т.д.

Модель. Другими словами, вы хотите построить «модель», позволяющую лучше всего предсказать, к какой совокупности будет принадлежать тот или иной образец. В следующем рассуждении термин «в модели» будет использоваться для того, чтобы обозначать переменные, используемые в предсказании принадлежности к совокупности; о неиспользуемых для этого переменных будем говорить, что они «вне модели».

Пошаговый анализ с включением. В пошаговом анализе дискриминантных функций модель дискриминации строится по шагам. Точнее, на каждом шаге просматриваются все переменные и находится та из них, которая вносит наибольший вклад в различие между совокупностями. Эта переменная должна быть включена в модель на данном шаге, и происходит переход к следующему шагу.

Пошаговый анализ с исключением. Можно также двигаться в обратном направлении, в этом случае все переменные будут сначала включены в модель, а затем на каждом шаге будут устраняться переменные, вносящие малый вклад в предсказания. Тогда в качестве результата успешного анализа можно сохранить только «важные» переменные в модели, то есть те переменные, чей вклад в дискриминацию больше остальных.

F для включения, F для исключения. Эта пошаговая процедура «руководствуется» соответствующим значением F для включения и соответствующим значением F для исключения. Значение F статистики для переменной указывает на ее статистическую значимость при дискриминации между совокупностями, то есть, она является мерой вклада переменной в предсказание членства в совокупности. Если вы знакомы с пошаговой процедурой множественной регрессии, то вы можете интерпретировать значение F для включения/исключения в том же самом смысле, что и в пошаговой регрессии.

Расчет на случай. Пошаговый дискриминантный анализ основан на использовании статистического уровня значимости. Поэтому по своей природе пошаговые процедуры рассчитывают на случай, так как они «тщательно перебирают» переменные, которые должны быть включены в модель для получения максимальной дискриминации. При использовании пошагового метода исследователь должен осознавать, что используемый при этом уровень значимости не отражает истинного значения альфа, то есть, вероятности ошибочного отклонения гипотезы H (нулевой гипотезы, заключающейся в том, что между совокупностями нет различия).

Интерпретация функции дискриминации для двух групп

Для двух групп дискриминантный анализ может рассматриваться также как процедура множественной регрессии (и аналогичная ей) — (см. раздел Множественная регрессия; дискриминантный анализ для двух групп также называется Линейным дискриминантным анализом Фишера после работы Фишера (Fisher, 1936). (С вычислительной точки зрения все эти подходы аналогичны). Если вы кодируете две группы как 1 и 2, и затем используете эти переменные в качестве зависимых переменных в множественной регрессии, то получите результаты, аналогичные тем, которые получили бы с помощью Дискриминантного анализа. В общем, в случае двух совокупностей вы подгоняете линейное уравнение следующего типа:

где a является константой, и b1 . bm являются коэффициентами регрессии. Интерпретация результатов задачи с двумя совокупностями тесно следует логике применения множественной регрессии: переменные с наибольшими регрессионными коэффициентами вносят наибольший вклад в дискриминацию.

Дискриминантные функции для нескольких групп

Если имеется более двух групп, то можно оценить более, чем одну дискриминантную функцию подобно тому, как это было сделано ранее. Например, когда имеются три совокупности, вы можете оценить: (1) — функцию для дискриминации между совокупностью 1 и совокупностями 2 и 3, взятыми вместе, и (2) — другую функцию для дискриминации между совокупностью 2 и совокупности 3. Например, вы можете иметь одну функцию, дискриминирующую между теми выпускниками средней школы, которые идут в колледж, против тех, кто этого не делает (но хочет получить работу или пойти в училище), и вторую функцию для дискриминации между теми выпускниками, которые хотят получить работу против тех, кто хочет пойти в училище. Коэффициенты b в этих дискриминирующих функциях могут быть проинтерпретированы тем же способом, что и ранее.

Канонический анализ. Когда проводится дискриминантный анализ нескольких групп, вы не должны указывать, каким образом следует комбинировать группы для формирования различных дискриминирующих функций. Вместо этого, вы можете автоматически определить некоторые оптимальные комбинации переменных, так что первая функция проведет наилучшую дискриминацию между всеми группами, вторая функция будет второй наилучшей и т.д. Более того, функции будут независимыми или ортогональными, то есть их вклады в разделение совокупностей не будут перекрываться. С вычислительной точки зрения система вы проводите анализ канонических корреляций (см. также раздел Каноническая корреляция), которые будут определять последовательные канонические корни и функции. Максимальное число функций будет равно числу совокупностей минус один или числу переменных в анализе в зависимости от того, какое из этих чисел меньше.

Интерпретация дискриминантных функций. Как было установлено ранее, вы получите коэффициенты b (и стандартизованные коэффициенты бета) для каждой переменной и для каждой дискриминантной (теперь называемой также и канонической) функции. Они могут быть также проинтерпретированы обычным образом: чем больше стандартизованный коэффициент, тем больше вклад соответствующей переменной в дискриминацию совокупностей. (Отметим также, что вы можете также проинтерпретировать структурные коэффициенты; см. ниже.) Однако эти коэффициенты не дают информации о том, между какими совокупностями дискриминируют соответствующие функции. Вы можете определить характер дискриминации для каждой дискриминантной (канонической) функции, взглянув на средние функций для всех совокупностей. Вы также можете посмотреть, как две функции дискриминируют между группами, построив значения, которые принимают обе дискриминантные функции (см., например, следующий график).

В этом примере Корень1 (root1), похоже, в основном дискриминирует между группой Setosa и объединением групп Virginic и Versicol. По вертикальной оси (Корень2) заметно небольшое смещение точек группы Versicol вниз относительно центральной линии ().

Матрица факторной структуры. Другим способом определения того, какие переменные «маркируют» или определяют отдельную дискриминантную функцию, является использование факторной структуры. Коэффициенты факторной структуры являются корреляциями между переменными в модели и дискриминирующей функцией. Если вы знакомы с факторным анализом (см. раздел Факторный анализ), то можете рассматривать эти корреляции как факторные нагрузки переменных на каждую дискриминантную функцию.

Некоторые авторы согласны с тем, что структурные коэффициенты могут быть использованы при интерпретации реального «смысла» дискриминирующей функции. Объяснения, даваемые этими авторами, заключаются в том, что: (1) — вероятно структура коэффициентов более устойчива и (2) — они позволяют интерпретировать факторы (дискриминирующие функции) таким же образом, как и в факторном анализе. Однако последующие исследования с использованием метода Монте-Карло (Барсиковский и Стивенс (Barcikowski, Stevens, 1975); Хьюберти (Huberty, 1975)) показали, что коэффициенты дискриминантных функций и структурные коэффициенты почти одинаково нестабильны, пока значение размер выборки не станет достаточно большим (например, если число наблюдений в 20 раз больше, чем число переменных). Важно помнить, что коэффициенты дискриминантной функции отражают уникальный (частный) вклад каждой переменной в отдельную дискриминантную функцию, в то время как структурные коэффициенты отражают простую корреляцию между переменными и функциями. Если дискриминирующей функции хотят придать отдельные «осмысленные» значения (родственные интерпретации факторов в факторном анализе), то следует использовать (интерпретировать) структурные коэффициенты. Если же хотят определить вклад, который вносит каждая переменная в дискриминантную функцию, то используют коэффициенты (веса) дискриминантной функции.

Значимость дискриминантной функции. Можно проверить число корней, которое добавляется значимо к дискриминации между совокупностями. Для интерпретации могут быть использованы только те из них, которые будут признаны статистически значимыми. Остальные функции (корни) должны быть проигнорированы.

Итог. Итак, при интерпретации дискриминантной функции для нескольких совокупностей и нескольких переменных, вначале хотят проверить значимость различных функций и в дальнейшем использовать только значимые функции. Затем, для каждой значащей функции вы должны рассмотреть для каждой переменной стандартизованные коэффициенты бета. Чем больше стандартизованный коэффициент бета, тем большим является относительный собственный вклад переменной в дискриминацию, выполняемую соответствующей дискриминантной функцией. В порядке получения отдельных «осмысленных» значений дискриминирующих функций можно также исследовать матрицу факторной структуры с корреляциями между переменными и дискриминирующей функцией. В заключение, вы должны посмотреть на средние для значимых дискриминирующих функций для того, чтобы определить, какие функции и между какими совокупностями проводят дискриминацию.

Как говорилось ранее, дискриминантный анализ в вычислительном смысле очень похож на многомерный дисперсионный анализ (MANOVA), и поэтому применимы все предположения для MANOVA, упомянутые в разделе Дисперсионный анализ. Фактически, вы можете использовать широкий набор диагностических правил и статистических критериев для проверки предположений, чтобы вы имели законные основания применения Дискриминантного анализа к вашим данным.

Читайте также:  Как делается генетический анализ при беременности

Нормальное распределение. Предполагается, что анализируемые переменные представляют выборку из многомерного нормального распределения. Поэтому вы можете проверить, являются ли переменные нормально распределенными. Отметим, однако, что пренебрежение условием нормальности обычно не является «фатальным» в том смысле, что результирующие критерии значимости все еще «заслуживают доверия». Вы также можете воспользоваться специальными критериями нормальности и графиками.

Однородность дисперсий/ковариаций. Предполагается, что матрицы дисперсий/ковариаций переменных однородны. Как и ранее, малые отклонения не фатальны, однако прежде чем сделать окончательные выводы при важных исследованиях, неплохо обратить внимание на внутригрупповые матрицы дисперсий и корреляций. В частности, можно построить матричную диаграмму рассеяния, весьма полезную для этой цели. При наличии сомнений попробуйте произвести анализ заново, исключив одну или две малоинтересных совокупности. Если общий результат (интерпретация) сохраняется, то вы, по-видимому, имеете разумное решение. Вы можете также использовать многочисленные критерии и способы для того, чтобы проверить, нарушено это предположение в ваших данных или нет. Однако, как упомянуто в разделе Дисперсионный анализ, многомерный M-критерий Бокса для проверки однородности матриц дисперсий/ковариаций, в частности, чувствителен к отклонению от многомерной нормальности и не должен восприниматься слишком «серьезно».

Корреляции между средними и дисперсиями. Большинство «реальных» угроз корректности применения критериев значимости возникает из-за возможной зависимости между средними по совокупностям и дисперсиями (или стандартными отклонениями) между собой. Интуитивно ясно, что если имеется большая изменчивость в совокупности с высокими средними в нескольких переменных, то эти высокие средние ненадежны. Однако критерии значимости основываются на объединенных дисперсиях, то есть, на средней дисперсии по всем совокупностям. Поэтому критерии значимости для относительно больших средних (с большими дисперсиями) будут основаны на относительно меньших объединенных дисперсиях и будут ошибочно указывать на статистическую значимость. На практике этот вариант может произойти также, если одна из изучаемых совокупностей содержит несколько экстремальных выбросов, которые сильно влияют на средние и, таким образом, увеличивают изменчивость. Для определения такого случая следует изучить описательные статистики, то есть средние и стандартные отклонения или дисперсии для таких корреляций.

Задача с плохо обусловленной матрицей. Другое предположение в дискриминантном анализе заключается в том, что переменные, используемые для дискриминации между совокупностями, не являются полностью избыточными. При вычислении результатов дискриминантного анализа происходит обращение матрицы дисперсий/ковариаций для переменных в модели. Если одна из переменных полностью избыточна по отношению к другим переменным, то такая матрица называется плохо обусловленной и не может быть обращена. Например, если переменная является суммой трех других переменных, то это отразится также и в модели, и рассматриваемая матрица будет плохо обусловленной.

Значения толерантности. Чтобы избежать плохой обусловленности матриц, необходимо постоянно проверять так называемые значения толерантности для каждой переменной. Значение толерантности вычисляется как 1 минус R-квадрат, где R-квадрат — коэффициент множественной корреляции для соответствующей переменной со всеми другими переменными в текущей модели. Таким образом, это есть доля дисперсии, относящаяся к соответствующей переменной. Вы можете также обратиться к разделу Множественная регрессия, чтобы узнать больше о методах множественной регрессии и об интерпретации значения толерантности. В общем случае, когда переменная почти полностью избыточна (и поэтому матрица задачи является плохо обусловленной), значение толерантности для этой переменной будет приближаться к нулю.

Другой главной целью применения дискриминантного анализа является проведение классификации. Как только модель установлена и получены дискриминирующие функции, возникает вопрос о том, как хорошо они могут предсказывать, к какой совокупности принадлежит конкретный образец?

Априорная и апостериорная классификация. Прежде чем приступить к изучению деталей различных процедур оценивания, важно уяснить, что эта разница ясна. Обычно, если вы оцениваете на основании некоторого множества данных дискриминирующую функцию, наилучшим образом разделяющую совокупности, и затем используете те же самые данные для оценивания того, какова точность вашей процедуры, то вы во многом полагаетесь на волю случая. В общем случае, получают, конечно худшую классификацию для образцов, не использованных для оценки дискриминантной функции. Другими словами, классификация действует лучшим образом для выборки, по которой была проведена оценка дискриминирующей функции (апостериорная классификация), чем для свежей выборки (априорная классификация). (Трудности с (априорной) классификацией будущих образцов заключается в том, что никто не знает, что может случиться. Намного легче классифицировать уже имеющиеся образцы.) Поэтому оценивание качества процедуры классификации никогда не производят по той же самой выборке, по которой была оценена дискриминирующая функция. Если желают использовать процедуру для классификации будущих образцов, то ее следует «испытать» (произвести кросс-проверку) на новых объектах.

Функции классификации. Функции классификации не следует путать с дискриминирующими функциями. Функции классификации предназначены для определения того, к какой группе наиболее вероятно может быть отнесен каждый объект. Имеется столько же функций классификации, сколько групп. Каждая функция позволяет вам для каждого образца и для каждой совокупности вычислить веса классификации по формуле:

В этой формуле индекс i обозначает соответствующую совокупность, а индексы 1, 2, . m обозначают m переменных; ci являются константами для i -ой совокупности, wij — веса для j -ой переменной при вычислении показателя классификации для i -ой совокупности; xj — наблюдаемое значение для соответствующего образца j -ой переменной. Величина Si является результатом показателя классификации.

Поэтому вы можете использовать функции классификации для прямого вычисления показателя классификации для некоторых новых значений.

Классификация наблюдений. Как только вы вычислили показатели классификации для наблюдений, легко решить, как производить классификацию наблюдений. В общем случае наблюдение считается принадлежащим той совокупности, для которой получен наивысший показатель классификации (кроме случая, когда вероятности априорной классификации становятся слишком малыми; см. ниже). Поэтому, если вы изучаете выбор карьеры или образования учащимися средней школы после выпуска (поступление в колледж, в профессиональную школу или получение работы) на основе нескольких переменных, полученных за год до выпуска, то можете использовать функции классификации, чтобы предсказать, что наиболее вероятно будет делать каждый учащийся после выпуска. Однако вы хотели бы определить вероятность, с которой учащийся сделает предсказанный выбор. Эти вероятности называются апостериорными, и их также можно вычислить. Однако для понимания, как эти вероятности вычисляются, вначале рассмотрим так называемое расстояние Махаланобиса.

Расстояние Махаланобиса. Вы можете прочитать об этих расстояниях в других разделах. В общем, расстояние Махаланобиса является мерой расстояния между двумя точками в пространстве, определяемым двумя или более коррелированными переменными. Например, если имеются всего две некоррелированных переменные, то вы можете нанести точки (образцы) на стандартную 2М диаграмму рассеяния. Расстояние Махаланобиса между точками будет в этом случае равно расстоянию Евклида, т.е. расстоянию, измеренному, например, рулеткой. Если имеются три некоррелированные переменные, то для определения расстояния вы можете по-прежнему использовать рулетку (на 3М диаграмме). При наличии более трех переменных вы не можете более представить расстояние на диаграмме. Также и в случае, когда переменные коррелированы, то оси на графике могут рассматриваться как неортогональные (они уже не направлены под прямыми углами друг к другу). В этом случае простое определение расстояния Евклида не подходит, в то время как расстояние Махаланобиса является адекватно определенным в случае наличия корреляций.

Расстояние Махаланобиса и классификация. Для каждой совокупности в выборке вы можете определить положение точки, представляющей средние для всех переменных в многомерном пространстве, определенном переменными рассматриваемой модели. Эти точки называются центроидами группы. Для каждого наблюдения вы можете затем вычислить его расстояние Махаланобиса от каждого центроида группы. Снова, вы признаете наблюдение принадлежащим к той группе, к которой он ближе, т.е. когда расстояние Махаланобиса до нее минимально.

Апостериорные вероятности классификации. Используя для классификации расстояние Махаланобиса, вы можете теперь получить вероятность того, что образец принадлежит к конкретной совокупности. Это значение будет не вполне точным, так как распределение вокруг среднего для каждой совокупности будет не в точности нормальным. Так как принадлежность каждого образца вычисляется по априорному знанию модельных переменных, эти вероятности называются апостериорными вероятностями. Короче, апостериорные вероятности — это вероятности, вычисленные с использованием знания значений других переменных для образцов из частной совокупности. Некоторые пакеты автоматически вычисляют эти вероятности для всех наблюдений (или для выбранных наблюдений при проведении кросс-проверки).

Априорные вероятности классификации. Имеется одно дополнительное обстоятельство, которое следует рассмотреть при классификации образцов. Иногда вы знаете заранее, что в одной из групп имеется больше наблюдений, чем в другой. Поэтому априорные вероятности того, что образец принадлежит такой группе, выше. Например, если вы знаете заранее, что 60% выпускников вашей средней школы обычно идут в колледж, (20% идут в профессиональные школы и остальные 20% идут работать), то вы можете уточнить предсказание таким образом: при всех других равных условиях более вероятно, что учащийся поступит в колледж, чем сделает два других выбора. Вы можете установить различные априорные вероятности, которые будут затем использоваться для уточнения результатов классификации наблюдений (и для вычисления апостериорных вероятностей).

На практике, исследователю необходимо задать себе вопрос, является ли неодинаковое число наблюдений в различных совокупностях в первоначальной выборке отражением истинного распределения в популяции, или это только (случайный) результат процедуры выбора. В первом случае вы должны положить априорные вероятности пропорциональными объемам совокупностей в выборке; во втором — положить априорные вероятности одинаковыми для каждой совокупности. Спецификация различных априорных вероятностей может сильно влиять на точность классификации.

Итог классификации. Общим результатом, на который следует обратить внимание при оценке качества текущей функции классификации, является матрица классификации. Матрица классификации содержит число образцов, корректно классифицированных (на диагонали матрицы) и тех, которые попали не в свои совокупности (группы).

Другие предостережения. При повторной итерации апостериорная классификация того, что случилось в прошлом, не очень трудна. Нетрудно получить очень хорошую классификацию тех образцов, по которым была оценена функция классификации. Для получения сведений, насколько хорошо работает процедура классификации на самом деле, следует классифицировать (априорно) различные наблюдения, то есть, наблюдения, которые не использовались при оценке функции классификации. Вы можете гибко использовать условия отбора для включения или исключения из вычисления наблюдений, поэтому матрица классификации может быть вычислена по «старым» образцам столь же успешно, как и по «новым». Только классификация новых наблюдений позволяет определить качество функции классификации (см. также кросс-проверку); классификация старых наблюдений позволяет лишь провести успешную диагностику наличия выбросов или области, где функция классификации кажется менее адекватной.

Итог. В общем, Дискриминантный анализ — это очень полезный инструмент (1) — для поиска переменных, позволяющих относить наблюдаемые объекты в одну или несколько реально наблюдаемых групп, (2) — для классификации наблюдений в различные группы.

Все права на материалы электронного учебника принадлежат компании StatSoft

источник

1. Дискриминантный анализ как раздел многомерного статистического анализа

1.1 Методы классификации с обучением

1.2 Линейный дискриминантный анализ

2. Дискриминантный анализ при нормальном законе распределения показателей

3. Примеры решения задач дискриминантным анализом

3.1 Применение дискриминантного анализа при наличии двух обучающих выборок

3.2 Пример решения задачи дискриминантным анализом в системе STATISTICA

Список использованных источников

Метод дискриминантного анализа впервые был применен в сфере банковской деятельности, а именно — в кредитном анализе. Здесь наиболее четко прослеживается основной подход метода, подразумевающий привлечение прошлого опыта: необходимо определить, чем отличаются заемщики, вернувшие в срок кредит, от тех, кто этого не сделал. Полученная информация должна быть использована при решении судьбы новых заемщиков. Иначе говоря, применение метода имеет цель: построение модели, предсказывающей, к какой из групп относятся данные потребители, исходя из набора предсказывающих переменных (предикторов), измеренных в интервальной шкале. Дискриминатный анализ связан со строгими предположениями относительно предикторов: для каждой группы они должны иметь многомерное нормальное распределение с идентичными ковариационными матрицами.

Основные положения дискриминантного анализа легко понять из представления исследуемой области, как состоящей из отдельных совокупностей, каждая из которых характеризуется переменными с многомерным нормальным распределением. Дискриминантный анализ пытается найти линейные комбинации таких показателей, которые наилучшим образом разделяют представленные совокупности.

При использовании метода дискриминантного анализа главным показателем является точность классификации, и этот показатель можно легко определить, оценив долю правильно классифицированных при помощи прогностического уравнения наблюдений. Если исследователь работает с достаточно большой выборкой, применяется следующий подход: выполняется анализ по части данных (например, по половине), а затем прогностическое уравнение применяется для классификации наблюдений во второй половине данных. Точность прогноза оценивается, т.е. происходит перекрестная верификация. В дискриминантном анализе существуют методы пошагового отбора переменных, помогающие осуществить выбор предсказывающих переменных.

Итак, целью дискриминантного анализа является получение прогностического уравнения, которое можно будет использовать для предсказания будущего поведения потребителей. Например, в отношении клиентов банка существует необходимость на основе некоторого набора переменных (возраст, годовой доход, семейное положение и т.п.) уметь относить их к одной из нескольких взаимоисключающих групп с большими или меньшими рисками не возврата кредита. Исследователь располагает некоторыми статистическими данными (значениями переменных) в отношении лиц, принадлежность которых к определенной группе уже известна. В примере с банком эти данные будут содержать статистику по уже предоставленным кредитам с информацией о том, вернул ли заемщик кредит или нет. Необходимо определить переменные, которые имеют существенное значение для разделения наблюдений на группы, и разработать алгоритм для отнесения новых клиентов к той или иной группе.

Читайте также:  Хгч на каком сроке сдать анализ

1.1 Методы классификации с обучением

Дискриминантный анализ является разделом многомерного статистического анализа, который включает в себя методы классификации многомерных наблюдений по принципу максимального сходства при наличии обучающих признаков.

В дискриминантном анализе формулируется правило, по которому объекты подмножества подлежащего классификации относятся к одному из уже существующих (обучающих) подмножеств (классов). На основе сравнения величины дискриминантной функции классифицируемого объекта, рассчитанной по дискриминантным переменным, с некоторой константой дискриминации.

В общем случае задача различения (дискриминации) формулируется следующим образом. Пусть результатом наблюдения над объектом является реализация k — мерного случайного вектора . Требуется установить правило, согласно которому по наблюденному значению вектора х объект относят к одной из возможных совокупностей . Для построения правила дискриминации все выборочное пространство R значений вектора х разбивается на области так, что при попадании х в объект относят к совокупности .

Правило дискриминации выбирается в соответствии с определенным принципом оптимальности на основе априорной информации о совокупностях извлечения объекта из . При этом следует учитывать размер убытка от неправильной дискриминации. Априорная информация может быть представлена как в Виде некоторых сведений о функции мерного распределения признаков в каждой совокупности, так и в виде выборок из этих совокупностей. Априорные вероятности могут быть либо заданы, либо нет. Очевидно, что рекомендации будут тем точнее, чем полнее исходная информация.

С точки зрения применения дискриминантного анализа наиболее важной является ситуация, когда исходная информация о распределении представлена выборками из них. В этом случае задача дискриминации ставится следующим образом.

Пусть выборка из совокупности , причем каждый — й объект выборки представлен k — мерным вектором параметров . Произведено дополнительное наблюдение над объектом, принадлежащим одной из совокупностей . Требуется построить правило отнесения наблюдения х к одной из этих совокупностей.

Обычно в задаче различения переходят от вектора признаков, хapaктeризующих объект, к линейной функции от них, дискриминантной функции гиперплоскости, наилучшим образом разделяющей совокупность выборочных точек.

Наиболее изучен случай, когда известно, что распределение векторов признаков в каждой совокупности нормально, но нет информации о параметрах этих распределений. Здесь естественно заменить неизвестные параметры распределения в дискриминантной функции их наилучшими оценками. Правило дискриминации можно основывать на отношении правдоподобия.

Непараметрические методы дискриминации не требуют знаний о точном функциональном виде распределений и позволяют решать задачи дискриминации на основе незначительной априорной информации о совокупностях, что особенно ценно для практических применений.

В параметрических методах эти точки используются для оценки параметров статистических функций распределения. В параметрических методах построения функции, как правило, используется нормальное распределение.

1.2 Линейный дискриминантный анализ

1) имеются разные классы объектов;

2) каждый класс имеет нормальную функцию плотности от k переменных

rде µ (i) — вектор математических ожиданий переменных размерности k;

— ковариационная матрица при n=n;

Матрица — положительно определена.

В случае если параметры известны дискриминацию можно провести следующим образом.

Имеются функции плотности нормально pacпределенных классов. Задана точка х в пространстве k измерений. Предполагая, что имеет наибольшую плотность, необходимо отнести точку х к i-му классу. Существует доказательство, что если априорные вероятности для определяемых точек каждого класса одинаковы и потери при неправильной классификации i-й группы в качестве j-й не зависят от i и j, то решающая процедура минимизирует ожидаемые потери при неправильной классификации.

Ниже приведен пример оценки параметра многомерногo нормального pacпределения µ и У.

µ и У мoгyт быть оценены по выборочным данным: и для классов. Задано l выборок из некоторых классов. Математические ожидания мoгyт быть оценены средними значениями

Несмещенные оценки элементов ковариационной матрицы У есть

Cледовательно, можно определить и по l выборкам в каждом классе при помощи (1.2), (1.3), получив оценки, точку х необходимо отнести к классу, для которой функция f(х) максимальна.

Необходимо ввести предположение, что все классы, среди которых должна проводиться дискриминация, имеют нормальное распределение с одной и той же ковариационной матрицей У.

В результате существенно упрощается выражение для дискриминантной функции.

Класс, к которому должна принадлежать точка х, можно определить на

Необходимо воспользоваться формулой (1.1) для случая, когда их ковариационные матрицы равны:, а ( есть вектор математических ожиданий класса i. Тогда (1.4) можно представить неравенством их квадратичных форм

Если имеется два вектора Z и W, то скалярное произведение можно записать . В выражении (1.5) необходимо исключить справа и слева, поменять у всех членов суммы знаки. Теперь преобразовать

Аналогично проводятся преобразования по индексу i. Необходимо сократить правую и левую часть неравенства (1.5) на 2 и, используя запись квадратичных форм, получается

Необходимо ввести обозначения в выражение (1.6):

Тогда выражение (1.6) примет вид

Следствие: проверяемая точка х относится к классу i, для которого линейная функция

Преимущество метода линейной дискриминации Фишера заключается в линейности дискриминантной функции (1.8) и надежности оценок ковариационных матриц классов.

Имеются два класса с параметрами и . По выборкам из этих совокупностей объемом n1 n2 получены оценки и . Первоначально проверяется гипотеза о том, что ковариационные матрицы равны. В случае если оценки и статистически неразличимы, то принимается, что и строится общая оценка , основанная на суммарной выборке объемом n1+n2 , после чего строится линейная дискриминантная функция Фишера (1.8).

2. ДИСКРИМИНАНТНЫЙ АНАЛИЗ ПРИ НОРМАЛЬНОМ ЗАКОНЕ РАСПРЕДЕЛЕНИЯ ПОКАЗАТЕЛЕЙ

Имеются две генеральные совокупности Х и У, имеющие трехмерный нормальный закон распределения с неизвестными, но равными ковариационными матрицами.

Алгоритм выполнения дискриминантного анализа включает основные этапы:

1. Исходные данные представляются либо в табличной форме в виде q подмножеств (обучающих выборок) Mk и подмножества М0 объектов подлежащих дискриминации, либо сразу в виде матриц X(1), X(2), . X(q), размером (nkЧp):

Свойства (показатель), j (j = 1, 2, . p)

источник

— раздел математич. статистики, содержанием к-рого является разработка и исследование статистич. методов решения следующей задачи различения (дискриминации): основываясь на результатах наблюдений», определить, какой из нескольких возможных совокупностей принадлежит объект, случайно извлеченный из одной из них. На практике задача различения возникает, напр., в тех случаях, когда наблюдение признака, полностью определяющего принадлежность объекта к той или иной совокупности, невозможно или требует чрезмерных затрат средств или времени; в случаях, когда информация о таком признаке утеряна, и ее нужно восстановить, а также, когда речь идет о предсказании будущих событий на основе имеющихся данных. Ситуации первого типа встречаются в медицинской практике, напр, при установлении диагноза по комплексу неспецифических проявлений заболевания. Пример ситуации второго типа — определение пола давно умершего человека по останкам, найденным при археологич. раскопках. Ситуация третьего типа возникает, напр., при статистич. прогнозе отдаленных результатов лечения. Методом Д. а. является многомерный статистический анализ, служащий для количественного выражения и обработки имеющейся информации в соответствии с выбранным критерием оптимальности решения.

В общем виде задача различения ставится следующим образом. Пусть результатом наблюдения над случайным объектом является реализация р-мерного случайного вектора х’ =( х 1, . , х р )(штрих означает транспонирование) значений рпризнаков объекта. Требуется установить правило, согласно к-рому по значению вектора х объект относят к одной из возможных совокупностей pi, i=1, . , k. Построение правила дискриминации состоит в том, что все выборочное пространство R значений вектора хразбивается на области Ri, i=l, . , k, так что при попадании х в Ri объект относят к совокупности pi. Выбор правила дискриминации среди всех возможных производится в соответствии с установленным принципом оптимальности на основе априорной информации о совокупностях pi и вероятностях qi извлечения объекта из pi. При этом учитывается размер убытка от неправильной дискриминации. Априорная информация о совокупностях pi может состоять в том, что известны функции распределения вектора признаков объекта в каждой из этих совокупностей, она может быть представлена также и в виде выборок из каждой из этих совокупностей, при этом априорные вероятности qi совокупностей могут быть либо известны, либо нет. Очевидно, чем полнее исходная информация, тем точнее могут быть рекомендации.

Пусть рассматривается случай двух совокупностей p1 и p2 в ситуации, когда имеется полная исходная информация: известны функции распределения вектора признаков в каждой из совокупностей и априорные вероятности (бейесовский подход). Пусть Р 1 (х)и Р 2 (х)- функции распределения вектора признаков соответственно в p1 и p2, p1(x)и р 2 (х) — плотности распределения, a C(i|i), i, j=1,2,- убыток вследствие отнесения объекта из j -й совокупности к i-й. Тогда вероятности неправильной дискриминации объектов из p1 и p2 соответственно равны:

(символом P(i|j; R )обозначена вероятность приписывания объекта из pj к совокупности pi при использовании правила R), а математич. ожидание потерь, связанных с неверной дискриминацией, равно

Естественным в рассматриваемой ситуации принципом оптимальности является принцип минимизации этой величины, к-рый приводит в этом случае к следующему разбиению пространства выборок [1]:

то такое разбиение единственно с точностью до множества нулевой вероятности. К аналогичному правилу различения в рассмотренном случае можно прийти и другими путями, напр. с помощью НейманаПирсона леммы из теории проверки статистич. гипотез.

При выбранном критерии оптимальности о качестве правила различения судят по величине математич. ожидания потерь, и из двух правил лучшим считается то, к-рое приводит к меньшему значению этой величины.

Если в задаче различения априорные вероятности qi неизвестны, то естественно искать решение в классе допустимых правил, выбирая среди них правило, минимизирующее максимум по всем qi математич. ожидания потерь (такое правило наз. минимаксным). Математич. ожидания потерь при условии, что наблюдения производились соответственно над объектами из p1 или p2, равны

Справедливо утверждение (см. [1]): если выполнены условия

то класс бейесовских методов является минимальным полным классом. Минимаксное правило R* из этого класса получается при значении q1, для к-рого выполнено условие P(2|1; R*) = P(1/2; R*). В важном случае, когда Р 1 и Р 2— многомерные нормальные распределения с векторами средних m (1) и m (2) и общей ковариационной матрицей 2, правило дискриминации (1) принимает вид:

где Если С(1|2)=С(2|1) и q2=qu то ln k=0

Если априорные вероятности неизвестны, то можно выбрать ln k=c, напр, из условия минимальности ошибки неверной дискриминации или из условия обращения в нуль математич. ожидания потерь от неверной дискриминации. Вообще говоря, выбор критерия оптимальности, как правило, определяется характером самой задачи. Выражение в левой части (3) наз. дискриминантной функцией данной задачи; ее можно толковать как поверхность в выборочном пространстве, разделяющую совокупности p1. и p2. В приведенном примере дискриминантная функция линейна, т. е. такая поверхность есть гиперплоскость. Если в приведенном примере матрицы ковариации неодинаковы, то дискриминантная функция будет квадратичной функцией от х. В целях упрощения вычислений найден минимальный полный класс линейных процедур различения для этого случая (см. [3]). С точки зрения применений Д. а. наиболее важной является ситуация, когда исходная информация о распределениях ‘ представлена выборками из них. В этом случае задача дискриминации ставится следующим образом. Пусть х 1 (i) , х 2 (i) , . .., х n (i) — выборка из совокупности pi, — вектор признаков /-го объекта выборки из г-й совокупности, и произведено дополнительное наблюдение х’ =( х 1, . , х р )над объектом, принадлежащим одной из совокупностей pi. Требуется построить правило приписывания наблюдения хк одной из этих совокупностей. Первый подход к решению этой задачи в случае двух совокупностей принадлежит Р. А. Фишеру — основоположнику Д. а. [4]. Используя в задаче различения вместо вектора признаков, характеризующих объект, их линейную комбинацию — гиперплоскость, в нек-ром смысле наилучшим образом разделяющую совокупность выборочных точек,- он пришел к дискриминантной функции (3).

Наиболее изученным является случай, когда известно, что распределения векторов признаков в каждой совокупности нормальны, но нет информации о параметрах этих распределений. Здесь самым естественным является подход, состоящий в замене неизвестных параметров распределений в дискриминантной функции (3) их наилучшими оценками (см. [5], [6]). Как и в случае известных распределений, правило дискриминации можно основывать на отношении правдоподобия (см. [7], [8]).

Подавляющая часть результатов Д. а. получена в предположении нормальности распределений. Изучаются вопросы применимости оптимальных в нормальном случае методов в ситуациях, где предположение о нормальности носит лишь приближенный характер [9]. В этих работах задачи Д. а. рассматриваются в рамках общей теории решающих функций и изучаются свойства правил дискриминации по отношению к так наз. принципу Q-оптимальности, естественным образом охватывающему как бейесовский, так и минимаксный подходы. Именно, пусть R(x, d) — вероятность ошибки при применении правила дискриминации б, когда вектор априорных вероятностей есть x. Пусть известно, что где Q- некоторое множество в пространстве векторов x. Правило d* наз. Q-оптимальным, если

где D- множество всех возможных правил дискриминации. Пусть известен функциональный вид Р i( х, li), зависящих от параметра распределений вектора признаков в каждой из совокупностей, i=1, 2, но параметр l неизвестен и оценивается по выборке. Тогда если Pi( х,li) таковы, что существует Q-оптимальное правило d*(l1, l2) дискриминации для распределений Pi(x,li), i=l, 2, когда значение параметра l=(l1, l2) известно, и i (ni) > — сильно состоятельная оценка параметра li по выборке объема ni, то при нек-рых дополнительных условиях последовательность правил i (n1) , li (n2) )> при является асимптотически оптимальной, то есть с вероятностью 1

Читайте также:  Как можно сдать анализ на хламидии

где риск Rв левой части (5) может быть вычислен как при истинном значении параметров, так и при замене истинных значений их оценками li (ni) . Если потребовать лишь состоятельности оценки, то имеет место несколько более слабое утверждение.

Непараметрич. методы дискриминации, не требующие знаний о точном функциональном виде распределений и позволяющие решать задачи дискриминации на основе малой априорной информации о совокупностях, являются особо ценными для практических применений [2], [10].

В задачах Д. а. приходится иметь дело со случайными наблюдениями как над количественными, так и над качественными признаками (возможен и смешанный случай). Между этими случаями нет принципиальной разницы. Если признаки качественные, то вводится понятие многомерного состояния объекта и рассматривается распределение по нему. От природы наблюдений зависит способ оценки функции распределений вектора признаков. В соответствующих ситуациях снова применимы бейесовский и минимаксный подходы и можно строить процедуру различения, основываясь на отношении правдоподобия. Иногда целесообразно переходить от количественных величин к качественным путем разбиения функции частот, и наоборот, от качественных к количественным, вводя фиктивные переменные, преобразующие качественную информацию в количественную. При этом, разумеется, нужно исследовать вопрос о том, не происходит ли существенного ухудшения качества правила.

Выше рассматривались задачи Д. а. при фиксированной размерности пространства значений вектора признаков. Однако практич. ситуации чаще всего таковы, что выбор размерности осуществляется исследователем. На первый взгляд кажется, что добавление каждого нового признака в дискриминантной функции по крайней мере не ухудшит ее качества. Однако многие факторы могут при этом вести к потере эффективности различения (достаточно вспомнить, что вместо истинных значений параметров распределений часто используются их оценки). К тому же увеличение числа признаков ведет к быстрому возрастанию трудностей счета. Имеется много рекомендаций для выбора признаков, диктуемых часто здравым смыслом. Теоретически наиболее обоснованным методом выбора признаков является метод, основанный на вычислении расстояния Махаланобиса между двумя распределениями [11]. Особый интерес представляют последовательные методы выбора признаков.

Долгое время задачи отнесения объекта к одной из нескольких возможных совокупностей носили общее название задач классификации. Здесь приведена терминология Кендалла [2], разделившего все задачи, связанные с выбором одной из нескольких равноправных возможностей на три класса. Он назвал задачи рассматриваемого здесь вида задачами различения (дискриминации), оставив термин «классификация» для задач разбиения данной выборки или всей совокупности на группы, по возможности однородные. Если в задачах различения существование групп оговорено в условиях, то здесь это — предмет исследования. Выше были рассмотрены задачи различения, когда исследуемый объект есть результат случайного выбора из нек-рого конечномерного распределения. Возможна более общая ситуация, когда исследуемый объект представляет собой реализацию нек-рого случайного процесса с непрерывным временем.

Д. а. тесно связан также с теорией распознавания образов.

Лит.:[1] Андерсон Т., Введение в многомерный статистический анализ, пер. с англ., М., 1963; [2] Kendall М. G., Stuart A., The advanced theory of statistics, v. 3, L., 1966; [3] Andersоn T. W., Вahadur R. R., «Ann. Math. Statistics», 1962, v. 33, Jsfi 2, p. 420-31; [4] Fisсher R. A., «Ann. Eugenics», 1936, v. 7, № 11, p. 179-188; [5] Wald A., «Ann. Math. Statistics», 1944, v. 15, № 2, p. 145-62; [6] JohnS., «Sankhya», 1960, v. 22, pt. 3-4, p. 301 — 16; [7] Welch B. L., «Biometrika», 1939, v. 31, pt. 1-2, p. 218- 220; [8] Gupta S. D., «Ann. Math. Statistics», 1965, v. 36, J* 4, p. 1174-84; [9] Bunke O., «Z. Wahrscheinlichkeitstheor. und verw. Geb.», 1967, Bd 7, № 2, S. 131 — 46; [10] Rуzin J. van, «Sankhya», ser. A, 1966, v. 28, pt. 2-3, p. 261-70; [11] Kudo A., «Memoirs of the Faculty of Science. Kyushu Univ.», ser. A, 1963, v. 17, №1, p. 63-75; [12] Уpбax В. Ю., в сб.: Статистические методы классификации, в. 1, М., 1969, с. 79- 173 (лит.).

Математическая энциклопедия. — М.: Советская энциклопедия . И. М. Виноградов . 1977—1985 .

источник

1. Дискриминантные функции и их геометрическая интерпретация

2. Расчет коэффициентов дискриминантной функции

3. Классификация при наличии двух обучающих выборок

4. Классификация при наличии k обучающих выборок

5. Взаимосвязь между дискриминантными переменными и дискриминантными функциями

Список использованной литературы

Д u скр u м u нантный анализ — это раздел математической статистики, содержанием которого является разработка методов решения задач различения (дискриминации) объектов наблюдения по определенным признакам. Например, разбиение совокупности предприятий на несколько однородных групп по значениям каких-либо показателей производственно-хозяйственной деятельности.

Методы дискриминантного анализа находят применение в различных областях: медицине, социологии, психологии, экономике и т.д. При наблюдении больших статистических совокупностей часто появляется необходимость разделить неоднородную совокупность на однородные группы (классы). Такое расчленение в дальнейшем при проведении статистического анализа дает лучшие результаты моделирования зависимостей между отдельными признаками.

Дискриминантный анализ оказывается очень удобным и при обработке результатов тестирования отдельных лиц. Например, при выборе кандидатов на определенную должность можно всех опрашиваемых претендентов разделить на две группы: «подходит» и «не подходит».

Можно привести еще один пример применения дискриминантного анализа в экономике. Для оценки финансового состояния своих клиентов при выдаче им кредита банк классифицирует их на надежных и не надежных по ряду признаков. Таким образом, в тех случаях, когда возникает необходимость отнесения того или иного объекта к одному из реально существующих или выделенных определенным способом классов, можно воспользоваться дискриминантным анализом.

Аппарат дискриминантного анализа разрабатывался многими учеными-специалистами, начиная с конца 50-х годов ХХ в. Дискриминантным анализом, как и другими методами многомерной статистики, занимались П.Ч. Махаланобис, Р. Фишер, Г.Хотеллинг и другие видные ученые.

Все процедуры дискриминантного анализа можно разбить на две группы и рассматривать их как совершенно самостоятельные методы. Первая группа процедур позволяет интерпретировать различия между существующими классами, вторая — проводить классификацию новых объектов в тех случаях, когда неизвестно заранее, к какому из существующих классов они принадлежат.

Пусть имеется множество единиц наблюдения — генеральная совокупность. Каждая единица наблюдения характеризуется несколькими признаками (переменными)

Предположим, что все множество объектов разбито на несколько подмножеств (два и более). Из каждого подмножества взята выборка объемом

Признаки, которые используются для того, чтобы отличать один класс (подмножество) от другого, называются дискриминантными переменными. Каждая из этих переменных должна измеряться либо по интервальной шкале, либо по шкале отношений. Интервальная шкала позволяет количественно описать различия между свойствами объектов. Для задания шкалы устанавливаются произвольная точка отсчета и единица измерения. Примерами таких шкал являются календарное время, шкалы температур и т. п. В качестве оценки положения центра используются средняя величина, мода и медиана.

Шкала отношений — частный случай интервальной шкалы. Она позволяет соотнести количественные характеристики какого-либо свойства у разных объектов, например, стаж работы, заработная плата, величина налога.

Теоретически число дискриминантных переменных не ограничено, но на практике их выбор должен осуществляться на основании логического анализа исходной информации и одного из критериев, о котором речь пойдет немного ниже. Число объектов наблюдения должно превышать число дискриминантных переменных, как минимум, на два, т. е. р 1

источник

Дискриминантный анализ является разделом многомерного стати­стического анализа, который включает в себя методы классификации многомерных наблюдений по принципу максимального сходства при наличии обучающих признаков.

Напомним, что в кластерном анализе рассматриваются методы многомерной классификации без обучения. В дискриминантном анализе новые класте­ры не образуются, а формулируется правило, по которому объекты подмножества подлежащего классификации относятся к одному из уже существую­щих (обучающих) подмножеств (классов), на основе сравнения ве­личины дискриминантной функции классифицируемого объекта, рассчитанной по дискриминантным переменным, с некоторой константой дискриминации.

Предположим, что существуют две или более совокупности (группы) и что мы располагаем множеством выборочных наблюдений над ними. Основная задача дискриминантного анализа состоит в построении с помощью этих выборочных наблюдений правила, позволяющего отнести новое наблюдение к одной из совокупностей.

Рассмотрим более подробно факторный анализ

Факторный анализ— это совокупность методов, которые на основе реально существующих связей объектов (признаков) позволяют выявить латентные (неявные) обобщающие характеристики организационной структуры. При этом предполагается, что наблюдаемые переменные являются линейной комбинацией факторов. Под фактором понимается гипотетическая непосредственно не измеряемая, скрытая (латентная) переменная в той или иной мере связанная с исходными наблюдаемыми переменными. К факторному анализу относятся: метод главных компонент, методы многомерного шкалирования, применяемые для формирования факторного пространства по информации о близости объектов, методы кластерного анализа, применяемые для описания неколичественных факторов.

Основные цели факторного анализа:

сокращение числа переменных (редукция данных);

определение структуры взаимосвязей между переменными (классификация переменных);

косвенные оценки признаков, неподдающихся непосредственному измерению;

преобразование исходных переменных к более удобному для интерпретации виду.

Если кратко охарактеризовать факторный анализ, то наиболее важными являются следующие моменты:

факторный анализ, в противоположность контролируемому эксперименту, опирается в основном на наблюдения над естественным варьированием переменных;

При использовании факторного анализасовокупность переменных, изучаемых с точки зрения связей между ними, не выбирается произвольно: сам метод позволит выявить основные факторы, оказывающие существенное влияние в данной области;

факторный анализне требует предварительных гипотез, наоборот, он сам может служить методом выдвижения гипотез, а также выступать критерием гипотез, опирающихся на данные, полученные другими методами;

факторный анализне требует априорных предположений относительно того, какие переменные независимы, а какие зависимы, метод не преувеличивает причинно-следственные связи и решает вопрос об их мере в процессе дальнейших исследований.

Метод факторного анализа первоначально был разработан в психологии с целью выделения отдельных компонентов человеческого интеллекта из многомерных данных по измерению различных проявлений умственных способностей. Однако очень быстро этот метод завоевал и такие области применения, как социология, экономика, география и многие другие.

Переменные, значения которых можно измерить, имеют для исследуемого объекта нередко достаточно условный характер, лишь опосредованно отражая его внутреннюю структуру, движущие механизмы или факторы. Например, исследователь ставит цель: провести сравнительный анализ темпов экономического роста отдельных регионов (соответствующий пример будет в дальнейшем рассмотрен). Закономерен вопрос: чем измерить экономическое развитие, и какие показатели следует включить в исследование?

Когда неизвестный фактор проявляется в изменении нескольких переменных, в процессе анализа можно наблюдать существенную корреляцию между переменными. Тем самым, факторов может быть существенно меньше, чем измеряемых переменных, число которых выбирается исследователем достаточно субъективно.

Степень влияния фактора на некоторый показатель (переменную) статистически характеризуется величиной дисперсии этого показателя при изменении значений фактора. Если расположить оси исходных переменных ортогонально друг к другу, то можно обнаружить, что в этом многомерном пространстве объекты группируются в виде эллипса рассеяния, более вытянутого в одних направлениях и почти плоского в других. Если теперь провести новые оси соответственно осям эллипса рассеяния, то можно говорить о выделении скрытых факторов и оценивать сравнительную значимость этих факторов в терминах дисперсии. При этом оказывается, что толщина такого эллипса по некоторым осям настолько не велика, что можно исключить их из исследования.

Как правило, применение методов факторного анализавключает три этапа:

выделение первоначальных факторов;

вращение выделенных факторов с целью облегчения их интерпретации в терминах исходных переменных (в частности, для исключения отрицательных значений);

содержательная интерпретация новых факторов в предметных терминах, что является творческой задачей исследователя, выходящей за рамки предлагаемого формального метода.

Наиболее часто факторный анализ используется для выявления в наблюдаемых признаках некоторых латентных (скрытых) переменныхfm, называемыхфакторами. Гипотеза о наличии этих факторов основана на предположении о существовании чего-то общего в наблюдаемых признаках. Выводимые гипотетические факторы обладают следующими свойствами:

1. Они образуют линейно независимый набор переменных, т.е. ни один из факторов (компонент) не выводится как линейная комбинация остальных.

2. Переменные, являющиеся гипотетическими факторами, можно разделить на два основных вида – общие и характерные факторы. Они отличаются структурой весов в линейном уравнении, которое выводит значение наблюдаемой переменной из гипотетических факторов. Общий фактор имеет несколько переменных с ненулевым весом или факторной нагрузкой, соответствующей этому фактору. При этом фактор называется общим, если хотя бы две его нагрузки значительно отличаются от нуля. Характерный фактор имеет только одну переменную с ненулевым весом (т.е. только одна переменная от него зависит).

3. Всегда предполагается, что общие факторы не коррелируют с характерным фактором, также характерные факторы не коррелированы между собой.

4. Обычно предполагается, что число общих факторов меньше, чем число наблюдаемых переменных, однако число характерных факторов принимают равным числу наблюдаемых переменных.

источник