Меню Рубрики

Какие методы применяются для анализа данных

Рассмотрим некоторые методы анализа полученных данных, касающихся функционирования и развития политических явлений и процессов. Речь идет о статистических и гуманитарных методах.

Статистические методы

При использовании этих методов полученные данные делят на первичные и вторичные. К первичным относят данные, полученные самим исследователем в ходе его наблюдений, проведения анкетных опросов, интервью с интересующими его субъектами, контент-анализа и т.д. Ко вторичным – данные, полученные другими исследователями как в настоящее время, так и в прошлом. Возможно, эти данные были получены при изучении другого ряда политических явлений, однако после соответствующей обработки они могут быть достаточно корректно использованы исследователями в анализе тех явлений, которые они изучают в настоящее время.

Анализируя первичные и вторичные данные, исследователь может получить ответы на разные вопросы: предпосылки и непосредственные причины возникновения изучаемых политических явлений и процессов, их содержание и направление развития, вносимые ими изменения в существующую политическую действительность и др. При этом прибегают к построению различных теоретических моделей, в том числе одномерной и бинарной, а также к использованию множественного анализа и его моделей.

Одномерная модель – это модель с одной переменной, с помощью которой можно получить ответы на относительно простые вопросы: «Сколько»? и «Что это»? («Сколько избирателей проголосовало за данную партию? Что представляет собой электорат определенного кандидата? . Для изучения такой переменной, как электоральный выбор, достаточно подсчитать количество проголосовавших за ту или иную партию или кандидата и представить эти значения в виде процентного распределения»[1]).

Бинарная модель воспроизводит разные виды взаимодействий двух переменных. Поэтому «можно построить несколько моделей: А является причиной В; В является причиной А; А и Б взаимовлияют друг на друга; А и Б находятся под влиянием третьей переменной». Характер взаимодействия этих двух переменных может быть определен с помощью, так называемой, таблицы взаимной сопряженности признаков, в которой можно представить, например, отношения между возрастом избирателей и их голосованием за ту или иную политическую партию на выборах в парламент той иди иной страны[2].

Множественный анализ применяется при исследовании политических ситуаций с тремя и более переменными. При этом применяются регрессионная, интерактивная, путевая и многофакторная модели воспроизведения указанных ситуаций.

Регрессионная модель используется при анализе влияния двух независимых переменных величин на зависимую третью переменную; интерактивная модель фиксирует взаимодействия трех и более переменных, направленных на решение общей задачи; путевая модель «выстраивает цепочку прямых и не прямых воздействий одной переменной на другую»; многофакторная модельвоспроизводит взаимодействие многих переменных – явных и скрытых. Суть многофакторного анализа «состоит в ответе на вопрос: не находится ли система переменных, связанных между собой, в зависимости от двух (или более двух) базовых скрытых факторов? Следовательно, целью многофакторного анализа является обнаружение скрытых факторов»[3].

Указанные модели множественного анализа воспроизводят разный, порой довольно сложный, характер взаимодействия элементов политических процессов и широко применяются при их исследованиях.

Сторонники гуманитарных методов исходят из того, что жестко формализованные количественные методы изучения политических явлений и процессов не позволяют получить о них целостное представление – в лучшем случае удается собрать более или менее адекватные данные об их объективных сторонах. Субъективные же их стороны, т.е. различные проявления духовного мира субъектов политических процессов, остаются недостаточно изученными. Количественный подход к их изучению нередко приводит лишь к схематическим и малосодержательным представлениям об интеллектуальной, эмоциональной и волевой сторонах политической деятельности субъектов, системе их мотиваций и ценностных ориентаций.

Поэтому при исследовании политических явлений и процессов целесообразно сочетать количественные статистические и качественные гуманитарные подходы, которые названы гуманитарными потому, что центром анализа указанных явлений и процессов являются люди – субъекты политической деятельности. Человек (отдельная личность или участник социальных групп) характеризуется как центральное звено политических процессов. Его политическая активность определяется богатством его духовного мира, и прежде всего его политическими интересами, целями, ценностными ориентациями. Получить о них более или менее полное представление можно, лишь сочетая количественные статистические методы с гуманитарными, качественными.

«Качественные методы – это общее название широкого спектра техник сбора и анализа информации, таких как включенное наблюдение (открытое и скрытое), интенсивное интервьюирование (глубинные индивидуальные и групповые интервью) и т.д.»[4].

В свое время М. Вебер высказал идеи понимающей социологии, т.е. стремление понять не только объективное содержание деятельности людей и ее социальных последствий, но прежде всего субъективные мотивы их деятельности, а также смысл тех духовных ценностей, которыми руководствуются действующие субъекты[5]. Более глубокое их постижение характеризует качественную сторону социологических исследований различных явлений, в том числе политических.

Даже в ходе наблюдения за деятельностью субъектов политической деятельности исследователь может немало узнать об их духовном мире. «В зависимости от роли наблюдателя в изучаемой ситуации различают четыре вида наблюдения: полное участие наблюдателя в ситуации; участник ситуации как наблюдатель; наблюдатель как участник; полностью наблюдатель»[6].

Полное участие наблюдателя в изучаемой им ситуации заключается в его непосредственном включении в нее вместе с другими ее участниками, которые не поставлены в известность об этом. Происходит скрытое включенное наблюдение за развитием ситуации и поведением ее участников.

Ситуация «участник ситуации как наблюдатель» предполагает открытую включенность наблюдателя в группу и его активную деятельность в ней. В этом случае наблюдателю легче выполнять свои обязанности, тем более, если наблюдаемый коллектив положительно воспринимает цели исследования.

Наблюдатель как участник, так или иначе взаимодействуя с другими участниками изучаемого процесса, проводит в основном открытое социологическое наблюдение за их деятельностью. Его собственная роль в их совместной деятельности сведена до минимума.

Позиция полного наблюдения означает, что «исследователь выполняет лишь функцию наблюдателя, не взаимодействуя с участниками ситуации и оставаясь вне их поля зрения»[7].

Все эти социологические способы включенного наблюдения (скрытого и открытого) применяются в политологических, чаще всего прикладных, исследованиях в зависимости от их целей и содержания.

Широко используется и такой гуманитарный метод, как интенсивное интервьюирование политических и других деятелей, имеющий много сходства с рассмотренным методом интервью. Однако в ходе интенсивного интервьюирования респонденты могут свободно выражать свои мысли на привычном им языке и высказывать собственные суждения относительно обсуждаемых вопросов[8]. Это напоминает свободный и творческий диалог двух собеседников, в ходе которого не только передается соответствующая информация, но и полнее открываются мотивы поведения и деятельности респондентов, их политические установки и ценностные ориентации, формирующиеся на социально-психологическом и идеологическом уровнях.

Методы экспертных оценок

Характеристику этих методов, которая рассмотрена в параграфе 2.7, следует в полной мере учитывать при исследовании политических явлений и процессов. Как и в других случаях, при их исследовании применяются такие формы экспертных опросов, как разовый индивидуальный опрос, однократный коллективный опрос, индивидуальный опрос в несколько туров (метод Дельфи) и коллективный опрос в несколько туров.

Исключительно важное значение имеет подбор квалифицированных и добросовестных политических экспертов, способных давать глубокие компетентные заключения, не поддаваясь политическому и идеологическому давлению со стороны кого бы то ни было, что не легко.

Как уже говорилось, в анализе политических явлений и процессов поиск истины часто происходит под сильным влиянием политических интересов тех или иных социальных сил и нередко политических интересов самих экспертов. В этих случаях бывает довольно сложно объективно исследовать политическое явление и делать столь же объективные заключения.

Особенно это касается исследований политических явлений, ибо последние оказывают определяющее влияние на многие стороны жизни общества, и уже поэтому давление интересов различных социальных сил при решении политических проблем бывает очень мощным. Но именно эти силы часто выступают заказчиком исследований политических явлений и процессов. Поэтому не случайно появляются ошибочные, а иногда и предвзятые заключения экспертов по различным политическим проблемам, неверно отражающие суть дела, а то и фальсифицирующие его. Все это свидетельствует о том, что не только уровень квалификации, но и идеологические ориентации и моральные качества экспертов являются важными факторами осуществления экспертного изучения различных политических явлений, складывающихся ситуаций и в целом политических процессов.

В настоящее время при их анализе чаще всего прибегают к таким формам экспертного опроса, как устный опрос высококвалифицированных специалистов, среди которых могут быть профессиональные политики, в том числе крупные государственные деятели, а также так называемый круглый стол, за которым ведут творческую дискуссию теоретики и практические политические деятели.

Нередко за круглым столом или в иной обстановке применяется такой способ коллективной генерации идей и решений, как рассмотренный ранее «мозговой штурм».

При необходимости исследователи прибегают и к индивидуальным заочным опросам экспертов в несколько туров (так называемому методу Дельфи), а также к коллективному опросу экспертов в несколько туров. Во всех случаях точность и надежность прогнозов относительно исследуемых политических явлений и процессов обусловлена такими факторами, как тщательный отбор экспертов, возможность проверки их выводов и рекомендаций другими способами (системного анализа, сравнительного метода, моделирования и т.д.).

В настоящее время методы экспертных оценок широко применяются при исследовании политических явлений и процессов и в той или иной мере способствуют их всестороннему анализу, однако для повышения эффективности их использования они должны быть соответствующим образом организованы

Дата добавления: 2016-11-24 ; просмотров: 1312 | Нарушение авторских прав

источник

Деятельность людей во множестве случаев предполагает работу с данными, а она в свою очередь может подразумевать не только оперирование ими, но и их изучение, обработку и анализ. Например, когда нужно уплотнить информацию, найти какие-то взаимосвязи или определить структуры. И как раз для аналитики в этом случае очень удобно пользоваться не только разными техниками мышления, но и применять статистические методы.

Особенностью методов статистического анализа является их комплексность, обусловленная многообразием форм статистических закономерностей, а также сложностью процесса статистических исследований. Однако мы хотим поговорить именно о таких методах, которые может применять каждый, причем делать это эффективно и с удовольствием.

Статистическое исследование может проводиться посредством следующих методик:

  • Статистическое наблюдение;
  • Сводка и группировка материалов статистического наблюдения;
  • Абсолютные и относительные статистические величины;
  • Вариационные ряды;
  • Выборка;
  • Корреляционный и регрессионный анализ;
  • Ряды динамики.

Далее мы рассмотрим каждый из них более подробно. Но отметим, что представим лишь основные характеристики без подробного описания алгоритмов действий. Впрочем, понять их не составит никакого труда.

Статистическое наблюдение является планомерным, организованным и в большинстве случаев систематическим сбором информации, направленным, главным образом, на явления социальной жизни. Реализуется данный метод через регистрацию предварительно определенных наиболее ярких признаков, цель которой состоит в последующем получении характеристик изучаемых явлений.

Статистическое наблюдение должно выполняться с учетом некоторых важных требований:

  • Оно должно полностью охватывать изучаемые явления;
  • Получаемые данные должны быть точными и достоверными;
  • Получаемые данные должны быть однообразными и легкосопоставимыми.

Также статистическое наблюдение может иметь две формы:

  • Отчетность – это такая форма статистического наблюдения, где информация поступает в конкретные статистические подразделения организаций, учреждений или предприятий. В этом случае данные вносятся в специальные отчеты.
  • Специально организованное наблюдение – наблюдение, которое организуется с определенной целью, чтобы получить сведения, которых не имеется в отчетах, или же для уточнения и установления достоверности информации отчетов. К этой форме относятся опросы (например, опросы мнений людей), перепись населения и т.п.

Кроме того, статистическое наблюдение может быть категоризировано на основе двух признаков: либо на основе характера регистрации данных, либо на основе охвата единиц наблюдения. К первой категории относятся опросы, документирование и прямое наблюдение, а ко второй – наблюдение сплошное и несплошное, т.е. выборочное.

Для получения данных при помощи статистического наблюдения можно применять такие способы как анкетирование, корреспондентская деятельность, самоисчисление (когда наблюдаемые, например, сами заполняют соответствующие документы), экспедиции и составление отчетов.

Говоря о втором методе, в первую очередь следует сказать о сводке. Сводка представляет собой процесс обработки определенных единичных фактов, которые образуют общую совокупность данных, собранных при наблюдении. Если сводка проводится грамотно, огромное количество единичных данных об отдельных объектах наблюдения может превратиться в целый комплекс статистических таблиц и результатов. Также такое исследование способствует определению общих черт и закономерностей исследуемых явлений.

С учетом показателей точности и глубины изучения можно выделить простую и сложную сводку, но любая из них должна основываться на конкретных этапах:

  • Выбирается группировочный признак;
  • Определяется порядок формирования групп;
  • Разрабатывается система показателей, позволяющих охарактеризовать группу и объект или явление в целом;
  • Разрабатываются макеты таблиц, где будут представлены результаты сводки.

Важно заметить, что есть и разные формы сводки:

  • Централизованная сводка, требующая передачи полученного первичного материала в вышестоящий центр для последующей обработки;
  • Децентрализованная сводка, где изучение данных происходит на нескольких ступенях по восходящей.

Выполняться же сводка может при помощи специализированного оборудования, например, с использованием компьютерного ПО или вручную.

Что же касается группировки, то этот процесс отличается разделением исследуемых данных на группы по признакам. Особенности поставленных статистическим анализом задач влияют на то, какой именно будет группировка: типологической, структурной или аналитической. Именно поэтому для сводки и группировки либо прибегают к услугам узкопрофильных специалистов, либо применяют конкретные техники мышления.

Абсолютные величина считаются самой первой формой представления статистических данных. С ее помощью удается придать явлениям размерные характеристики, например, по времени, по протяженности, по объему, по площади, по массе и т.д.

Если требуется узнать об индивидуальных абсолютных статистических величинах, можно прибегнуть к замерам, оценке, подсчету или взвешиванию. А если нужно получить итоговые объемные показатели, следует использовать сводку и группировку. Нужно иметь в виду, что абсолютные статистические величины отличаются наличием единиц измерения. К таким единицам относят стоимостные, трудовые и натуральные.

А относительные величины выражают количественные соотношения, касающиеся явлений социальной жизни. Чтобы их получить, одни величины всегда делятся на другие. Показатель, с которым сравнивают (это знаменатель), называют основанием сравнения, а показатель, которой сравнивают (это числитель), называют отчетной величиной.

Относительные величины могут быть разными, что зависит от их содержательной части. Например, существуют величины сравнения, величины уровня развития, величины интенсивности конкретного процесса, величины координации, структуры, динамики и т.д. и т.п.

Чтобы изучить какую-то совокупность по дифференцирующимся признакам, в статистическом анализе применяются средние величины – обобщающие качественные характеристики совокупности однородных явлений по какому-либо дифференцирующемуся признаку.

Крайне важным свойством средних величин является то, что они говорят о значениях конкретных признаков во всем их комплексе единым числом. Невзирая на то, что у отдельных единиц может наблюдаться количественная разница, средние величины выражают общие значения, свойственные всем единицам исследуемого комплекса. Получается, что при помощи характеристики чего-то одного можно получить характеристику целого.

Следует иметь в виду, что одним из самых важных условий применения средних величин, если проводится статистический анализ социальных явлений, считается однородность их комплекса, для которого и нужно узнать среднюю величину. А от такого, как именно будут представлены начальные данные для исчисления средней величины, будет зависеть и формула ее определения.

В некоторых случаях данных о средних показателях тех или иных изучаемых величин может быть недостаточно, чтобы провести обработку, оценку и глубокий анализ какого-то явления или процесса. Тогда во внимание следует брать вариацию или разброс показателей отдельных единиц, который тоже представляет собой важную характеристику исследуемой совокупности.

На индивидуальные значения величин могут воздействовать многие факторы, а сами изучаемые явления или процессы могут быть очень многообразны, т.е. обладать вариацией (это многообразие и есть вариационные ряды), причины которой следует искать в сущности того, что изучается.

Вышеназванные абсолютные величины находятся в непосредственной зависимости от единиц измерения признаков, а значит, делают процесс изучения, оценки и сравнения двух и более вариационных рядов более сложным. А относительные показатели нужно вычислять в качестве соотношения абсолютных и средних показателей.

Смысл выборочного метода (или проще – выборки) состоит в том, что по свойствам одной части определяются численные характеристики целого (это называется генеральной совокупностью). Основной выборочного метода является внутренняя связь, объединяющая части и целое, единичное и общее.

Метод выборки отличается рядом существенных преимуществ перед остальными, т.к. благодаря уменьшению количества наблюдений позволяет сократить объемы работы, затрачиваемые средства и усилия, а также успешно получать данные о таких процессах и явлениях, где либо нецелесообразно, либо просто невозможно исследовать их полностью.

Соответствие характеристик выборки характеристикам изучаемого явления или процесса будет зависеть от комплекса условий, и в первую очередь от того, как вообще будет реализовываться выборочный метод на практике. Это может быть как планомерный отбор, идущий по подготовленной схеме, так и непланомерный, когда выборка производится из генеральной совокупности.

Читайте также:  Как делать анализ на английском

Но во всех случаях выборочный метод должен быть типичным и соответствовать критериям объективности. Данные требования нужно выполнять всегда, т.к. именно от них будет зависеть соответствие характеристик метода и характеристик того, что подвергается статистическому анализу.

Таким образом, перед обработкой выборочного материала необходимо провести его тщательную проверку, избавившись тем самым от всего ненужного и второстепенного. Одновременно с этим, составляя выборку, в обязательном порядке нужно обходить стороной любую самодеятельность. Это означает, что ни в коем случае не следует делать выборку только из вариантов, кажущихся типичными, а все другие – отбрасывать.

Эффективная и качественная выборка должна составляться объективно, т.е. производить ее нужно так, чтобы были исключены любые субъективные влияния и предвзятые побуждения. И чтобы это условие было соблюдено должным образом, требуется прибегнуть к принципу рандомизации или, проще говоря, к принципу случайного отбора вариантов из всей их генеральной совокупности.

Представленный принцип служит основой теории выборочного метода, и следовать ему нужно всегда, когда требуется создать эффективную выборочную совокупность, причем случаи планомерного отбора исключением здесь не являются.

Корреляционный анализ и регрессионный анализ – это два высокоэффективных метода, позволяющие проводить анализ больших объемов данных для изучения возможной взаимосвязи двух или большего количества показателей.

В случае с корреляционным анализом задачами являются:

  • Измерить тесноту имеющейся связи дифференцирующихся признаков;
  • Определить неизвестные причинные связи;
  • Оценить факторы, в наибольшей степени воздействующие на окончательный признак.

А в случае с регрессионным анализом задачи следующие:

  • Определить форму связи;
  • Установить степень воздействия независимых показателей на зависимый;
  • Определить расчетные значения зависимого показателя.

Чтобы решить все вышеназванные задачи, практически всегда нужно применять и корреляционный и регрессионный анализ в комплексе.

Посредством этого метода статистического анализа очень удобно определять интенсивность или скорость, с которой развиваются явления, находить тенденцию их развития, выделять колебания, сравнивать динамику развития, находить взаимосвязь развивающихся во времени явлений.

Ряд динамики – это такой ряд, в котором во времени последовательно расположены статистические показатели, изменения которых характеризуют процесс развития исследуемого объекта или явления.

Ряд динамики включает в себя два компонента:

  • Период или момент времени, связанный с имеющимися данными;
  • Уровень или статистический показатель.

В совокупности эти компоненты представляют собой два члена ряда динамики, где первый член (временной период) обозначается буквой «t», а второй (уровень) – буквой «y».

Исходя из длительности временных промежутков, с которыми взаимосвязаны уровни, ряды динамики могут быть моментными и интервальными. Интервальные ряды позволяют складывать уровни для получения общей величины периодов, следующих один за другим, а в моментных такой возможности нет, но этого там и не требуется.

Ряды динамики также существуют с равными и разными интервалами. Суть же интервалов в моментных и интервальных рядах всегда разная. В первом случае интервалом является временной промежуток между датами, к которым привязаны данные для анализа (удобно использовать такой ряд, например, для определения количества действий за месяц, год и т.д.). А во втором случае – временной промежуток, к которому привязана совокупность обобщенных данных (такой ряд можно использовать для определения качества тех же самых действий за месяц, год и т.п.). Интервалы могут быть равными и разными, независимо от типа ряда.

Естественно, чтобы научиться грамотно применять каждый из методов статистического анализа, недостаточно просто знать о них, ведь, по сути, статистика – это целая наука, требующая еще и определенных навыков и умений. Но чтобы она давалась проще, можно и нужно тренировать свое мышление и улучшать когнитивные способности.

В остальном же исследование, оценка, обработка и анализ информации – очень интересные процессы. И даже в тех случаях, когда это не приводит к какому-то конкретному результату, за время исследования можно узнать множество интересных вещей. Статистический анализ нашел свое применение в огромном количестве сфер деятельности человека, а вы можете использовать его в учебе, работе, бизнесе и других областях, включая развитие детей и самообразование.

источник

Следите за выходом новых статей этой серии.

По сути, интеллектуальный анализ данных — это обработка информации и выявление в ней моделей и тенденций, которые помогают принимать решения. Принципы интеллектуального анализа данных известны в течение многих лет, но с появлением больших данных они получили еще более широкое распространение.

Большие данные привели к взрывному росту популярности более широких методов интеллектуального анализа данных, отчасти потому, что информации стало гораздо больше, и она по самой своей природе и содержанию становится более разнообразной и обширной. При работе с большими наборами данных уже недостаточно относительно простой и прямолинейной статистики. Имея 30 или 40 миллионов подробных записей о покупках, недостаточно знать, что два миллиона из них сделаны в одном и том же месте. Чтобы лучше удовлетворить потребности покупателей, необходимо понять, принадлежат ли эти два миллиона к определенной возрастной группе, и знать их средний заработок.

Эти бизнес-требования привели от простого поиска и статистического анализа данных к более сложному интеллектуальному анализу данных. Для решения бизнес-задач требуется такой анализ данных, который позволяет построить модель для описания информации и в конечном итоге приводит к созданию результирующего отчета. Этот процесс иллюстрирует рисунок 1.

Процесс анализа данных, поиска и построения модели часто является итеративным, так как нужно разыскать и выявить различные сведения, которые можно извлечь. Необходимо также понимать, как связать, преобразовать и объединить их с другими данными для получения результата. После обнаружения новых элементов и аспектов данных подход к выявлению источников и форматов данных с последующим сопоставлением этой информации с заданным результатом может измениться.

Интеллектуальный анализ данных ― это не только используемые инструменты или программное обеспечение баз данных. Интеллектуальный анализ данных можно выполнить с относительно скромными системами баз данных и простыми инструментами, включая создание своих собственных, или с использованием готовых пакетов программного обеспечения. Сложный интеллектуальный анализ данных опирается на прошлый опыт и алгоритмы, определенные с помощью существующего программного обеспечения и пакетов, причем с различными методами ассоциируются разные специализированные инструменты.

Например, IBM SPSS®, который уходит корнями в статистический анализ и опросы, позволяет строить эффективные прогностические модели по прошлым тенденциям и давать точные прогнозы. IBM InfoSphere® Warehouse обеспечивает в одном пакете поиск источников данных, предварительную обработку и интеллектуальный анализ, позволяя извлекать информацию из исходной базы прямо в итоговый отчет.

В последнее время стала возможна работа с очень большими наборами данных и кластерная/крупномасштабная обработка данных, что позволяет делать еще более сложные обобщения результатов интеллектуального анализа данных по группам и сопоставлениям данных. Сегодня доступен совершенно новый спектр инструментов и систем, включая комбинированные системы хранения и обработки данных.

Можно анализировать самые разные наборы данных, включая традиционные базы данных SQL, необработанные текстовые данные, наборы «ключ/значение» и документальные базы. Кластерные базы данных, такие как Hadoop, Cassandra, CouchDB и Couchbase Server, хранят и предоставляют доступ к данным такими способами, которые не соответствуют традиционной табличной структуре.

В частности, более гибкий формат хранения базы документов придает обработке информации новую направленность и усложняет ее. Базы данных SQL строго регламентируют структуру и жестко придерживаются схемы, что упрощает запросы к ним и анализ данных с известными форматом и структурой.

Документальные базы данных, которые соответствуют стандартной структуре типа JSON, или файлы с некоторой машиночитаемой структурой тоже легко обрабатывать, хотя дело может осложняться разнообразной и переменчивой структурой. Например, в Hadoop, который обрабатывает совершенно «сырые» данные, может быть трудно выявить и извлечь информацию до начала ее обработки и сопоставления.

Несколько основных методов, которые используются для интеллектуального анализа данных, описывают тип анализа и операцию по восстановлению данных. К сожалению, разные компании и решения не всегда используют одни и те же термины, что может усугубить путаницу и кажущуюся сложность.

Рассмотрим некоторые ключевые методы и примеры того, как использовать те или иные инструменты для интеллектуального анализа данных.

Ассоциация (или отношение), вероятно, наиболее известный, знакомый и простой метод интеллектуального анализа данных. Для выявления моделей делается простое сопоставление двух или более элементов, часто одного и того же типа. Например, отслеживая привычки покупки, можно заметить, что вместе с клубникой обычно покупают сливки.

Создать инструменты интеллектуального анализа данных на базе ассоциаций или отношений нетрудно. Например, в InfoSphere Warehouse есть мастер, который выдает конфигурации информационных потоков для создания ассоциаций, исследуя источник входной информации, базис принятия решений и выходную информацию. На рисунке 2 приведен соответствующий пример для образца базы данных.

Классификацию можно использовать для получения представления о типе покупателей, товаров или объектов, описывая несколько атрибутов для идентификации определенного класса. Например, автомобили легко классифицировать по типу (седан, внедорожник, кабриолет), определив различные атрибуты (количество мест, форма кузова, ведущие колеса). Изучая новый автомобиль, можно отнести его к определенному классу, сравнивая атрибуты с известным определением. Те же принципы можно применить и к покупателям, например, классифицируя их по возрасту и социальной группе.

Кроме того, классификацию можно использовать в качестве входных данных для других методов. Например, для определения классификации можно применять деревья принятия решений. Кластеризация позволяет использовать общие атрибуты различных классификаций в целях выявления кластеров.

Исследуя один или более атрибутов или классов, можно сгруппировать отдельные элементы данных вместе, получая структурированное заключение. На простом уровне при кластеризации используется один или несколько атрибутов в качестве основы для определения кластера сходных результатов. Кластеризация полезна при определении различной информации, потому что она коррелируется с другими примерами, так что можно увидеть, где подобия и диапазоны согласуются между собой.

Метод кластеризации работает в обе стороны. Можно предположить, что в определенной точке имеется кластер, а затем использовать свои критерии идентификации, чтобы проверить это. График, изображенный на рисунке 3, демонстрирует наглядный пример. Здесь возраст покупателя сравнивается со стоимостью покупки. Разумно ожидать, что люди в возрасте от двадцати до тридцати лет (до вступления в брак и появления детей), а также в 50-60 лет (когда дети покинули дом) имеют более высокий располагаемый доход.

В этом примере видны два кластера, один в районе $2000/20-30 лет и другой в районе $7000-8000/50-65 лет. В данном случае мы выдвинули гипотезу и проверили ее на простом графике, который можно построить с помощью любого подходящего ПО для построения графиков. Для более сложных комбинаций требуется полный аналитический пакет, особенно если нужно автоматически основывать решения на информации о ближайшем соседе.

Такое построение кластеров являет собой упрощенный пример так называемого образа ближайшего соседа. Отдельных покупателей можно различать по их буквальной близости друг к другу на графике. Весьма вероятно, что покупатели из одного и того же кластера разделяют и другие общие атрибуты, и это предположение можно использовать для поиска, классификации и других видов анализа членов набора данных.

Метод кластеризации можно применить и в обратную сторону: учитывая определенные входные атрибуты, выявлять различные артефакты. Например, недавнее исследование четырехзначных PIN-кодов выявили кластеры чисел в диапазонах 1-12 и 1-31 для первой и второй пар. Изобразив эти пары на графике, можно увидеть кластеры, связанные с датами (дни рождения, юбилеи).

Прогнозирование ― это широкая тема, которая простирается от предсказания отказов компонентов оборудования до выявления мошенничества и даже прогнозирования прибыли компании. В сочетании с другими методами интеллектуального анализа данных прогнозирование предполагает анализ тенденций, классификацию, сопоставление с моделью и отношения. Анализируя прошлые события или экземпляры, можно предсказывать будущее.

Например, используя данные по авторизации кредитных карт, можно объединить анализ дерева решений прошлых транзакций человека с классификацией и сопоставлением с историческими моделями в целях выявления мошеннических транзакций. Если покупка авиабилетов в США совпадает с транзакциями в США, то вполне вероятно, что эти транзакции подлинны.

Последовательные модели, которые часто используются для анализа долгосрочных данных, ― полезный метод выявления тенденций, или регулярных повторений подобных событий. Например, по данным о покупателях можно определить, что в разное время года они покупают определенные наборы продуктов. По этой информации приложение прогнозирования покупательской корзины, основываясь на частоте и истории покупок, может автоматически предположить, что в корзину будут добавлены те или иные продукты.

Дерево решений, связанное с большинством других методов (главным образом, классификации и прогнозирования), можно использовать либо в рамках критериев отбора, либо для поддержки выбора определенных данных в рамках общей структуры. Дерево решений начинают с простого вопроса, который имеет два ответа (иногда больше). Каждый ответ приводит к следующему вопросу, помогая классифицировать и идентифицировать данные или делать прогнозы.

На рисунке 4 приведен пример классификации неисправных состояний.

Деревья решений часто используются с системами классификации информации о свойствах и с системами прогнозирования, где различные прогнозы могут основываться на прошлом историческом опыте, который помогает построить структуру дерева решений и получить результат.

На практике очень редко используется только один из этих методов. Классификация и кластеризация ― подобные методы. Используя кластеризацию для определения ближайших соседей, можно дополнительно уточнить классификацию. Деревья решений часто используются для построения и выявления классификаций, которые можно прослеживать на исторических периодах для определения последовательностей и моделей.

При всех основных методах часто имеет смысл записывать и впоследствии изучать полученную информацию. Для некоторых методов это совершенно очевидно. Например, при построении последовательных моделей и обучении в целях прогнозирования анализируются исторические данные из разных источников и экземпляров информации.

В других случаях этот процесс может быть более ярко выраженным. Деревья решений редко строятся один раз и никогда не забываются. При выявлении новой информации, событий и точек данных может понадобиться построение дополнительных ветвей или даже совершенно новых деревьев.

Некоторые из этих процессов можно автоматизировать. Например, построение прогностической модели для выявления мошенничества с кредитными картами сводится к определению вероятностей, которые можно использовать для текущей транзакции, с последующим обновлением этой модели при добавлении новых (подтвержденных) транзакций. Затем эта информация регистрируется, так что в следующий раз решение можно будет принять быстрее.

Сам интеллектуальный анализ данных опирается на построение подходящей модели и структуры, которые можно использовать для обработки, выявления и создания необходимой информации. Независимо от формы и структуры источника данных, информация структурируется и организуется в соответствии с форматом, который позволяет выполнять интеллектуальный анализ данных с максимально эффективной моделью.

Подумайте о комбинировании бизнес-требований по интеллектуальному анализу данных с выявлением существующих переменных (покупатель, стоимость, страна) и созданием новых переменных, которые можно использовать для анализа данных на подготовительном этапе.

Аналитические переменные для данных, полученных из множества различных источников, можно составить в единую, определенную структуру (например, создать класс покупателей определенных уровней и возрастов или класс ошибок определенного типа).

В зависимости от источника данных важно выбрать правильный способ построения и преобразования этой информации, каким бы ни был метод окончательного анализа данных. Этот шаг также ведет к более сложному процессу выявления, сбора, упрощения или расширения информации в соответствии с входными данными (см. рисунок 5).

Источник данных, местоположение и база данных влияют на то, как будет обрабатываться и объединяться информация.

Наиболее простым из всех подходов часто служит опора на базы данных SQL. SQL (и соответствующая структура таблицы) хорошо понятен, но структуру и формат информации нельзя игнорировать полностью. Например, при изучении поведения пользователей по данным о продажах в модели данных SQL (и интеллектуального анализа данных в целом) существуют два основных формата, которые можно использовать: транзакционный и поведенческо-демографический.

При работе с InfoSphere Warehouse создание поведенческо-демографической модели в целях анализа данных о покупателях для понимания моделей их поведения предусматривает использование исходных данных SQL, основанных на информации о транзакциях, и известных параметров покупателей с организацией этой информации в заранее определенную табличную структуру. Затем InfoSphere Warehouse может использовать эту информацию для интеллектуального анализа данных методом кластеризации и классификации с целью получения нужного результата. Демографические данные о покупателях и данные о транзакциях можно скомбинировать, а затем преобразовать в формат, который допускает анализ определенных данных, как показано на рисунке 6.

Читайте также:  Какие анализы сдавать при выскабливании

Например, по данным о продажах можно выявить тенденции продаж конкретных товаров. Исходные данные о продажах отдельных товаров можно преобразовать в информацию о транзакциях, в которой идентификаторы покупателей сопоставляются с данными транзакций и кодами товаров. Используя эту информацию, легко выявить последовательности и отношения для отдельных товаров и отдельных покупателей с течением времени. Это позволяет InfoSphere Warehouse вычислять последовательную информацию, определяя, например, когда покупатель, скорее всего, снова приобретет тот же товар.

Из исходных данных можно создавать новые точки анализа данных. Например, можно развернуть (или доработать) информацию о товаре путем сопоставления или классификации отдельных товаров в более широких группах, а затем проанализировать данные для этих групп, вместо отдельных покупателей.

В таблице 1 приведен пример расширения информации.

product_id product_name product_group product_type
101 Клубника неупакованная Клубника Фрукты
102 Клубника в коробках Клубника Фрукты
110 Бананы неупакованные Бананы Фрукты

Обработка с помощью функции MapReduce многих современных документальных и NoSQL баз данных, таких как Hadoop, нацелена на очень большие наборы данных и информацию, которая не всегда соответствует табличному формату. При работе с программным обеспечением интеллектуального анализа данных эта система может принести пользу ― и вызвать проблемы.

Основная проблема данных на основе документов ― это неструктурированный формат, который может потребовать дополнительной обработки. Много различных записей могут содержать аналогичные данные. Сбор и согласование этой информации в целях упрощения ее обработки зависит от этапов подготовки и применения MapReduce.

В системе, основанной на MapReduce, на этапе преобразования исходные данные нормализуются ― приводятся к стандартной форме. Этот шаг может быть относительно простым (определение ключевых полей или точек данных) или сложным (анализ и обработка информации для создания выборки данных). В процессе преобразования данные приводятся к стандартизированному формату, который можно использовать в качестве базы.

Сокращение ― это суммирование или количественная оценка информации с последующим выводом этой информации в стандартизованную структуру, основанную на итогах, суммах, статистике или других результатах анализа, выбранных для вывода данных.

Запросы к этим данным часто бывают сложными ― даже при использовании специализированных инструментов. Идеальный подход к интеллектуальному анализу данных заключается в использовании этапа MapReduce в рамках подготовки данных.

Например, при выполнении интеллектуального анализа данных методом ассоциации или кластеризации на первом этапе лучше всего построить подходящую статистическую модель, которую впоследствии можно будет применять для выявления и извлечения необходимой информации. Используйте этап MapReduce для извлечения и вычисления этой статистической информации с ее последующим вводом в остальную часть процесса интеллектуального анализа данных, что ведет к созданию структуры, показанной на рисунке 7.

В предыдущем примере мы выполнили обработку (в данном случае посредством MapReduce) исходных данных в документальной базе данных и преобразовали ее в табличный формат в базе данных SQL для целей интеллектуального анализа данных.

Для работы с этой сложной и даже неструктурированной информацией может потребоваться более тщательная подготовка и обработка. Существуют сложные типы и структуры данных, которые нельзя обработать и подготовить в нужном вам виде за один шаг. В этом случае можно направить выход MapReduce либо для последовательного преобразования и получения необходимой структуры данных, как показано на рисунке 8, либо для индивидуального изготовления нескольких таблиц выходных данных.

Например, за один проход можно взять исходную информацию из документальной базы данных и выполнить операцию MapReduce для получения краткого обзора этой информации по датам. Хорошим примером последовательного процесса является регенеририрование информации и комбинирование результатов с матрицей решений (создается на втором этапе обработки MapReduce) с последующим дополнительным упрощением в последовательную структуру. На этапе обработки MapReduce требуется, чтобы весь набор данных поддерживал отдельные шаги обработки данных.

Независимо от исходных данных, многие инструменты могут использовать неструктурированные файлы, CSV или другие источники данных. Например, InfoSphere Warehouse в дополнение к прямой связи с хранилищем данных DB2 может анализировать неструктурированные файлы.

Интеллектуальный анализ данных — это не только выполнение некоторых сложных запросов к данным, хранящимся в базе данных. Независимо от того, используете ли вы SQL, базы данных на основе документов, такие как Hadoop, или простые неструктурированные файлы, необходимо работать с данными, форматировать или реструктурировать их. Требуется определить формат информации, на котором будет основываться ваш метод и анализ. Затем, когда информация находится в нужном формате, можно применять различные методы (по отдельности или в совокупности), не зависящие от требуемой базовой структуры данных или набора данных.

  • Оригинал статьи: Data mining techniques.
  • What is PMML? (Alex Guazzelli, developerWorks, сентябрь 2010 г.): статья о стандарте PMML, который аналитические компании используют для представления прогностических решений и их переноса между системами.
  • Прогнозная аналитика: страница Википедии по прогностическому анализу с обзором общих приложений и методов, используемых для прогнозирования.
  • PMML in Action: Unleashing the Power of Open Standards for Data Mining and Predictive Analytics (май 2010 г.): PMML с практической точки зрения. Фрагменты кода, поясняющие концепции на конкретных примерах.
  • The Data Mining Group (DMG) ― независимое объединение поставщиков, разрабатывающее стандарты интеллектуального анализа данных, такие как Predictive Model Markup Language (PMML).
  • Страница ресурсов по PMML компании Zementis: примеры практического применения PMML.
  • Data mining: страница Википедии об интеллектуальном анализе данных.
  • Hadoop поддерживает некоторые структуры NoSQL, такие как бессхемный формат, и возможность использования MapReduce для обработки хранимых данных.
  • InfoSphere Warehouse: полный набор инструментов для создания и анализа данных, поддерживающий многие методы интеллектуального анализа данных.
  • WEKA: инструментарий на базе Java™, который поддерживает различные алгоритмы интеллектуального анализа данных и статистические алгоритмы.
  • SPSS: статистический пакет с мощными средствами прогностического анализа.
  • Hadoop: обеспечивает мощные функции MapReduce.
  • Couchbase Server: документальная база данных NoSQL с поддержкой функции MapReduce на основе запросов и индексации.

Войдите или зарегистрируйтесь для того чтобы оставлять комментарии или подписаться на них.

источник

Опрос сотрудников, клиентов, потребителей – не просто сбор информации, это полноценное исследование. А целью всякого исследования является научно- обоснованная интерпретация изученных фактов. Первичный материал необходимо обработать, а именно упорядочить и проанализировать.

Анализ данных исследования – ключевой этап. Он представляет собой совокупность приемов и методов, направленных на то, чтобы проверить, насколько были верны предположения и гипотезы, а также ответить на заданные вопросы. Данный этап является, пожалуй, наиболее сложным с точки зрения интеллектуальных усилий и профессиональной квалификации, однако позволяет получить максимум полезной информации из собранных данных.

Методы анализа данных многообразны. Выбор конкретного метода анализа данных зависит, в первую очередь, от того, на какие вопросы мы хотим получить ответ.

Можно выделить два класса процедур анализа данных:

  • одномерные (дескриптивные) и
  • многомерные.

Многомерный анализ данных позволяет одновременно исследовать взаимоотношения двух и более переменных и проверять гипотезы о причинных связях между ними.

Техники многомерного анализа разнообразны. Мы рассмотрим следующие:

  1. Факторный анализ
  2. Кластерный анализ

Суть факторного анализа, состоит в том, чтобы имея большое число параметров, выделить малое число макропараметров, которыми и будут определяться различия между измеряемыми параметрами. Это позволит оптимизировать структуру анализируемых данных.

Применение факторного анализа преследует две цели:

  • сокращение числа переменных;
  • классификация данных.

Факторный анализ довольно полезен на практике. Приведем несколько примеров.

Перед вами стоит задача исследовать имидж компании. Клиенту предлагается оценить данную компанию по целому ряду критериев, общее число которых может превышать несколько десятков. Применение факторного анализа в данном случае позволяет снизить общее количество переменных путем распределения их в обобщенные пучки факторов, например, «материальные условия компании», «взаимодействие с персоналом», «удобство обслуживания».

Еще одним случаем применения данного метода может служить составление социально-психологических портретов потребителей. Респонденту необходимо выразить степень своего согласия/несогласия с перечнем высказываний о стиле жизни. В итоге, можно выделить, например, целевые группы потребителей: «новаторы», «прогрессисты» и «консерваторы».

Актуальным примером исследования в сфере банковского дела, может послужить, изучение уровня доверия клиента к банку, которое можно описать следующими факторами:

— надежность сделок (включающий такие параметры, как сохранность средств, возможность беспрепятственного их перевода);

— обслуживание клиентов (профессионализм сотрудников, их благожелательность) и

— качество обслуживания (точность выполнение операций, отсутствие ошибок) и др.

Кластерный анализ (от англ. сluster – сгусток, пучок, гроздь) – это один из способов классификации объектов. Он позволяет рассматривать достаточно большой объем информации, сжимая его и делая компактными и наглядными.

Термин «кластерный анализ» был введен в 1939 году английским ученым Р. Трионом, предложившим соответствующий метод, который сводился к поиску групп с тесно коррелирующим признаком в каждой из них.

Целью кластерного анализа является выделение сравнительно небольшого числа групп объектов, как можно более схожих между собой внутри группы, и как можно более отличающихся в разных группах. В настоящее время разработано достаточно большое число алгоритмов кластерного анализа. Однако, попробуем объяснить его суть, не прибегая к строгому теоретизированию.

Допустим, вы планируете провести опрос потребителей, (а все потребители разные), и вам, соответственно, необходимы различные стратегии для их привлечения. Для решения данной задачи мы предлагаем сегментировать клиентов, прибегнув к методу кластеризации. Для этого выполняем следующие шаги:

  1. формируем выборку и проводим опрос клиентов,
  2. определяем переменные (характеристики), по которым будем оценивать респондентов в выборке,
  3. вычисляем значения меры сходства и различия между ответами респондентов,
  4. выбираем метод кластеризации (т.е. правила объединения респондентов в группы),
  5. определяем оптимальное число кластеров (групп).

В результате получаем таблицу следующего содержания:

Информация, представленная в таблице, позволяет нам составить портрет клиентов каждого кластера, которые впоследствии необходимо учитывать при составлении стратегии успешного продвижения продукта на рынке.

Кластерный анализ хорошо зарекомендовал себя, и на сегодняшний день применяется в различных прикладных областях:

  • В социологии: разделение респондентов на различные социально-демографические группы.
  • В маркетинге: сегментация рынка по группам потребителей, группировка конкурентов по факторам конкурентоспособности.
  • В менеджменте: выделение групп сотрудников с разным уровнем мотивации, выявление мотивирующих/демотивирующих факторов в организации, классификация конкурентоспособных отраслей и поставщиков, и др.
  • В медицине — классификация симптомов, признаков заболеваний, пациентов, препаратов для успешной терапии.
  • А также психиатрии, биологии, экологии, информатике и т.д.

Рассмотренные методики относятся к анализу данных, полученных в ходе проведения количественных исследований.

По вопросам расчета индексов:

Начало (часть первая) и продолжение (часть третья) статьи «Статистические методы анализа данных для решения практических задач».

источник

Сбор и анализ данных – это своеобразный диалог междумиром людей, институтов, процессов и исследователями. Предпосылками выбора того или иного метода анализа являются характер самих данных, тот теоретический подход, в рамках которого работает исследователь при их сборе («статистический» или «гуманитарный»).

В несколько упрощенной форме эти два подхода можно представить следующим образом.

В рамках этого подхода исследователь исходит из посылки, что массовые явления имеют статистический характер, т.е. если изучить достаточно большое количество проявлений изучаемого социального явления, то само явление будет познано. Индивид в этом случае выступает как представитель некоторой общности, носитель информации о социальном феномене. Индивиды взаимозаменяемы, и их индивидуальные особенности как таковые не представляют особого интереса.

Здесь необходимо провести разделение между первичными и вторичными данными.К данным первичного типа относят те, что были получены непосредственно самими исследователем, тогда как вторичные данные являются результатом обработки данных исследований, сделанных в прошлом. Самым важным аргументом против использования вторичных данных является то, что они ограничивают свободу и возможности ученого, поскольку они были получены для целей другого исследования. Действительно, для исследователя, работающего с вторичными данными очень трудно выйти за рамки той системы, которая была сконструирована до него, и для которой эти данные были собраны и обработаны. Однако иногда вторичные данные имеют значительные преимущества перед первичными: доступность и низкую цену. В ряде случаев у исследователя не может быть иной альтернативы, кроме как использовать именно вторичные данные. Например, мы не можем разработать вопросник по отношению к Карибскому кризису и отправиться с ним в 1962 г., непосредственно наблюдать за коллизией Пражской весны 1968 г., зафиксировать живую реакцию современников этих событий. Однако мы можем проанализировать данные прошлых лет. В этих случаях основным источником получения вторичных данных для нас будут отчёты органов государственной статистики, результаты проводившихся опросов общественного мнения, например, данные службы Гэллапа в США, Евробарометра в Европе, ВЦИОМ в России и т.д. Источником такой информации могут выступать даже публикации в газетах.

Решив, какого типа данные – первичные или вторичные будут использованы в исследовании, и, собрав эти данные, учёный может перейти непосредственно к процессу анализа. Анализируя полученные данные, исследователь пытается ответить на вопросы «Что это такое?», «Почему это происходит?», «Как много этого?» и т.д. Для получения ответов на эти и другие вопросы необходимо построить некую модель, в которой будут отображены взаимоотношения и взаимосвязи между изучаемыми явлениями, процессами и объектами. Рассмотрим далее, какие именно модели могут быть построены для исследования политических процессов.

Одномерная модель. Это самая простая модель с одной переменной. Целью ее построения является получение ответа на относительно простые вопросы «Сколько?» и «Что это?». Например,сколько избирателей проголосовало за данную партию? Что представляет собой электорат определенного кандидата? Ответы на эти вопросы дают одномерное распределение значений признака. Для изучения такой переменной, как электоральный выбор, достаточно подсчитать количество проголосовавших за ту или иную партию или кандидата и представить эти значения в виде процентного распределения. Это же относиться и к переменным, измеренным по номинальным шкалам («К какой религии Вы себя относите?», «Укажите свою профессию» и т.д.). Обычно, если мы измеряем переменную по количественной или интервальной шкале, знания одномерного распределения значений признака бывает недостаточно, тем более, что возможностей анализа для таких переменных несравненно больше, чем для номинальных. Исследователя интересуют некоторые меры, которые на языке математической статистики называются мерами центральных тенденций. К ним относятся среднее или типичное значение признака, а также меры разброса значений признака вокруг их средней величины. Например, анализ дохода может включать расчет среднего дохода и процентного значения людей, имеющих доход выше и ниже средней величины.

Бинарная модель. Суть данной модели заключается в предположении, что две переменные А и В связаны между собой. Таким образом, можно построить несколько моделей: А является причиной В, В является причиной А, А и В взаимовлияют друг на друга, А и В находятся под влиянием третьей переменной. Во всех этих случаях используются следующие методы анализа: таблица взаимной сопряженности признаков, корреляционный анализ.

Таблица взаимной сопряженности признаков строится для изучения взаимосвязей между переменными.

Таблица . Электораты избирательных объединений по итогам выборов в Думу в 1999 г (%) 23

Данная таблица, например, устанавливает связь между возрастом и голосованием за партии на выборах в Государственную Думу в 1999 г. Таблица построена таким образом, чтобы можно было проследить разницу в возрастной структуре электората различных партий.

На первый взгляд, очевидна следующая тенденция: молодые избиратели чаще, чем представители других возрастных групп, голосуют за партии демократической направленности, а пожилые – за партии левого толка. Однако подобный вывод не может служить прямым статистическим подтверждением выдвигаемых исследователем гипотез. Эти прикидки «на глазок» в лучшем случае грубы. В более сложных ситуациях такой анализ часто ненадежен. Установить степень соответствия гипотезы с данными помогает такой статистический метод как корреляционный анализ, направленный на измерение и изучение взаимосвязей между двумя переменными.

Методы корреляционного анализа позволяют дать ответ на весьма важные вопросы, возникающие при изучении взаимосвязей между переменными. Например, влияют ли и, если влияют, то до какой степени, изменения значений одной переменной (независимой переменной) на изменения значений другой (зависимой переменной)? Какова форма и направленность выявленной связи? Является ли выявленная связь характеристикой всей совокупности, а не только выборки?

В результате можно построить несколько объяснительных схем.

Например, при анализе взаимосвязи между возрастом и выбором партии, разумно предположить, что возраст может влиять на выбор партии, тогда как выбор партии не может повлиять на возраст. Фиксируемая в этой модели связь называется односторонней.

Две переменные (выбор газеты и партийные предпочтения) могут находиться в отношениях взаимовлияния друг на друга. Пример так называемой «петли причинности», которая относится к довольно трудному случаю анализа. Такая связь в статистике называется симметричной.

Читайте также:  Простата анализ какие надо сдать

Партийные предпочтения Выбор газеты

Исследователь не может достоверно установить, повлиял ли выбор газеты на формирование партийных предпочтений или уже устоявшиеся партийные предпочтения заставили людей выбрать определенные газеты.

Возможен и такой случай, когда две переменные находятся под влиянием третьей, неизвестной переменой. Однако эта связь уже выходит за рамки бинарного анализа и становится предметом множественного анализа.

Множественный анализ. При включении в систему трех и более переменных величин исследователь может обогатить анализ построением таких моделей как регрессионная, интерактивная, путевая и многофакторная.

Базовое положение регрессионной модели состоит в том, что две или более переменные, называемые «независимыми», оказывают совокупное влияние на «зависимую» переменную. Более того, регрессионная модель позволяет отделить влияние каждой независимой переменной друг от друга и определить силу этого влияния. Допустим, мы хотим узнать, какие переменные влияют на выбор партии. Для этого необходимо построить модель, включающую ряд независимых переменных. Например, на выбор партии могут влиять принадлежность к социальной группе и религия.

Класс

Данные такого рода могут быть проанализированы благодаря добавлению к стандартной регрессионной модели процедуры контролирования.

Регрессионная модель может быть полезна для поверки различных исследовательских гипотез, но на практике и она зачастую не отражает всю сложность объективного мира, всю цепочку причин и взаимосвязей. В этом случае используют модели путевого анализа, илипат-анализа, который выстраивает цепочку прямых и непрямых воздействий одной переменной на другую. Рассмотрим в качестве примера психологическую идентификацию с партией и одобрение ее политики. Очевидно, что одобрение политики партии повышает общую партийную идентификацию, но вполне возможен и обратный случай. У большинства людей (здесь имеется в виду ситуация, характерная для развитых либеральных демократий) приверженность к партии формируется задолго до того, как они поймут и осознают ее политическую платформу. Таким образом, наблюдается некий поток противоположных взаимодействий, направление которых бывает трудно определить. Тем не менее, это можно сделать с помощью путевого анализа, эмпирическим путем выстраивающим цепочку причинности.

Еще один метод, применяемый в рамках множественного анализа – это многофакторный анализ. Суть многофакторного анализа состоит в ответе на вопрос, не находится ли система переменных, связанных между собой, в зависимости от двух (или более двух) базовых скрытых факторов. Следовательно,целью многофакторного анализа является обнаружение скрытых факторов. Традиционно в политических исследованиях выделяется несколько скрытых факторов, или как их еще называют, расколов, лежащих в основе многих явлений и процессов, например, раскол на «левых» и «правых» по отношению к политическим установкам, а также противоречия, структурирующиеся по осям «жесткий-мягкий» и «либеральный-авторитарный».

Применяя многофакторный анализ, можно построить следующую модель:

«Жесткий-мягкий»

Установка на социальную защиту

Установка на перераспределение дохода

Установка на национализацию/приватизацию

Установка на безопасность

Установка на преступление и наказание

Построенная модель выделяет только два фактора и соответственно две группы переменных, испытывающих на себе их прямое воздействие. В реальной ситуации, конечно, возможно существование большего числа значимых факторов. Включение или исключение переменных из подгрупп необходимо производить исходя из так называемого веса фактора, т.е. его влияния на определенную группу переменных.

Анализ временных рядов. Многие социальные и политические процессы и события случаются не единожды, а повторяются. Протекание многих политических процессов может быть растянуто на годы, десятилетия и даже столетия. Исследования, изучающие такие процессы и события, называют трендовыми, или панельными. Основным методом в этом случае выступает анализ временных рядов. Временные ряды – это комплекс наблюдений, в которых одна и та же переменная измеряется повторно через определенные интервалы. В политических исследованиях анализ временных рядов чаще всего применяется для прогнозирования поддержки партий (особенно правительственных). При этом исследователи исходят из комбинации различных факторов, например, экономических условий (безработица, инфляция, уровень жизни и т.п.) и кризисных событий (вооруженные конфликты, забастовки, правительственные и парламентские кризисы и др.).

Модель, соответствующая целям анализа временных рядов, выглядит следующим образом:

Событие во времени T1 Партийная поддержка во времениT1

Событие во времени T2 Партийная поддержка во времениT2

Основной метод, применяемый при анализе временных рядов – это построение регрессионного уравнения, где в качестве независимых переменных выступают показатели, измеренные на разных временных этапах.

Все описанные выше методы и варианты анализа, относящиеся к так называемой статистической парадигме, получили широкое распространение в исследованиях политических процессов благодаря двум большим достижениям, которые внесли революционные изменения в исследования политических процессов. Первое относится к проведению выборочных исследований для предсказания результатов выборов в США. Начиная с 1824 г. и до 1936 г., исследования проводились в русле определённой традиции, когда в опросах участвовало достаточно большое число респондентов. Дж. Гэллап нарушил эту традицию. Итогом стало во-первых, слом монополии правительства на количественную информацию и, во-вторых, резкое снижение затрат при сборе исходных политических данных. Отныне статистика перестала быть «официальной». Второе достижение относится к 50-ым годам, когда стало возможным использование компьютерных технологий для статистического анализа данных.

Эти изменения коснулись, в первую очередь, исследований, связанных с изучением поведения, установок и мнений граждан. В результате произошедших перемен произошло значительное расширение объекта и предмета политических исследований. Если раньше ученые изучали в основном политические институты и высшую политическую элиту с помощью относительно примитивных количественных методов, то теперь, благодаря использованию новых технологий сбора и анализа данных, политическая наука обогатилась исследованиями массового политического поведении граждан и элиты среднего уровня 24 .

Сторонники этого подхода считают, что с помощью жестко формализованных методов анализа нельзя заглянуть в глубину явлений и процессов. Индивид неповторим. Он — не проявление явления, а само явление. Политические акторы рассматриваются как сознательные существа, формирующие политический мир так же, как и он формирует их. Поэтому наиболее адекватными для изучения политических процессов являются так называемые качественные методы, используя которые исследователь ищет ответы на вопросы «Что это? Зачем это? Откуда это? Каковы причины этого?»

Выделение статистического и гуманитарного подходов основано на существовании в научном мире двух точек зрения относительно изучения реальности – позитивизма и релятивизма. Использование количественных методов базируется на позитивистских традициях. Эти традиции предполагают изучение политических процессов на основе эмпирических наблюдений и проверяемой теории. Именно поэтому позитивисты уделяют столь значительное внимание операционализации теоретических концептов, т.е. переводу теоретических понятий в наблюдаемые и измеряемые индикаторы.

Критики позитивизма доказывают, что внешней реальности не существует. Есть только социально конструируемая реальность, в которой сознательные индивиды сами интерпретируют свое поведение и поведение других, наделяют свои действия субъективными смыслами. В этом процессе люди не являются пассивными элементами, а выступают как активные действующие лица в оценке смысла своих и чужих действий. Они формируют мир так же, как и он формирует их. Это означает, что объяснение мира в целом и политических процессов, в частности, должно исходить из описания и понимания людей как сознательных и социальных акторов. Их мотивации, опыт и субъективные интерпретации — важные составляющие компоненты причинной цепочки событий. Задачи подобного анализа решаются при помощи качественных методов.

Качественные методы – это общее название широкого спектра техник сбора и анализа информации, таких как, включенное наблюдение (открытое и скрытое), интенсивное интервьюирование (глубинные индивидуальное и групповые интервью) и т.д.

Качественные методы играют большую, хотя и не всегда признаваемую роль в исследовании политических процессов. Эти методы применимы в тех случаях, когда целью исследования является изучение субъективного опыта людей и тех смыслов, которые они вкладывают в свои действия. Интенсивное интервьюирование, например, позволяет людям свободно выражать свое мнение на том языке, на котором они привыкли ежедневно общаться, предлагать собственные интерпретации событий. Свободное протекание общения позволяет понять логику аргументов и ту цепочку ассоциаций, которые привели участников к определенному типу поведения. Объяснение событий включает понимание и интерпретацию, а не описание общих законов массового поведения. Наконец, качественные методы привлекают определенное внимание к контекстуальным аспектам событий, помещая установки и поведение респондентов в контекст их индивидуальной биографии и более широкого социального окружения. Таким образом, качественные методы привлекают внимание к смыслам, процессу и контексту протекания событий.

Традиционно качественные методы применяются при изучении процесса вовлечения в политику, способов формирования элит, иерархической структуры, властных отношений, смыслов и сюжета политического процесса. Интенсивные интервью, например, проводились с активистами групп давления, для изучения политических сообществ (Грант и Марш, Миллс, Смит). Внутренняя политика партий также изучалась с помощью интервьюирования партийных функционеров и членов представительных органов власти (Сэйд, Уайтли). Качественные методы находят довольно широкое применение при изучении политики муниципальных органов власти в Британии (Деарлов, Гифорд, Лоундес и Стокер) и США (Джонс и Батчелор, Стоун). В меньшей степени качественные методы используются в исследованиях, касающихся центрального правительства, причиной чему, скорее всего, является большая закрытость «высокой» политики.

Сферой, в которой качественные методы практически отсутствуют, является область электоральных исследований. Здесь основным методом получения информации являются национальные выборочные опросы, дополняемые в последнее время панельными опросами, проводимыми после выборов. Однако и в эту сферу стали проникать качественные методы, использование которых подкрепляется тем аргументом, что электоральные исследования, проводимые на основе использования количественных методов, не обогащают наши знания пониманием мотивов и факторов политического поведения.

Статистический и гуманитарный подходы часто противопоставляют друг другу. Приверженцы качественных методов критикуют сторонников статистического подхода, выдвигая целый набор замечаний, претензий и даже обвинений. Исследователям, которые отдают предпочтение количественным методам, ставится в вину то, что они уделяют слишком большое внимание статистическим процедурам. При этом, якобы, остается в стороне понимание сущности изучаемых явлений и процессов, причинной цепочки событий.

Утверждается также, что сторонники количественных методов неверно представляют предмет своего исследования. Элементарная ошибка в конструировании выборки может повлечь за собой ошибки сбора и искажения выводов. Например, исследователи общественного мнения в России зачастую обращаются только к европейским русским. Правительственная, или так называемая официальная статистика, на которую опираются исследователи, может искажать реальную ситуацию. Респонденты могут говорить неправду, чтобы скрыть свое смущение, не высказывать социально неодобряемое мнение или суждение.

Сторонников количественных методов упрекают также в слишком узкой сфокусированности на предмете исследования, сравнивают эти методы ярким фонарём, который тёмной ночью высвечивает лишь незначительную часть действительности. Этот аргумент иллюстрируется, в частности, вопросниками с фиксированным веером возможных ответов, которые могут, по мнению критиков, существенно ограничить респондентов в праве высказать собственное мнение. Следовательно, при «жестких», формализованных опросах нельзя проникнуть в тонкую материю мотивов и смыслов поведения и действий опрашиваемых.

В свою очередь и качественные методы подвергаются критике, разумеется, со стороны приверженцев количественных методов. За исходные и истинные утверждения предлагается принять следующее. Количественные методы являются репрезентативными и верифицируемыми. Статистический анализ превращает исследовательские выводы в нечто, не подвергающееся сомнению. Результаты, полученные по итогам одного исследования, могут распространяться на большие совокупности явлений с большой долей определенности. И, наконец, количественные исследования дают «твердые» научные доказательства. В то же время считается, что качественные методы обладают серьезными недостатками, среди которых отмечаются следующие. Во-первых, нерепрезентативность выборки, сформированной для исследования. Во-вторых, возможность искажения мнения опрашиваемого из-за тесного контакта с ним интервьюера. В третьих, сложность анализа и интерпретации полученной информации, вытекающая из субъективного характера самих данных. В четвертых, невозможность создания на базе собранных данных обобщающей теории. Соответственно, качественные исследования являются нетипичными. Выводы, полученные при их использовании считаются частичными и подкрепленными лишь впечатлениями. В целом работы этого направлении нельзя относить к строго научным.

В этом споре не может быть победителя. Следует признать, что и качественные и количественные методы имеют свои ограничения. Поэтому самый важный вывод, вытекающий из рассмотрения двух концепций, заключается в том, что выбор подходов или баланс их сочетания должен обуславливаться целями исследованиями, исследовательскими задачами, исследовательской ситуацией. Это означает, что необходимо иметь в виду следующее. Так как статистический и гуманитарный подходы предполагают использование различных методов сбора и интерпретации информации, то применять их надо к различным типам исходных данных, а корректный конечный результат можно получить только при корректной постановке задачи.

Монополией на истину не обладают ни сторонники количественных методов, ни их оппоненты из лагеря приверженцев гуманитарных подходов. Грубейшей ошибкой будет возведение в абсолют любого подхода, претендующего на универсальность. Мир слишком сложен и многомерен, чтобы его можно было познать, пользуясь только одним, пусть даже очень тонким и совершенным инструментом, и мастерство исследователя состоит в овладении и в умении творчески применять весь инструментарий, наработанный научным сообществом.

1 Питерс Б.Г. Политические институты: вчера и сегодня// Политическая наука: новые направления. Под ред. Гудина Р., Клингемана Х.-Д. М., 1999. С. 219.

2 В российской политической науке отсутствуют термины, адекватно передающие смысл словосочетанияpublicadministration. Чаще всего его переводят как государственное и муниципальное управление. Принимая во внимание имеющиеся терминологические затруднения, мы сочли необходимым использовать в тексте пособия английское словосочетание.

3 Rhoder R.A.W. The Institutional Approach // Theory and Methods in Political Science. Ed. by Marsh D., Stoker G. Houndmills et al., 1997. P. 50.

4 Питерс Б.Г. Политические институты: вчера и сегодня// Политическая наука: новые направления. Под ред. Гудина Р., Клингемана Х.-Д. М., 1999. С. 220.

5 Истон Д. Политическая наука в Соединенных Штатах: прошлое и настоящее.// Современная сравнительная политология. Хрестоматия. Под ред. Голосова Г.В., Галкиной Л.А. М., 1997.С.13-14.

6 Напомним, что основными принципами «классического» позитивизма, сложившегося в противовес «спекулятивному» теориетизированию, были отказ от умозрительных рассуждений об обществе, создание «позитивной» социальной теории, которая должна была стать такой же доказательной и общезначимой, как и естественно-научные теории. Основными методами исследования признавались метод наблюдения, сравнительный и исторический методы, а также количественные методы. Для «классического» позитивизма был характерен органицим, что выражалось, в частности в постулировании наличия неизменных законов функционирования и развития общества, которые рассматривались как часть или продолжение природных законов. В целом представители позитивизма являлись сторонниками «классического типа научности», выступая за строгие исследователськие методы и принципиальную возможность и необходимость объективности научного познания.

7 Истон Д. Политическая наука в Соединенных Штатах: прошлое и настоящее.// Современная сравнительная политология. Хрестоматия. Под ред. Голосова Г.В., Галкиной Л.А. М., 1997.С.14.

8 Фактически бихевиоралисты выступали строгими приверженцами так называемого «классического» типа научности.

9 Истон Д. Политическая наука в Соединенных Штатах… С. 15

10 Riker W. The Ferment of the 1950s and the development of Rational Choice Theory// Contempopary Empirical Political Theory. Ed. by Manroe K.R. Berkeley et al., 1997. P. 194.

11 Easton D. The Future of the Postbehavioral Phase// Contempopary Empirical Political Theory. Ed. by Manroe K.R. Berkeley et al., 1997. P. 15.

12 Downs A. An Economic Theory of Democracy. NewYork, 1957.P. 28.

13 О теории игр на русском языке см. подробнее следующие учебные пособия: Голосов Г.В. Сравнительная политология. Новосибирск, 1995. Гл.1; Технология политической власти: Зарубежный опыт. Киев, 1994. Гл.8 (2).

14 Easton D. The Future of the Postbehavioral Phase in Political Science// Contemporary Empirical Political Theory. Ed.byMonroeK.R.Berkleyetal., 1997.

15 К. фон Бойме Политическая теория: эмпирическая политическая теория. // Политическая наука: новые направления. Под ред. Гудина Р., Клингемана Х.-Д. М., 1999. С.502.

16 Van Dijk T. Ideology: A Multidisciplinary Approach. London:Sage, 1998.P. 20.

17 Дука А.В. Политический дискурс оппозиции в современной России//Журнал социологии и социальной антропологии. 1998. Т. 1. № 1.

18 Этот процесс описывается в работе Дж.Пококка -J.Poccoc.Virtue and History. Essays on Political Thought and History, Chiefly in the Eighteen Century. Cambridge et al., 1985.

19 Easton D. The Future of the Postbehavioral Phase in Political Science// Contemporary Empirical Political Theory. Ed.byMonroeK.R.Berkleyetal., 1997.P.35.

20 У некоторых авторов дискурс понимается буквально, как речь, рассуждение, текст. М.Фуко в своей работе «Археология знаний» вводит понятия «дискурсивных практики», «дискурсивных формаций». Эти конструкты сложны для перевода и становятся понятными только в контексте всего творчества философа.

21 Мангейм Дж.Б., Рич Р.К. Политология. Методы исследования. М., 1997.

22 Влияние региональных СМИ на политическое сознание избирателей (Краткая справка по результатам исследования). – Исследовательская группа «Циркон», Автономная некоммерческая организация «Интерньюс», 15.02.2000. — Рукопись

23 Выборы-99: послесловие // Поле мнений. Дайджест результатов исследований. Фонд «Общественное мнение». Вып. 1. C. 28-32

источник