Меню Рубрики

Как провести частотный анализ статистика

; Смена рисунков со спецэффектами («YES» или «NO»)

;Произвольный рисунок поверх апплета

;X смещение наложенного рисунка

;Y смещение наложенного рисунка

;Задержка освобождения памяти

; Мин. время синхр. кадра (мс); Sorry, your browser doesn’t support Java ; Сообщение для браузеров без поддержки Java ™
Кликните по фотографии,
и вы сможете .

Самоучитель по пакету SPSS

Первым этапом статистического анализа данных, как правило, является частотный анализ. В этой главе мы проведем частотный анализ на примере файла Studium.sav. Этот файл находится на компакт-диске примеров или в рабочем каталоге \SPSSBOOK. Он содержит результаты опроса студентов об их психическом состоянии и социальном положении. Опрос касался таких предметов, как социальное положение, психическая ситуация и успеваемость. Кроме того, затрагивались такие данные, как изучаемый предмет, пол, возраст и национальность.

Сначала загрузите файл Studium.sav, выбрав команды меню File (Файл) Open. (Открыть. ) Появится диалог Open File (Открыть файл).

Выберите указанный выше файл Studium.sav и подтвердите выбор кнопкой Open (Открыть). Файл появится в Редакторе данных.

Выберите в меню команды Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Frequencies (Частоты) Появится диалоговое окно Frequencies (см. рис. 6.1).

Кнопкой с треугольником перенесите переменную psyche в список выходных переменных и подтвердите операцию кнопкой ОК.

Рис. 6.1: Диалоговое окно Frequencies (Частоты)

Результаты появятся в окне просмотра результатов. Перед самой частотной таблицей выводится небольшая таблица с обзором допустимых и отсутствующих значений. Здесь она не показана.

Каждая строка частотной таблицы описывает одно возможное значение. Строка с пометкой нет данных представляет наблюдения, в которых не было дано никакого ответа. Всего имеется 107 допустимых ответов, а также одно наблюдение, в котором психическое состояние неизвестно (данные отсутствуют либо утеряны). Первый столбец содержит метки отдельных значений (крайне неустойчивое, неустойчивое, устойчивое, . ). Во втором столбце под заголовком «Частота» приведена частота каждого из вариантов ответа на вопрос из теста. Так, к примеру, 20 человек на вопрос о психическом состоянии дали ответ: «крайне неустойчивое», а 40 человек — «неустойчивое». В третьем столбце показана процентная частота каждого ответа. Процентная частота соответствует отношению каждого из вариантов ответа к общему количеству опрашиваемых, включая утерянные значения. В четвертом столбце дано допустимое процентное значение. При определении этого значения утерянные данные исключаются. Последний столбец содержит накопленные процентные значения. Накопленные проценты — это сумма процентных частот допустимых ответов. Так, например, процент респондентов, которые дали ответ крайне неустойчивое или неустойчивое, составляет 56,1%. Это число определяется выражением: 18,7% + 37,4% = 56,1%. В последней строке содержится сумма всех столбцов (Всего).

Вывод статистических характеристик

Чтобы получить описательную статистику числовых переменных, можно щелкнуть в диалоге Frequencies на кнопке Statistics. (Статистика). Откроется диалоговое окно Frequencies: Statistics (Частоты: Статистика).

В группе Percentile Values (Значения процентилей) можно выбрать следующие варианты:

Результаты частотного распределения можно представить графически. Для примера мы создадим столбчатую диаграмму для частотного распределения основных специальностей. Поступите следующим образом:

Выберите в меню команды Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Frequencies (Частоты)

Перенесите переменную fach в список выходных переменных.

Щелкните на кнопке Charts. (Диаграммы). Откроется диалоговое окно Frequencies: Charts (Частоты: Диаграммы).

Выберите в группе Chart Type (Тип диаграммы) пункт Bar charts (Столбчатая диаграмма), а в группе Chart Values (Значения диаграммы) — пункт Percentages (Проценты). Подтвердите выбор кнопкой Continue (Продолжить). Вы вернетесь в диалог Frequencies.

В диалоговом окне Frequencies снимите флажок Display frequency tables (Показывать частотные таблицы). — Щелкните на кнопке ОК. Диаграмма будет показана в окне просмотра (см. рис. 6.5).

Рис. 6.4: Диалоговое окно Frequencies: Charts

Усовершенствуем вид этой диаграммы.

Чтобы начать редактирование, дважды щелкните в области столбчатой диаграммы. Диаграмма будет показана в редакторе диаграмм.

На панели инструментов редактора диаграмм щелкните на символе меток столбцов:

Рис. 6.5: Столбчатая диаграмма в средстве просмотра

Откроется диалоговое окно Bar Label Style (Стиль меток столбцов). Выберите пункт Framed (В рамке), щелкните на кнопке Apply all (Применить для всех) и затем на Close (Закрыть). На каждом столбце появится надпись с его процентным значением.

Щелкните мышью на любом из столбцов. На верхней стороне каждого столбца появится по два маленьких черных квадрата. Это означает, что области столбцов готовы для редактирования.

Щелкните мышью на символе образца заливки:

Откроется диалоговое окно Fill Patterns (Образцы заливки).

Выберите в нем подходящий образец заливки. Подтвердите выбор кнопкой Apply (Применить) и закройте диалоговое окно.

Рис. 6.6: Диалоговое окно Fill Patterns

Столбцы будут заполнены выбраннои заливкой.

Щелкните мышью на символе вида столбцов:

Выберите пункт Drop shadow (Тень), щелкните на кнопке Apply all (Применить для всех) и затем на Close (Закрыть).

Дважды щелкните на заголовке диаграммы Fachbereich. Откроется диалоговое окно Titles (Заголовки) (см. рис. 6.7).

Измените заголовок на «Основная специальность» и закройте диалог кнопкой ОК.

В меню Chart (Диаграмма) установите флажок Outer Frame (Внешняя рамка). Закройте редактор диаграмм; получившийся график показан на рис. 6.8.

Рис. 6.7: Диалоговое окно Tirles

Рис. 6.8: Отредактированная диаграмма

Рассмотрим другой пример — визуальное представление частотного анализа.

Выберите в меню команды Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Frequencies (Частоты)

Щелкните на кнопке Reset (Сброс), чтобы установить стандартные настройки.

Перенесите переменную sozial (социальное положение) в список выходных переменных.

Щелкните на кнопке Charts. (Диаграммы). В диалоговом окне Frequencies: Charts выберите пункт Histograms (Гистограмма). Установите флажок With normal curve (С кривой нормального распределения). Щелкните на кнопке Continue.

В диалоговом окне Frequencies снимите флажок Display frequency tables (Показывать частотные таблицы). Щелкните на кнопке ОК. Гистограмма будет показана в окне просмотра (см. рис. 6.9).

Частоты на гистограмме обозначены колонками, которые, но отличие от столбчатой диаграммы, не изолированы, а примыкают друг к другу. Отображаются также стандартное отклонение, среднее значение и общее количество наблюдений(М). Кроме того, показана кривая нормального распределения.

Дважды щелкните на области гистограммы — откроется редактор диаграмм, в котором можно придать гистограмме желаемый вид. График отобразится в редакторе диаграмм.

Выберите другой образец заливки и снабдите колонки надписями.

При желании проверьте другие функции редактора диаграмм.

На этом мы завершаем тему частотного анализа. Попробуйте самостоятельно выполнить частотный анализ переменной studium (время обучения) и представьте результаты распределения частот в графическом виде.

источник

После того, как все переменные нашей анкеты были занесены в программу SPSS необходимо осуществить наполнение базы данных, основываясь на результатах, полученных от респондентов. Как уже отмечалось выше, ввод данных в программе осуществляется в поле Data View посредством ввода числа в поле переменной, в соответствии с кодировкой. Ниже представлен пример ввода данных.

Рис. 18. Пример ввода данных в программу.

В приведенном примере показаны две переменные – пол и возраст респондента. Первая переменная имеет только два возможных варианта: «1» — мужской и «2» — женский. Вторая переменная, возраст, относится к метрической числовой шкале. Данные читаются следующим образом: первый респондент – молодой человек (1) в возрасте 17 лет. Для простоты восприятия остановимся на данном примере.

Обработка данных в программе SPSS осуществляется путем вызова соответствующих команд из главного меню Analyze. Первый этап обработки данных в социологии всегда рекомендуется начинать с частотного распределения и описательной статистики. В выпадающем меню Analyze нужно выбрать команду Descriptive Statistics (описательные статистики) и затем – Frequenses (частоты).

Рис. 19. Вызов меню частотного анализа.

После этого откроется новое диалоговое окно для определения переменных, которые подвергаются анализу (рис. 20).

Рис. 20. Частотный анализ переменных.

Рассмотрим это окно подробнее, так как принцип выбора переменных одинаков для всех типов анализа. В диалоговом окне видны два поля: слева перечислены все переменные ( в нашем случае их всего 2). Правое поле пустое. Оно как раз и предназначено для выбора переменных, подвергающихся анализу. При помощи мыши нужно выделить анализируемую переменную и нажав на кнопку перенести ее в правое окно. Сделаем это для переменной «возраст». Окно примет следующий вид.

Рис. 21. Выбор переменной для анализа.

Для того, чтобы определить требуемые статистические параметры нужно нажать кнопку и в открывшемся меню выбрать нужные статистики.

Рис. 22. Окно определения статистик.

Левый верхний угол окна содержит такие статистики, как квартиль (Quartiles), точки раздела (Cut points for) – показатели процентилей, разделяющие выборку на группы наблюдений, имеющих одинаковую ширину, то есть включают одинаковое число наблюдений, процентили (Percentiles). Нижний левый угол относится к статистикам, характеризующим меру разброса: стандартное отклонение (St. deviation), дисперсия (Variance), размах (Range), наименьшее и наибольшее значение в выборке (Minimum, Maximum) и стандартная ошибка среднего (S.E. mean). Следующая группа статистик используется наиболее часто – меры центральной тенденции: среднее (Mean), медиана (Median), мода (Mode) и сумма (Sum). Наконец, есть группа, позволяющая оценить ассиметричность распределения, — Distribution. Здесь мы видим две статистики6 Skewness (коэффициент асимметрии) и Kurtosis (коэффициент вариации). Для вычисления требуемых статистик нужно просто проставить галочки в клетках рядом с соответствующими параметрами. Для нашего примера давайте определим все меры центральной тенденции, кроме суммы, а также стандартное отклонение, дисперсию и размах. После установки соответствующих галочек, нажмем клавишу . В окне статистик нажимаем кнопку ОК. Полученные результаты приведены на рисунке 23.[13]

Рис. 23. Окно вывода результатов.

Полученные данные сведены в две таблицы. В первой указаны: количество наблюдений в выборке (9), количество пропущенных значений (0), среднее значение (17,3333), медиана (17), мода (17), стандартное отклонение (2,5), дисперсия (6,25) и размах (9). По этой таблице мы можем сделать вывод, что в нашей выборке средний возраст респондентов составил 17, 3 лет, размах выборки составил 9 лет, наибольшее количество респондентов находятся в возрасте 17 лет.

Вторая таблица представляет собой анализ распределения переменной возраст. В ней в левом столбце указаны все возможные варианты, в следующем столбце – абсолютное значение частот, далее – процентное значение, далее – процентное значение с учетом пропусков и накопленный процент. В нашем случае можно говорить о том, что 33,3% респондентов в возрасте 17 лет, 22,2% — 19 лет и по 11% респондентов имеют возраст 12,16, 18 и 21 год. В нашем примере у нас не было пропущенных ответов, однако на практике пропуски встречаются довольно часто. Пари анализе данных в частотном распределении крайне важно обращатиь на это внимание. При наличии пропусков в отчетах о результатах обработки следует использовать процентный показатель с учетом пропусков (Valid Percent).

Частотный анализ данных может осуществляться по указанному выше алгоритму вне зависимости от того, какую переменную мы анализируем. Однако, как уже было отмечено выше, чрезвычайно важно помнить о том, по какой шкале измеряется анализируемая переменная. В данном примере мы сознательно обратились к переменной, которая относится к метрическим шкалам и имеет самые богатые возможности для анализа. Вместе с тем, при выборе такой переменной, как «пол», вычисление статистик типа среднее значение, стандартное отклонение и прочие становится бессмысленным, так как переменная принадлежит к номинальной шкале.

Не нашли то, что искали? Воспользуйтесь поиском:

Лучшие изречения: Сдача сессии и защита диплома — страшная бессонница, которая потом кажется страшным сном. 8854 — | 7181 — или читать все.

источник

Задания. Найти основные статистики по данным взятым из файла data.sta, предварительно удалив строку равную номеру варианта. Проанализировать полученные результаты.

Провести частотный анализ одного набора данных с номером равным номеру варианта. Построить гистограмму по результатам частотного анализа. Проанализировать полученные результаты.

Провести частотный анализ двух наборов данных. Построить трехмерную гистограмму двухмерного распределения. Проанализировать полученные результаты.

Y1 Y2 Y3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 Х15 X16 X17
9,26 204,20 13,26 0,23 0,78 0,40 1,37 1,23 0,23 1,45 26006,00 167,69 47750,00 6,40 166,32 10,08 17,72
9,38 209,60 10,16 0,24 0,75 0,26 1,49 1,04 0,39 1,30 23935,00 186,10 50391,00 7,80 92,88 14,76 18,39
12,11 222,60 13,72 0,19 0,68 0,40 1,44 1,80 0,43 1,37 22589,00 220,45 43149,00 9,76 158,04 6,48 26,46
10,81 236,70 12,85 0,17 0,70 0,50 1,42 0,43 0,18 1,65 21220,00 169,30 41089,00 7,90 93,96 21,96 22,37
9,35 62,00 10,63 0,23 0,62 0,40 1,35 0,88 0,15 1,91 7394,00 39,53 14257,00 5,35 173,88 11,88 28,13
9,87 53,10 9,12 0,43 0,76 0,19 1,39 0,57 0,34 1,68 11586,00 40,41 22661,00 9,90 162,30 12,60 17,55
8,17 172,10 25,83 0,31 0,73 0,25 1,16 1,72 0,38 1,94 26609,00 102,96 52509,00 4,50 88,56 11,52 21,92
9,12 56,50 23,39 0,26 0,71 0,44 1,27 1,70 0,09 1,89 7801,00 37,02 14903,00 4,88 101,16 8,28 19,52
6,30 46,60 10,05 0,36 0,73 0,39 1,25 0,60 0,21 2,06 9475,00 40,07 16821,00 3,60 140,76 32,40 21,76
6,22 53,20 13,99 0,37 0,68 0,33 1,13 0,82 0,42 1,96 10811,00 45,44 19459,00 3,56 128,52 11,52 25,68
5,49 30,10 9,68 0,43 0,74 0,25 1,10 0,84 0,05 1,02 6371,00 41,08 12973,00 5,65 177,84 17,28 18,13
6,50 146,40 10,03 0,35 0,66 0,32 1,15 0,67 0,29 1,85 26761,00 136,14 50907,00 4,28 114,48 16,20 25,74
6,61 18,10 9,13 0,38 0,72 0,02 1,23 1,04 0,48 0,88 4210,00 42,39 6920,00 8,85 93,24 13,32 21,21
4,32 13,60 5,37 0,42 0,68 0,06 1,39 0,66 0,41 0,62 3557,00 37,39 5736,00 8,52 126,72 17,28 22,97
7,37 89,80 9,86 0,30 0,77 0,15 1,38 0,86 0,62 1,09 14148,00 101,78 26705,00 7,19 91,80 9,72 16,38
7,02 62,50 12,62 0,32 0,78 0,08 1,35 0,79 0,56 1,60 9872,00 47,55 20068,00 4,82 69,12 16,20 13,21
8,25 46,30 5,02 0,25 0,78 0,20 1,42 0,34 1,76 1,53 5975,00 32,61 11487,00 5,46 66,24 24,84 14,48
8,15 103,50 21,18 0,31 0,81 0,20 1,37 1,60 1,31 1,40 16662,00 103,25 32029,00 6,20 67,68 14,76 13,38
8,72 73,30 25,17 0,26 0,79 0,30 1,41 1,46 0,45 2,22 9166,00 38,95 18946,00 4,25 50,40 7,56 13,69
6,64 76,60 19,40 0,37 0,77 0,24 1,35 1,27 0,50 1,32 15118,00 81,32 28025,00 5,38 70,56 8,64 16,66
8,10 73,01 21,00 0,29 0,78 0,10 1,48 1,58 0,77 1,48 11429,00 67,26 20968,00 5,88 72,00 8,64 15,06
5,52 32,30 6,57 0,34 0,72 0,11 1,24 0,68 1,20 0,68 6462,00 59,92 11049,00 9,27 97,20 9,00 20,09
9,37 199,60 14,19 0,23 0,79 0,47 1,40 0,86 0,21 2,30 24628,00 107,34 45893,00 4,36 80,28 14,76 15,98
13,17 598,10 15,81 0,17 0,77 0,53 1,45 1,98 0,25 1,37 49727,00 512,60 99400,00 10,31 51,48 10,08 18,27
Читайте также:  Какие анализы сдавать для уролога

Это – измененная таблица данных Мои данные.sta: уменьшено количество наблюдений до 25 и удалена строка наблюдений под номером 23 (номер варианта)

По данной выборке произведено вычисление основных описательных статистик для двух признаков: Y3 и X7 – индекс снижения себестоимости продукции и среднегодовая стоимость ОПФ соответственно.

Описательные статистики (Мои данные)
N набл. Среднее Медиана Мода Частота Сумма Минимум Максимум Размах Дисперс. Стд.откл. Асимметрия Эксцесс
Y3 13,66792 12,73500 Множест. 328,0300 5,020000 25,83000 20,81000 36,44531 6,036995 0,691068 -0,448130
X7 1,33292 1,37000 1,350000 31,9900 1,100000 1,49000 0,39000 0,01297 0,113883 -0,720222 -0,582115

Анализируя, полученные статистики можно предположить, что распределение этих величин далеко от нормального. Об этом свидетельствуют большая разница значений среднего арифметического, медианы и моды; широкий размах, большие значения коэффициентов ассиметрии и эксцесса. Положительные коэффициенты ассиметрии и эксцесса свидетельствуют о правосторонней ассиметрии и островершинности графиков распределения. По значениям среднего арифметического 119 и стандартного отклонения 123 можно предположить, что в среднем предприятия машиностроения имеют индекс снижения себестоимости продукции в интервале от 0 до 242, а среднегодовую стоимость ОПФ – в интервале от 0 до 205.

Далее приведены таблицы частотного анализа для переменных:

Таблица частот: Y2: Индекс снижения себестоимости продукции (Мои данные) K-С d=,22127, p
| следующая лекция ==>
Основные свойства БД и СубД | Групп-аналитический подход и трансактный анализ в группе

Дата добавления: 2017-02-25 ; просмотров: 330 | Нарушение авторских прав

источник

В данном разделе описана реализация анализа информации с помощью стандартных процедур пакета SPSS.

Первым этапом статистического анализа данных, как правило, является частотный анализ. Процедура Frequencies (Частоты) позволяет реализовать группировку и анализ взаимозависимостей социальных характеристик. Минимальные требования, которые предъявляются к ним, заключаются в том, что переменные должны быть количественными. После выполнения необходимых операций SPSS строит стандартные частотные таблицы, которые отражаются в окне просмотра результатов.

Представим краткие определения понятий, о которых пойдет речь в этом разделе.

  • ? Частоты. Команда Frequencies (Частоты) является одной из самых простых и часто используемых команд SPSS. Действие команды сводится к простому подсчету распределения частот по категориям переменной: определению количества объектов в каждой категории переменной. Например, если анализируется переменная «пол», то программа подсчитает распределение численности девушек и юношей среди учащихся; если используется переменная «класс», то получим распределение численности учащихся по классам. Выводимый результат для каждой категории включает метку значений переменной, само значение переменной, частоту, процент и накопленный процент от общей частоты.
  • ? Процентиль показывает, какой процент распределения лежит ниже заданной величины. Например, если процентиль значения 111 равен 75, то это означает, что 75% всех значений переменной меньше, чем 111, а 25% — больше, чем 111. Наиболее часто процентили применяются в педагогических и психологических исследованиях.

Для осуществления частотной процедуры необходимо выбрать из пункта основного меню Statistics следующие команды: Summarize- Frequencies. Откроется диалоговое окно со списком доступных переменных. Выбираются одна или несколько переменных.

Проведем частотный анализ на примере файла studium.sav, содержащем результаты опроса студентов об их психологическом состоянии и социальном положении. Опрос касался таких предметов, как социальное положение, психологическая ситуация и успеваемость.

• Загрузите файл studium.sav и выполните команды меню Analyze (Анализ) — Descriptive Statistics (Дескриптивные статистики) — Frequencies (Частоты). Откроется диалоговое окно Frequencies (Частоты) (рис. 32).

Рис. 32. Диалоговое окно Frequencies (Частоты)

Диалоговое окно Frequncies типично для большинства статистических (операций SPSS. В левой части окна расположен список всех доступных переменных. В этом списке необходимо выбрать те переменные, для которых необходимо вычислить распределение частот.

• Кнопкой с треугольником перенесите переменную psyche в список выходных переменных и подтвердите выполнение операции кнопкой ОК. После этого программа SPSS формирует окно вывода с результатами выполнения команды. Частотная таблица появится в окне просмотра результатов (рис.33).

Рис. 33. Окно просмотра результатов расчетов частотных показателей

Каждая строка частотной таблицы описывает одно возможное значение. Строка с пометкой «нет данных» представляет наблюдения, в которых не было дано никакого ответа. Всего имеется 107 допустимых ответов, а также одно наблюдение, в котором психическое состояние неизвестно (данные отсутствуют, либо утеряны).

Первый столбец содержит метки отдельных значений («Крайне неустойчивое», «Неустойчивое», «Устойчивое». ).

Во втором столбце под заголовком «Частота» приведена частота каждого из вариантов ответа на вопрос из теста. Так, например, 20 человек на вопрос о психическом состоянии дали ответ: «крайне неустойчивое», а 40 человек — «неустойчивое».

В третьем столбце показана процентная частота каждого ответа. Процентная частота соответствует отношению каждого из вариантов ответа к общему количеству опрашиваемых, включая утерянные значения.

В четвертом столбце дано допустимое процентное значение. При определении этого значения утерянные данные исключаются.

Последний столбец содержит накопленные процентные значения. Накопленные проценты — это сумма процентных частот допустимых ответов. Например, процент респондентов, которые дали ответ «крайне неустойчивое» или «неустойчивое», составляет 56,1%. Это число определяется выражением: 18,7% + 37,4% = 56,1%. В последней строке содержится сумма всех столбцов («Всего»).

Для получения обобщаю щих статистик о переменных необходимо в окне Frequencies (Частоты) щелкнуть на кнопке Statistics. Открывается диалоговое окно Frequencies: Statistics (Частоты: Статистические показатели) (рис. 34).

Рис. 34. Диалоговое окно Frequencies: Statistics

В этом окне представлены такие показатели, как процентили и описательные статистики. Представим краткие определения понятий описательной статистики.

источник

В преддверии скорого очного тура NeoQUEST-2015 продолжаем разбирать задания online-этапа. В статье разбирается задание «Абракадабра», состоящее из двух частей. Обе части — на криптоанализ: первая — на частотный, вторая — на дифференциальный.

Участникам были даны два файла. Первый файл имел формат .docx, на его первой странице была та самая «абракадабра» — текст, состоящий сплошь из непонятных закорючек и символов, а на второй странице – не вполне понятный список. Глядя на него, одно можно было сказать точно: здесь описан некий алгоритм шифрования.

Второй файл был формата .txt, в нем содержались 2 столбца, озаглавленные как plaintext и cyphertext. Со всем этим надо было что-то делать…

Непонятный текст:

Ощыс щонныяыфЕoцътфюую pяокьюцфцъoС…С† дцхоягыьчc фц быяюсьфючьфлё юьфюиыфocС‘ эывщг бёющфлэо яцхфючьсэo Рѕ яцхфючьcСЌo блёющц. РР±С† юьфюиыфос кяыщчьцбъcРїСЊ СЂСЋС„pяыьфлм oфьыяыч Р± цфцъохыМ С‰oнныяыфЕоцътфлм кяюнцмъ o ёцяцрьыяочьopС† яцгфщц. РонныяыфЕoцътфлм кяюнцмъ кюрцхлбцыь быяюсьфючьфюы юьфюиыфоы эывщг бёющфлэo яцхфючьcСЌРѕ o яцхфючьсэо блёющц РґСЉСЋpС†. Кющюдфлы кяюнцмъл СЌСЋСѓРіСЊ дльт чюхщцфл щъc рцвщюую oС… бючтэо РґСЉСЋpСЋР± Р± DР«S. ЁцяцрьыяoчьоpС† яцгфщц кющюдфц С‰oнныяыфЕоцътфюэг кяюнцмъг, фю блжoчъсыьчc щъс Еыъюую яцгфщц. Рфц кюрцхлбцыь быяюcьфючьт, С‡ pСЋСЊСЋСЏСЋРј ющфц бёющфцс яцхфючьт чюхщцъц РґР» яцхфючьт юкяыщыъaффюую блёющц. Рдяцьоьы Р±С„oэцфоы, жью ёцяцрьыяoчьоpС† ющфц o СЊС† РІС‹ щъc рцвщюую яцгфщц, РєСЋСЊСЋСЌРі жью СЉРїРґСЋС‹ юьфюиыфоы, pСЋСЊСЋСЏСЋС‹ бръпжцыь яцхфючьo, фы хцбочoСЊ СЋСЊ pъпжым яцгфщц. Очкюътхгм щонныяыфЕoцътфлм ряокьюцфцъoС… щъс кяюёювщыфоc Р±СЊСЋСЏСЋРј жцчьo хцщцфос, oСЉРѕ РІС‹ oщо фцкяюъюэ. Р¦ pСЉРїР¶ СЂ Р№СЊСЋРј жцчьo хцщцфоc Рњ жцчьюьфлмцфцъoС….

  1. Substitution (15, 1, 8, 14, 6, 11, 3, 4, 9, 7, 2, 13, 12, 0, 5, 10)
  2. Permutation P(i) = 9*i + 4 (mod 32)
  3. 3 цикла: 2 цикла с [XOR with key + Substitution + Permutation], последний [XOR with key + Substitution + XOR with key]
  4. Вход: S-box №1 (10; 1), второй: S-box №3 (8; 6).

Учитывая список из файла Word, по парам открытых и закрытых текстов во втором файле формата .txt и нужно было восстановить ключ.

Разбор первой части задания, с непонятным текстом, следовало начинать с определения кодировки, с этим успешно справлялись многие онлайн-декодеры (в частности, этот).

После использования декодера, получался уже более осмысленный текст, со знаками препинания, наводящий на мысль о шифровании путем замены символа на символ. Однако самый простой вариант – шифр Цезаря – здесь ничем не помог. Дальнейшие направления мысли сводились к частотному криптоанализу. Здесь, как и в случае с определением кодировки, существуют сервисы , позволяющие провести частотный анализ текста.

Результат частотного анализа введенного текста
Проведен анализ текста
Количество символов в тексте 910
Количество пробелов 114
Количество цифр 0
Количество точек и запятых 16
Количество английских букв 53
Количество русских букв 715

Посимвольная статистика и частотный анализ
Символ встречается 114 раз. Частота 12.53%
Символ ю встречается 86 раз. Частота 9.45%
Символ ц встречается 80 раз. Частота 8.79%
Символ ф встречается 63 раз. Частота 6.92%
Символ ь встречается 52 раз. Частота 5.71%
Символ ы встречается 50 раз. Частота 5.49%
Символ я встречается 43 раз. Частота 4.73%
Символ щ встречается 38 раз. Частота 4.18%
Символ ъ встречается 31 раз. Частота 3.41%
Символ о встречается 30 раз. Частота 3.30%
Символ o встречается 28 раз. Частота 3.08%
Символ ч встречается 27 раз. Частота 2.97%
Символ б встречается 22 раз. Частота 2.42%
Символ х встречается 21 раз. Частота 2.31%
Символ л встречается 19 раз. Частота 2.09%
Символ к встречается 16 раз. Частота 1.76%
Символ м встречается 16 раз. Частота 1.76%
Символ э встречается 14 раз. Частота 1.54%
Символ н встречается 14 раз. Частота 1.54%
Символ г встречается 13 раз. Частота 1.43%
Символ ё встречается 12 раз. Частота 1.32%
Символ с встречается 11 раз. Частота 1.21%
Символ р встречается 11 раз. Частота 1.21%
Символ c встречается 11 раз. Частота 1.21%
Символ т встречается 11 раз. Частота 1.21%
Символ p встречается 11 раз. Частота 1.21%
Символ. встречается 9 раз. Частота 0.99%
Символ ж встречается 9 раз. Частота 0.99%
Символ д встречается 9 раз. Частота 0.99%
Символ в встречается 7 раз. Частота 0.77%
Символ, встречается 7 раз. Частота 0.77%
Символ е встречается 6 раз. Частота 0.66%
Символ у встречается 6 раз. Частота 0.66%
Символ п встречается 5 раз. Частота 0.55%
Символ и встречается 4 раз. Частота 0.44%
Символ й встречается 1 раз. Частота 0.11%
Символ a встречается 1 раз. Частота 0.11%
Символ d встречается 1 раз. Частота 0.11%
Символ s встречается 1 раз. Частота 0.11%

Из результатов анализа видно, что в тексте не две английские буквы (обратите внимание на загадочное DЫS, которое может быть DES, DOS, DNS и так далее), а целых 53! Можно было потрудиться и написать программку, перебирающую буквы, которые одинаково выглядят как в русском, так и в английском варианте (например, очевидные o, e, p), а можно было погуглить и найти программку , которая подсветит английские буквы:

Внимательные участники могли заметить повторяющиеся слова, являющиеся, скорее всего, различными формами одного и того же слова:

щонныяыфЕoцътфюую
щoнныяыфЕоцътфлм
щoнныяыфЕоцътфюэг

Логично предположить, что наиболее краткая форма слова из этих трех – это именительный падеж, слово из 16 букв, в котором буквы 3 и 4 – одинаковые. Всего слов из 16 букв, если верить словарю, не так-то много: 759. А таких, чтобы третья и четвертые буквы совпадали, тем более. Можно было реализовать программку, подбирающую слова, подходящие по маске к зашифрованному, а можно было просто проверить слова из 16 букв с удвоенными на 3 и 4 позициях. Даже если проверять вручную, выбор невелик:

беззастенчивость
баллотировальник
гелленологофобия
коллаборационизм
коллаборационист
коллекционерство
целлофанирование
коммерциализация
пессимистичность
рассудительность
дифференцировать

Но буквы на позициях 2 и 10 также должны совпадать! По такому параметру подходит только слово «дифференцировать», и если попробовать осуществить такую замену символов, текст станет уже более читаемым, хоть и не до конца, откуда становится понятно, что искомое слово – не «дифференцировать», а «дифференциальный». Связав со второй частью задания, DЫS превращается в DES, еще немного упрощая задачу, а конечный вариант текста выглядит так:

«Идея дифференциального криптоанализа базируется на вероятностных отношениях между входными разностями и разностями выхода. Два отношения представляют конкретный интерес в анализе: дифференциальный профайл и характеристика раунда. Дифференциальный профайл показывает вероятностное отношение между входными разностями и разностями выхода блока. Подобные профайлы могут быть созданы для каждого из восьми блоков в DЕS. Характеристика раунда подобна дифференциальному профайлу, но вычисляется для целого раунда. Она показывает вероятность, с которой одна входная разность создала бы разность определённого выхода. Обратите внимание, что характеристика одна и та же для каждого раунда, потому что любое отношение, которое включает разности, не зависит от ключей раунда. Используй дифференциальный криптоанализ для прохождения второй части задания, или же иди напролом. А ключ к этой части задания — частотный анализ.

Вот мы и получили ключ к первой части задания, однако если вводить «частотныйанализ» в поле ввода, выскакивает сообщение о том, что ключ неверен. Что делать? Все просто: от этой фразы нужно было взять MD5-хеш. Profit! Кстати, writeup по этому заданию уже опубликовал один из наших участников здесь, пройдя его немного по-другому, но, тем не менее, добившись успеха!

Как уже было написано в расшифрованном тексте, вторую часть задания можно было пройти двумя способами:

  • реализовать дифференциальный криптоанализ;
  • забрутфорсить ключ, используя пары открытый-закрытый текст.

Большинство участников выбрали второй способ прохождения (и их можно понять, ведь реализовать криптоанализ все же трудозатратнее), поэтому этот способ мы разберем подробнее.

В его основу положена неравномерность распределения поразрядных разностей по модулю 2 пар открытых и соответствующих им зашифрованных текстов. Для атаки с использованием дифференциального метода требуется наличие подобранных открытых и соответствующих зашифрованных текстов, это условие выполнялось.
Участникам, неискушенным в криптоанализе, для прохождения задания именно этим способом, пришлось бы достаточно потрудиться, а именно:

  1. Разобраться в том, что такое дифференциал цикла шифрования.
  2. Изучить понятие дифференциальной характеристики.
  3. Понять, как работают подстановка и перестановка.

Дифференциал i-го цикла шифрования – это пара векторов a и b, такая, что пара открытых текстов (x1 и x2) с разностью a может перейти после i-го цикла в пару выходных текстов (y1 и y2) с разностью b. Дифференциальная характеристика представляет собой последовательность одноцикловых дифференциалов, при этом выходная разность текстов для предыдущего цикла совпадает с входной разностью текстов последующего цикла.

Блочный шифр имеет длину блока и ключа по 32 бита (об этом можно догадаться, посмотрев на условие 2 в списке). Зашифрование, как уже было указано в списке документа .docx, выполняется на 3 циклах, каждый из которых содержит XOR с ключом, замену 4-битовых слов (подстановка, Substitution), и два цикла содержат перестановку (Permutation). При выполнении перестановки бит с позиции i перемещается на позицию 9*i + 4 (mod 32).

К слову, перестановка вызвала значительные затруднения у участников из-за своей нетривиальности: на входе нумерация битов идет от 1 до 32, а на выходе — от 0 до 31 (пример: Permutation(0x12345678)=0хB3E29180). Однако после публикации подсказки в Twitter, участники стали активно проходить задание!

Общий алгоритм прохождения задания методом дифференциального криптоанализа:

  1. Используя пару открытых текстов, смотрим разность для этой пары на выходе 2 цикла
  2. Используя пару выходных шифртекстов после 3 цикла, выполняем их обратные преобразования, вычисляя обратную подстановку и делая XOR с ключом.
  3. Вычисляем разность для преобразованных шифртекстов.
  4. Сравниваем разности для преобразованных шифртекстов и для пары открытых текстов.
  5. Ищем совпадающие биты, если они есть, увеличиваем счетчик числа совпадений.
  6. Перебрав все кусочки ключа (2 по 4 бита, итого — 8 битов), смотрим, для какого (или для каких) наибольшее количество совпадений. Это и будет искомой частью ключа.
  7. Повторяем, выбирая другие активные блоки и строим новую характеристику, для определения уже другой части ключа. Делаем, пока либо все 32 бита не будут вскрыты, либо пока не будет вскрыта большая часть ключа — остальное можно забрутить.

Перейдем к прохождению задания методом брутфорса! Можно было реализовать программу, которая осуществляет брутфорс параллельно на всех ядрах процессора. Помимо этого, конечно, требовалось быть внимательными при реализации подстановки и перестановки.

Любопытно, что для некоторых пар открытых и соответствующих им зашифрованных текстов программа могла найти и не один ключ (в частности, для самой первой пары). От найденного значения, как и в первой части задания, нужно было найти MD5-хеш.

источник

Для пользователя ценность компьютера определяется преимущественно качеством и многообразием существующих программ.

Программа SPSS очень мощным и широко распространенным средством компьютерного анализа данных в психологии и социальных науках. SPSS – это аббревиатура от Statistical Package for the Social Science (статистический пакет для социальных наук). Как следует из названия, SPSS представляет собой множество различных программ, предназначенных для анализа данных в социальных науках(http://ru.wikipedia.org/wiki/SPSS). Эти программы позволяют организовывать ввод данных, гибко менять их структуру, применять к ним самые современные методы обработки или их последовательность и получать результаты в удобной и наглядной форме. Все это множество программ объединено в единую систему, обеспечивающую простой и дружественный диалог с исследователем и снабженную исчерпывающей справочной поддержкой. Официальный русскоязычный сайт программы -http://www.predictivesolutions.ru/. Окно программы показано на рисунке 3.1.

Рисунок 3.1 – Окно программы SPSS

Программное обеспечение IBM SPSS — всеобъемлющий комплекс инструментов для прогностической аналитики и анализа данных.

Внедрение аналитики в действующие бизнес-процессы компании позволит лучше узнать своих клиентов, улучшить результаты деятельности компании, усилить конкурентные позиции на рынке, увеличить выручку компании.

Программное обеспечение IBM SPSS поможет:

— собрать всю необходимую информацию о вкусах и мнениях потребителей;

— прогнозировать реакцию клиентов на специальные предложения до того, как они осуществятся;

— влиять на результаты деятельности компании за счет внедрения прогностической аналитики в бизнес-процессы.

Анализ данных с применением компьютера включает выполнение ряда необходимых шагов:

1. Определение структуры данных.

2. Ввод данных в компьютер в соответствии с их структурой и требованиями программы.

3. Задание метода данных в соответствии с задачами исследователя.

4. Получение результата обработки данных.

5. Интерпретация результата обработки данных.

Шаги 1 и 5 не способна выполнить не одна компьютерная программа – их необходимо делать самому исследователю. Помощь компьютера (шаги 2 – 4) заключается в переходе от длинной последовательности расчетов к более компактной их последовательности. Исследователь вводит массив данных, который не недоступен осмыслению, но пригоден для компьютерной обработки (шаг 2). Затем исследователь дает программе команду на обработку данных в соответствии с задачей исследования и структурой данных (шаг 3). В итоге исследователь получает результат обработки (шаг 4) – тоже массив данных, но меньший, доступный осмыслению и содержательной интерпретации.

Основные виды статистического анализа компьютерной обработки данных в программе SPSS:

1. Частотный анализ. Любое научное психологическое исследование начинается с частотного анализа. Частотный анализ является самым примитивным видом статистической обработки данных. Данный вид анализа можно производить вручную, но это займет на порядок больше времени и сил, чем подсчет частот при помощи компьютера.

Частота – это количество объектов в выборке, имеющих данное значение признака. Так, например, в приложении 1 представлен пример частотного анализа по шкалам «пол», «возраст» и «семейное положение». Как видно из таблицы (столбец Frequency), выборку составило 6 респондентов женского пола и 3 респондента мужского пола. Из них 2 респондентам 29 лет, 3-м 30 лет, 2-м 34 года, 35 лет одному респонденту и 36 лет также одному респонденту. 5 из опрошенных человек состоят в браке, 4 человека разведены.

Также частотный анализ позволяет увидеть процентное соотношение данных групп респондентов (столбик Percent).

2. Статистические критерии. Множество задач психологического исследования предполагает те или иные сопоставления. Мы сопоставляем группы испытуемых по ка­кому-либо признаку, чтобы выявить различия между ними по этому признаку. Мы сопоставляем то, что было «до» с тем, что стало «после» наших экспериментальных или любых иных воздействий, чтобы определить эффективность этих воздействий. Мы сопоставляем эмпирическое распределение значений признака с каким-либо теоретическим законом распределения или два эмпирических распределения между собой, с тем, чтобы доказать неслучайность выбора альтернатив или различия в форме распределений.

Мы, далее, можем сопоставлять два признака, измеренные на одной и той же выборке испытуемых, для того, чтобы установить степень согласованности их изменений, их сопряженность, корреляцию между ними.

Наконец, мы можем сопоставлять индивидуальные значения, полученные при разных комбинациях каких-либо существенных условий, с тем, чтобы выявить характер взаимодействия этих условий в их влиянии на индивидуальные значения признака.

3. Коэффициент корреляции.Корреляция (или коэффициент корреляции – «r») – это статистический показатель вероятностной связи между двумя переменными. Выделяют положительную корреляцию, отсутствие корреляции и отрицательную корреляцию.

Так, положительная корреляция соответствует значениям 0 0,05) связь признается статистически недостоверной и не подлежит содержательной интерпретации.

SPSS состоит из нескольких независимых модулей, каждый из которых специализируется на решении определенных задач.

Модуль IBM SPSS Data Collection.Специализация — сбор данных.

Программная платформа IBM SPSS Data Collection позволит проводить опросы и маркетинговые исследования наиболее эффективным способом: по телефону, с помощью портативных компьютеров, или в сети Интернет. Продукты IBM SPSS Data Collection предлагают наиболее короткий путь от сбора данных до получения практических результатов.

Модуль IBM SPSS Modeler. Специализация – моделирование.

Принимать обоснованные бизнес-решения, опираясь на надежные модели, поможет программное обеспечение IBM SPSS Modeler (ранее — Clementine). Это семейство программных продуктов является признанным инструментом Data Mining, позволяет обнаруживать скрытые закономерности, предсказывать и оценивать возможные результаты альтернативных вариантов действий.

Модуль IBM SPSS Statistics. Специализация — статистический анализ.

Программные продукты IBM SPSS Statistics позволяют эффективно анализировать данные, находить решения бизнес- и исследовательских задач, наглядно представлять результаты в виде таблиц и диаграмм, а также распространять и внедрять полученные результаты. Свыше 250 000 аналитиков по всему миру опираются в анализе данных на пакет IBM SPSS Statitsitcs!

Модуль IBM SPSS Collaboration and Deployment Services. Специализация — интеграция и внедрение в бизнес-процессы.

Аналитика становится неотъемлемой составляющей повседневных процессов принятия решений. Семейство продуктов IBM SPSS Collaboration & Deployment Services, предназначено для быстрого и надежного внедрения прогностической аналитики во все процессы принятия решений.

Также данная программа позволяет производить ряд других статистических расчетов, таких как факторный, дисперсионный, кластерный анализ.

Контрольные вопросы

1. Какими профессионально-ориентированными Вы пользуетесь в сети Интернет?

2. Роль статистического анализа в психологических исследованиях.

3. Расскажите об основные возможности программного пакета IBM SPSS. Какие модули пользуются набольшей популярностью?

4. Какие шаги включает анализ данных с применением компьютера?

5. Опишите виды статистического анализа компьютерной обработки данных в программе SPSS.

Практические задания

Внедрение компьютерных ресурсов в психологическую деятельность открывает множество новых и неоценимых возможностей, таких как:

— проведение дистанционной психодиагностики, коррекционно-развивающая работа в on-line режиме,

— математическое моделирование психологических процессов,

— разработка новых автоматизированных психодиагностических методик,

— изучение человеческого фактора в технике методами инженерной психологии и многое другое.

Важно отметить, что психологическая практика – это, прежде всего, общение между психологом и его клиентом, поэтому использование компьютерных возможностей должно быть очень осторожным. Существует ряд проблем, связанных с внедрением компьютерных методов в психологическую практику. Однако для некоторых людей именно on-line консультирование является единственно возможным способом обращения за психологической помощью.

Использование компьютерных технологий является обязательным условием при проведении научного исследования. Развитие современных технологий предлагает ряд компьютерных программ, обеспечивающих:

— повышение эффективности работы за счет быстроты обработки данных и получения результатов тестирования;

— сокращение сроков проведения психологического тестирования за счет одновременного тестирования нескольких испытуемых;

— освобождения от трудоемких рутинных операций;

— повышения «чистоты» эксперимента за счет увеличения точности регистрации результатов и исключение ошибок обработки исходных данных;

— более наглядное и менее трудоемкое представление полученных данных.

Список литературы

1. В.В. Наумов. Общение и электронное обучение [Электронный ресурс]. – 2000. – Режим доступа: http://psyfactor.org/lib/naumov3.htm.

2. Дюк В.А. Компьютерная психодиагностика – СПб.: Питер, 1994.

3. Информационные технологии. [Электронный ресурс]. – Режим доступа: http://kunegin.narod.ru/index.html.

4. Сайт Кожича П.П. [Электронный ресурс] / Кожич П.П. — 2003. – Режим доступа: http://polkojich.com.

5. Наследов А.Д. Математические методы психологического исследования. Анализ и интерпретация данных. – СПб: Речь, 2004г.

6. Большой психологический словарь / под ред. Б.Г. Мещеряков, В. П. Зинченко – СПб: «Прайм-ЕВРОЗНАК» — 2007 – 672с.

7. Бююль А.. SPSS: Искусство обработки информации / А. Бююль, П. Цёфель – . М., 2002

8. В.В. Наумов. Общение и электронное обучение [Электронный ресурс]. – 2000. – Режим доступа: http://psyfactor.org/lib/naumov3.htm.

9. Дюк В.А. Компьютерная психодиагностика – СПб.: Питер, 1994.

10. Информационные системы. [Электронный ресурс]. – Режим доступа: http://www.islu.ru/k_inform/infsystekst.html

11. Информационные технологии управления: Учебн. пособие для вузов/ Под ред. проф. Г.А.Титоренко. – М.: ЮНИТИ – ДАНА, 2003.

12. Информационные технологии. [Электронный ресурс]. – Режим доступа: http://kunegin.narod.ru/index.html.

13. Использование современных информационных технологий в работе с населением. [Электронный ресурс]. – Режим доступа: http://koi.www.expos.ru/it/it.shtml. – Дата доступа: 12.11.10.

14. Макарова Н. В., Матвеева Л. А., Бройдо В. Л. Информатика: Учебник. – М.: Финансы и статистика, 1997.

15. Нейл Дж. Рубенкинг. Эффективный поиск в Интернете// PC Magazine. – 2001. – №6.

16. Сайт Кожича П.П. [Электронный ресурс] / Кожич П.П. — 2003. – Режим доступа: http://polkojich.com.

17. Сидоренко Е.В. Методы математической обработки в психологии. – СПб: Социально-психологический центр, 2001 г.

18. Талантов М. Поиск в Интернете: использование имён// Компьютер Пресс. – 2000. – №2.

19. Тихомиров О.К., Знаков В.В. Психология и информатика: перспективы взаимодействия// Вопросы психологии [Электронный ресурс]. – 1986. – Режим доступа: http://www.voppsy.ru/issues/1986/866/866151.htm.

20. Тришина С.В. Средства информационно-коммуникативных технологий при обучении информатике. // [Электронный ресурс]. – 2004. – Режим доступа: http://www.ito.edu.ru/2004/Moscow/VIII/VIII-0-4305.html.

Дата добавления: 2014-01-15 ; Просмотров: 5029 ; Нарушение авторских прав? ;

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

источник

Статистика — мощный инструмент в Data Science. Она позволяет извлечь информацию из данных, узнать их структуру и на основе полученной информации провести дальнейший анализ. В этой статье будет рассмотрено 5 базовых концепций статистики, которые следует знать data scientist’ам.

Статистические характеристики — наверное, наиболее часто используемая статистическая концепция в Data Science. Обычно это первое, что применяют при исследовании набора данных. В эту концепцию входят такие понятия как отклонение, дисперсия, среднее значение, медиана, процентили и многие другие. Их довольно легко понять и реализовать в коде:

Линия посередине — это медианное значение данных. Медиану используют вместо среднего значения по той причине, что она более устойчива к аномальным значениям в данных. Первый квартиль — это 25 процентиль, т.е. 25% значений в данных находятся ниже этого значения. Третий квартиль — это 75 процентиль, т.е. 75% значений в данных находятся ниже этого значения. Минимальное и максимальное значения отражают нижнюю и верхнюю границы диапазона данных.

Ящик с усами прекрасно демонстрирует, что мы можем сделать с основными статистическими характеристиками:

  • Когда этот ящик короткий, то можно сделать вывод, что большинство значений в данных похожи, так как много значений находится на небольшом расстоянии друг от друга.
  • Когда ящик длинный, то можно сделать обратный вывод: большинство значений отличаются друг от друга.
  • Если медианное значение ближе к низу, то можно сказать, что большая часть данных имеет более низкие значения. Если оно ближе к верху, то большая часть данных имеет более высокие значения. По сути, если медиана не находится по центру ящика, то это показатель того, что данные неравномерны.
  • Усы очень длинные? Значит, данные имеют высокое стандартное отклонение и дисперсию, т.е. значения сильно разбросаны и отличаются друг от друга. Если усы длинные только с одной стороны ящика, то, возможно, данные заметно изменяются только в одном направлении.

Используйте статистические характеристики для быстрой, но при этом информативной оценки ваших данных.

Вероятность можно определить как процентный шанс того, что какое-то событие произойдёт. В Data Science вероятность находится в пределах от 0 до 1, где 0 означает, что событие точно не произойдёт, а 1 — что точно произойдёт. Распределение вероятностей — это функция, которая отображает вероятности всех возможных значений. Рассмотрим основные виды распределений.

Равномерное распределение — самое базовое из представленных здесь. У него есть единственное значение, которое встречается только в определённом диапазоне, а всё, что находится за его пределами, равно нулю. Это распределение можно воспринимать как признак категориальной переменной с двумя категориями: 0 и значением. У такой переменной могут быть и другие значения, отличные от нуля, но это не мешает изобразить её в виде функции, состоящей из нескольких равномерных распределений.

Нормальное распределение или распределение Гаусса определяется медианой и стандартным отклонением. Медиана сдвигает распределение в пространстве, а отклонение влияет на масштаб. Важное отличие этого распределения от других заключается в том, что стандартное отклонение одинаково во всех направлениях. Таким образом, с распределением Гаусса чётко видно среднее значение в наборе данных. Также становится наглядным распределение данных, т.е. распределены ли они на большом промежутке или же сконцентрированы вокруг нескольких значений.

Распределение Пуассона похоже на нормальное, но с дополнительным коэффициентом асимметрии. При низком коэффициенте значения распределены относительно равномерно во все стороны, как при нормальном распределении. Если же он высокий, то распределение данных будет разным в разных направлениях — в одном данные будут сильно распределены, а в другом — сильно сконцентрированы.

Существует гораздо больше распределений, но этих трёх достаточно для понимания основ. С помощью равномерного распределения можно быстро рассмотреть и интерпретировать категориальные переменные. При нормальном распределении существует много алгоритмов, которые по умолчанию хорошо работают с этим распределением. При распределении Пуассона нужно внимательно подойти к выбору алгоритма, потому что он должен быть устойчив к изменениям в пространственном распределении.

Этот термин легко понять интуитивно. Есть набор данных и нужно уменьшить количество его измерений. В Data Science под этим подразумевается количество переменных признаков:

Куб представляет набор данных, имеет три измерения и содержит 1000 точек. Конечно, при современных вычислительных мощностях таким количеством никого не напугать, но когда это число начнёт расти, могут появиться проблемы. Однако, если посмотреть на данные с двухмерной точки зрения, можно увидеть, что с такого угла легко разделить все цвета. С помощью снижения размерности можно спроецировать 3D-данные на 2D-плоскость, что эффективно снижает количество точек для вычисления до 100 единиц.

Снизить размерность также можно с помощью отбрасывания маловажных признаков. Например, после изучения набора данных было выявлено, что из 10 признаков 7 сильно коррелируют с выходом, а остальные 3 — нет. Значит, 3 этих признака не стоят траты ресурсов на них и их можно исключить без вреда для выхода.

Наиболее распространённый метод для снижения размерности — метод главных компонент (PCA), который создаёт векторные представления признаков, тем самым показывая их связь с выходом. PCA можно использовать для обоих вариантов снижения размерности, описанных выше.

Оверсемплинг и андерсемплинг используются в задачах классификации. Порой набор данных для классификации сильно сдвинут в одну сторону. Например, для класса 1 может быть 2000 примеров, а для класса 2 — всего 200. Это негативно повлияет на многие методы машинного обучения, которые используются для моделирования данных и составления предсказаний. Овер- и андерсемплинг нужны как раз для таких случаев:

На обеих сторонах этой картинки синий класс содержит гораздо больше данных, чем оранжевый. В такой ситуации можно предпринять один из двух шагов для препроцессинга данных перед их использованием для обучения моделей.

источник

С этим понятием вы не раз встречались в жизни, если вам приходилось работать с текстами. В частности, вы могли обращаться к онлайн-калькуляторам, осуществляющим именно частотный анализ текста. Эти удобные инструменты показывают, сколько раз тот или иной символ или буква встречались в каком-либо отрывке текста. Нередко показывается и процентное соотношение. Зачем это нужно? Как частотный анализ текста способствует «взлому» простых шифров? В чем его суть, кто его изобрел? На эти и другие важные вопросы по теме мы ответим по ходу статьи.

Частотный анализ выступает одной из разновидностей криптоанализа. Он основывается на предположении ученых о существовании статистического нетривиального распределения отдельных символов и их закономерных последовательностей как в открытом, так и шифрованном видах текста.

Считается, что подобное распределение с точностью до замены отдельных символов будет сохраняться также в процессах шифрования/дешифрования.

Разберем теперь частотный анализ простым языком. Здесь подразумевается, что количество появлений одного и того же символа алфавита в текстах достаточной длины одно и то же в различных текстах, написанных на одном и том же языке.

И что теперь с моноалфавитным шифрованием? Предполагается, что если в участке с шифрованным текстом будет символ с такой аналогичной вероятностью появления, то реально предположить, что именно он и есть та зашифрованная буква.

Такие же рассуждения последователи частотного анализа текста применяют и по отношении к биграммам (последовательностям из двух букв). Триграммам — это для случая уже полиалфавитных шифров.

Частотный анализ слов не является находкой современности. Научному миру он известен еще с IX века. Его создание связывают с именем Ал-Кинди.

Но известные случаи применения метода частотного анализа относятся к гораздо более позднему периоду. Самым ярким примером здесь можно назвать дешифровку египетских иероглифов, произведенную в 1822 году Ж.-Ф. Шампольоном.

Если мы обратимся к художественной литературе, то можем найти немало любопытных отсылов к подобному методу дешифровки:

  • Конан Дойль — «Плящущие человечки».
  • Жюль Верн — «Дети капитана Гранта».
  • Эдгар По — «Золотой жук».

Однако начиная с середины прошлого века большинство используемых алгоритмов в шифровании разрабатывается с учетом их устойчивости к подобному частотному криптоанализу. Поэтому его сегодня применяют чаще всего лишь для обучения будущих криптографов.

Представим теперь анализ частотных характеристик детально. Эта разновидность анализа прямо базируется на том, что тест состоит из слов, а те, в свою очередь, из букв. Количество букв, наполняющих национальные алфавиты, ограничено. Буквы могут быть тут просто перечислены.

Важнейшими характеристиками подобного текста будет как повторяемость букв, различных биграмм, триграмм и n-грамм, так и сочетаемость различных букв друг с другом, чередование согласных/гласных и других разновидностей данных символов.

Главная идея методов — в подсчете вхождений из возможных n-грамм (обозначается nm) в достаточно длинных для анализа открытых текстах (обозначаются T=t1t2…tl), составленных из букв национального алфавита (обозначаются ). Все вышеперечисленное обуславливает некоторые идущие подряд m-граммы текста:

t1t2. tm, t2t3. tm+1, . ti-m+1tl-m+2. tl.

Если это – количество появлений m-граммы ai1ai2. aim в определенном тексте T, а L – общее число проанализированных исследователем m-грамм, то опытным путем возможно установить, что при достаточно больших L частоты для такой m-граммы будут мало чем отличаться друг от друга.

А вот частотно-временной анализ, несмотря на похожее название, к теме нашего разговора никакого отношения не имеет. Такого рода анализ осуществляется в отношении сигналов малозаметных радиолокационных станций при помощи специального вейвлет-преобразования.

Вернемся теперь к главной теме. При проведении частотного анализа можно выяснить, какие буквы русского алфавита встречаются в достаточно объемных текстах чаще всего (процентное отношение от 0,062 до 0,018):

Введено даже специальное мнемоническое правило, которое помогает усвоить самые распространенные буквы русского алфавита. Для этого достаточно запомнить всего одно слово — «сеновалитр».

В общих случаях частота использования букв в процентном выражении устанавливается просто: специалист подсчитывает, сколько раз буква встречается в тексте, затем делит получившееся значение на общее количество символов в тексте. А для выражения данной величины в процентах достаточно умножить ее на 100.

Важно учитывать, что частотность будет зависит не только от объема текста, но также и от его характера. К примеру, в технических источниках буква «Ф» фигурирует гораздо чаще, нежели в художественных. Поэтому для объективных результатов специалист должен набирать для исследования тексты различного характера и стилистики.

В осмысленных текстах также можно встретить самые распространенные (соответственно, самые повторяющиеся) сочетания из двух и более букв. Специалистами составлено и несколько таблиц, где указаны частоты подобных биграмм разнообразных алфавитов.

Что касается русского, то частотный анализ систем объемных осмысленных текстов позволил установить самые распространенные биграммы и триграммы:

И это еще не все возможности, которые может предоставить частотный анализ исследователям текста. Систематизировав информацию из подобных таблиц биграмм и триграмм, реально извлечь данные о самых распространенных сочетаниях букв. Или, другими словами, их предпочтительных связях между собой.

Такое обширное исследование уже было проведено специалистами. Его результатом стала таблица, где вместе с каждой буквой алфавита были указаны ее соседи. Притом те символы, которые часто встречаются как непосредственно перед ней, так и после нее. Буквы в таблице прописаны не случайно. Ближе к символу обозначены самые частые соседи, дальше — более редкие.

  • Буква «А». Тут выделяются следующие предпочтительные связи: л-д-к-т-в-р-н-А-л-н-с-т-р-в-к-м. Отсюда мы видим, что чаще всего перед «А» в текстах идет «Н» («НА»). А после «А» чаще всего в текстах на русском языке мы можем встретить «Л» («АЛ»).
  • Буква «М». Специалисты выделили такие предпочтительные связи: «я-ы-а-и-е-о-М-и-е-о-у-а-н-п-ы».
  • Буква «Ь». Предпочтительные связи следующие: «н-с-т-л-Ь-н-к-в-п-с-е-о-и».
  • Буква «Щ». Предпочтительные связи: «е-б-а-я-ю-Щ-е-и-а».
  • Буква «П». Предпочтительные связи с данным символом русского алфавита: «в-с-у-а-и-е-о-П-о-р-е-а-у-и-л».

Современные программы частотного анализа текста помогают изучить большие объемы самых разнообразных статей, сочинений, отрывков и проч. Исследователю стандартно предоставляется следующая информация:

  • Общее количество символов в тексте.
  • Число использованных автором пробелов.
  • Количество цифр.
  • Информация об использованных знаках препинания — точках, запятых и проч.
  • Количество букв каждого из имеющихся алфавитов — кириллицы, латиницы и проч.
  • Информация о частоте использования каждой буквы и символа в тексте — количество упоминаний и процентная величина в сравнении со всем текстом.

Зачем проводится частотный анализ текста? Только ли с целью любопытства — установить, какие символы в написанном тексте оказались часто встречаемыми? Нет, главное применение анализа — практическое, и оно заключается в другом.

К N-граммам относятся не только устойчивые биграммы и триграммы. К этой же категории можно отнести ключевые слова (теги), коллокации. То есть устойчивые сочетания, состоящие из двух и более слов. Их отличает факт, что такие композиции встречаются в тексте вместе и при этом несут определенную смысловую нагрузку.

Это на руку недобросовестным СЕО-специалистам. В своей работе они порой злоупотребляют повторением в тексте тегов, ключевых слов, чтобы искусственно повысить релевантность той или иной интернет-страницы. Они стараются обмануть систему и таким «фокусом»: превращая естественное сочетание с обычным, традиционным для русского языка сочетанием слов («купить норковую шубу») в несогласованное. То есть, полученное перестановкой слов в такой естественной N-грамме («шубу норковую купить»).

Но сегодня поисковые алгоритмы научились определять переоптимизацию так же эффективно, как и переспам — перенасыщенность текста ключевыми словами, тегами, влияющими на ранжирование результатов на странице поиска. Чрезмерно оптимизированные страницы теперь, напротив, получают более низкое положение по запросу пользователя. Да и сами люди не стремятся читать бессмысленный, перенасыщенный тегами текст, предпочитая ему полезную информацию на другом ресурсе.

Таким образом, современные текстовые фильтры поисковиков отдают сегодня предпочтение тем интернет-страницам, информация на которых не только удобно читаема, но и полезна посетителям. Чтобы оптимизировать свою работу под новые стандарты, СЕО-специалисты и обращаются к частотному анализу текста. Его предоставляют сегодня многие популярные сервисы.

Частотный анализ помогает пересмотреть готовящийся к публикации текст на информативность. Исключить ненужную избыточность тегов и ключевых фраз. Позволяет также обратить внимание автора и на неестественные сочетания слов, которые вызывают подозрение у текстовых фильтров поисковых систем.

Частотный анализ текста, таким образом, помогает определить частоту упоминания того или иного символа в источнике. Метод сегодня применяется для оценки перенасыщенности текста тегами, неестественными перестановками слов.

источник