Меню Рубрики

Кластерный анализ как определить количество кластеров

Поскольку кластерный анализ предназначен для создания однородных групп, естественно рассмотреть процедуры, позволяющие определить число полученных групп. Например, вложенная древовидная структура дендрограммы указывает на то, что в данных может находиться много различных групп, и правомерен вопрос: где нужно «обрезать» дерево, чтобы получить оптимальное число групп? Точно так же и при работе с итеративными методами пользователь должен указать число групп, присутствующих в данных, еще до создания этих групп.

К сожалению, эта проблема до сих пор находится среди нерешенных задач кластерного анализа из-за отсутствия подходящей нулевой гипотезы и сложной природы многомерных выборочных распределений.

Затруднения в создании работоспособной нулевой гипотезы вызывает отсутствие непротиворечивого и универсального определения кластерной структуры. Но, как мы уже указывали, появление такого определения маловероятно. Понятие «отсутствие структуры» в наборе данных (одна из возможных нулевых гипотез) весьма далеко от ясности, и непонятно, каким должен быть тест, позволяющий определить, есть ли в данных структура или нет. Уже созданные нулевые гипотезы (такие, как гипотеза случайного графа и гипотеза случайного положения), возможно, и полезны, но исчерпывают далеко не все возможности и должны еще найти свое место в практическом анализе данных. В любом случае «отклонение нулевой гипотезы не имеет особого значения, потому что разумные альтернативные гипотезы еще не разработаны; практичного и математически полезного определения «кластерной структуры» нет до сих пор» (Dubes and Jain, 1980).

В той же степени не поддается решению задача о разделении смеси многомерных распределений в анализе реальных данных. Хотя многие вопросы многомерных нормальных распределений хорошо разработаны, все же реальные данные не будут соответствовать этому стандарту; более того, многие выборки реальных данных являются сложными смесями, имеющими различные многомерные выборочные распределения неизвестной структуры. Поскольку не существует статистической теории и теории распределений, которые помогли бы в разделении этих смесей, также неразумно ожидать появления формальных тестов для целей кластерного анализа.

Реакция на эти ограничения была различной. В некоторых отраслях, особенно в биологии, задача определения числа кластеров не имеет первостепенной важности просто потому, что целью анализа является предварительное исследование общей картины зависимостей между объектами, представленной в виде иерархического дерева. Однако в социальных науках развиваются два основных подхода к определению числа присутствующих кластеров: эвристические процедуры и формальные тесты.

Эвристические процедуры — несомненно наиболее часто используемые методы. На самом верхнем базисном уровне иерархическое дерево «обрезается» после субъективного просмотра различных уровней дерева. Для дендрограммы (рис. 8), изображающей результаты обработки полного набора данных о захоронениях методом Уорда, применяемых евклидово расстояние, субъективная обрезка дерева приведет к выделению двух кластеров одного уровня и, возможно, трех кластеров, если рассматривать различные уровни дерева. Эту процедуру вряд ли можно назвать удовлетворительной, поскольку обычно ее результаты зависят от нужд и представлений исследователей о «-структуре данных.

Более формальный, но все же эвристический подход к задаче состоит в том, чтобы графически изобразить число получаемых из иерархического дерева кластеров как функцию коэффициента слияния или смешения, равного числу способов объединения различных объектов в кластер. Значения коэффициентов слияния показаны вдоль оси У древовидной диаграммы.

Рис. 8. Дендрограмма метода Уорда для полного набора данных о захоронениях

Этот тест, вариант которого был предложен Торндайком в 1953 г., аналогичен критерию отсеивания факторного анализа. Заметное «уплощение» на этом графике говорит о том, что дальнейшее слияние кластеров не дает новой информации. На рис. 9 показан такой график для полного набора данных о захоронениях, полученный с помощью метода Уорда и евклидова расстояния. Уплощение кривой начинается вблизи решения из трех кластеров, и линия остается, по существу, плоской возле решения из двух кластеров. Отсюда следует, что в данных присутствуют три (но вероятнее всего два) кластера.

Другая субъективная процедура, несколько более формализованная, заключается в том, чтобы при новом просмотре значений коэффициента слияния найти значимые «скачки» значения коэффициента. Скачок означает, что объединяются два довольно несхожих кластера.

Рис. 9. График зависимости между числом кластеров и величиной коэффициента слияния, полученный с помощью метода Уорда для полного набора данных о захоронениях

Таким образом, число кластеров, предшествующее этому объединению, является наиболее вероятным решением. Ниже показаны коэффициенты слияния, соответствующие числу кластеров, которое для полного множества данных о захоронениях принимает значения от 10 до 1.

Как видим, между решениями из четырех и трех кластеров есть скачок, что приводит к выводу о допустимости решения из четырех кластеров. Одна из трудностей, связанная с этой процедурой, состоит в том, что можно найти много малых скачков значения коэффициента слияния, но совершенно невозможно исходя лишь из простого визуального обследования указать, какой из этих скачков «правильный».

Этот тест был обобщен в работах (Mojena, 1977, Mojena and Wishart, 1980). Там же была разработана эвристическая процедура, позволяющая лучше определить «значимый скачок» коэффициента. «Правило остановки № 1», как его определил Мойена, предписывает, что групповой уровень или оптимальное разбиение иерархической) кластерного решения получается, если удовлетворяется неравенство

где — величина коэффициента слияния; — величина коэффициента на этапе кластерного процесса; k — стандартное отклонение, a — среднее и стандартное отклонение коэффициентов слияния. Невыполнение неравенства говорит о том, что в данных имеется только один кластер.

На практике стандартное отклонение может быть вычислено на каждом этапе кластерного процесса, где k равно:

Значения коэффициента слияния для полного набора данных о захоронениях, обработанного методом кластеризации Уорда с использованием евклидова расстояния, были рассмотрены выше. Теперь приведем значения стандартного отклонения для решений, содержащих от 1 до 4 кластеров:

В этом случае согласно правилу остановки оптимальным считается решение из трех кластеров. Уишарт (1982) отметил, что можно оценить статистическую значимость результатов, полученных с помощью этого правила, используя -статистику с степенями свободы, где — число коэффициентов слияния.

Процедура заключается в перемножении квадратного корня из и значения стандартного отклонения к. В данном примере значения 4,79 (квадратный корень из 23) умножается на 9,74, в результате получаем 4,67. Значение значимо с уровнем 0,01 при 22 степенях свободы. Сейчас этот метод вместе с более сложным правилом встроен в процедуру CLUSTAN2.

Трудности, связанные с составными многомерными выборочными распределениями, мало сказались на разработке формальных статистических тестов, но широкое распространение получило лишь небольшое число этих тестов. Нулевая гипотеза, наиболее часто применяемая в статистических тестах, предполагает, что исследуемые данные являются случайной выборкой из генеральной совокупности с многомерным нормальным распределением. Вульф (1971), считая, что это предположение верно, предложил тест отношения правдоподобия для проверки гипотезы, что имеется , а не групп. Альтернативная гипотеза, разработанная Ли (1979), заключается в следующем: данные — это выборка из генеральной совокупности с равномерным распределением. Тест, основанный на альтернативной гипотезе, использует критерий внутригрупповой суммы квадратов. Он является полезной отправной точкой в определении возможных различий между кластерами. К сожалению, тест может работать только с одним признаком. Какая бы процедура ни была выбрана, пользователь должен постоянно сознавать, что лишь малая часть этих тестов подверглась широкому изучению. Таким образом, поскольку большинство тестов плохо изучено и эвристично, то результаты их использования должны приниматься с большой осторожностью. В идеале правила определения числа имеющихся в наличии кластеров должны использоваться совместно с подходящей процедурой проверки достоверности результатов (см. разд. IV), так как может случиться, что правило остановки рекомендует такое число кластеров, которое не подтверждается результатами измерений по другим критериям.

источник

Выбор числа кластеров является сложным вопросом. Предположения о числе кластеров могут базироваться на теоретических исследованиях или интуитивных соображениях.

Если нет предположений относительно этого числа, то можно использовать предварительный иерархический кластерный анализ. Процессу группировки объектов в иерархическом кластерном анализе соответствует постепенное возрастание коэффициента, называемого критерием . Скачкообразное увеличение значения критерияхарактеризует переход от сильно связанного к слабо связанному состоянию объектов. Число кластеров, которые действительно существуют в исследуемом наборе данных, рассчитывают как разность количества наблюдений (объектов) и количества шагов до скачкообразного увеличения коэффициента.

Если кластеризируемая совокупность слишком велика для иерархического анализа, то для предварительного определения числа кластеров можно произвести иерархический кластерный анализ на выборке из этой совокупности. Полученное число кластеров можно использовать для неиерархического анализа. Рекомендуется провести кластерный анализ для нескольких значений числа кластеров:,,.

В общем случае все этапы кластерного анализа взаимосвязаны, и решения, принятые на одном из них, определяют действия на последующих этапах.

1. Аналитику следует решить, использовать ли все наблюдения либо же исключить некоторые данные или выборки из набора данных.

2. Выбор метрики и метода стандартизации исходных данных.

3. Определение количества кластеров (для итеративного кластерного анализа).

4. Определение метода кластеризации (правила объединения или связи). По мнению многих специалистов, выбор метода кластеризации является решающим при определении формы и специфики кластеров.

5. Анализ результатов кластеризации. Этот этап подразумевает решение таких вопросов: не является ли полученное разбиение на кластеры случайным; является ли разбиение надежным и стабильным на подвыборках данных; существует ли взаимосвязь между результатами кластеризации и переменными, которые не участвовали в процессе кластеризации; можно ли интерпретировать полученные результаты кластеризации.

6. Проверка результатов кластеризации. Результаты кластеризации должны быть проверены формальными и неформальными методами. Формальные методы зависят от того метода, который использовался для кластеризации. Неформальные включают следующие процедуры проверки качества кластеризации:

анализ результатов кластеризации, полученных на определенных выборках набора данных;

проведение кластеризации при изменении порядка наблюдений в наборе данных;

проведение кластеризации при удалении некоторых наблюдений;

проведение кластеризации на небольших выборках.

Один из вариантов проверки качества кластеризации — использование нескольких методов и сравнение полученных результатов. Отсутствие подобия не будет означать некорректность результатов, но присутствие похожих групп считается признаком качественной кластеризации.

Как и любые другие методы, методы кластерного анализа имеют определенные слабые стороны, т.е. некоторые сложности, проблемы и ограничения.

При проведении кластерного анализа следует учитывать, что результаты кластеризации зависят от критериев разбиения совокупности исходных данных. При понижении размерности данных могут возникнуть определенные искажения, за счет обобщений могут потеряться некоторые индивидуальные характеристики объектов.

Существует ряд сложностей, которые следует продумать перед проведением кластеризации.

Сложность выбора характеристик, на основе которых проводится кластеризация. Необдуманный выбор приводит к неадекватному разбиению на кластеры и, как следствие, — к неверному решению задачи.

Сложность выбора метода кластеризации. Этот выбор требует неплохого знания методов и предпосылок их использования. Чтобы проверить эффективность конкретного метода в определенной предметной области, целесообразно применить следующую процедуру: рассматривают несколько априори различных между собой групп и перемешивают их представителей между собой случайным образом. Далее проводится кластеризация для восстановления исходного разбиения на кластеры. Доля совпадений объектов в выявленных и исходных группах является показателем эффективности работы метода.

Проблема выбора числа кластеров. Если нет никаких сведений относительно возможного числа кластеров, необходимо провести ряд экспериментов и, в результате перебора различного числа кластеров, выбрать оптимальное их число.

Проблема интерпретации результатов кластеризации. Форма кластеров в большинстве случаев определяется выбором метода объединения. Однако следует учитывать, что конкретные методы стремятся создавать кластеры определенных форм, даже если в исследуемом наборе данных кластеров на самом деле нет.

Выбор метода кластеризации зависит от количества данных и от того, есть ли необходимость работать одновременно с несколькими типами данных.

В пакете SPSS, например, при необходимости работы как с количественными (например, доход), так и с категориальными (например, семейное положение) переменными, а также при достаточно большом объеме данных используется метод Двухэтапного кластерного анализа. Этот метод представляет собой масштабируемую процедуру кластерного анализа, позволяющую работать с данными различных типов.

Для этого на первом этапе работы записи предварительно кластеризуются в большое количество суб-кластеров. На втором этапе полученные суб-кластеры группируются в необходимое количество. Если это количество неизвестно, процедура сама автоматически определяет его. При помощи этой процедуры банковский работник может, например, выделять группы людей, одновременно используя такие показатели как возраст, пол и уровень дохода. Полученные результаты позволяют определить клиентов, входящих в группы риска невозврата кредита.

В некоторых случаях требуется дополнительная подготовка данных перед проведением кластерного анализа. Пусть существует база данных клиентов фирмы, которых следует разбить на однородные группы. Каждый клиент описывается при помощи 25 переменных. Использование такого большого числа переменных приводит к выделению кластеров нечеткой структуры. В результате аналитику достаточно сложно интерпретировать полученные кластеры. Более понятные и прозрачные результаты кластеризации могут быть получены, если вместо множества исходных переменных использовать некие обобщенные переменные или факторы, содержащие в сжатом виде информацию о связях между переменными. Т.е. возникает задача понижения размерности данных до кластеризации. Она может решаться при помощи различных методов; один из наиболее распространенных — факторный анализ.

Читайте также:  Какие анализы сдать при кровотечение

источник

Следующим этапом кластерного анализа является объединение объектов в кластеры при использовании матрицы расстояний.

Методы объединения объектов в кластеры, или методы кластерного анализа, подразделяются на иерархические и итеративные.

Иерархические методы подразделяются на дивизимные и агломеративные.

В дивизимных процедурах на первом этапе все объекты объединены в один кластер, а на последнем этапе каждый объект представляет отдельный кластер. Другими словами, агломеративная процедура – это объединение объектов в кластеры, а дивизимная процедура – эго разбиение совокупности объектов на кластеры.

В агломеративных процедурах на первом этапе каждый объект представляет собой отдельный кластер, а на последнем этапе – один объединенный кластер из всех объектов.

Рассмотрим иерархические агломеративные методы кластеризации данных, как наиболее предпочитаемые в компьютерных программах. Целью этих методов является классификация объектов в кластеры на основе меры сходства или расстояния.

Преимущество иерархических процедур в том, что они позволяют проанализировать структуру исследуемого множества наблюдений и наглядно представить результаты кластеризации.

Результатом такой кластеризации является иерархическое дерево, график которого называется дендрограмма.

К недостаткам иерархических процедур следует отнести громоздкость вычислений и не всегда оптимальные разбиения на кластеры.

Перечислим пять методов объединения (связи), которые чаще всего используются в иерархических агломеративных методах кластеризации данных:

  • 1) межгрупповое связывание (between groups linkage). Другое название этого метода кластеризации – связывание средних внутри групп. Вычисляется наименьшее среднее значение расстояния между всеми нарами групп. На каждом шаге объединяются кластеры или объекты, расстояние между которыми минимально;
  • 2) одиночное связывание (nearest neighbor). Этот метод в отечественной литературе известен под названием «метод ближайшего соседа». Принцип действия этого метода заключается в том, что за расстояние между кластерами принимают расстояние между их ближайшими объектами. Другими словами, сначала объединяются два самых близких наблюдения, имеющих минимальное расстояние, после чего матрица расстояний пересчитывается заново. На последнем шаге все наблюдения будут объединены в один кластер;
  • 3) полное связывание (furthest neighbor). Чаще всего этот метод упоминается, как «метод дальнего соседа», в котором за расстояние между кластерами принимают расстояние между наиболее удаленными друг от друга их объектами;
  • 4) центроидная кластеризация (centro >

Итеративный метод кластерного анализа отличается от иерархического тем, что число кластеров определяется сразу, в самом начале анализа. Чаще всего в итеративном кластерном анализе применяется метод К-средних, являющийся наиболее популярным методом кластеризации. При иерархическом кластерном анализе оптимальное число кластеров определяется на заключительном этапе.

Метод К-средних был предложен в 1950-х гг. математиком Г. Штейнгаузом и почти одновременно С. Ллойдом. Алгоритм

метода К-средних заключается в минимизации суммы квадратов отклонений точек кластеров от центров этих кластеров. На каждой итерации центр масс пересчитывается для каждого кластера, полученного на предыдущем шаге. Алгоритм выполняется до тех пор, пока происходит изменения кластеров.

Метод К-средних существенно отличается от иерархического агломеративного метода и является итеративной процедурой, в результате которой на каждой итерации объекты перемещаются в различные кластеры. Метод /С-средних предполагает, что задается число кластеров, на которые надо разбить исходные объекты. Алгоритм этого метода таков: случайным образом отбираются k объектов, которые становятся центрами групп. Затем состав кластеров меняется с тем, чтобы минимизировать изменчивость внутри кластеров и максимизировать изменчивость между кластерами. Каждый следующий объект относится к той группе, мера сходства с центром тяжести которой минимальна. Далее вычисляется новый центр тяжести для кластера. Алгоритм будет повторяться до тех пор, пока состав кластеров не перестанет меняться.

Как было отмечено выше, при итеративном алгоритме кластерного анализа число кластеров должно быть задано.

Отметим, что проблема определения оптимального числа кластеров при иерархических процедурах кластерного анализа является нерешенной. Однако имеются некоторые подходы к ее решению.

Одним из результатов иерархического кластерного анализа является таблица слияния, которая содержит коэффициенты. Эти коэффициенты равны значению расстояния между кластерами, которые объединяются на данном шаге. Используя таблицу слияния, можно оценить оптимальное число кластеров. Необходимо проанализировать динамику разности между соседними коэффициентами по шагам кластеризации, другими словами – абсолютный прирост коэффициента. Требуется найти тот шаг, при котором абсолютный прирост коэффициента максимален, и определить оптимальное число кластеров. Для этого находим разность между числом объектов п и порядковыми номерами шагов (по отдельности), между которыми выявлен наибольший абсолютный прирост коэффициента.

Так, например, в расчетах по странам «Группы двадцати» (п = 20) и в таблице последовательного слияния наибольший абсолютный прирост коэффициента выявлен при переходе с 15-го на 16-й шаг: он равен 4,585. Следовательно, оптимальное число кластеров равно пяти кластерам (20 – 15 = 5) или четырем кластерам (20 – 16 = 4). Выбор числа кластеров (5 или 4) зависит от более адекватной интерпретации результатов. В нашем примере мы остановились на выборе пяти кластеров.

Следует отметить, что иерархические процедуры кластерного анализа размещают объекты по группам, которые могут существенно различаться по составу при использовании различных методов кластеризации. Кластерный метод привносит структуру в данные, и эта структура может не совпадать с реальной. Поэтому важно отличать реальные группировки от кластеров, полученных методами кластерного анализа.

Для интерпретации результатов необходимо иметь «профиль» кластера, который хорошо описывается средними значениями показателей объектов, вошедших в кластер, и средними квадратическими отклонениями. Расчет этих значений и их анализ позволяет дать условное название кластерам и их характеристику.

Важным вопросом на этом этапе является оценка качества разбиения на кластеры. Чаще всего мерой качества выступает сумма внутриклассовых дисперсий расстояний или сумма попарных внутриклассовых расстояний между внутрикластерными элементами.

источник

Вопрос по cluster-analysis, k-means, r &#8211 Кластерный анализ в R: определить оптимальное количество кластеров

Будучи новичком в R, яЯ не очень уверен, как выбрать лучшее число кластеров для анализа k-средних. После построения подмножества данных ниже, сколько кластеров будет уместным? Как я могу выполнить кластерный анализ дендро?

Ответы отличные. Если вы хотите дать шанс другому методу кластеризации, вы можете использовать иерархическую кластеризацию и посмотреть, как данные разделяются.

В зависимости от того, сколько классов вам нужно, вы можете вырезать свою дендрограмму как;

Если вы печатаете ?cutree вы увидите определения. Если ваш набор данных имеет три класса, это будет просто cutree(hc.complete, k = 3) , Эквивалент для cutree(hc.complete,k = 2) является . cutree(hc.complete,h = 4.9)

Для определения оптимального k-кластера в методах кластеризации. Я обычно использую Elbow метод сопровождается параллельной обработкой, чтобы избежать затрат времени. Этот код может сэмплировать так:

Метод локтя

Бег Локоть параллельно

Простое решение — библиотека factoextra , Вы можете изменить метод кластеризации и метод расчета лучшего количества групп. Например, если вы хотите узнать наилучшее количество кластеров для k-средних:

Наконец, мы получаем график вроде:

Эти методы хороши, но при попытке найти k для гораздо больших наборов данных, они могут быть очень медленными в R.

Хорошее решение, которое я нашел, это «RWeka» пакет, который имеет эффективную реализацию алгоритма X-Means — расширенную версию K-Means, которая лучше масштабируется и определит оптимальное количество кластеров для вас

Ты первый’Я хочу убедиться, что Weka установлен в вашей системе и XMeans установлен через Weka ‘инструмент менеджера пакетов.

Великолепный ответ от Бена. Однако я’Я удивлен, что метод Affinity Propagation (AP) был предложен здесь просто для того, чтобы найти номер кластера для метода k-средних, где в общем случае AP лучше выполняет кластеризацию данных. Пожалуйста, смотрите научную статью, поддерживающую этот метод в науке здесь:

Фрей, Брендан Дж. И Дельберт Дуек. «Кластеризация путем передачи сообщений между точками данных. » наука 315.5814 (2007): 972-976.

Поэтому, если вы не склонны к k-средствам, я предлагаю использовать AP напрямую, что позволит кластеризовать данные без необходимости знать количество кластеров:

Если отрицательные евклидовы расстояния не подходят, то вы можете использовать другие меры подобия, представленные в том же пакете. Например, для сходств, основанных на корреляциях Спирмена, это то, что вам нужно:

Обратите внимание, что эти функции для сходства в пакете AP просто предоставлены для простоты. Фактически, функция apcluster () в R будет принимать любую матрицу корреляций. То же самое раньше с помощью corSimMat () можно сделать с помощью этого:

в зависимости от того, что вы хотите кластеризовать на вашей матрице (строки или столбцы).

Это’Трудно добавить что-то слишком сложный ответ. Хотя я чувствую, что мы должны упомянуть identify здесь, особенно потому, что @Ben показывает множество примеров дендрограмм.

identify позволяет вам интерактивно выбирать кластеры из дендрограммы и сохраняет ваши выборы в списке. Нажмите Esc, чтобы выйти из интерактивного режима и вернуться в консоль R. Обратите внимание, что список содержит индексы, а не имена строк (в отличие от cutree ).

Если ваш вопрос how can I determine how many clusters are appropriate for a kmeans analysis of my data? Тогда вот несколько вариантов.статья в википедии На определение количества кластеров имеет хороший обзор некоторых из этих методов.

Во-первых, некоторые воспроизводимые данные (данные в Q . для меня неясны):

Один, Ищите изгиб или колено на графике осциллограммы суммы квадратов ошибок (SSE). Увидетьhttp://www.statmethods.net/advstats/cluster.html & http://www.mattpeeples.net/kmeans.html для большего. Расположение колена на полученном графике предполагает подходящее количество кластеров для kmeans:

Мы могли бы заключить, что 4 кластера будут обозначены этим методом:

Два, Вы можете сделать разбиение вокруг медоидов, чтобы оценить количество кластеров, используя pamk функция в пакете fpc.

Три, Критерий Калинского: еще один подход к диагностике того, сколько кластеров соответствует данным. В этом случае мы пробуем от 1 до 10 групп.

четыре, Определить оптимальную модель и количество кластеров согласно байесовскому информационному критерию для максимизации ожидания, инициализированному иерархической кластеризацией для параметризованных моделей гауссовой смеси

5, Кластеризация сродства распространения (AP), см.http://dx.doi.org/10.1126/science.1136800

Шесть, Статистика зазора для оценки количества кластеров. Смотрите такженекоторый код для хорошего графического вывода, Попытка 2-10 кластеров здесь:

Вот’Выходные данные Эдвина Ченаs реализация статистики разрыва:

Семь, Вам также может быть полезно изучить данные с помощью кластерных диаграмм для визуализации назначения кластеров, см.http://www.r-statistics.com/2010/06/clustergram-visualization-and-diagnostics-for-cluster-analysis-r-code/ Больше подробностей.

Восемь,Пакет NbClust предоставляет 30 индексов для определения количества кластеров в наборе данных.

Также для данных большого размера pvclust библиотека, которая вычисляет p-значения для иерархической кластеризации с помощью мультимасштабной начальной загрузки. Вот’Пример из документации (не будет работать с такими низкоразмерными данными, как в моем примере):

источник

Cluster analysis (кластерный анализ) – это анализ данных на основе сбора статистических, в более точечном спектре сведений, об общей структуризации предложенных материалов, включающий в себя набор различных алгоритмов классификаций. Основанный на объёме, дельте или других параметрах.

Согласен, звучит абсолютно непонятно. Мне самому́ не по нраву такие определения, из прочтения которых, ничего не осваивается. Но дать определение необходимо, поэтому сегодня мы с вами попытаемся разобраться, что такое кластерный анализ на живых, проиллюстрированных примерах.

Кластерный анализ впервые ввёл математик Роберт Трион в 1939 году. Вообще, кластерный анализ охватывает множество дисциплин, таких как математика, архитектура, маркетинг, археология, медицина, философия, психология… Но нас интересует Биржевое дело, поэтому и вектор усилия будем направлять на эту сферу деятельности.

Вот так эмпирически выглядит кластерный график. Вообще-то кластера могут быть с разными показателями данных. Например, в кластерах могут отображаться объёмы пройденных контрактов значения Ask и Bid, то есть цена покупки и цена продажи, дельта показатели (разница между ценой аск и бид) или как на нашем скриншоте, профиль кластера.

Так, если мы возьмём на рассмотрение абсолютно любой кластер, то его можно объяснить в сравнении японской свечи. Слева от кластера находится полоска красного или зелёного цвета, в зависимости от того какая была бы свеча. Если свеча бычья, то есть зелёная, значит и полоска-бар на бычьем, восходящем кластере будет зелёная. Противоположно верно будет и по отношению к нисходящие, красному цвету.

Скорее всего, вы уже успели заметить, что некоторые бары не доходят до конца кластеров. Верно, вы эмпирически внимательные читатели, бары это тела японских свечей. А тот участок кластера, который без полоски, это и есть хвосты, фитильки или тени японских свечей. Обратите внимание, они почти совпадают с закрытием одного кластера с открытием следующего. Разумеется плюс/минус пару пунктов, из-за волатильности рынка.

А вот о чём нам сигнализируют числа, распложенные в каждой из ячеек. Кстати, каждая из горизонтальных полосок, ячеек в каждом кластере, является отметкой одного пункта. Длина каждого пункта соответствует значению цифры, расположенной в этой са́мой ячейке. Белой рамочкой обводится ячейка или пункт с максимально пройденным количеством контрактов по соответствующему ценовому уровню. Но сто́ит поправиться, что значения максимальных объёмов, можно задавать самостоятельно.

Читайте также:  Как делать анализ на английском

Перед вами скриншот графика с периодом М1, с продолжительным нисходящим движением. Наша с вами задача, разобраться, а вернее изучить данную ситуацию на активе фьючерса на Сбербанк. Надо отметить, что такое падение на тайм фрейме М1, это очень неординарный случай. То есть 250 пунктов практически за 45 минут, для данного инструмента, я бы назвал редчайшим падением.

Совет! Не используйте кластерный график постоянно, из-за сложности анализа, вам будет трудно. Включайте его только в важных моментах. Например у уровней.

Итак, красным прямоугольником отмечена область, в которой, как мне кажется, мы с вами найдём ключ для разгадки, что же спровоцировало такое падение. Согласитесь, с помощью отображения японских свечей довольно проблематично искать зацепку на данном участке. Единственное что мы можем констатировать, это факт выхода ценой из баланса. Но это бы мы поняли в режиме реального времени, пройдя уже около 75 пунктов. То есть нам опять пришлось бы запрыгивать в уходящий поезд, отдавая рынку львиную долю потенциального заработка.

Так же на скриншоте японских свечей, непосредственно перед падением, мы видим ретест области. К сожалению больше никаких подсказок нам не видно на данном отображении графика. Теперь, для более тщательного анализа и полноты информации, давайте переключимся на кластерный график с отображением объёмов.

Мы видим, что большинство максимальных объёмов сконцентрировались в верхних частях кластеров. О чём нам это говорит? Если вернёмся к нашим японским свечам, то мы обратим внимание на центральную область красного прямоугольника. По опыту могу утверждать, что именно в центральной части прямоугольника, расположены лимитные заявки на продажу, более-менее, крупных участников рынка. Иначе как объяснить, что цена при каждом подходе к этим ценовым уровням, отскакивала обратно вниз!? Возвращаемся к кластерам.

Кластерный анализ пытается найти следы крупных игроков на графике. Это происходит за счёт (чаще всего) анализа прошедших крупных заявок.

Видите, примерно посередине красного прямоугольника есть скопление максимальных объёмов – здесь были лимитники на продажу. Я смею предположить, что «последней каплей» стал объём размером в 121 контракт, при ретесте области. К тому же он сформировался на том же ценовом уровне 21 922, что и объём в кластере чуть поодаль, со значением в 219 контрактов. По моему субъективному мнению, там на ретесте, стоял ордер Sell Stop, смотрите подсказку ниже. Обращаю ваше внимание, что цветовая гамма окрашивания ячеек в кластерах, не при всех лимитных ордерах совпадают по соответствующим цветам бид и аск!

Верно-истинная интерпретация значений Bid и Ask

Немного уйдя в сторону от нашей непосредственной темы о кластерном анализе, изучим верные значения предложения и спроса, то есть Bid и Ask. Стоит осознать, уважаемые читатели, что без понимания, что и с чем здесь едят, и как вообще это работает, дальнейшее чтение и просматривания «обыкновенных» картинок, бессмысленно напрасно. С таким же успехом лучше смотрите приколы с котами на You Tube, пользы будет больше и голова ясная и свежая. Только лишь по этой причине, вам просто важно, либо прочитать лекцию о механике рынка. Либо посмотреть видео ниже.

Давайте начнём изучение кластеров шаг за шагом. Опираемся на скриншот ниже и шаг за шагом следим за ходом мыслей:

Выход лонгистов для снижение цены

На графике с отображением бид-аск, при ретесте (обведённый маркером кластер), есть две значимых ячейки. Тот пункт, что на уровне 21 922, вероятнее всего отработал отложенным ордером на продажу, т.к. во-первых, сам уровень значимый, во-вторых, пик кластера. Вряд ли получилось бы такое соотношение между бид и аск, на вершине кластера – 0 к 121 (к тому же мы держим в голове действующий флэт плотности лимитных заявок). В данной ситуации, ещё за мгновение до ретеста, кто-то из опытных участников рынка вовремя подсуетился и выставил (а возможно и выставилИ), отложенный ордер Sell Stop на уровне 21 922.

В дальнейших секундах, по мере снижения цены, очевидно, другие трейдеры подхватили данное развитие событий, запрыгнув в тронувшийся паровоз, допустив типичные ошибки большинства. Тем самым ещё больше подкинув дровишек в топку парораспределительного механизма… На чуть нижерасположенной ячейке, красного цвета на продажу видно, тоже не равномерное распределение спроса и предложения. Отчётливо заметно, как продавцы превзошли покупателей на 111 контрактов, 150-44=111. По причине превосходства, ячейка и окрасилась в красный цвет, цвет продаж. А имя этой разнице, между бид и аск – Дельта.

Дельта это разница между объёмом сделок, прошедших по цене бид и аск. Грубо говоря (примитивно) между покупками и продажами.

Как упоминалось выше, дельта это разница между бидом и аском, спросом и предложением, покупателями и продавцами. Так, на выше расположенном скриншоте, мы наблюдаем отрицательную дельту. Можно ли сказать, что после формирования этой дельты, цена устремилась вниз? Несомненно, можно. Но так же можно допустить, что эта дельта наоборот приостановила цену, при подъёме наверх. К сожалению, на истории мы этого не узнаем. Увы, мы не в курсе того, что было первоочередным, подъём или спуск. Или цена вообще 3-5 раз дёргалась туда-сюда. Но мы здесь о том и говорим, что в режиме реального времени, нам было бы в разы проще понимать концепцию движений.

Но как бы там не было, мы с вами нашли и разобрали очаг возгорания огромного нисходящего движения. Понимаете, ведь нам нужно было лишь убедиться в отношении объёмов между быками и медведями. Это важно при выходе ценой из баланса. На последнем скриншоте, кластер дельта, мы узрели инициативную сделку, а дальше, отталкиваясь от флэта, пошло как понакатанной. Примерно так происходит кластерный анализ. Понимаю, сложно. А что делать? Вы сами первые начали.

Итак, резюмируем эффективность кластерного анализа, с признанием фишек технического анализа. В данной сложившейся ситуации на рынке, «глобального» нисходящего движения фьючерса на Сбербанк, загибаем пальцы: Плотность отложенных ордеров в виде флэта, выход ценой из баланса, ретест областей, инициативная сделка, максимальные объёмы на верхних частях кластеров, правильно-истинная интерпретация бид-аск значений, обнаружение Sell Stop ордера и выявление значимой дельты.

По факту, в этой ситуации мы нащупали 8 признаков активности продавцов. Пять, из которых являются частью анализа по Футпринт, т.к. анализ кластеров, это один из подвидов футпринта. Но мы с вами тщательно разобрали кластерный анализ, а посему я смею предположить, что читатели этого материала довольно чётко впитали азы кластерного анализа.

Уважаемые начинающие трейдеры, изучайте всю «подноготную» ордеров, объёмов, психологии трейдинга и сферу рынка в целом, в рубрике Азбука Трейдера. И только в таком случае у вас появится шанс не бороться с ценой, а брать, что вам даёт рынок!

Эта статья – материал из рубрики “Азбука Трейдинга”. Загляните в неё. Там ещё много интересного!

Сложно? “Трейдинг для чайников” – бесплатное обучение рынкам.

Подпишитесь на наш телеграм канал и получите самую лучшую информацию.

источник

В своей дипломной работе я проводил обзор и сравнительный анализ алгоритмов кластеризации данных. Подумал, что уже собранный и проработанный материал может оказаться кому-то интересен и полезен.
О том, что такое кластеризация, рассказал sashaeve в статье «Кластеризация: алгоритмы k-means и c-means». Я частично повторю слова Александра, частично дополню. Также в конце этой статьи интересующиеся могут почитать материалы по ссылкам в списке литературы.

Так же я постарался привести сухой «дипломный» стиль изложения к более публицистическому.

Кластеризация (или кластерный анализ) — это задача разбиения множества объектов на группы, называемые кластерами. Внутри каждой группы должны оказаться «похожие» объекты, а объекты разных группы должны быть как можно более отличны. Главное отличие кластеризации от классификации состоит в том, что перечень групп четко не задан и определяется в процессе работы алгоритма.

Применение кластерного анализа в общем виде сводится к следующим этапам:

  1. Отбор выборки объектов для кластеризации.
  2. Определение множества переменных, по которым будут оцениваться объекты в выборке. При необходимости – нормализация значений переменных.
  3. Вычисление значений меры сходства между объектами.
  4. Применение метода кластерного анализа для создания групп сходных объектов (кластеров).
  5. Представление результатов анализа.

После получения и анализа результатов возможна корректировка выбранной метрики и метода кластеризации до получения оптимального результата.

Итак, как же определять «похожесть» объектов? Для начала нужно составить вектор характеристик для каждого объекта — как правило, это набор числовых значений, например, рост-вес человека. Однако существуют также алгоритмы, работающие с качественными (т.н. категорийными) характеристиками.

После того, как мы определили вектор характеристик, можно провести нормализацию, чтобы все компоненты давали одинаковый вклад при расчете «расстояния». В процессе нормализации все значения приводятся к некоторому диапазону, например, [-1, -1] или [0, 1].

Наконец, для каждой пары объектов измеряется «расстояние» между ними — степень похожести. Существует множество метрик, вот лишь основные из них:

  1. Евклидово расстояние
    Наиболее распространенная функция расстояния. Представляет собой геометрическим расстоянием в многомерном пространстве:
  2. Квадрат евклидова расстояния
    Применяется для придания большего веса более отдаленным друг от друга объектам. Это расстояние вычисляется следующим образом:
  3. Расстояние городских кварталов (манхэттенское расстояние)
    Это расстояние является средним разностей по координатам. В большинстве случаев эта мера расстояния приводит к таким же результатам, как и для обычного расстояния Евклида. Однако для этой меры влияние отдельных больших разностей (выбросов) уменьшается (т.к. они не возводятся в квадрат). Формула для расчета манхэттенского расстояния:
  4. Расстояние Чебышева
    Это расстояние может оказаться полезным, когда нужно определить два объекта как «различные», если они различаются по какой-либо одной координате. Расстояние Чебышева вычисляется по формуле:
  5. Степенное расстояние
    Применяется в случае, когда необходимо увеличить или уменьшить вес, относящийся к размерности, для которой соответствующие объекты сильно отличаются. Степенное расстояние вычисляется по следующей формуле:
    ,
    где r и p – параметры, определяемые пользователем. Параметр p ответственен за постепенное взвешивание разностей по отдельным координатам, параметр r ответственен за прогрессивное взвешивание больших расстояний между объектами. Если оба параметра – r и p — равны двум, то это расстояние совпадает с расстоянием Евклида.

Выбор метрики полностью лежит на исследователе, поскольку результаты кластеризации могут существенно отличаться при использовании разных мер.

Среди алгоритмов иерархической кластеризации выделяются два основных типа: восходящие и нисходящие алгоритмы. Нисходящие алгоритмы работают по принципу «сверху-вниз»: в начале все объекты помещаются в один кластер, который затем разбивается на все более мелкие кластеры. Более распространены восходящие алгоритмы, которые в начале работы помещают каждый объект в отдельный кластер, а затем объединяют кластеры во все более крупные, пока все объекты выборки не будут содержаться в одном кластере. Таким образом строится система вложенных разбиений. Результаты таких алгоритмов обычно представляют в виде дерева – дендрограммы. Классический пример такого дерева – классификация животных и растений.

Для вычисления расстояний между кластерами чаще все пользуются двумя расстояниями: одиночной связью или полной связью (см. обзор мер расстояний между кластерами).

К недостатку иерархических алгоритмов можно отнести систему полных разбиений, которая может являться излишней в контексте решаемой задачи.

Задачу кластеризации можно рассматривать как построение оптимального разбиения объектов на группы. При этом оптимальность может быть определена как требование минимизации среднеквадратической ошибки разбиения:

где cj — «центр масс» кластера j (точка со средними значениями характеристик для данного кластера).

Алгоритмы квадратичной ошибки относятся к типу плоских алгоритмов. Самым распространенным алгоритмом этой категории является метод k-средних. Этот алгоритм строит заданное число кластеров, расположенных как можно дальше друг от друга. Работа алгоритма делится на несколько этапов:

  1. Случайно выбрать k точек, являющихся начальными «центрами масс» кластеров.
  2. Отнести каждый объект к кластеру с ближайшим «центром масс».
  3. Пересчитать «центры масс» кластеров согласно их текущему составу.
  4. Если критерий остановки алгоритма не удовлетворен, вернуться к п. 2.

В качестве критерия остановки работы алгоритма обычно выбирают минимальное изменение среднеквадратической ошибки. Так же возможно останавливать работу алгоритма, если на шаге 2 не было объектов, переместившихся из кластера в кластер.

К недостаткам данного алгоритма можно отнести необходимость задавать количество кластеров для разбиения.

Наиболее популярным алгоритмом нечеткой кластеризации является алгоритм c-средних (c-means). Он представляет собой модификацию метода k-средних. Шаги работы алгоритма:

  1. Выбрать начальное нечеткое разбиение n объектов на k кластеров путем выбора матрицы принадлежности U размера n x k.
  2. Используя матрицу U, найти значение критерия нечеткой ошибки:
    ,
    где ck — «центр масс» нечеткого кластера k:
    .
  3. Перегруппировать объекты с целью уменьшения этого значения критерия нечеткой ошибки.
  4. Возвращаться в п. 2 до тех пор, пока изменения матрицы U не станут незначительными.

Этот алгоритм может не подойти, если заранее неизвестно число кластеров, либо необходимо однозначно отнести каждый объект к одному кластеру.

Читайте также:  Виды экономического анализа какой прогноз

Суть таких алгоритмов заключается в том, что выборка объектов представляется в виде графа G=(V, E), вершинам которого соответствуют объекты, а ребра имеют вес, равный «расстоянию» между объектами. Достоинством графовых алгоритмов кластеризации являются наглядность, относительная простота реализации и возможность вносения различных усовершенствований, основанные на геометрических соображениях. Основными алгоритмам являются алгоритм выделения связных компонент, алгоритм построения минимального покрывающего (остовного) дерева и алгоритм послойной кластеризации.

В алгоритме выделения связных компонент задается входной параметр R и в графе удаляются все ребра, для которых «расстояния» больше R. Соединенными остаются только наиболее близкие пары объектов. Смысл алгоритма заключается в том, чтобы подобрать такое значение R, лежащее в диапазон всех «расстояний», при котором граф «развалится» на несколько связных компонент. Полученные компоненты и есть кластеры.

Для подбора параметра R обычно строится гистограмма распределений попарных расстояний. В задачах с хорошо выраженной кластерной структурой данных на гистограмме будет два пика – один соответствует внутрикластерным расстояниям, второй – межкластерным расстояния. Параметр R подбирается из зоны минимума между этими пиками. При этом управлять количеством кластеров при помощи порога расстояния довольно затруднительно.

Алгоритм минимального покрывающего дерева сначала строит на графе минимальное покрывающее дерево, а затем последовательно удаляет ребра с наибольшим весом. На рисунке изображено минимальное покрывающее дерево, полученное для девяти объектов.

Путём удаления связи, помеченной CD, с длиной равной 6 единицам (ребро с максимальным расстоянием), получаем два кластера: и . Второй кластер в дальнейшем может быть разделён ещё на два кластера путём удаления ребра EF, которое имеет длину, равную 4,5 единицам.

Алгоритм послойной кластеризации основан на выделении связных компонент графа на некотором уровне расстояний между объектами (вершинами). Уровень расстояния задается порогом расстояния c. Например, если расстояние между объектами , то .

Алгоритм послойной кластеризации формирует последовательность подграфов графа G, которые отражают иерархические связи между кластерами:

,

где G t = (V, E t ) — граф на уровне с t ,
,
с t – t-ый порог расстояния,
m – количество уровней иерархии,
G 0 = (V, o), o – пустое множество ребер графа, получаемое при t 0 = 1,
G m = G, то есть граф объектов без ограничений на расстояние (длину ребер графа), поскольку t m = 1.

Посредством изменения порогов расстояния с 0 , …, с m >, где 0 = с 0 1 m = 1, возможно контролировать глубину иерархии получаемых кластеров. Таким образом, алгоритм послойной кластеризации способен создавать как плоское разбиение данных, так и иерархическое.

источник

  • Под кластером понимается группа объектов, которые расположены в многомерном пространстве переменных максимально близко друг к другу и при этом максимально удалены от объектов из других групп.
  • Центр кластера – наиболее типичный представитель данного кластера (его геометрический центр). По характеристикам центра кластера можно судить обо всем кластере.
  • Кластерное решение — один из множества способов разделения объектов по кластерам. Качество кластерного решения зависит от числа кластеров, удачного выбора стартовых точек, количества итераций и метода агломерации.
  • Метод агломерации . Существует много методов разделения объектов на кластеры. В настоящее время в программе реализована только одна процедура «К — средние» , представляющая собой наиболее быстрый алгоритм кластерного анализа. В общих словах, алгоритм заключается в следующем:
  1. В многомерном пространстве в качестве начальных центров кластеров выбираются случайные объекты (или объекты, наиболее удаленные друг от друга).
  2. Каждый объект относится к тому кластеру, к центру которого он ближе всего.
  3. Когда все объекты отнесены к тому или иному кластеру их центры пересчитываются: рассчитывается геометрический центр кластера.
  4. Снова повторяются этапы 2 и 3: каждый объект относится к тому или иному кластеру и центры кластеров снова пересчитываются, этот процесс называется «итерация» (приближение).
  5. Процесс повторяется, пока изменения в центрах кластеров не станут равны 0 (достигнуто оптимальное решение) или не будет превышено допустимое число итераций.

Содержание

Содержит основную информацию о результатах кластерного анализа в ряде таблиц.

Таблица «Характеристики / конечные центры кластеров» содержит информацию о параметрах каждого кластера. Предпочтительны компактные кластеры, то есть те, у которых небольшое среднее и небольшое максимальное расстояние до центра. Так же стоит обратить внимание и на объем кластеров (сколько объектов входит в состав каждого кластера).

  • Строка » Силуэтная мера связности и разделения кластеров [-1..+1]» — см.ниже Интегральная оценка результатов.
  • Среднее расстояние между центрами кластеров — см.ниже Интегральная оценка результатов.
  • Строка «Объем кластера » — количество объектов, включенных в состав данного кластера.
  • Строка «Среднее расстояние до центра » — среднее расстояние от каждого кластера до центра кластера.
  • Строка «Минимальное расстояние до центра» — расстояние от центра кластера до ближайшего объекта — члена кластера.
  • Строка «Максимальное расстояние до центра» — расстояние от центра кластера до самого дальнего объекта — члена кластера.
  • Далее идет список переменных, каждой из которых в соответствующем столбце указан центр каждого кластера. Конечные центры кластеров представляют собой основу анализа полученного кластерного решения. Для каждой переменной (строки) указано ее среднее значение в том или ином кластере (столбцы с номерами), для бинарных переменных указана доля объектов с данным значением среди всех объектов данного кластера. Так, если в столбце кластера К1 в строке «Мужской» указана «1», значит все объекты этого кластера — мужчины. Напротив, «0» означает, что в данном кластере нет мужчин, а «0,5» означает, что половина кластера — мужчины. Каждый кластер стоит проинтерпретировать, исходя из значений переменной.
  • Столбец «В целом» содержит суммарную (объем кластера) и средние значения по каждой характеристике и переменной.

Таблица «Конечные центры кластеров» содержит основну для анализа кластерного решения – таблицу конечных центров кластеров. Для каждой переменной (строки) указано ее значение в том или ином кластере (столбцы с номерами), для бинарных переменных указана доля объектов с данным значением среди всех объектов данного кластера. Так, если в столбце кластера К1 в строке «Мужской» указана «1», значит все объекты этого кластера — мужчины. Напротив, «0» означает, что в данном кластере нет мужчин. Каждый кластер стоит проинтерпретировать, исходя из значений переменной.
В скобках для каждой переменной подсчитана важность ее участия в разделении кластеров. Чем выше значение в собках — тем важнее обратить внимание на эту переменную.

Таблица «Расстояния между кластерами». Расстояния между кластерами по определению должны быть максимальны. Например, Вы выбираете, остановиться на решении с 3 или с 4 кластерами. Если по таблице расстояний для решения с 4 кластерами Вы видите что два кластера не сильно отличаются друг от друга, то решение с тремя достаточно удаленными друг от друга кластерами будет оптимальнее.

Совет: для того, чтобы работать с кластерами было более удобно — дайте названия каждому кластеру. Для этого достаточно щелкнуть по заголовкам столбцов в любой таблице и ввести название кластера.

В первых строках таблицы приведены интегральные характеристики кластерного решения — Среднее расстояние между центрами кластеров (чем больше, тем лучше), и Силуэтная мера связности и разделения кластеров . Дело в том, что чем больше кластеров вы запросили, тем, расстояния между их центрами будут меньше, и только по Среднему расстоянию трудно судить об успешности классификации.
Силуэтная мера усредняет по всем объектам величину (B−A) / max(A,B), где A — это расстояние от записи до центра ее кластера, а B — это расстояние от записи до центра ближайшего кластера, к которому она не принадлежит.

  • 1 означала бы, что все наблюдения расположены точно в центрах их кластеров.
  • −1 означало бы, что все наблюдения расположены в центрах некоторых других кластеров.
  • 0 означает, что наблюдения расположены в среднем на равных расстояниях от центра их кластера и центра ближайшего кластера.

Таким образом, чем выше значение Силуэтой меры (ближе к +1), тем лучше данное решение распределяет объекты по кластерам.
Значение Силуэтой меры обычно делится на три интервала:

  • Плохое качество разделения: от -1 до 0,2
  • Среднее качество разделения: от 0,2 до 0,5
  • Хорошее качество разделения: от 0,5 до 1.

Отследить значение Силуэтной меры для различного количества кластеров можно на странице Качество разделения.

Подробнее см. L. Kaufman, P. Rousseeuw Finding Groups in Data: An Introduction To Cluster Analysis. Вместе с тем, при выборе кластерного решения из 2х, 3х 4х и т.д. числа кластеров, стоит учитывать не только числовые, но и содержательные характеристики кластеров (таблица Конечные центры кластеров) — насколько Вам понятно содержание кластеров и насколько, найденные программой кластеры соответствуют реальной картине.

Здесь Вы можете графически оценить результаты кластеризации, если наберетесь терпения :). Двухмерная проекция здесь отражает расстояния между всеми объектами, участвующими в кластерном анализе, таким образом, вы сможете графически, на одной картинке, оценить насколько удачно программа распределила объекты по кластерам. К сожалению, стоит учитывать nhb момента:

  1. Двухмерная проекция является всего лишь проекцией матрицы расстояний между каждой парой объектов на двухмерную плоскость и отображает эти расстояния с определенным искажением, стрессом, который нарастает, в зависимости от числа объектов.
  2. Чтобы уменьшить данное искажение, программе требуется достаточно долгая вычислительная работа (итерации).
  3. Поскольку размер исходной анализируемой матрицы зависит от квадрата числа документов (нужна матрица расстояний между каждой парой документов), то при большом числе документов(несколько тысяч) процедура может быть недоступной всвязи с недостатком оперативной памяти. В этом случае кнопка [Запуск процедуры] будет неактивной.

При переходе на страницу Вы увидите рекомендуемое программой число итераций, расчитанное в зависимости от числа анализируемых объектов (число кластеров не играет роли — анализируются расстояния между объектами). Вы можете уменьшить число итераций, чтобы ускорить процесс получения двухмерной проекции или, наоборот, увеличить число итераций, чтобы уменьшить искажение (хотя значительное увеличение числа итераций лишь немного уменьшает искажения — с каждой итерацией искажения становятся меньше). В любом случае, после [Запуска процедуры] вы можете остановить процесс итераций, нажав справа внизу кнопку [ Stop] . Но имейте ввиду, что программа остановится не сразу, а по завершению текущей итерации, что может занять определенное время. В результате, вы получите диаграмму, на которой будут изображены все объекты, участвующие в кластеризации, причем цвет и форма будут показывать, к какому из кластеров они относятся. Используйте кнопку над диаграммой, чтобы определить размер точек и наличие подписей.
Например, по приведенной ниже картинке можно судить о том, что программа достаточно четко распределила объекты по 5 кластерам, хотя некоторые отдельные объекты попадают в поле соседних кластеров. Вместе с тем, трудно сказать в чем причина такого неудачного распределения отдельных объектов — в неудачной кластеризации или в искажении, возникшем при формировании проекции. Так же, обратите внимание на синий (самый большой) кластер. Графически видно, что он напрашивается быть разделенным на два кластера.

Содержание

С помощью этой страницы Вы можете выбрать оптимальное число кластеров на основе значения Силуэтной меры.

  • В начале заполните параметры — выберите переменные и назначьте особенности вычислений расстояний.
  • Затем Укажите диапазон — минимальное и макасимальное количество кластеров, которые Вы желаете рассмотреть.
  • Нажмите [Запуск процедуры].

Программа построит График изменения Силуэтной меры и рассчитает Таблицу основных показателей кластеров .

  • С помощью графика Вы можете выбрать самое высокое значение Силуэтной меры на выбранном диапазоне кластерных решений.
  • Если Вас интересует объем (число объектов) каждого кластера в диапазоне кластерных решений — перейдите на вкладку Объем кластеров .
  • Вы можете остановить выполнение процедуры нажав [STOP] в правом нижнем углу окна программы.

Содержание

Иногда возникает вопрос — а насколько удачным является та или иная классификация, выполненная ранее, в другой программе или другим методом? С помощью данной страницы Вы можете рассчитать значение Силуэтной меры для выбранной любой переменной.

  • В начале заполните параметры — выберите переменные и назначьте особенности вычислений расстояний.
  • Затем укажите переменную — разделяющую объекты на группы (кластеры).
  • Нажмите [Запуск процедуры].

Программа рассчитает значение Силуэтной меры и таблицу «Характеристики / конечные центры кластеров». С ее помощью Вы сможете оценить насколько удачно выбранная переменная разделяет объекты на группы относительно выбранных параметров.

В том случае. когда представленное кластерное решение вас устраивает, вы можете сохранить результат классификации, используя кнопки слева внизу окна.

  • Кнопка [ Принадлежность к кластеру] создает новую переменную в которой каждому объекту ставится в соответствие номер кластера, к которому он принадлежит.
  • Кнопка [Расстояние до центра кластера] создает новую переменную, в которой каждому объекту ставится в соответствие расстояние до центра кластера, к которому он принадлежит. Чем больше расстояние до центра кластера, тем менее типичным членом является данный объект в кластере.


Совет: для того, чтобы работать с кластерами было более удобно — дайте названия каждому кластеру. Для этого достаточно щелкнуть по заголовкам столбцов в любой таблице и ввести название кластера.

источник