Меню сайта

Сутність методів багатомірної класифікації

Метод середнього зв'язку ґрунтується на використанні середньої відстані між кандидатом на включення у кластер і представниками наявного кластера.

Згідно методу Уорда приєднання об'єктів до кластерів здійснюється у випадку мінімального приросту внутрішньогрупової суми квадратів відхилень. Завдяки цьому утворюються кластери приблизно одного розміру, які мають форму гіперсфер.

Оптимальною прийнято вважати кількість кластерів, яка визначається як різниця кількості спостережень і кількості кроків, після якої відстань об'єднання збільшується стрибкоподібно.

Кластерний аналіз, як і інші методи вивчення стохастичного зв'язку, вимагає численних складних розрахунків, які краще здійснювати за допомогою сучасних інформаційних систем, зокрема з використанням програмного продукту Statistica 6.0.

Загальну схему проведення кластерного аналізу можна подати у вигляді наступного алгоритму, який складається з наступних кроків [28]:

Етап 1. Перш ніж використовувати будь-який з методів кластерного аналізу, необхідно виконати наступні попередні процедури:

Процедура 1. Стандартизація і нормування даних призначені для того, щоб привести всі показники до однієї величини (зробити їх порівнянними). Дана процедура здійснюється по наступній формулі:

,(2.11)

де xij - i-а реалізація j-ї ознаки,

- середнє арифметичне j-ї ознаки,

- стандартне відхилення j-ї ознаки.

Процедура 2. Знаходження матриці відстаней. Матриця відстаней D являє собою матрицю розмірністю nxn, кожен елемент якої характеризує віддаленість того або іншого об'єкта від іншого. Ця матриця виглядає наступним чином:

(2.12)

де dsu - відстань між об'єктами s і u, .

Існує досить велика кількість варіантів розрахунку даної відстані основні з яких представлені в табл. 2.1.

Таблиця 2.1 - Характеристика близькості об'єктів

Найменування показника

Формула

Характеристика

Кількісні шкали (відстані)

Лінійна відстань

Найкраще виділяються «плоскі» кластери, розташовані на гіперплощинах

Евклідова відстань

Геометрично найкраще поєднує об'єкти в кулястих скупченнях

Відстань Махаланобіса

Використовується, коли після нормування зберігається велика різниця в дисперсіях, яку необхідно нівелювати

Номінальні шкали (міри подібності)

Коефіцієнт Хеммінга

Для порівняння об'єктів у змішаних шкалах найменувань і порядку

Коефіцієнт Роджерса-Танімото

Якщо важлива тільки наявність властивості, а не її відсутність

Довільні шкали

Мера близькості Журавльова

Фактично здійснюється перехід від кількісних шкал до якісних

Мера близькості Вороніна

Підвищує змістовну обґрунтованість розрахунків

Перейти на сторінку: 1 2 3 4

Читайте більше

Основи роботи органів Пенсійного фонду України на прикладі його управління в Великоновосілківському районі
Найважливішою функцією держави є пенсійне забезпечення населення, яке забезпечується шляхом надання соціальних послуг населенню. Тому об’єктом дослідження є діяльність УПФУ в Великоновосілківському районі. Мета професійного тренінгу - це застосувати теоретичні знання, які були отримані ...

Основні напрямки реалізації видатків державного бюджету України
Бюджет та бюджетна система загалом відноситься до тієї сфери суспільного життя, що безпосередньо стосується інтересів всіх і кожного. В бюджеті будь-якої країни відбиваються важливі економічні, соціальні, політичні проблеми життя суспільства і людини. Актуальність обраної для дослід ...