Метод середнього зв'язку ґрунтується на використанні середньої відстані між кандидатом на включення у кластер і представниками наявного кластера.
Згідно методу Уорда приєднання об'єктів до кластерів здійснюється у випадку мінімального приросту внутрішньогрупової суми квадратів відхилень. Завдяки цьому утворюються кластери приблизно одного розміру, які мають форму гіперсфер.
Оптимальною прийнято вважати кількість кластерів, яка визначається як різниця кількості спостережень і кількості кроків, після якої відстань об'єднання збільшується стрибкоподібно.
Кластерний аналіз, як і інші методи вивчення стохастичного зв'язку, вимагає численних складних розрахунків, які краще здійснювати за допомогою сучасних інформаційних систем, зокрема з використанням програмного продукту Statistica 6.0.
Загальну схему проведення кластерного аналізу можна подати у вигляді наступного алгоритму, який складається з наступних кроків [28]:
Етап 1. Перш ніж використовувати будь-який з методів кластерного аналізу, необхідно виконати наступні попередні процедури:
Процедура 1. Стандартизація і нормування даних призначені для того, щоб привести всі показники до однієї величини (зробити їх порівнянними). Дана процедура здійснюється по наступній формулі:
,(2.11)
де xij - i-а реалізація j-ї ознаки,
- середнє арифметичне j-ї ознаки,
- стандартне відхилення j-ї ознаки.
Процедура 2. Знаходження матриці відстаней. Матриця відстаней D являє собою матрицю розмірністю nxn, кожен елемент якої характеризує віддаленість того або іншого об'єкта від іншого. Ця матриця виглядає наступним чином:
(2.12)
де dsu - відстань між об'єктами s і u, .
Існує досить велика кількість варіантів розрахунку даної відстані основні з яких представлені в табл. 2.1.
Таблиця 2.1 - Характеристика близькості об'єктів
Найменування показника |
Формула |
Характеристика |
Кількісні шкали (відстані) | ||
Лінійна відстань |
|
Найкраще виділяються «плоскі» кластери, розташовані на гіперплощинах |
Евклідова відстань |
|
Геометрично найкраще поєднує об'єкти в кулястих скупченнях |
Відстань Махаланобіса |
|
Використовується, коли після нормування зберігається велика різниця в дисперсіях, яку необхідно нівелювати |
Номінальні шкали (міри подібності) | ||
Коефіцієнт Хеммінга |
|
Для порівняння об'єктів у змішаних шкалах найменувань і порядку |
Коефіцієнт Роджерса-Танімото |
|
Якщо важлива тільки наявність властивості, а не її відсутність |
Довільні шкали | ||
Мера близькості Журавльова |
|
Фактично здійснюється перехід від кількісних шкал до якісних |
Мера близькості Вороніна |
|
Підвищує змістовну обґрунтованість розрахунків |
Основи роботи органів Пенсійного фонду України на прикладі його управління в Великоновосілківському районі
Найважливішою функцією держави є пенсійне забезпечення населення, яке
забезпечується шляхом надання соціальних послуг населенню. Тому об’єктом
дослідження є діяльність УПФУ в Великоновосілківському районі.
Мета професійного тренінгу - це застосувати теоретичні знання, які були
отримані ...
Основні напрямки реалізації видатків державного бюджету України
Бюджет
та бюджетна система загалом відноситься до тієї сфери суспільного життя, що
безпосередньо стосується інтересів всіх і кожного. В бюджеті будь-якої країни
відбиваються важливі економічні, соціальні, політичні проблеми життя
суспільства і людини.
Актуальність
обраної для дослід ...