У наукових дослідженнях часто виникаєнеобхідність в знаходженні зв'язку між результативними і факторними змінними (врожайністю будь-якої культури і кількістю опадів, зростом і вагою людини в однорідних групах за статтю та віком, частотою пульсу і температурою тіла і т.д.).
Другі є ознаки, що сприяють зміні таких, пов'язаних з ними (першими).
Існує безліч визначень терміну.Виходячи з вищевикладеного, можна сказати, що кореляційний аналіз - це метод, що застосовується з метою перевірки гіпотези про статистичної значущості двох і більше змінних, якщо дослідник їх може вимірювати, але не змінювати.
Є й інші визначення розглянутогопоняття. Кореляційний аналіз - це метод обробки статистичних даних, що полягає у вивченні коефіцієнтів кореляції між змінними. При цьому порівнюються коефіцієнти кореляції між однією парою або великою кількістю пар ознак, для встановлення між ними статистичних взаємозв'язків. Кореляційний аналіз - це метод по вивченню статистичної залежності між випадковими величинами з необов'язковим наявністю суворого функціонального характеру, при якій динаміка однієї випадкової величини призводить до динаміки математичного очікування інший.
При проведенні кореляційного аналізу необхідновраховувати, що його можна провести по відношенню до будь-якої сукупності ознак, часто абсурдних по відношенню один до одного. Часом вони не мають причинно-наслідкового зв'язку між собою.
У цьому випадку говорять про хибну кореляції.
Виходячи з наведених вище визначень, можнасформулювати такі завдання описуваного методу: отримати інформацію про одну з шуканих змінних за допомогою іншої; визначити тісноту зв'язку між досліджуваними змінними.
Кореляційний аналіз передбачає визначення залежності між досліджуваними ознаками, в зв'язку з чим завдання кореляційного аналізу можна доповнити наступними:
Результативні чинники залежать від одного додекількох факторів. Метод кореляційного аналізу може застосовуватися в тому випадку, якщо є велика кількість спостережень про величину результативних і факторних показників (чинників), при цьому досліджувані фактори повинні бути кількісними і відбиватися в конкретних джерелах. Перше може визначатися нормальним законом - в цьому випадку результатом кореляційного аналізу виступають коефіцієнти кореляції Пірсона, або, в разі, якщо ознаки не підкоряються цим законом, використовується коефіцієнт рангової кореляції Спірмена.
При застосуванні даного методу необхідновизначитися з факторами, що впливають на результативні показники. Їх відбирають з урахуванням того, що між показниками повинні бути присутніми причинно-наслідкові зв'язки. У разі створення багатофакторної кореляційної моделі відбирають ті з них, які мають істотний вплив на результуючий показник, при цьому взаємозалежні чинники з коефіцієнтом парної кореляції більше 0,85 в кореляційну модель переважно не включати, як і такі, у яких зв'язок з результативним параметром носить непрямолінійний або функціональний характер.
Результати кореляційного аналізу можуть бути представлені в текстовому і графічному видах. У першому випадку вони представляються як коефіцієнт кореляції, у другому - у вигляді діаграми розкиду.
При відсутності кореляції між параметрами точкина діаграмі розташовані хаотично, середня ступінь зв'язку характеризується більшим ступенем впорядкованості і характеризується більш-менш рівномірною віддаленістю нанесених відміток від медіани. Сильна зв'язок прагне до прямої і при r = 1 точковий графік являє собою рівну лінію. Зворотна кореляція відрізняється спрямованістю графіка з лівого верхнього в нижній правий, пряма - з нижнього лівого у верхній правий кут.
Крім традиційного 2D-уявлення діаграми розкиду в даний час використовується 3D-відображення графічного представлення кореляційного аналізу.
Також використовується матриця діаграми розсіювання,яка відображає всі парні графіки на одному малюнку в матричному форматі. Для n змінних матриця містить n рядків і n стовпців. Діаграма, розташована на перетині i-го рядка і j-ого стовпця, представляє собою графік змінних Xi в порівнянні з Xj. Таким чином, кожен рядок і стовпець є одним виміром, окрема осередок відображає діаграму розсіювання двох вимірів.
Тіснота кореляційної зв'язку визначається покоефіцієнту кореляції (r): сильна - r = ± 0,7 до ± 1, середня - r = ± 0,3 до ± 0,699, слабка - r = 0 до ± 0,299. Дана класифікація не є суворою. На малюнку показана дещо інша схема.
У Великобританії було зроблено цікаве дослідження. Воно присвячене зв'язку куріння з раком легенів, і проводилося шляхом кореляційного аналізу. Це спостереження представлено нижче.
професійна група | куріння | смертність |
Фермери, лісники і рибалки | 77 | 84 |
Шахтарі та працівники кар'єрів | 137 | 116 |
Виробники газу, коксу та хімічних речовин | 117 | 123 |
Виробники скла і кераміки | 94 | 128 |
Працівники печей, ковальських, ливарних і прокатних станів | 116 | 155 |
Працівники електротехніки та електроніки | 102 | 101 |
Інженерні та суміжні професії | 111 | 118 |
деревообробні виробництва | 93 | 113 |
кожевенники | 88 | 104 |
текстильні робочі | 102 | 88 |
Виробники робочого одягу | 91 | 104 |
Працівники харчової, питної та тютюнової промисловості | 104 | 129 |
Виробники паперу і друку | 107 | 86 |
Виробництво іншої продуктів | 112 | 96 |
будівельники | 113 | 144 |
Художники і декоратори | 110 | 139 |
Водії стаціонарних двигунів, кранів і т. Д. | 125 | 113 |
Робочі, не включені в інші місця | 133 | 146 |
Працівники транспорту і зв'язку | 115 | 128 |
Складські робочі, комірники, пакувальники і працівники розливних машин | 105 | 115 |
Канцелярські працівники | 87 | 79 |
Продавці | 91 | 85 |
Працівники служби спорту і відпочинку | 100 | 120 |
Адміністратори і менеджери | 76 | 60 |
Професіонали, технічні працівники і художники | 66 | 51 |
Починаємо кореляційний аналіз. Рішення краще починати для наочності з графічного методу, для чого побудуємо діаграму розсіювання (розкиду).
Вона демонструє прямий зв'язок.Однак на підставі тільки графічного методу зробити однозначний висновок складно. Тому продовжимо виконувати кореляційний аналіз. Приклад розрахунку коефіцієнта кореляції представлений нижче.
За допомогою програмних засобів (на прикладі MSExcel буде описано далі) визначаємо коефіцієнт кореляції, який становить 0,716, що означає сильну зв'язок між досліджуваними параметрами. Визначимо статистичну достовірність отриманого значення по відповідній таблиці, для чого нам потрібно відняти з 25 пар значень 2, в результаті чого отримаємо 23 і по цьому рядку в таблиці знайдемо r критичне для p = 0,01 (оскільки це медичні дані, тут використовується більш сувора залежність, в інших випадках досить p = 0,05), яке становить 0,51 для даного кореляційного аналізу. Приклад продемонстрував, що r розрахункове більше r критичного, значення коефіцієнта кореляції вважається статистично достовірним.
Описуваний вид статистичної обробки данихможе здійснюватися за допомогою програмного забезпечення, зокрема, MS Excel. Кореляційний аналіз в Excel передбачає обчислення наступних параметрів з використанням функцій:
1. Коефіцієнт кореляції визначається за допомогою функції КОРРЕЛ [CORREL] (массив1; массів2). Массів1,2 - осередок інтервалу значень результативних і факторних змінних.
Лінійний коефіцієнт кореляції також називається коефіцієнтом кореляції Пірсона, в зв'язку з чим, починаючи з Excel 2007, можна використовувати функцію ПІРСОН (PEARSON) з тими ж масивами.
Графічне відображення кореляційного аналізу в Excel проводиться за допомогою панелі «Діаграми» з вибором «Точкова діаграма».
Після вказівки вихідних даних отримуємо графік.
2. Оцінка значущості коефіцієнта парної кореляції з використанням t-критерію Стьюдента. Розраховане значення t-критерію порівнюється з табличній (критичної) величиноюданого показника з відповідної таблиці значень розглянутого параметра з урахуванням заданого рівня значущості і числа ступенів свободи. Ця оцінка здійснюється з використанням функції СТЬЮДРАСПОБР (ймовірність; степені_свободи).
3. Матриця коефіцієнтів парної кореляції.Аналіз здійснюється за допомогою засобу «Аналіз даних», в якому вибирається «Кореляція». Статистичну оцінку коефіцієнтів парної кореляції здійснюють при порівнянні його абсолютної величини з табличним (критичним) значенням. При перевищенні розрахункового коефіцієнта парної кореляції над таким критичним можна говорити, з урахуванням заданого ступеня ймовірності, що нульова гіпотеза про значущість лінійного зв'язку не відкидається.
Використання в наукових дослідженнях методукореляційного аналізу дозволяє визначити зв'язок між різними факторами і результативними показниками. При цьому необхідно враховувати, що високий коефіцієнт кореляції можна отримати і з абсурдною пари або безлічі даних, в зв'язку з чим даний вид аналізу потрібно здійснювати на досить великому масиві даних.
Після отримання розрахункового значення r йогобажано порівняти з r критичним для підтвердження статистичної достовірності певної величини. Кореляційний аналіз може здійснюватися вручну з використанням формул, або за допомогою програмних засобів, зокрема MS Excel. Тут же можна побудувати діаграму розкиду (розсіювання) з метою наочного уявлення про зв'язок між досліджуваними факторами кореляційного аналізу і результативним ознакою.