В научните изследвания често възникватнеобходимостта да се намери връзка между продуктивните и факторните променливи (добивът на реколтата и валежите, височината и теглото на човек в хомогенни групи по пол и възраст, пулс и телесна температура и др.).
Вторите са знаци, които допринасят за промяната на свързаните с тях (първите).
Има много определения на термина.Въз основа на горното можем да кажем, че корелационният анализ е метод, използван за тестване на хипотезата за статистическата значимост на две или повече променливи, ако изследователят може да ги измери, но не и да ги промени.
Има и други дефиниции, които се разглеждат.концепции. Корелационният анализ е метод за обработка на статистически данни, който се състои в изучаване на коефициентите на корелация между променливи. В този случай коефициентите на корелация между една двойка или множество двойки характеристики се сравняват, за да се установят статистически връзки между тях. Корелационният анализ е метод за изследване на статистическата връзка между случайни променливи с незадължително присъствие със строг функционален характер, при който динамиката на една случайна променлива води до динамиката на математическото очакване на друга.
При извършване на корелационен анализ е необходимовземете под внимание, че той може да бъде осъществен във връзка с всякакъв набор от знаци, често абсурдни по отношение един на друг. Понякога те нямат причинно-следствена връзка помежду си.
В този случай те говорят за фалшива корелация.
Исходя из приведенных выше определений, можно формулирайте следните задачи на описания метод: получаване на информация за една от желаните променливи, като използвате другата; определете стегнатостта на връзката между изследваните променливи.
Корелационният анализ включва определяне на връзката между изследваните характеристики, във връзка с които задачите на корелационния анализ могат да бъдат допълнени със следното:
Результативные факторы зависят от одного до няколко фактора. Методът на корелационен анализ може да се приложи, ако има голям брой наблюдения за стойността на ефективните и факторни показатели (фактори), докато изследваните фактори трябва да бъдат количествени и да се отразяват в конкретни източници. Първият може да бъде определен от нормален закон - в този случай резултатът от корелационния анализ са коефициентите на корелация на Пирсън, или, ако знаците не се подчиняват на този закон, се използва коефициентът на корелация на ранга на Spearman.
При прилагането на този метод е необходимоопределят факторите, които влияят на показателите за ефективност. Те се подбират, като се отчита, че причинно-следствените връзки трябва да присъстват между показателите. В случай на създаване на мултиварентен модел на корелация се избират онези, които оказват значително влияние върху получения показател, като за предпочитане е в модела на корелация да не се включват взаимозависими фактори с коефициент на корелация на двойката повече от 0,85, както и такива, при които връзката с ефективния параметър е нелинейна или функционален по своята същност.
Резултатите от корелационния анализ могат да бъдат представени в текстови и графични форми. В първия случай те се представят като коефициент на корелация, във втория - под формата на диаграма на разсейване.
При липса на корелация между параметрите на точкитеса подредени произволно на диаграмата, средната степен на свързване се характеризира с по-голяма степен на подреденост и се характеризира с повече или по-малко еднаква отдалеченост на нанесените марки от медианата. Силната връзка има тенденция към права линия, а при r = 1 пунктираната графика представлява права линия. Обратната корелация е различна в посоката на графиката от горния ляв до долния десен, правата линия - от долния ляв до горния десен ъгъл.
В допълнение към традиционното 2D представяне на диаграмата на разсейване, в момента се използва 3D показване на графичното представяне на корелационния анализ.
Използва се също матрица на разсейване,която показва всички сдвоени графики в една картина в матричен формат. За n променливи матрицата съдържа n реда и n колони. Диаграмата, разположена в пресечната точка на i-тия ред и j-тата колона, е графика на променливите Xi в сравнение с Xj. По този начин всеки ред и колона са едно измерение, отделна клетка показва диаграма на разсейване от две измерения.
Стегнатостта на корелацията се определя откоефициент на корелация (r): силен - r = ± 0,7 до ± 1, среден - r = ± 0,3 до ± 0,699, слаб - r = 0 до ± 0,299. Тази класификация не е строга. Фигурата показва малко по-различна схема.
В Обединеното кралство е проведено интересно проучване. Той е посветен на връзката на тютюнопушенето с рак на белия дроб и е осъществен чрез корелационен анализ. Това наблюдение е представено по-долу.
Професионална група | пушене | смъртност |
Земеделски производители, лесовъди и рибари | 77 | 84 |
Миньори и работници в кариерата | 137 | 116 |
Производители на газ, кокс и химикали | 117 | 123 |
Производители на стъкло и керамика | 94 | 128 |
Работници на пещи, коване, леярни и валцови мелници | 116 | 155 |
Работници по електротехника и електроника | 102 | 101 |
Инженерни и свързани професии | 111 | 118 |
Дървообработваща промишленост | 93 | 113 |
Tanners | 88 | 104 |
Текстилни работници | 102 | 88 |
Производители на работно облекло | 91 | 104 |
Работници на храни, напитки и тютюневи изделия | 104 | 129 |
Производители на хартия и печат | 107 | 86 |
Производители на други продукти | 112 | 96 |
Строителите | 113 | 144 |
Художници и декоратори | 110 | 139 |
Шофьори на стационарни двигатели, кранове и др. | 125 | 113 |
Работници, които не са класифицирани другаде | 133 | 146 |
Транспортни и комуникационни работници | 115 | 128 |
Работници на складове, търговци на склад, пакетиращи и работници на машини за пълнене | 105 | 115 |
Служители | 87 | 79 |
Продавачите | 91 | 85 |
Служители за спорт и отдих | 100 | 120 |
Администратори и мениджъри | 76 | 60 |
Професионалисти, техници и художници | 66 | 51 |
Започваме корелационния анализ. По-добре е да започнем решението за яснота с графичния метод, за който изграждаме диаграма на дисперсия (разсейване).
Тя демонстрира пряка връзка.Въз основа на само графичния метод обаче е трудно да се направи еднозначен извод. Следователно, ние продължаваме да извършваме корелационен анализ. Пример за изчисляване на коефициента на корелация е представен по-долу.
Използване на софтуерни инструменти (използване на MS като пример)Excel ще бъде описан по-късно) определяме коефициента на корелация, който е 0,716, което означава силна връзка между изследваните параметри. Ние определяме статистическата надеждност на получената стойност от съответната таблица, за която трябва да извадим 2 от 25 двойки стойности, в резултат на което получаваме 23 и на този ред в таблицата намираме r критично за p = 0,01 (тъй като това са медицински данни, използваме по-строги зависимост, в други случаи е достатъчно р = 0,05), което е 0,51 за този корелационен анализ. Пример показа, че изчисленото r е по-голямо от r критичното; стойността на коефициента на корелация се счита за статистически значима.
Описаният тип обработка на статистически данниможе да се осъществи с помощта на софтуер, по-специално MS Excel. Анализът на корелацията в Excel включва изчисляване на следните параметри с помощта на функции:
1. Коефициентът на корелация се определя с помощта на функцията CORREL (array1; array2). Масив 1.2 е клетка от интервала от стойности на продуктивните и факторните променливи.
Коефициентът на линейна корелация също се нарича коефициент на корелация на Pearson и следователно, започвайки от Excel 2007, можете да използвате функцията PEARSON със същите масиви.
Графичен дисплей на корелационния анализ в Excel се извършва с помощта на панела Charts с избор на Scatter Chart.
След уточняване на изходните данни получаваме графика.
2. Оценка на значимостта на коефициента на двойка корелация с помощта на t-студентски тест. Изчислената стойност на t-теста сравнява с таблична (критична) стойносттози индикатор от съответната таблица със стойности на въпросния параметър, като се вземе предвид зададеното ниво на значимост и броя степени на свобода. Тази оценка се извършва с помощта на функцията STUDIO DISPLAY (вероятност; степени на свобода).
3. Матрицата на коефициентите на корелация на двойки.Анализът се извършва с помощта на инструмента „Анализ на данните“, в който е избрана „Корелация“. Статистическа оценка на коефициентите на корелация на двойката се извършва чрез сравняване на нейната абсолютна стойност с таблична (критична) стойност. Ако изчисленият коефициент на двойка корелация надвишава критичния, можем да кажем, като вземем предвид дадената степен на вероятност, че нулевата хипотеза за значението на линейната комуникация не се отхвърля.
Използване в метода на научните изследваниякорелационният анализ ви позволява да определите връзката между различни фактори и ефективни показатели. Трябва да се има предвид, че висок коефициент на корелация може да се получи и от абсурдна двойка или набор от данни и следователно този тип анализ трябва да се извърши на достатъчно голям масив от данни.
След получаване на изчислената стойност на rжелателно е да се сравнява с r критичен, за да се потвърди статистическата надеждност на определена стойност. Корелационният анализ може да се извърши ръчно с помощта на формули или с помощта на софтуерни инструменти, по-специално MS Excel. Тук можете също да изградите диаграма на разсейване (разсейване) с цел визуализиране на връзката между изследваните фактори на корелационния анализ и резултиращия атрибут.