Inom vetenskaplig forskning förekommer det oftabehovet av att hitta ett samband mellan produktions- och faktorvariablerna (skördens utbyte och mängden nederbörd, en persons längd och vikt i homogena grupper efter kön och ålder, puls och kroppstemperatur, etc.).
Det andra är tecken som bidrar till förändringen av dem som är associerade med dem (det första).
Det finns många definitioner av termen.Baserat på det föregående kan vi säga att korrelationsanalys är en metod som används för att testa hypotesen om statistisk signifikans av två eller flera variabler, om forskaren kan mäta dem, men inte ändra dem.
Det finns andra definitioner av det övervägdabegrepp. Korrelationsanalys är en statistisk databehandlingsteknik som undersöker korrelationskoefficienterna mellan variabler. I detta fall jämförs korrelationskoefficienterna mellan ett par eller ett flertal par funktioner för att upprätta statistiska samband mellan dem. Korrelationsanalys är en metod för att studera det statistiska beroendet mellan slumpmässiga variabler med valfri närvaro av en strikt funktionell karaktär, där dynamiken i en slumpmässig variabel leder till dynamiken i den matematiska förväntningen hos en annan.
Vid korrelationsanalys är det nödvändigtta hänsyn till att det kan utföras i förhållande till alla tecken, ofta absurda i förhållande till varandra. Ibland har de inget orsakssamband med varandra.
I det här fallet talar man om en falsk korrelation.
Baserat på ovanstående definitioner kan manatt formulera följande uppgifter för den beskrivna metoden: att få information om en av de erforderliga variablerna med hjälp av den andra; bestämma närheten av förhållandet mellan de studerade variablerna.
Korrelationsanalys innebär att man bestämmer förhållandet mellan de studerade egenskaperna, i samband med vilka korrelationsanalysens uppgifter kan kompletteras med följande:
Effektiva faktorer varierar från en tillflera faktorer. Metoden för korrelationsanalys kan användas om det finns ett stort antal observationer om värdet av effektiva och faktorindikatorer (faktorer), medan de faktorer som studeras bör vara kvantitativa och återspeglas i specifika källor. Den första kan bestämmas av den normala lagen - i det här fallet är Pearsons korrelationskoefficienter resultatet av korrelationsanalys, eller om funktionerna inte följer denna lag används Spearmans rangkorrelationskoefficient.
När du använder denna metod är det nödvändigtbestämma de faktorer som påverkar prestationsindikatorerna. De väljs med hänsyn till det faktum att det måste finnas orsakssamband mellan indikatorerna. När det gäller att skapa en multivariat korrelationsmodell väljs de av dem som har en betydande inverkan på den resulterande indikatorn, medan interberoende faktorer med en parkorrelationskoefficient på mer än 0,85 helst inte bör inkluderas i korrelationsmodellen, liksom de där förhållandet till den effektiva parametern är icke-rätlinjigt eller funktionellt till sin natur.
Resultaten av korrelationsanalysen kan presenteras i text och grafiska former. I det första fallet presenteras de som en korrelationskoefficient, i det andra - i form av ett spridningsdiagram.
Om det inte finns något samband mellan parametrarna för punktende är ordnade kaotiskt på diagrammet, den genomsnittliga anslutningsgraden kännetecknas av en större ordningsgrad och kännetecknas av ett mer eller mindre enhetligt avstånd mellan de markerade märkena från medianen. En stark bindning tenderar till en rak linje och för r = 1 är punktdiagrammet en rak linje. Invers korrelation skiljer sig i grafens riktning från övre vänstra till nedre högra, den raka linjen - från nedre vänster till övre högra hörnet.
Förutom den traditionella 2D -spridningsdiagrammet används nu en 3D -grafisk representation av korrelationsanalysen.
En spridningsmatris används också,som visar alla parade tomter i en siffra i matrisformat. För n variabler innehåller matrisen n rader och n kolumner. Diagrammet som ligger vid skärningspunkten mellan i: e raden och j: e kolumnen är ett diagram över variablerna Xi kontra Xj. Således är varje rad och kolumn en dimension, en enda cell visar en spridningsplan med två dimensioner.
Korrelationens täthet bestäms avkorrelationskoefficient (r): stark - r = ± 0,7 till ± 1, medel - r = ± 0,3 till ± 0,699, svag - r = 0 till ± 0,299. Denna klassificering är inte strikt. Figuren visar ett något annorlunda schema.
En intressant studie har gjorts i Storbritannien. Den ägnas åt sambandet mellan rökning och lungcancer och genomfördes med hjälp av korrelationsanalys. Denna observation presenteras nedan.
Professionell grupp | rökning | dödlighet |
Bönder, skogsbrukare och fiskare | 77 | 84 |
Gruvarbetare och stenbrytare | 137 | 116 |
Producenter av gas, koks och kemikalier | 117 | 123 |
Glas- och keramiktillverkare | 94 | 128 |
Arbetare i ugnar, smedjor, gjuterier och valsverk | 116 | 155 |
Elektriska och elektroniska arbetare | 102 | 101 |
Ingenjörsvetenskap och relaterade yrken | 111 | 118 |
Träbearbetning | 93 | 113 |
Garvare | 88 | 104 |
Textilarbetare | 102 | 88 |
Tillverkare av arbetskläder | 91 | 104 |
Arbetare inom livsmedels-, dryckes- och tobaksindustrin | 104 | 129 |
Tillverkare av papper och tryck | 107 | 86 |
Tillverkare av andra produkter | 112 | 96 |
Byggare | 113 | 144 |
Målare och dekoratörer | 110 | 139 |
Stationära motorförare, kranförare etc. | 125 | 113 |
Arbetare ingår inte någon annanstans | 133 | 146 |
Transport- och kommunikationsarbetare | 115 | 128 |
Lagerarbetare, förrådsinnehavare, packare och påfyllningsmaskinarbetare | 105 | 115 |
Kontorarbetare | 87 | 79 |
Säljare | 91 | 85 |
Sport- och fritidsarbetare | 100 | 120 |
Administratörer och chefer | 76 | 60 |
Professionella, tekniker och konstnärer | 66 | 51 |
Låt oss börja korrelationsanalysen. Det är bättre att starta lösningen för tydlighet med den grafiska metoden, för vilken vi kommer att bygga ett spridningsdiagram (scatter).
Det visar en direkt koppling.Det är dock svårt att dra en entydig slutsats endast baserad på den grafiska metoden. Därför kommer vi att fortsätta att utföra korrelationsanalys. Ett exempel på beräkning av korrelationskoefficienten presenteras nedan.
Med hjälp av mjukvaruverktyg (till exempel MSExcel kommer att beskrivas nedan), vi bestämmer korrelationskoefficienten, som är 0,716, vilket innebär ett starkt samband mellan de parametrar som studeras. Låt oss bestämma den statistiska tillförlitligheten för det erhållna värdet enligt motsvarande tabell, för vilket vi måste subtrahera 2 från 25 par par värden, vilket resulterar i att vi får 23 och från denna rad i tabellen finner vi r kritiskt för p = 0,01 (eftersom detta är medicinska data, ett mer strikt beroende, i andra fall är p = 0,05 tillräckligt), vilket är 0,51 för denna korrelationsanalys. Exemplet visade att det beräknade r är större än det kritiska r, värdet av korrelationskoefficienten anses vara statistiskt signifikant.
Den beskrivna typen av statistisk databehandlingkan utföras med hjälp av programvara, i synnerhet MS Excel. Korrelationsanalys i Excel innebär att följande parametrar beräknas med hjälp av funktioner:
1. Korrelationskoefficienten bestäms med hjälp av CORREL -funktionen (array1; array2). Array1,2 - cell i värdeintervallet för de resulterande och faktoriella variablerna.
Linjär korrelationskoefficient kallas också Pearson Correlation Coefficient, därför kan du från och med Excel 2007 använda PEARSON -funktionen med samma matriser.
Grafisk visning av korrelationsanalys i Excel utförs med hjälp av "Diagram" -panelen med valet "Scatter Chart".
Efter att ha angett de initiala uppgifterna får vi ett diagram.
2. Bedömning av parkorrelationskoefficientens betydelse med hjälp av Studentens t-test. Beräknat t-testvärde jämfört med tabellvärdet (kritiskt)av denna indikator från motsvarande tabell över värden för den aktuella parametern, med beaktande av den givna nivån av betydelse och antalet frihetsgrader. Denna uppskattning görs med funktionen TYUDREV (sannolikhet; grader_frihet).
3. Matris av parkorrelationskoefficienter.Analysen utförs med hjälp av dataanalysverktyget, där Korrelation väljs. Den statistiska bedömningen av parkorrelationskoefficienterna utförs genom att jämföra dess absoluta värde med det tabellformiga (kritiska) värdet. Om den beräknade parkorrelationskoefficienten överskrids över den kritiska, kan vi med hänsyn till den givna sannolikhetsgraden säga att nollhypotesen om betydelsen av det linjära förhållandet inte avvisas.
Användning i vetenskaplig forskning av metodenkorrelationsanalys låter dig bestämma sambandet mellan olika faktorer och prestationsindikatorer. Man bör komma ihåg att en hög korrelationskoefficient också kan erhållas från ett absurt par eller en uppsättning data, och därför måste denna typ av analys utföras på en tillräckligt stor datamängd.
Efter att ha beräknat värdet av r, dessdet är önskvärt att jämföra med r kritisk för att bekräfta den statistiska signifikansen av ett visst värde. Korrelationsanalys kan utföras manuellt med hjälp av formler eller med hjälp av mjukvaruverktyg, särskilt MS Excel. Här kan du bygga ett scatter (scatter) diagram för att visualisera sambandet mellan de studerade faktorerna för korrelationsanalysen och den effektiva indikatorn.