I videnskabelig forskning er der oftebehovet for at finde et forhold mellem de produktive og faktorvariablerne (udbyttet af en afgrøde og mængden af nedbør, højden og vægten af en person i homogene grupper efter køn og alder, puls og kropstemperatur osv.).
Det andet er tegn, der bidrager til ændringen af dem, der er forbundet med dem (det første).
Der er mange definitioner af udtrykket.Baseret på det foregående kan vi sige, at korrelationsanalyse er en metode, der bruges til at teste hypotesen om den statistiske signifikans af to eller flere variabler, hvis forskeren kan måle dem, men ikke ændre dem.
Der er andre definitioner af den betragtedebegreber. Korrelationsanalyse er en statistisk databehandlingsteknik, der undersøger korrelationskoefficienterne mellem variabler. I dette tilfælde sammenlignes korrelationskoefficienterne mellem et par eller et sæt af par af funktioner for at etablere statistiske forhold mellem dem. Korrelationsanalyse er en metode til at studere den statistiske afhængighed mellem tilfældige variabler med den valgfri tilstedeværelse af en streng funktionel karakter, hvor dynamikken i en tilfældig variabel fører til dynamikken i den matematiske forventning til en anden.
Når der udføres korrelationsanalyse, er det nødvendigttage i betragtning, at det kan udføres i forhold til ethvert sæt tegn, ofte absurd i forhold til hinanden. Nogle gange har de ingen årsagsforbindelse med hinanden.
I dette tilfælde taler man om en falsk sammenhæng.
Baseret på ovenstående definitioner kan manat formulere følgende opgaver med den beskrevne metode: at få information om en af de søgte variabler ved hjælp af den anden; bestemme nærheden af forholdet mellem de undersøgte variabler.
Korrelationsanalyse indebærer bestemmelse af forholdet mellem de undersøgte karakteristika, i forbindelse med hvilke opgaverne for korrelationsanalyse kan suppleres med følgende:
Effektive faktorer varierer fra en tilflere faktorer. Metoden til korrelationsanalyse kan anvendes, hvis der er et stort antal observationer af værdien af de effektive og faktorindikatorer (faktorer), mens de undersøgte faktorer skal være kvantitative og afspejles i specifikke kilder. Den første kan bestemmes af den normale lov - i dette tilfælde er Pearsons korrelationskoefficienter resultatet af korrelationsanalyse, eller hvis funktionerne ikke overholder denne lov, anvendes Spearmans rangkorrektionskoefficient.
Når du anvender denne metode, er det nødvendigtbestemme de faktorer, der påvirker resultatindikatorer. De vælges under hensyntagen til, at der skal være årsagssammenhæng mellem indikatorerne. I tilfælde af oprettelse af en multivariat korrelationsmodel vælges de af dem, der har en signifikant indvirkning på den resulterende indikator, mens indbyrdes afhængige faktorer med en par-korrelationskoefficient på mere end 0,85 fortrinsvis ikke skal medtages i korrelationsmodellen såvel som dem, hvor forholdet til den effektive parameter er ikke-retlinet eller funktionelt.
Resultaterne af korrelationsanalysen kan præsenteres i tekst og grafiske former. I det første tilfælde præsenteres de som en korrelationskoefficient, i det andet - i form af et spredningsdiagram.
Hvis der ikke er nogen sammenhæng mellem parametrene for punktetde er arrangeret kaotisk på diagrammet, den gennemsnitlige grad af forbindelse er kendetegnet ved en større grad af rækkefølge og er kendetegnet ved en mere eller mindre ensartet afstand af de markerede markeringer fra medianen. En stærk binding har en tendens til en lige linje, og ved r = 1 er prikplottet en lige linje. Invers korrelation adskiller sig i grafens retning fra øverst til venstre til nederst til højre, den lige linje - fra nederst til venstre til det øverste højre hjørne.
Ud over det traditionelle 2D-spredningsdiagram anvendes der nu en 3D-grafisk repræsentation af korrelationsanalysen.
En scatterplot-matrix bruges også,som viser alle parrede plot i en figur i matrixformat. For n variabler indeholder matrixen n rækker og n kolonner. Diagrammet placeret i skæringspunktet mellem den i-række og j-kolonne er en graf over variablerne Xi versus Xj. Således er hver række og kolonne en dimension, en enkelt celle viser et scatterplot med to dimensioner.
Tætheden af korrelationen bestemmes afkorrelationskoefficient (r): stærk - r = ± 0,7 til ± 1, medium - r = ± 0,3 til ± 0,699, svag - r = 0 til ± 0,299. Denne klassificering er ikke streng. Figuren viser et lidt andet skema.
En interessant undersøgelse er blevet foretaget i Storbritannien. Det er afsat til forholdet mellem rygning og lungekræft og blev udført ved hjælp af korrelationsanalyse. Denne observation er præsenteret nedenfor.
Professionel gruppe | rygning | dødelighed |
Landmænd, skovbrugere og fiskere | 77 | 84 |
Minearbejdere og stenbrudearbejdere | 137 | 116 |
Producenter af gas, koks og kemikalier | 117 | 123 |
Producenter af glas og keramik | 94 | 128 |
Arbejdstagere i ovne, smede, støberier og valseværker | 116 | 155 |
Elektriske og elektroniske arbejdere | 102 | 101 |
Ingeniørfag og relaterede erhverv | 111 | 118 |
Produktion af træbearbejdning | 93 | 113 |
Garverier | 88 | 104 |
Tekstilarbejdere | 102 | 88 |
Producenter af arbejdstøj | 91 | 104 |
Arbejdere i fødevare-, drikkevare- og tobaksindustrien | 104 | 129 |
Producenter af papir og trykning | 107 | 86 |
Producenter af andre produkter | 112 | 96 |
Bygherrer | 113 | 144 |
Malere og dekoratører | 110 | 139 |
Stationære motordrivere, kranførere osv. | 125 | 113 |
Arbejdstagere, der ikke er klassificeret andetsteds | 133 | 146 |
Transport- og kommunikationsarbejdere | 115 | 128 |
Lagerarbejdere, lagerholdere, pakkere og påfyldningsmaskiner | 105 | 115 |
Kontormedarbejdere | 87 | 79 |
Sælgere | 91 | 85 |
Sports- og rekreative servicearbejdere | 100 | 120 |
Administratorer og ledere | 76 | 60 |
Professionelle, teknikere og kunstnere | 66 | 51 |
Lad os starte korrelationsanalysen. Det er bedre at starte løsningen for klarhed med den grafiske metode, som vi bygger et spredningsdiagram (scatter) for.
Det viser en direkte forbindelse.Det er imidlertid vanskeligt at drage en entydig konklusion, der kun er baseret på den grafiske metode. Derfor vil vi fortsætte med at udføre korrelationsanalyse. Et eksempel på beregning af korrelationskoefficienten er vist nedenfor.
Brug af softwareværktøjer (for eksempel MSExcel vil blive beskrevet senere), vi bestemmer korrelationskoefficienten, som er 0,716, hvilket betyder en stærk sammenhæng mellem de undersøgte parametre. Lad os bestemme den statistiske pålidelighed for den opnåede værdi i henhold til den tilsvarende tabel, for hvilken vi skal trække 2 fra 25 par værdier, hvilket resulterer i, at vi får 23, og fra denne række i tabellen finder vi r kritisk for p = 0,01 (da dette er medicinske data, er en strengere afhængighed, i andre tilfælde er p = 0,05 tilstrækkelig), hvilket er 0,51 for denne korrelationsanalyse. Eksemplet demonstrerede, at den beregnede r er større end den kritiske r, værdien af korrelationskoefficienten betragtes som statistisk signifikant.
Den beskrevne type statistisk databehandlingkan gøres ved hjælp af software, især MS Excel. Korrelationsanalyse i Excel involverer beregning af følgende parametre ved hjælp af funktioner:
1. Korrelationskoefficienten bestemmes ved hjælp af CORREL-funktionen (array1; array2). Array1,2 - celle med værdiområdet for de resulterende variabler og faktoriske variabler.
Lineær korrelationskoefficient kaldes også Pearson Correlation Coefficient, derfor starter du med Excel 2007, og du kan bruge PEARSON-funktionen med de samme arrays.
Grafisk visning af korrelationsanalyse i Excel udføres ved hjælp af panelet "Charts" med "Scatter Chart" -valget.
Efter at have angivet de oprindelige data får vi en graf.
2. Vurdering af betydningen af parets korrelationskoefficient ved hjælp af Student's t-test. Beregnet t-testværdi sammenlignet med tabelværdien (kritisk)af denne indikator fra den tilsvarende tabel over værdier for den pågældende parameter under hensyntagen til det givne niveau af betydning og antallet af frihedsgrader. Dette skøn udføres ved hjælp af funktionen TYUDRESIST (sandsynlighed; frihedsgrader).
3. Matrix af par-korrelationskoefficienter.Analysen udføres ved hjælp af dataanalyseværktøjet, hvor korrelation er valgt. Den statistiske vurdering af par-korrelationskoefficienterne udføres ved at sammenligne dens absolutte værdi med den tabelagtige (kritiske) værdi. Hvis den beregnede par-korrelationskoefficient overskrides i forhold til den kritiske, kan vi sige under hensyntagen til den givne sandsynlighedsgrad, at nulhypotesen om betydningen af det lineære forhold ikke afvises.
Anvendelse i videnskabelig forskning af metodenkorrelationsanalyse giver dig mulighed for at bestemme forholdet mellem forskellige faktorer og præstationsindikatorer. Det skal huskes, at en høj korrelationskoefficient også kan opnås fra et absurd par eller datasæt, og derfor skal denne type analyse udføres på et tilstrækkeligt stort datasæt.
Efter opnåelse af den beregnede værdi af r er densdet er ønskeligt at sammenligne med r kritisk for at bekræfte den statistiske signifikans af en bestemt værdi. Korrelationsanalyse kan udføres manuelt ved hjælp af formler eller ved hjælp af software, især MS Excel. Her kan du oprette et scatter (scatter) diagram for at visualisere forholdet mellem de undersøgte faktorer i korrelationsanalysen og den effektive indikator.