Bij wetenschappelijk onderzoek is er vaakde noodzaak om een verband te vinden tussen de productieve en factorvariabelen (de opbrengst van een gewas en de hoeveelheid neerslag, de lengte en het gewicht van een persoon in homogene groepen naar geslacht en leeftijd, hartslag en lichaamstemperatuur, enz.).
De tweede zijn tekenen die bijdragen aan de verandering van degenen die ermee verbonden zijn (de eerste).
Er zijn veel definities van de term. Op basis van het voorgaande kunnen we zeggen dat correlatieanalyse een methode is die wordt gebruikt om de hypothese over de statistische significantie van twee of meer variabelen te testen, als de onderzoeker ze kan meten, maar niet kan veranderen.
Er zijn andere definities van de overwogenconcepten. Correlatieanalyse is een statistische gegevensverwerkingstechniek die de correlatiecoëfficiënten tussen variabelen onderzoekt. In dit geval worden de correlatiecoëfficiënten tussen één paar of meerdere paren kenmerken vergeleken om statistische relaties tussen hen vast te stellen. Correlatieanalyse is een methode om de statistische afhankelijkheid tussen willekeurige variabelen te bestuderen met de optionele aanwezigheid van een strikt functionele aard, waarbij de dynamiek van de ene willekeurige variabele leidt tot de dynamiek van de wiskundige verwachting van een andere.
Bij het uitvoeren van correlatieanalyse is dit noodzakelijkHoud er rekening mee dat het kan worden uitgevoerd met betrekking tot elke reeks tekens, vaak absurd met betrekking tot elkaar. Soms hebben ze geen oorzakelijk verband met elkaar.
In dit geval spreken ze van een valse correlatie.
Op basis van de bovenstaande definities kan mende volgende taken van de beschreven methode formuleren: informatie verkrijgen over een van de gezochte variabelen met behulp van een andere; bepalen hoe nauw de relatie tussen de bestudeerde variabelen is.
Correlatieanalyse betreft het bepalen van de relatie tussen de bestudeerde kenmerken, in verband waarmee de taken van correlatieanalyse kunnen worden aangevuld met:
Effectieve factoren variëren van één totmeerdere factoren. De methode van correlatieanalyse kan worden gebruikt als er een groot aantal observaties is over de waarde van de effectieve en factorindicatoren (factoren), terwijl de onderzochte factoren kwantitatief moeten zijn en in specifieke bronnen moeten worden weerspiegeld. De eerste kan worden bepaald door de normale wet - in dit geval zijn de Pearson-correlatiecoëfficiënten het resultaat van de correlatieanalyse, of, als de kenmerken niet aan deze wet voldoen, wordt de rangcorrelatiecoëfficiënt van Spearman gebruikt.
Bij het toepassen van deze methode is het noodzakelijkbepalen welke factoren van invloed zijn op prestatie-indicatoren. Ze worden geselecteerd rekening houdend met het feit dat er causale verbanden moeten zijn tussen de indicatoren. In het geval van het creëren van een multivariate correlatiemodel, worden die geselecteerd die een significante impact hebben op de resulterende indicator, terwijl het de voorkeur verdient om onderling afhankelijke factoren met een paarcorrelatiecoëfficiënt van meer dan 0,85 niet op te nemen in het correlatiemodel, evenals die waarin de relatie met de effectieve parameter niet-lineair is. of functioneel van aard.
De resultaten van correlatieanalyse kunnen in tekst en grafische vormen worden gepresenteerd. In het eerste geval worden ze gepresenteerd als een correlatiecoëfficiënt, in het tweede - in de vorm van een spreidingsdiagram.
Als er geen verband is tussen de puntparametersze bevinden zich chaotisch op het diagram, de gemiddelde mate van verbinding wordt gekenmerkt door een grotere mate van orde en wordt gekenmerkt door een min of meer uniforme afstand van de gemarkeerde markeringen tot de mediaan. Een sterke binding neigt naar een rechte lijn en voor r = 1 is de puntplot een rechte lijn. Inverse correlatie verschilt in de richting van de grafiek van linksboven naar rechtsonder, de rechte lijn - van de linkerbenedenhoek naar de rechterbovenhoek.
Naast de traditionele 2D-spreidingsplot wordt nu een grafische 3D-weergave van de correlatieanalyse gebruikt.
Scatterplot-matrix wordt ook gebruikt,die alle gepaarde plots in één figuur in matrixformaat toont. Voor n variabelen bevat de matrix n rijen en n kolommen. Het diagram op het snijpunt van de i-de rij en de j-de kolom is een grafiek van de variabelen Xi versus Xj. Elke rij en kolom is dus één dimensie, een enkele cel geeft een scatterplot van twee dimensies weer.
De dichtheid van de correlatie wordt bepaald doorcorrelatiecoëfficiënt (r): sterk - r = ± 0,7 tot ± 1, gemiddeld - r = ± 0,3 tot ± 0,699, zwak - r = 0 tot ± 0,299. Deze classificatie is niet strikt. De figuur toont een iets ander schema.
In het VK is een interessante studie uitgevoerd. Het is gewijd aan de relatie tussen roken en longkanker, en werd uitgevoerd door middel van correlatieanalyse. Deze observatie wordt hieronder weergegeven.
Professionele groep | roken | sterfte |
Boeren, boswachters en vissers | 77 | 84 |
Mijnwerkers en steengroevearbeiders | 137 | 116 |
Producenten van gas, cokes en chemicaliën | 117 | 123 |
Glas- en keramiekfabrikanten | 94 | 128 |
Arbeiders in ovens, smederijen, gieterijen en walserijen | 116 | 155 |
Elektrische en elektronische werknemers | 102 | 101 |
Engineering en aanverwante beroepen | 111 | 118 |
Houtbewerkingsproductie | 93 | 113 |
Leerlooiers | 88 | 104 |
Textielarbeiders | 102 | 88 |
Fabrikanten van werkkleding | 91 | 104 |
Werknemers in de voedingsmiddelen-, dranken- en tabaksindustrie | 104 | 129 |
Fabrikanten van papier en drukwerk | 107 | 86 |
Fabrikanten van andere producten | 112 | 96 |
Bouwers | 113 | 144 |
Schilders en decorateurs | 110 | 139 |
Stationaire machinisten, kranen enz. | 125 | 113 |
Werknemers die niet elders zijn opgenomen | 133 | 146 |
Transport- en communicatiemedewerkers | 115 | 128 |
Magazijnmedewerkers, winkeliers, verpakkers en vulmachines | 105 | 115 |
Administratieve werkers | 87 | 79 |
Verkopers | 91 | 85 |
Sport- en recreatiepersoneel | 100 | 120 |
Beheerders en managers | 76 | 60 |
Professionals, technici en artiesten | 66 | 51 |
Laten we beginnen met de correlatieanalyse. Voor de duidelijkheid is het beter om de oplossing te starten met de grafische methode, waarvoor we een spreidingsdiagram (scatter) gaan bouwen.
Het toont een directe verbinding. Het is echter moeilijk om een eenduidige conclusie te trekken alleen op basis van de grafische methode. Daarom zullen we correlatieanalyses blijven uitvoeren. Een voorbeeld van het berekenen van de correlatiecoëfficiënt wordt hieronder weergegeven.
Met behulp van software (bijvoorbeeld MSExcel zal later worden beschreven), bepalen we de correlatiecoëfficiënt, die 0,716 is, wat een sterke relatie betekent tussen de bestudeerde parameters. Laten we de statistische betrouwbaarheid van de verkregen waarde bepalen volgens de bijbehorende tabel, waarvoor we 2 moeten aftrekken van 25 paren waarden, waardoor we 23 krijgen en uit deze rij in de tabel vinden we r kritisch voor p = 0,01 (aangezien dit medische gegevens zijn, een striktere afhankelijkheid, in andere gevallen is p = 0,05 voldoende), wat 0,51 is voor deze correlatieanalyse. Het voorbeeld toonde aan dat de berekende r groter is dan de kritische r, de waarde van de correlatiecoëfficiënt wordt als statistisch significant beschouwd.
Het beschreven type statistische gegevensverwerkingkan worden uitgevoerd met behulp van software, in het bijzonder MS Excel. Correlatieanalyse in Excel omvat het berekenen van de volgende parameters met behulp van functies:
1. De correlatiecoëfficiënt wordt bepaald met de functie CORREL (array1; array2). Array1,2 - cel van het bereik van waarden van de resulterende en faculteit variabelen.
Lineaire correlatiecoëfficiënt wordt ook wel Pearson-correlatiecoëfficiënt genoemd, daarom kunt u vanaf Excel 2007 de PEARSON-functie gebruiken met dezelfde arrays.
Grafische weergave van correlatieanalyse in Excel wordt uitgevoerd met behulp van het paneel "Grafieken" met de selectie "Spreidingsdiagram".
Nadat we de eerste gegevens hebben aangegeven, krijgen we een grafiek.
2. Beoordeling van de significantie van de paarcorrelatiecoëfficiënt met behulp van Student's t-test. Berekende t-testwaarde vergeleken met de tabel (kritische) waardevan deze indicator uit de overeenkomstige tabel met waarden van de betreffende parameter, rekening houdend met het gegeven significantieniveau en het aantal vrijheidsgraden. Deze schatting wordt gedaan met behulp van de functie TYUDINVERSION (waarschijnlijkheid; vrijheidsgraden).
3. Matrix van paarcorrelatiecoëfficiënten. De analyse wordt uitgevoerd met behulp van de Data Analyse tool, waarin Correlation is geselecteerd. De statistische beoordeling van de paarcorrelatiecoëfficiënten wordt uitgevoerd door de absolute waarde ervan te vergelijken met de tabel (kritische) waarde. Als de berekende paarcorrelatiecoëfficiënt die kritische coëfficiënt overschrijdt, kunnen we, rekening houdend met een bepaalde waarschijnlijkheidsgraad, zeggen dat de nulhypothese over de significantie van de lineaire relatie niet wordt verworpen.
Methode gebruiken in wetenschappelijk onderzoekcorrelatieanalyse stelt u in staat om de relatie tussen verschillende factoren en prestatie-indicatoren te bepalen. Houd er rekening mee dat een hoge correlatiecoëfficiënt ook kan worden verkregen uit een absurd paar of een set gegevens, en daarom moet dit type analyse worden uitgevoerd op een voldoende grote gegevensset.
Na het verkrijgen van de berekende waarde r, zijnhet is wenselijk om te vergelijken met r kritisch om de statistische significantie van een bepaalde waarde te bevestigen. Correlatieanalyse kan handmatig worden uitgevoerd met behulp van formules of met behulp van software, in het bijzonder MS Excel. Hier kun je een spreidingsdiagram (spreidingsdiagram) maken om de relatie tussen de bestudeerde factoren van correlatieanalyse en de effectieve indicator te visualiseren.