U znanstvenim istraživanjima često postojipotreba za pronalaženjem odnosa između proizvodnih i faktornih varijabli (prinos usjeva i količina oborina, visina i težina osobe u homogenim skupinama prema spolu i dobi, otkucajima srca i tjelesnoj temperaturi itd.).
Drugi su znakovi koji pridonose promjeni onih koji su s njima povezani (prvi).
Postoje mnoge definicije pojma. Na temelju prethodno rečenog, možemo reći da je korelacijska analiza metoda kojom se testira hipoteza o statističkoj značajnosti dviju ili više varijabli, ako ih istraživač može izmjeriti, ali ne i promijeniti.
Postoje i druge definicije razmatranihkoncepti. Korelacijska analiza statistička je tehnika obrade podataka koja ispituje koeficijente korelacije između varijabli. U ovom se slučaju koeficijenti korelacije uspoređuju između jednog para ili skupa parova obilježja kako bi se uspostavili statistički odnosi između njih. Korelacijska analiza metoda je za proučavanje statističke ovisnosti između slučajnih varijabli s neobaveznom prisutnošću stroge funkcionalne prirode, u kojoj dinamika jedne slučajne varijable dovodi do dinamike matematičkih očekivanja druge.
Prilikom provođenja korelacijske analize potrebno jeuzeti u obzir da se to može provesti u odnosu na bilo koji skup znakova, često apsurdnih u odnosu jedni na druge. Ponekad nemaju uzročnu vezu jedni s drugima.
U ovom slučaju govore o lažnoj korelaciji.
Na temelju gornjih definicija može seformulirati sljedeće zadatke opisane metode: dobiti podatke o jednoj od potrebnih varijabli pomoću druge; utvrditi bliskost odnosa između proučavanih varijabli.
Korelacijska analiza uključuje utvrđivanje odnosa između proučavanih karakteristika, u vezi s čime se zadaci korelacijske analize mogu nadopuniti sljedećim:
Učinkoviti čimbenici variraju od jednog donekoliko čimbenika. Metoda korelacijske analize može se koristiti ako postoji velik broj opažanja o vrijednosti efektivnih i faktorskih pokazatelja (čimbenika), dok bi istraživani čimbenici trebali biti kvantitativni i odražavati se u određenim izvorima. Prvo se može odrediti normalnim zakonom - u ovom su slučaju Pearsonovi koeficijenti korelacije rezultat korelacijske analize, ili, ako se značajke ne pokoravaju ovom zakonu, koristi se Spearmanov koeficijent korelacije ranga.
Kada primjenjujete ovu metodu, potrebno jeodrediti čimbenike koji utječu na pokazatelje uspješnosti. Odabiru se uzimajući u obzir činjenicu da između pokazatelja moraju postojati uzročno-posljedične veze. U slučaju stvaranja multivarijacijskog modela korelacije odabiru se oni od njih koji imaju značajan utjecaj na rezultirajući pokazatelj, dok međuovisni čimbenici s koeficijentom korelacije parova većim od 0,85 ne bi trebali biti uključeni u model korelacije, kao i oni u kojima odnos s efektivnim parametrom nije izravan ili funkcionalne prirode.
Rezultati korelacijske analize mogu se predstaviti u tekstualnom i grafičkom obliku. U prvom su slučaju predstavljeni kao koeficijent korelacije, u drugom - u obliku dijagrama raspršenja.
Ako nema korelacije između parametara točkekaotično su raspoređeni na dijagramu, prosječni stupanj povezanosti karakterizira viši stupanj uređenosti i karakterizira više ili manje jednolična udaljenost označenih oznaka od medijane. Jaka veza teži ravnoj crti, a za r = 1 crta točke je ravna crta. Inverzna korelacija razlikuje se u smjeru grafikona od gornjeg lijevog do donjeg desnog, ravna crta - od donjeg lijevog do gornjeg desnog kuta.
Uz tradicionalnu 2D raspršenu grafiku, sada se koristi 3D grafički prikaz korelacijske analize.
Također se koristi Scatterplot matrica,koji prikazuje sve uparene crteže na jednoj slici u matričnom formatu. Za n varijabli, matrica sadrži n redaka i n stupaca. Dijagram smješten na sjecištu i-tog retka i j-tog stupca grafikon je varijabli Xi nasuprot Xj. Dakle, svaki redak i stupac su jedna dimenzija, jedna ćelija prikazuje raspršeni dijagram dvije dimenzije.
Čvrstoća korelacije određuje se pomoćukoeficijent korelacije (r): jak - r = ± 0,7 do ± 1, srednji - r = ± 0,3 do ± 0,699, slab - r = 0 do ± 0,299. Ova klasifikacija nije stroga. Slika prikazuje malo drugačiju shemu.
Zanimljivo istraživanje provedeno je u Velikoj Britaniji. Posvećen je odnosu pušenja i raka pluća, a proveden je korelacijskom analizom. Ovo je zapažanje predstavljeno u nastavku.
Profesionalna grupa | pušenje | smrtnost |
Poljoprivrednici, šumari i ribari | 77 | 84 |
Rudari i radnici u kamenolomima | 137 | 116 |
Proizvođači plina, koksa i kemikalija | 117 | 123 |
Proizvođači stakla i keramike | 94 | 128 |
Radnici u pećima, kovačnicama, ljevaonicama i valjaonicama | 116 | 155 |
Radnici elektrotehnike i elektronike | 102 | 101 |
Inženjerstvo i srodna zanimanja | 111 | 118 |
Proizvodnja obrade drveta | 93 | 113 |
Kožari | 88 | 104 |
Tekstilni radnici | 102 | 88 |
Proizvođači radne odjeće | 91 | 104 |
Radnici u industriji hrane, pića i duhana | 104 | 129 |
Proizvođači papira i tiska | 107 | 86 |
Proizvođači ostalih proizvoda | 112 | 96 |
Graditelji | 113 | 144 |
Slikari i dekorateri | 110 | 139 |
Nepokretni vozači motora, kranovi itd. | 125 | 113 |
Radnici koji nisu uključeni drugdje | 133 | 146 |
Transportni i komunikacijski djelatnici | 115 | 128 |
Skladišni radnici, skladištari, pakeri i radnici na strojevima za punjenje | 105 | 115 |
Službenici | 87 | 79 |
Prodavatelji | 91 | 85 |
Djelatnici sporta i rekreacije | 100 | 120 |
Administratori i upravitelji | 76 | 60 |
Profesionalci, tehničari i umjetnici | 66 | 51 |
Krenimo s korelacijskom analizom. Radi jasnoće, rješenje je bolje započeti grafičkom metodom, za koju ćemo izgraditi dijagram raspršenja (raspršenje).
Pokazuje izravnu povezanost. Međutim, teško je izvesti jednoznačan zaključak samo na temelju grafičke metode. Stoga ćemo nastaviti izvoditi korelacijsku analizu. Primjer izračuna koeficijenta korelacije predstavljen je u nastavku.
Korištenje softvera (na primjer, MSExcel će biti opisan kasnije), utvrđujemo koeficijent korelacije, koji iznosi 0,716, što znači snažnu povezanost proučavanih parametara. Utvrdimo statističku pouzdanost dobivene vrijednosti prema odgovarajućoj tablici, za koju od 25 parova vrijednosti moramo oduzeti 2, što rezultira rezultatom 23 i iz ovog retka u tablici nalazimo r kritično za p = 0,01 (budući da se radi o medicinskim podacima, strožiji ovisnost, u ostalim je slučajevima dovoljan p = 0,05), što je 0,51 za ovu korelacijsku analizu. Primjer je pokazao da je izračunati r veći od kritičnog r, vrijednost koeficijenta korelacije smatra se statistički značajnom.
Opisana vrsta statističke obrade podatakamože se izvršiti pomoću softvera, posebno MS Excel. Analiza korelacije u programu Excel uključuje izračunavanje sljedećih parametara pomoću funkcija:
1. Koeficijent korelacije određuje se pomoću funkcije CORREL (niz1; niz2). Niz 1,2 - ćelija raspona vrijednosti rezultantne i faktorijelne varijable.
Koeficijent linearne korelacije naziva se i Pearsonov koeficijent korelacije, stoga, počevši od programa Excel 2007, možete koristiti funkciju PEARSON s istim nizovima.
Grafički prikaz korelacijske analize u programu Excel vrši se pomoću ploče "Karte" s odabirom "Scatter Chart".
Nakon naznačenja početnih podataka dobivamo grafikon.
2. Procjena značajnosti koeficijenta korelacije para pomoću Studentova t-testa. Izračunata vrijednost t-testa u usporedbi s tabličnom (kritičnom) vrijednošćuovog pokazatelja iz odgovarajuće tablice vrijednosti parametra koji se razmatra, uzimajući u obzir navedenu razinu značajnosti i broj stupnjeva slobode. Ova se procjena vrši pomoću funkcije TYUDREV (vjerojatnost; stupnjevi_slobode).
3. Matrica koeficijenata korelacije para.Analiza se provodi pomoću alata Analiza podataka u kojem je odabrana Korelacija. Statistička procjena koeficijenata korelacije para provodi se usporedbom njegove apsolutne vrijednosti s tabličnom (kritičnom) vrijednošću. Ako izračunati koeficijent korelacije para prelazi onaj kritični, možemo, uzimajući u obzir zadani stupanj vjerojatnosti, reći da se nula hipoteza o značaju linearnog odnosa ne odbacuje.
Upotreba metode u znanstvenim istraživanjimakorelacijska analiza omogućuje vam utvrđivanje odnosa između različitih čimbenika i pokazatelja uspješnosti. Treba imati na umu da se visoki koeficijent korelacije može dobiti i iz apsurdnog para ili skupa podataka, u vezi s čime se ova vrsta analize mora provesti na dovoljno velikom skupu podataka.
Nakon dobivanja izračunate vrijednosti r, njegovpoželjno je usporediti s r kritičnim kako bi se potvrdila statistička značajnost određene vrijednosti. Analiza korelacije može se provesti ručno pomoću formula ili pomoću softvera, posebno MS Excel. Ovdje možete izgraditi dijagram raspršenja (raspršenja) kako biste vizualizirali odnos između proučavanih čimbenika korelacijske analize i efektivnog pokazatelja.