Dans la recherche scientifique se pose souventla nécessité de trouver un lien entre les variables productives et factorielles (rendement et pluviométrie, taille et poids d'une personne en groupes homogènes par sexe et âge, pouls et température corporelle, etc.).
Les seconds sont des signes qui contribuent au changement de ceux qui leur sont associés (les premiers).
Il existe de nombreuses définitions du terme.Sur la base de ce qui précède, nous pouvons dire que l'analyse de corrélation est une méthode utilisée pour tester l'hypothèse de la signification statistique de deux ou plusieurs variables, si le chercheur peut les mesurer, mais pas les changer.
D'autres définitions sont à l'étude.concepts. L'analyse de corrélation est une méthode de traitement des données statistiques qui consiste à étudier les coefficients de corrélation entre variables. Dans ce cas, les coefficients de corrélation entre une paire ou une pluralité de paires de caractéristiques sont comparés pour établir des relations statistiques entre eux. L'analyse de corrélation est une méthode pour étudier la relation statistique entre des variables aléatoires avec la présence facultative d'une nature fonctionnelle stricte, dans laquelle la dynamique d'une variable aléatoire conduit à la dynamique de l'attente mathématique d'une autre.
Lors de la réalisation d'une analyse de corrélation, il est nécessaireprendre en compte qu'elle peut être réalisée par rapport à tout ensemble de signes, souvent absurde les uns par rapport aux autres. Parfois, ils n'ont aucune relation causale entre eux.
Dans ce cas, ils parlent d'une fausse corrélation.
Sur la base des définitions ci-dessus, nous pouvonsformuler les tâches suivantes de la méthode décrite: obtenir des informations sur l'une des variables souhaitées en utilisant l'autre; déterminer l'étroitesse de la relation entre les variables étudiées.
L'analyse de corrélation implique de déterminer la relation entre les caractéristiques étudiées, et par conséquent les tâches d'analyse de corrélation peuvent être complétées par ce qui suit:
Les facteurs productifs dépendent d'un àplusieurs facteurs. La méthode d'analyse de corrélation peut être appliquée s'il existe un grand nombre d'observations sur la valeur des indicateurs effectifs et factoriels (facteurs), tandis que les facteurs étudiés doivent être quantitatifs et reflétés dans des sources spécifiques. Le premier peut être déterminé par une loi normale - dans ce cas, le résultat de l'analyse de corrélation est les coefficients de corrélation de Pearson ou, si les signes n'obéissent pas à cette loi, le coefficient de corrélation de rang Spearman est utilisé.
Lors de l'application de cette méthode, il est nécessairedéterminer les facteurs qui influencent les indicateurs de performance. Ils sont sélectionnés en tenant compte du fait que des relations causales doivent être présentes entre les indicateurs. Dans le cas de la création d'un modèle de corrélation multivariée, ceux qui ont un impact significatif sur l'indicateur résultant sont sélectionnés, alors qu'il est préférable de ne pas inclure de facteurs interdépendants avec un coefficient de corrélation de paire supérieur à 0,85 dans le modèle de corrélation, ainsi que ceux dans lesquels la relation avec le paramètre effectif n'est pas linéaire. ou de nature fonctionnelle.
Les résultats de l'analyse de corrélation peuvent être présentés sous forme textuelle et graphique. Dans le premier cas, ils sont présentés comme un coefficient de corrélation, dans le second - sous la forme d'un diagramme de dispersion.
En l'absence de corrélation entre les paramètres ponctuelssont disposés aléatoirement sur le diagramme, le degré moyen de connexion se caractérise par un degré d'ordonnancement supérieur et se caractérise par une distance plus ou moins uniforme des marques appliquées par rapport à la médiane. Une connexion forte tend vers une ligne droite et pour r = 1, le graphique en pointillé représente une ligne droite. La corrélation inverse est différente dans la direction du graphique du coin supérieur gauche au coin inférieur droit, la ligne droite - du coin inférieur gauche au coin supérieur droit.
En plus de la représentation 2D traditionnelle du diagramme de dispersion, l'affichage 3D de la représentation graphique de l'analyse de corrélation est actuellement utilisé.
Une matrice de dispersion est également utilisée,qui affiche tous les graphiques appariés dans une image au format matriciel. Pour n variables, la matrice contient n lignes et n colonnes. Le diagramme situé à l'intersection de la i-ème ligne et de la j-ème colonne est un graphique des variables Xi par rapport à Xj. Ainsi, chaque ligne et colonne est une dimension, une cellule séparée affiche un diagramme de dispersion de deux dimensions.
L'étanchéité de la corrélation est déterminée parcoefficient de corrélation (r): fort - r = ± 0,7 à ± 1, moyen - r = ± 0,3 à ± 0,699, faible - r = 0 à ± 0,299. Cette classification n'est pas stricte. La figure montre un schéma légèrement différent.
Une étude intéressante a été entreprise au Royaume-Uni. Il est consacré à la relation du tabagisme avec le cancer du poumon et a été réalisé par analyse de corrélation. Cette observation est présentée ci-dessous.
Groupe professionnel | fumeur | mortalité |
Agriculteurs, forestiers et pêcheurs | 77 | 84 |
Mineurs et travailleurs des carrières | 137 | 116 |
Fabricants de gaz, de coke et de produits chimiques | 117 | 123 |
Fabricants de verre et de céramique | 94 | 128 |
Ouvriers de fours, forges, fonderies et laminoirs | 116 | 155 |
Ouvriers électriciens et électroniciens | 102 | 101 |
Génie et professions apparentées | 111 | 118 |
L'industrie du bois | 93 | 113 |
Tanneurs | 88 | 104 |
Travailleurs du textile | 102 | 88 |
Fabricants de vêtements de travail | 91 | 104 |
Travailleurs de l'alimentation, des boissons et du tabac | 104 | 129 |
Fabricants de papier et d'impression | 107 | 86 |
Fabricants d'autres produits | 112 | 96 |
Constructeurs | 113 | 144 |
Artistes et décorateurs | 110 | 139 |
Conducteurs de moteurs fixes, de grues, etc. | 125 | 113 |
Travailleurs non classés ailleurs | 133 | 146 |
Travailleurs des transports et des communications | 115 | 128 |
Employés d'entrepôt, magasiniers, emballeurs et travailleurs de machines de remplissage | 105 | 115 |
Employés de bureau | 87 | 79 |
Les vendeurs | 91 | 85 |
Travailleurs des sports et des loisirs | 100 | 120 |
Administrateurs et gestionnaires | 76 | 60 |
Professionnels, techniciens et artistes | 66 | 51 |
Nous commençons l'analyse de corrélation. Il est préférable de commencer la solution pour plus de clarté avec la méthode graphique, pour laquelle nous construisons un diagramme de dispersion (scatter).
Elle démontre une connexion directe.Cependant, sur la base de la seule méthode graphique, il est difficile de tirer une conclusion sans ambiguïté. Par conséquent, nous continuons d'effectuer une analyse de corrélation. Un exemple de calcul du coefficient de corrélation est présenté ci-dessous.
Utilisation d'outils logiciels (en utilisant MS comme exemple)Excel sera décrit plus loin) nous déterminons le coefficient de corrélation, qui est de 0,716, ce qui signifie une forte relation entre les paramètres étudiés. Nous déterminons la fiabilité statistique de la valeur obtenue à partir du tableau correspondant, pour lequel nous devons soustraire 2 de 25 paires de valeurs, à la suite de quoi nous obtenons 23 et sur cette ligne du tableau, nous trouvons r critique pour p = 0,01 (puisqu'il s'agit de données médicales, nous utilisons des données plus strictes la dépendance, dans d'autres cas p = 0,05) suffit, ce qui est de 0,51 pour cette analyse de corrélation. Un exemple a montré que le r calculé est supérieur au r critique, la valeur du coefficient de corrélation est considérée comme statistiquement significative.
Le type décrit de traitement des données statistiquespeut être réalisée à l'aide d'un logiciel, notamment MS Excel. L'analyse de corrélation Excel implique le calcul des paramètres suivants à l'aide de fonctions:
1. Le coefficient de corrélation est déterminé à l'aide de la fonction CORREL (array1; array2). Tableau 1.2 - cellule de l'intervalle de valeurs des variables productives et factorielles.
Le coefficient de corrélation linéaire est également appelé coefficient de corrélation Pearson. Par conséquent, à partir d'Excel 2007, vous pouvez utiliser la fonction PEARSON avec les mêmes tableaux.
Un affichage graphique de l'analyse de corrélation dans Excel est effectué à l'aide du panneau Graphiques avec le choix du diagramme de dispersion.
Après avoir spécifié les données source, nous obtenons un graphique.
2. Évaluation de la signification du coefficient de corrélation de paires à l'aide du test t-student. La valeur calculée du test t se compare à la valeur tabulaire (critique)cet indicateur de la table de valeurs correspondante du paramètre en question, en tenant compte d'un niveau de signification donné et du nombre de degrés de liberté. Cette évaluation est réalisée à l'aide de la fonction STUDUSTER (probabilité; degrés de liberté).
3. La matrice des coefficients de corrélation des paires.L'analyse est effectuée à l'aide de l'outil «Data Analysis», dans lequel «Correlation» est sélectionné. Une évaluation statistique des coefficients de corrélation de paires est effectuée en comparant sa valeur absolue à une valeur tabulaire (critique). Si le coefficient de corrélation de paire calculé dépasse celui critique, on peut dire, en tenant compte du degré de probabilité donné, que l'hypothèse nulle sur la signification de la communication linéaire n'est pas rejetée.
Utilisation de la méthode dans la recherche scientifiquel'analyse de corrélation vous permet de déterminer la relation entre divers facteurs et indicateurs de performance. Il convient de garder à l'esprit qu'un coefficient de corrélation élevé peut également être obtenu à partir d'une paire absurde ou d'un ensemble de données, et donc ce type d'analyse doit être effectué sur un ensemble de données suffisamment grand.
Après avoir obtenu la valeur calculée r, sonil est souhaitable de comparer avec r critique pour confirmer la signification statistique d'une certaine valeur. L'analyse de corrélation peut être effectuée manuellement à l'aide de formules, ou à l'aide d'un logiciel, notamment MS Excel. Ici, vous pouvez construire un diagramme de dispersion (scatter) afin de visualiser la relation entre les facteurs étudiés de l'analyse de corrélation et l'indicateur effectif.