Eva Goldwater Centre de consultation en biostatistique École de santé publique de l'Université du Massachusetts mise à jour Février 2007 Présentation Nous avons utilisé Excel pour effectuer certaines tâches d'analyse de données de base afin de déterminer s'il s'agit d'une solution de rechange raisonnable à l'utilisation d'un ensemble statistique pour les mêmes tâches. Nous avons conclu que Excel est un mauvais choix pour l'analyse statistique au-delà des manuels scolaires, les statistiques descriptives les plus simples, ou pour plus de quelques colonnes. Les problèmes rencontrés qui ont abouti à cette conclusion sont dans quatre domaines généraux: Les valeurs manquantes sont traitées de manière incohérente et parfois incorrecte. L'organisation des données diffère selon l'analyse, vous obligeant à réorganiser vos données de plusieurs façons si vous voulez faire de nombreuses analyses différentes. De nombreuses analyses ne peuvent être effectuées que sur une colonne à la fois, ce qui rend inutile de faire la même analyse sur de nombreuses colonnes. La production est mal organisée, parfois insuffisamment étiquetée, et il n'existe aucune trace de la façon dont une analyse a été réalisée. Excel est pratique pour la saisie de données et pour la manipulation rapide des lignes et des colonnes avant l'analyse statistique. Toutefois, lorsque vous êtes prêt à effectuer l'analyse statistique, nous vous recommandons l'utilisation d'un package statistique tel que SAS, SPSS, Stata, Systat ou Minitab. Introduction Excel est probablement la feuille de calcul la plus utilisée pour les PC. Les ordinateurs nouvellement achetés arrivent souvent avec Excel déjà chargé. Il est facilement utilisé pour faire une variété de calculs, comprend une collection de fonctions statistiques, et un outil d'analyse de données. En conséquence, si vous trouvez soudainement que vous devez faire une analyse statistique, vous pouvez vous tourner vers elle comme le choix évident. Nous avons décidé de faire quelques tests pour voir comment Excel fonctionnerait comme une application d'analyse de données. Pour présenter les résultats, nous utiliserons un petit exemple. Les données de cet exemple sont fictives. Il a été choisi pour avoir deux variables catégorielles et deux variables continues, de sorte que nous pouvions tester une variété de techniques statistiques de base. Puisque presque tous les ensembles de données réels ont au moins quelques points de données manquants et que la capacité de traiter correctement les données manquantes est l'une des caractéristiques que nous considérons comme acquises dans un paquet d'analyse statistique, nous avons introduit deux cellules vides dans les données: Chaque ligne de la feuille de calcul représente un sujet. Le premier sujet a reçu le traitement 1 et a eu le résultat 1. X et Y sont les valeurs de deux mesures sur chaque sujet. Nous n'avons pas pu obtenir une mesure pour Y sur le deuxième sujet, ou sur X pour le dernier sujet, donc ces cellules sont vides. Les sujets sont entrés dans l'ordre où les données sont devenues disponibles, donc les données ne sont pas commandées d'une manière particulière. Nous avons utilisé ces données pour faire quelques analyses simples et comparé les résultats avec un paquet statistique standard. La comparaison a considéré la précision des résultats ainsi que la facilité avec laquelle l'interface pourrait être utilisée pour des ensembles de données plus importants - c'est-à-dire plus de colonnes. Nous avons utilisé SPSS comme standard, bien que l'un des paquets statistiques que les soutiens de l'OIT ferait également bien à cette fin. Dans cet article, quand nous disons paquet statistique quota, nous entendons SPSS, SAS, STATA, SYSTAT ou Minitab. La plupart des procédures statistiques de Excels font partie du pack d'outils d'analyse de données, qui se trouve dans le menu Outils. Il comprend une variété de choix, y compris des statistiques descriptives simples, des tests t, des corrélations, une analyse de variance à 1 ou 2 voies, une régression, etc. Si vous n'avez pas d'élément Analyse des données dans le menu Outils, Analyse ToolPak. Recherchez dans l'Aide pour quotDanalyse des outils pour obtenir des instructions sur le chargement du ToolPak. Deux autres fonctionnalités Excel sont utiles pour certaines analyses, mais l'outil d'analyse de données est le seul qui fournit des tests raisonnablement complets de signification statistique. La table de pivotement du menu Données peut être utilisée pour générer des tableaux récapitulatifs des moyennes, des écarts types, des comptes, etc. Vous pouvez également utiliser des fonctions pour générer des mesures statistiques, comme un coefficient de corrélation. Les fonctions génèrent un seul numéro, donc en utilisant des fonctions, vous devrez probablement combiner des morceaux pour obtenir ce que vous voulez. Même si, vous ne pouvez pas être en mesure de générer toutes les pièces dont vous avez besoin pour une analyse complète. Sauf indication contraire, tous les tests statistiques à l'aide d'Excel ont été effectués avec le Data Analysis ToolPak. Afin de vérifier une variété de tests statistiques, nous avons choisi les tâches suivantes: Obtenir les moyennes et les écarts types de X et Y pour l'ensemble du groupe et pour chaque groupe de traitement. Obtenir la corrélation entre X et Y. Faire un test t de deux échantillons pour tester si les deux groupes de traitement diffèrent sur X et Y. Faire un test t apparié pour tester si X et Y sont statistiquement différents les uns des autres. Comparer le nombre de sujets avec chaque résultat par groupe de traitement, en utilisant un test au chi carré. Toutes ces tâches sont routinières pour un ensemble de données de cette nature, et toutes peuvent être facilement effectuées en utilisant l'un des paquets statistiques listés ci-dessus. Problèmes généraux Activer l'outil d'analyse L'outil d'analyse de données ToolPak n'est pas installé avec la configuration standard d'Excel. Recherchez dans le menu Outils. Si vous n'avez pas d'élément d'analyse des données, vous devez installer les outils d'analyse des données. Pour plus d'informations, consultez l'aide de QuotDanalyse de données. Valeurs manquantes Une seule cellule vide est le seul moyen pour Excel de traiter les données manquantes. Si vous avez d'autres codes de valeur manquants, vous devrez les changer en blanc. Disposition des données Différentes analyses exigent que les données soient arrangées de différentes façons. Si vous prévoyez une variété de tests différents, il peut ne pas y avoir un seul arrangement qui fonctionnera. Vous aurez probablement besoin de réorganiser les données plusieurs façons d'obtenir tout ce dont vous avez besoin. Boîtes de dialogue Choisissez ToolsData Analysis et sélectionnez le type d'analyse que vous voulez faire. La boîte de dialogue type contient les éléments suivants: Plage d'entrée: Tapez les cellules du coin supérieur gauche et du coin inférieur droit. par exemple. A1: B100. Vous ne pouvez choisir que des lignes et des colonnes adjacentes. À moins qu'il n'y ait une case à cocher pour regrouper des données par des lignes ou des colonnes (et il n'y en a pas habituellement), toutes les données sont considérées comme une glop. Étiquettes - Il ya parfois une boîte que vous pouvez cocher pour indiquer que la première ligne de votre feuille contient des étiquettes. Si vous avez des étiquettes dans la première rangée, cochez cette case, et votre sortie PEUT être étiquetée avec votre étiquette. Encore une fois, il ne peut pas. Emplacement de sortie - Nouvelle feuille est la valeur par défaut. Ou, tapez l'adresse de la cellule dans le coin supérieur gauche de l'endroit où vous souhaitez placer la sortie dans la feuille en cours. Nouvelle feuille de travail est une autre option, que je n'ai pas essayé. Les ramifications de ce choix sont discutées ci-dessous. Autres éléments, selon l'analyse. Emplacement de sortie La sortie de chaque analyse peut aller à une nouvelle feuille dans votre fichier Excel actuel (c'est la valeur par défaut), ou vous pouvez la placer dans la feuille courante en spécifiant la cellule de coin supérieur gauche où vous voulez qu'elle soit placée. L'une ou l'autre manière est un peu une nuisance. Si chaque sortie est dans une nouvelle feuille, vous vous retrouvez avec beaucoup de feuilles, chacune avec un petit peu de sortie. Si vous les placez dans la feuille en cours, vous devez les placer de manière appropriée laisser la place pour ajouter des commentaires et des étiquettes changements que vous devez faire pour formater une sortie correctement peut affecter une autre sortie négativement. Exemple: La sortie de Descriptives a une colonne d'étiquettes telle que Standard Deviation, Standard Error, etc. Vous voudrez faire cette colonne large afin de pouvoir lire les étiquettes. Mais si une sortie de fréquence simple est juste en dessous, alors la colonne affichant les valeurs étant comptées, qui peut contenir juste de petits entiers, sera également large. Résultats des analyses Statistiques descriptives Le moyen le plus rapide d'obtenir les moyennes et les écarts types pour un groupe entier est d'utiliser des descriptifs dans les outils d'analyse des données. Vous pouvez choisir plusieurs colonnes adjacentes pour la plage d'entrée (dans ce cas les colonnes X et Y), et chaque colonne est analysée séparément. Les étiquettes de la première ligne sont utilisées pour étiqueter la sortie et les cellules vides sont ignorées. Si vous avez plus de colonnes non adjacentes que vous devez analyser, vous devrez répéter le processus pour chaque groupe de colonnes contiguës. La procédure est simple, peut gérer beaucoup de colonnes raisonnablement efficace, et les cellules vides sont traitées correctement. Pour obtenir les moyennes et les écarts-types de X et Y pour chaque groupe de traitement, il faut utiliser des tableaux croisés dynamiques (sauf si vous souhaitez réorganiser la feuille de données pour séparer les deux groupes). Après avoir sélectionné la plage de données (contiguës), dans l'option Mise en forme des assistants de tables croisées, faites glisser Traitement vers la zone de variable Ligne et X dans la zone Données. Double-cliquez sur ldquoCount de Xrdquo dans la zone Données et changez-le en Average. Faites glisser X dans la zone de données à nouveau, et cette fois, changez Count à StdDev. Enfin, faites glisser X en une fois de plus, en laissant le nombre de X. Cela nous donnera la moyenne, l'écart-type et le nombre d'observations dans chaque groupe de traitement pour X. Faites la même chose pour Y, nous obtiendrons la moyenne, standard Écart et nombre d'observations pour Y également. Cela va mettre un total de six éléments dans la zone de données (trois pour X et trois pour Y). Comme vous pouvez le voir, si vous voulez obtenir une variété de statistiques descriptives pour plusieurs variables, le processus sera fastidieux. Un paquet statistique vous permet de choisir autant de variables que vous le souhaitez pour les statistiques descriptives, qu'elles soient ou non contiguës. Vous pouvez obtenir les statistiques descriptives pour tous les sujets ensemble, ou ventilé par une variable catégorielle comme le traitement. Vous pouvez sélectionner les statistiques que vous voulez voir une fois, et elles s'appliqueront à toutes les variables choisies. Corrélations À l'aide des outils d'analyse de données, la boîte de dialogue des corrélations est semblable à celle des descriptifs - vous pouvez choisir plusieurs colonnes contiguës et obtenir une matrice de sortie de toutes les paires de corrélations. Les cellules vides sont ignorées de manière appropriée. La sortie n'inclut PAS le nombre de paires de points de données utilisées pour calculer chaque corrélation (qui peut varier en fonction de l'endroit où vous avez des données manquantes) et n'indique pas si l'une des corrélations est statistiquement significative. Si vous souhaitez des corrélations sur des colonnes non contiguës, vous devez soit inclure les colonnes intermédiaires, soit copier les colonnes souhaitées dans un emplacement contigu. Un paquet statistique vous permettrait de choisir des colonnes non contiguës pour vos corrélations. La sortie vous indique combien de paires de points de données ont été utilisées pour calculer chaque corrélation et quelles sont les corrélations statistiquement significatives. T-test à deux échantillons Ce test peut être utilisé pour vérifier si les deux groupes de traitement diffèrent sur les valeurs de X ou Y. Pour effectuer le test, vous devez saisir une plage de cellules pour chaque groupe. Puisque les données n'ont pas été saisies par groupe de traitement, nous devons d'abord trier les lignes par traitement. Assurez-vous de prendre toutes les autres colonnes avec le traitement, de sorte que les données pour chaque sujet reste intact. Une fois les données triées, vous pouvez entrer la plage de cellules contenant les mesures X pour chaque traitement. Ne pas inclure la ligne avec les étiquettes, car le deuxième groupe n'a pas une ligne d'étiquette. Par conséquent, votre sortie ne sera pas étiquetée pour indiquer que cette sortie est pour X. Si vous souhaitez que la sortie étiquetée, vous devez copier les cellules correspondant au deuxième groupe à une colonne distincte, et entrez une ligne avec une étiquette pour le deuxième groupe . Si vous voulez également faire le test t pour les mesures Y, vous aurez besoin de répéter le processus. Les cellules vides sont ignorées, et autres que les problèmes avec l'étiquetage de la sortie, les résultats sont corrects. Un paquet statistique effectuerait cette tâche sans avoir besoin de trier les données ou de les copier dans une autre colonne, et la sortie serait toujours correctement étiquetée dans la mesure où vous fournissez des libellés pour vos variables et groupes de traitement. Il vous permettrait également de choisir plus d'une variable à la fois pour le test t (par exemple X et Y). Test t apparié Le test t apparié est une méthode pour vérifier si la différence entre deux mesures sur un même sujet est significativement différente de 0. Dans cet exemple, nous voulons tester la différence entre X et Y mesurée sur le même sujet. La caractéristique importante de ce test est qu'il compare les mesures au sein de chaque sujet. Si vous numérisez les colonnes X et Y séparément, elles ne semblent pas différentes. Mais si vous regardez chaque paire X-Y, vous remarquerez que dans chaque cas, X est supérieur à Y. Le test t apparié devrait être sensible à cette différence. Dans les deux cas où X ou Y est manquant, il n'est pas possible de comparer les deux mesures sur un sujet. Par conséquent, seules 8 lignes sont utilisables pour le test t apparié. Lorsque vous exécutez le test t apparié sur ces données, vous obtenez une statistique t de 0,09, avec une probabilité de 2-queue de 0,93. Le test ne trouve pas de différence significative entre X et Y. En regardant la sortie plus attentivement, nous remarquons qu'il dit qu'il ya 9 observations. Comme indiqué précédemment, il ne devrait y avoir que 8. Il semble que Excel n'a pas réussi à exclure les observations qui n'avaient pas les deux mesures X et Y. Pour obtenir les bons résultats, copiez X et Y sur deux nouvelles colonnes et supprimez les données des cellules qui n'ont pas de valeur pour l'autre mesure. Maintenant réexécutez le test t apparié. Cette fois, la statistique t est 6.14817 avec une probabilité de 2-queue de 0.000468. La conclusion est complètement différente Bien sûr, c'est un exemple extrême. Mais le point est que Excel ne calcule pas correctement le test t apparié lorsque certaines observations ont une des mesures mais pas l'autre. Bien qu'il soit possible d'obtenir le résultat correct, vous n'auriez aucune raison de soupçonner les résultats obtenus, sauf si vous êtes suffisamment alerte pour remarquer que le nombre d'observations est erroné. Il n'y a rien dans l'aide en ligne qui pourrait vous avertir de cette question. Fait intéressant, il ya aussi une fonction TTEST, qui donne les bons résultats pour cet exemple. Apparemment, les fonctions et les outils d'analyse de données ne sont pas cohérents dans la façon dont ils traitent les cellules manquantes. Néanmoins, je ne peux pas recommander l'utilisation de fonctions de préférence aux outils d'analyse de données, car le résultat de l'utilisation d'une fonction est un nombre unique - dans ce cas, la probabilité 2-tail de la statistique t. La fonction ne vous donne pas la statistique t elle-même, les degrés de liberté, ou tout autre nombre d'éléments que vous voudriez voir si vous faisiez un test statistique. Un paquet statistique exclura correctement les cas avec l'une des mesures manquantes et fournira toutes les statistiques de support nécessaires pour interpréter la sortie. Crosstabulation et Chi-Squared Test of Independence Notre tâche finale est de compter les deux résultats dans chaque groupe de traitement, et d'utiliser un test de l'indépendance chi-carré pour tester une relation entre le traitement et le résultat. Afin de compter les résultats par groupe de traitement, vous devez utiliser les tableaux croisés dynamiques. Dans l'option Disposition des assistants de tables croisées, faites glisser Traitement vers ligne, Résultat vers colonnes et Données. La zone Données doit indiquer quotCount of Outcomequot ndash sinon, double-cliquez dessus et sélectionnez quotCountquot. Si vous voulez des pourcentages, double-cliquez sur quotCount of Outcomequot et cliquez sur Options dans la zone ldquoShow Data Asrdquo qui apparaît, sélectionnez quot de rowquot. Si vous voulez les deux comptes et les pourcentages, vous pouvez faire glisser la même variable dans la zone Données deux fois, et l'utiliser une fois pour les compteurs et une fois pour les pourcentages. Obtenir le test du chi carré n'est pas si simple, cependant. Il est uniquement disponible en tant que fonction, et l'entrée nécessaire à la fonction est les comptes observés dans chaque combinaison de traitement et de résultat (que vous avez dans votre tableau croisé dynamique) et le nombre attendu dans chaque combinaison. Si vous avez suffisamment de données statistiques pour savoir comment calculer les comptages attendus et que vous pouvez faire des calculs Excel en utilisant des adresses de cellules relatives et absolues, vous devriez être en mesure de naviguer à travers cela. Sinon, vous êtes hors de la chance. En supposant que vous avez surmonté le problème des comptages attendus, vous pouvez utiliser la fonction Chitest pour obtenir la probabilité d'observer une valeur de chi-carré plus grande que celle pour ce tableau. Encore une fois, puisque nous utilisons des fonctions, vous n'obtenez pas beaucoup d'autres éléments nécessaires du calcul, notamment la valeur de la statistique du chi-carré ou ses degrés de liberté. Aucun paquet statistique ne requiert que vous fournissiez les valeurs attendues avant de calculer un test du chi-carré de l'indépen - dance. De plus, les résultats incluent toujours la statistique du chi carré et ses degrés de liberté, ainsi que sa probabilité. Souvent, vous obtiendrez des statistiques supplémentaires ainsi. Analyses supplémentaires Les autres analyses n'ont pas été effectuées sur cet ensemble de données, mais certaines observations à ce sujet sont incluses pour être complètes. Fréquences simples Vous pouvez utiliser les tables de pivotement pour obtenir des fréquences simples. (Voir Crosstabulations pour plus d'informations sur la façon d'obtenir des tableaux croisés dynamiques). À l'aide de tableaux croisés dynamiques, chaque colonne est considérée comme une variable distincte et les étiquettes de la rangée 1 apparaissent sur la sortie. Vous ne pouvez faire qu'une seule variable à la fois. Une autre possibilité est d'utiliser la fonction Fréquences. Le principal avantage de cette méthode est qu'une fois que vous avez défini la fonction de fréquences pour une colonne, vous pouvez utiliser CopyPaste pour l'obtenir pour les autres colonnes. D'abord, vous devrez saisir une colonne avec les valeurs que vous voulez compter (les casiers). Si vous avez l'intention de faire les fréquences pour de nombreuses colonnes, assurez-vous d'entrer des valeurs pour la colonne avec la plupart des catégories. par exemple. Si 3 colonnes ont des valeurs de 1 ou 2, et la quatrième a des valeurs de 1,2,3,4, vous devrez entrer les valeurs de bac à 1,2,3,4. Maintenant, sélectionnez suffisamment de cellules vides dans une colonne pour stocker les résultats - 4 dans cet exemple, même si la colonne courante n'a que 2 valeurs. Choisissez ensuite InsertFunctionStatisticalFrequencies dans le menu. Remplissez la plage d'entrée de la première colonne à compter à l'aide d'adresses relatives (par exemple A1: A100). Remplissez la plage Bin à l'aide des adresses absolues des emplacements où vous avez saisi les valeurs à compter (par exemple M1: M4). Cliquez sur Terminer. Notez la case au-dessus des en-têtes de colonne de la feuille, où la formule est affichée. Commencez par quot FRÉQUENCES Placez le curseur à gauche du signe dans la formule et appuyez sur Ctrl-Maj-Entrée. Le nombre de fréquences apparaît maintenant dans les cellules que vous avez sélectionnées. Pour obtenir le nombre de fréquences des autres colonnes, sélectionnez Les cellules avec les fréquences en eux, et choisissez EditCopy dans le menu. Si la colonne suivante que vous voulez compter est une colonne à droite de la précédente, sélectionnez la cellule à droite de la première cellule de fréquence et choisissez EditPaste Ctrl-V) Continuez à déplacer vers la droite et à coller pour chaque colonne que vous voulez compter Chaque fois que vous déplacez une colonne à droite des cellules de fréquence d'origine, la colonne à compter est décalée à partir de la première colonne que vous avez comptée. Si vous voulez aussi des pourcentages, vous devez utiliser la fonction Somme pour calculer la somme des fréquences et définir la formule pour obtenir le pourcentage pour une cellule. Sélectionnez la cellule pour stocker le premier pourcentage et tapez la formule dans la formule Boîte au sommet de la feuille - par exemple N1100N5 - où N1 est la cellule avec la fréquence pour la première catégorie, et N5 est la cellule avec la somme des fréquences. Utilisez CopyPaste pour obtenir la formule pour les cellules restantes de la première colonne. Une fois que vous avez les pourcentages pour une colonne, vous pouvez les copier dans les autres colonnes. Yoursquoll doit faire attention à l'utilisation d'adresses relatives et absolues Dans l'exemple ci-dessus, nous avons utilisé N5 pour le dénominateur, donc quand nous copions la formule à la fréquence suivante sur la même colonne, il recherchera toujours la somme dans la ligne 5 mais lorsque nous copions la formule à droite vers une autre colonne, elle passera aux fréquences dans la colonne suivante. Enfin, vous pouvez utiliser Histogramme dans le menu Analyse des données. Vous ne pouvez faire qu'une seule variable à la fois. Comme pour la fonction Fréquences, vous devez entrer une colonne avec des limites de quotbinquot. Pour compter le nombre d'occurrences de 1 et 2, vous devez entrer 0,1,2 dans trois cellules adjacentes, et donner la plage de ces trois cellules comme les Bins sur la boîte de dialogue. La sortie n'est pas étiquetée avec les étiquettes que vous pouvez avoir dans la rangée 1, ni même avec la lettre de colonne. Si vous faites des fréquences sur beaucoup de variables, vous aurez de la difficulté à savoir quelle fréquence appartient à quelle colonne de données. Régression linéaire Puisque la régression est l'une des analyses statistiques les plus fréquemment utilisées, nous l'avons essayée même si nous n'avons pas effectué d'analyse de régression pour cet exemple. La procédure de régression dans les outils d'analyse des données vous permet de choisir une colonne comme variable dépendante et un ensemble de colonnes contiguës pour les indépendants. Cependant, il ne tolère pas de cellules vides n'importe où dans les plages d'entrée, et vous êtes limité à 16 variables indépendantes. Par conséquent, si vous avez des cellules vides, vous devez copier toutes les colonnes impliquées dans la régression vers de nouvelles colonnes et supprimer les lignes contenant des cellules vides. Les grands modèles, avec plus de 16 prédicteurs, ne peuvent pas être faits du tout. Analyse de la variance En général, les caractéristiques de l'ANOVA Excels sont limitées à quelques cas spéciaux rarement trouvés en dehors des manuels et nécessitent beaucoup de réaménagement des données. ANOVA à sens unique Les données doivent être disposées en colonnes (ou lignes) séparées et adjacentes pour chaque groupe. De toute évidence, cela n'est pas propice à faire 1 voie sur plus d'un groupe. Si vous avez des étiquettes dans la rangée 1, la sortie utilisera les étiquettes. ANOVA à deux facteurs sans réplication Cela ne se produit qu'avec une observation par cellule (c'est-à-dire sans terme d'erreur dans la cellule). La plage d'entrée est un arrangement rectangulaire de cellules, avec des lignes représentant des niveaux d'un facteur, des colonnes les niveaux de l'autre facteur et le contenu de la cellule une valeur dans cette cellule. ANOVA à deux facteurs avec réplicats Ceci fait une ANOVA bidirectionnelle avec des tailles de cellule égales. L'entrée doit être une région rectangulaire avec des colonnes représentant les niveaux d'un facteur et des lignes représentant les répétitions dans les niveaux de l'autre facteur. La plage d'entrée DOIT également inclure une rangée supplémentaire en haut et une colonne sur la gauche, avec des étiquettes indiquant les facteurs. Cependant, ces étiquettes ne sont pas utilisées pour étiqueter la table ANOVA résultante. Cliquez sur Aide dans la boîte de dialogue ANOVA pour obtenir une image de la plage d'entrée. Demander de nombreuses analyses Si vous aviez une variété de procédures statistiques différentes que vous vouliez effectuer sur vos données, vous seriez presque certainement faire beaucoup de tri, de réorganisation, de copie et de collage de vos données. C'est parce que chaque procédure exige que les données soient arrangées d'une manière particulière, souvent différente de la manière dont une autre procédure veut que les données soient arrangées. Dans notre petit test, nous avons dû trier les lignes afin de faire le test t, et de copier certaines cellules afin d'obtenir des étiquettes pour la sortie. Nous avons dû effacer le contenu de certaines cellules afin d'obtenir le bon test t apparié, mais ne voulait pas que ces cellules soient effacées pour un autre test. Et nous ne faisions que cinq tâches. Il ne s'améliore pas lorsque vous essayez de faire plus. Il n'y a pas d'arrangement unique des données qui vous permettrait de faire de nombreuses analyses différentes sans faire de nombreuses copies différentes des données. La nécessité de manipuler les données de bien des façons augmente considérablement les chances d'introduction d'erreurs. En utilisant un programme statistique, les données seraient normalement disposées avec les lignes représentant les sujets et les colonnes représentant les variables (comme dans nos données d'échantillon). Avec cet arrangement, vous pouvez faire l'une des analyses discutées ici, et bien d'autres aussi, sans avoir à trier ou réorganiser vos données en aucune façon. Seules des analyses beaucoup plus complexes, au-delà des capacités d'Excel et de la portée de cet article, nécessiteraient un réarrangement des données. Travailler avec de nombreuses colonnes Que faire si vos données n'avaient pas 4, mais 40 colonnes, avec un mélange de mesures catégoriques et continues Comment facilement les procédures ci-dessus échelle à un problème plus vaste Au mieux, certaines des procédures statistiques peuvent accepter plusieurs colonnes contiguës pour l'entrée , Et interpréter chaque colonne comme une mesure différente. Les procédures de description et de corrélation sont de ce type, de sorte que vous pouvez demander des statistiques descriptives ou des corrélations pour un grand nombre de variables continues, pourvu qu'elles soient entrées dans des colonnes adjacentes. Si elles ne sont pas adjacentes, vous devez réorganiser les colonnes ou utiliser copier et coller pour les rendre adjacents. De nombreuses procédures, cependant, ne peuvent être appliquées qu'à une colonne à la fois. Les tests T (indépendants ou appariés), le nombre de fréquences simples, le test de l'indépendance du chi-carré et de nombreuses autres procédures sont dans cette classe. Cela deviendrait un sérieux inconvénient si vous aviez plus qu'une poignée de colonnes, même si vous utilisez couper et coller ou des macros pour réduire le travail. En plus d'avoir à répéter la demande à plusieurs reprises, vous devez décider où stocker les résultats de chaque, et assurez-vous qu'il est correctement étiqueté afin que vous puissiez facilement localiser et d'identifier chaque sortie. Enfin, Excel ne vous donne pas de journal ou autre enregistrement pour suivre ce que vous avez fait. Cela peut être un grave inconvénient si vous voulez être capable de répéter la même analyse (ou similaire) à l'avenir, ou même si vous avez simplement oublié ce que vous avez déjà fait. En utilisant un paquet statistique, vous pouvez demander un test pour autant de variables que vous avez besoin à la fois. Chacun sera correctement étiquetés et disposés dans la sortie, donc il n'y a aucune confusion quant à ce qui est quoi. Vous pouvez également vous attendre à obtenir un journal, et souvent un ensemble de commandes ainsi, qui peut être utilisé pour documenter votre travail ou de répéter une analyse sans avoir à passer par toutes les étapes à nouveau. Bien qu'Excel soit une feuille de calcul fine, ce n'est pas un paquet d'analyse de données statistiques. En toute justice, il n'a jamais été conçu pour être un. Gardez à l'esprit que l'outil d'analyse de données est un quotadd-inquot - une fonctionnalité supplémentaire qui vous permet de faire quelques calculs rapides. Il ne devrait donc pas être surprenant que c'est juste ce qu'il est bon pour - quelques calculs rapides. Si vous essayez de l'utiliser pour des analyses plus approfondies, vous rencontrerez des difficultés en raison d'une ou de toutes les limitations suivantes: Problèmes potentiels liés aux analyses impliquant des données manquantes. Ceux-ci peuvent être insidieux, en ce que l'utilisateur imprudent est peu susceptible de réaliser que quelque chose est mauvais. Manque de flexibilité dans les analyses qui peuvent être faites en raison de ses attentes concernant l'arrangement des données. Il en résulte la nécessité de couper le goût et de réorganiser la feuille de données de diverses manières, augmentant ainsi la probabilité d'erreurs. Sortie diffusée dans de nombreuses feuilles de travail différentes, ou tout au-dessus d'une feuille de travail, que vous devez prendre la responsabilité d'organiser de manière sensible. La sortie peut être incomplète ou ne pas être correctement étiquetée, ce qui augmente la possibilité d'une mauvaise identification de la production. Nécessité de répéter plusieurs fois des requêtes pour certaines analyses afin de les exécuter pour plusieurs variables ou de demander plusieurs options. Besoin de faire certaines choses en définissant vos propres fonctions formules, avec le risque d'erreurs. Aucun enregistrement de ce que vous avez fait pour générer vos résultats, ce qui rend difficile de documenter votre analyse, ou de le répéter plus tard, si cela est nécessaire. Si vous avez plus de 10 ou 12 colonnes, ou si vous voulez faire autre chose que des statistiques descriptives et peut-être des corrélations, vous devriez utiliser un paquet statistique. Il existe plusieurs modèles appropriés disponibles par licence de site via OIT, ou vous pouvez les utiliser dans n'importe quel laboratoire de OIT PC. Si vous avez Excel sur votre propre PC, et ne voulez pas payer pour un programme statistique, par tous les moyens utiliser Excel pour entrer les données (avec des lignes représentant les sujets, et des colonnes pour les variables). Tous les paquets statistiques mentionnés peuvent lire des fichiers Excel, de sorte que vous pouvez faire l'entrée de données (temps) à la maison, et aller aux laboratoires pour faire l'analyse. Une discussion beaucoup plus approfondie des pièges de l'utilisation d'Excel, avec de nombreux liens supplémentaires, est disponible à burns-stat Cliquez sur Tutorials, puis Spreadsheet Addiction. Pour obtenir de l'aide ou obtenir de plus amples renseignements sur le logiciel statistique, communiquez avec le Centre de consultation en biostatistique. Téléphone 545-2949Excel 2010 Analyse des données Introduction La popularité d'Excel dans le monde entier n'a pas besoin d'explication. Il comprend presque toutes les fonctionnalités pour satisfaire les besoins des professionnels. Microsoft Excel regroupe également des fonctionnalités puissantes pour les calculs statistiques et d'ingénierie. Toutes ces fonctionnalités sont appelées techniques d'analyse de données et Excel contient l'onglet Analyse des données (également appelé outil d'analyse). Comment faire pour activer Analyse de données (Analysis Toolpak) Analyse de données (Analysis Toolpak) est un complément pour Microsoft Excel qui est désactivé par défaut. Pour l'activer, cliquez sur le bouton Office, puis accédez à Options. Cliquez sur l'option Add-Ins et vous verrez l'option Analysis ToolPak dans la liste. Appuyez sur le bouton Aller au bas. Comment accéder à l'analyse des données Une fois que vous l'avez activé, allez dans l'onglet Données et localisez l'option Analyse des données sous la catégorie Analyse. Une vue d'oeil d'oiseau de l'analyse de données Afin d'employer la caractéristique d'analyse de données d'Excel, vous devez être familier avec la terminologie d'ingénierie et de statistique. Cliquez sur l'option Analyse de données et elle lancera la capture d'écran comme indiqué ci-dessous. Choisissez maintenant l'option appropriée et Excel traitera vos données selon l'option que vous avez sélectionnée. Voici la liste des fonctions d'ingénierie et statistiques que vous pouvez exécuter avec l'option Analyse de données. Anova: Facteur double avec réplication Anova: Facteur double sans réplication Correlation Covariance Statistiques descriptives Lissage exponentiel F-Test Deux échantillons pour la variance Analyse de Fourier Histogramme Moyenne mobile Rang de la génération du nombre aléatoire et pourcentages Échantillonnage de régression t-Test: Paired Two Exemple pour les moyennes Test t: Deux échantillons supposant des écarts égaux Test t: Deux échantillons supposant des écarts inégaux Essai Z: Deux échantillons pour la moyenne Enfin, après des heures innombrables essayant de comprendre pourquoi tous les poteaux pour produire des courbes en cloche À la section d'analyse de données8230 ... qui naturellement didn8217t existent jusqu'à ce que je suis tombé sur cette information inestimable. Beaucoup, beaucoup de mercis, très apprécié. Je peux me demander pourquoi ce isn8217t a fait la connaissance publique ou référencé plus clairement dans Excel. Que diable je l'ai maintenant 8230 bien fait vous les gars vous remercie beaucoup. Mais maintenant, je ne peux pas encore le comprendre. Hixxx. Ohhh mes devoirs It8217s assez frustrant pour cacher ce plusieurs menues profondes. Avec toute la personnalisation availabel dans cette version, comment puis-je ajouter les fonctions fréquemment utilisées, comme l'analyse de régression, à une barre d'outils de niveau supérieur Je sais que les gens ont déjà dit merci, mais ce que je devrais dire, c'est que vous êtes le boom
No comments:
Post a Comment