CESTAD évalue généralement les données déjà disponibles dans l'entreprise ou dans l'environnement d'étude. Ils n'étaient donc pas spécifiquement ciblés à cette fin. C'est pourquoi l'étape du traitement des données est particulièrement importante entre la collecte de données statistiques et l'évaluation statistique, ce qui est particulièrement difficile dans le cas d'analyses approfondies.

Si vous avez besoin d'aide pour la préparation des données, nos statisticiens se feront un plaisir de vous aider. Utilisez simplement notre formulaire de contact pour une consultation gratuite et une offre sans engagement - ou appelez-nous .


CESTAD vous soutient avec la récupération de données
Dans la planification, la préparation et la mise en œuvre du nettoyage des données, de nombreuses décisions compétentes doivent être prises, auxquelles vous devrez pouvoir répondre plus tard. Le soutien compétent des experts de CESTAD vous aidera à choisir, mettre en œuvre, justifier et documenter la meilleure approche pour chaque étape individuelle. Nous créons pour vous un concept de nettoyage, le convertissons en outils et vérifions les résultats. Si vous avez déjà effectué quelques étapes vous-même, nous serions heureux de les évaluer.


Les défis du traitement des données dans le cadre de votre évaluation
En général, les défis suivants se posent lors de la préparation des données:
Sélection des données: Laquelle des données existantes correspond à la question?
Fournir les données: Les données nécessaires sont souvent disponibles dans différentes bases de données et formats. De là, ils doivent être exportés.
Fusionner des données: Ces données provenant de différentes sources doivent être fusionnées, par exemple dans un entrepôt de données ou un fichier commun.
Transformation des données: Eventuellement, les données doivent être transférées dans un format différent, par exemple, texte libre codé en catégories ou XML dans CVS, variables nommées de façon unique.
Nettoyer les données: Les données ne sont souvent pas complètement vérifiées ou vérifiées pour leur plausibilité. Les résultats de Data Mining sont toutefois falsifiés par des valeurs aberrantes et des données manquantes. C'est pourquoi les données sont vérifiées et complétées.


Traitement automatisé des données
Le traitement des données peut automatiser plusieurs choses: extraction (extraction) des données de ses sources originales, exportation depuis la base de données source et importation dans la base de données, transformation (migration) dans un autre format, remplacement des données manquantes par les valeurs de remplacement appropriées, Vérification de vraisemblance et correction des incohérences - si des règles programmables peuvent être définies.
Cependant, seule la mise en œuvre de ces activités peut être automatisée. Avant que cela fonctionne, des règles claires doivent être mises en place et programmées pour répondre aux exigences de bonnes statistiques. Cela nécessite à la fois des connaissances spécialisées sur les données et leur domaine d'application ainsi qu'une expertise statistique. Les erreurs dans la préparation des données invalident toutes les évaluations statistiques et toutes les conclusions sont trompeuses. Dans les études scientifiques, le processus de nettoyage des données doit être rendu transparent et justifié et offre aux critiques une surface d'attaque populaire. Il est donc conseillé de rechercher une aide compétente pour le traitement des données ou de vérifier la validité du nettoyage effectué par des experts. CESTAD sera heureux de vous aider.
Tous les outils de statistiques ne conviennent pas comme outils pour le traitement des données. Excel, par exemple, permet un traitement manuel simple des données pour les ensembles de données gérables, mais il n'y a pas de traçabilité des modifications apportées. Les scripts sont généralement écrits pour le traitement des données. Ceux-ci ne sont pas seulement pratiques, car ils peuvent être effectués à plusieurs reprises, mais servent également de documentation claire des corrections apportées. Cela inclut une documentation écrite des raisons des règles d'ajustement.


Traitement de données avec SPSS
Dans SPSS , vous pouvez préparer les métadonnées et les données séparément. Les métadonnées incluent les noms de variables, le type, le format, la barre d'outils, le type d'échelle, etc. Vous pouvez les modifier manuellement.
Pour la préparation des données elles-mêmes, SPSS propose diverses fonctions, telles que "recoder", dans le menu "Transformer". Ici vous pouvez entrer des règles pour la conversion dans un formulaire. SPSS peut également rechercher automatiquement des enregistrements en double ou des valeurs aberrantes, selon des règles ajustables.
Vous pouvez facilement configurer le traitement des données dans SPSS. Cependant, la facilité d'utilisation ne doit pas induire en erreur la complexité de la tâche.


Traitement de données avec R
Dans R, vous pouvez modifier les données de deux manières: étape par étape via la ligne de commande ou sous forme de script. L'utilisation d'un script est recommandée en raison de la meilleure traçabilité. Cela vous permet de modifier les données, les formats de données et les étiquettes. Vous pouvez utiliser des répétitions et des distinctions de casse. Les scripts de R nécessitent toutefois une familiarisation approfondie avec ce langage de programmation et la vérification régulière des résultats intermédiaires, car sinon, les erreurs sont facilement confondues. Un aperçu des commandes R importantes peut être trouvé ici .


Traitement de données avec VBA
Les scripts VBA dans Excel sont également adaptés au traitement de données, similaire aux scripts R, mais uniquement pour de très petites quantités de données.


Traitement manuel des données
L'automatisation a ses avantages, par exemple la répétabilité simple et efficace avec une qualité constante et que tout changement apporté aux données est clairement compréhensible. C'est pourquoi vous devriez automatiser ce qui peut être automatisé, même si certaines corrections de données peuvent être effectuées manuellement avec le même effort. Après tout, chaque script doit être testé avec soin et qualité afin de s'assurer qu'il fait exactement ce qu'il est censé faire. Cela signifie que seules les activités qui ne peuvent pas être automatisées comme l'évaluation et le codage du texte (c.-à-d. L'attribution d'étiquettes à des mots et à des parties de phrase) restent à traiter manuellement. Ces modifications manuelles doivent également suivre des règles clairement définies, qui sont documentées.