• analyse-de-donnes-cestad
  • analytics_tools_original
  • data-minig1
  • data-minig2
  • Data-Mining-1030
  • Big-data-azzurro
  • marketing-statistics
Enquêtes
Collete des données
Traitement des données
Analyse des données
 
Programmation
Programmation statistique
Developpement des macros
Modélisation et plus encore
 
Data Mining
Exploration des données
Modélisation prédictive
Big Data
 
Formations certifiantes
Formations à la carte
Semilaires et conférences

 

 

Analyse de données marketing avec SPSS

Les procédures statistiques sont un «point sensible» dans la recherche marketing quotidienne. Habituellement, il y a très peu de connaissances sur la façon dont les bonnes procédures statistiques devraient être utilisées et encore moins sur la façon dont elles devraient être interprétées. Dans de nombreux rapports de recherche marketing, le reportage statistique nécessaire fait souvent défaut. Les statistiques sont souvent omises des rapports afin d'éviter d'effrayer l'utilisateur. Bien entendu, cela signifie que l'utilisateur n'est plus en mesure de juger si les bonnes procédures ont été utilisées et si les procédures ont été correctement utilisées ou non. Ce tutoriel a été écrit pour différents publics cibles. Tout d'abord, il convient à tous les chercheurs en marketing qui souhaitent utiliser ces procédures statistiques dans la pratique. Il est également utile pour ceux qui commandent et utilisent la recherche marketing. Elle permet de suivre, de comprendre et surtout d'interpréter les procédures. De plus, ce tutoriel peut s'avérer bénéfique pour les étudiants dans un programme d'études de premier cycle ou postdoctoral en marketing, sociologie, sciences de la communication et psychologie, en complément de tutoriel tels que la recherche marketing et les méthodes de recherche. Enfin, il est utile pour quiconque souhaite traiter statistiquement des enquêtes ou des questionnaires complétés.
Ce tutoriel reprend là où s'arrêtent les manuels de recherche traditionnels sur le marketing. Son objectif principal est d'encourager l'utilisation de procédures statistiques dans la recherche marketing. Sur la base d'un problème de recherche marketing concret, le tutoriel vous enseigne étape par étape quelle procédure statistique utiliser, identifie les options disponibles, et surtout, vous apprend à interpréter les résultats. Ce faisant, le tutoriel va bien au-delà de ce que les options standard minimum disponibles dans les progiciels ont à offrir. Il opte pour le traitement des données à l'aide du package SPSS. À l'heure actuelle, SPSS est l'un des logiciels statistiques les plus utilisés dans le monde de la recherche marketing. Il est également disponible dans la plupart des universités et collèges d'enseignement supérieur. De plus, il utilise un système de menu simple (la programmation n'est pas nécessaire) et est donc très facile à apprendre. La plupart des ensembles de données proviennent de projets de recherche marketing. Chacun des ensembles de données a été compilé au cours d'entrevues réalisées auprès de consommateurs ou d'étudiants et a ensuite été intégré à SPSS. La technique utilisée est brièvement décrite et expliquée au début de chaque chapitre sous la rubrique «Technique». L'objectif principal du tutoriel est de démontrer la mise en œuvre pratique de la statistique dans la recherche marketing, qui ne se contente pas de masquer les écrans de saisie SPSS et les sorties SPSS pour montrer comment l'analyse doit se dérouler, mais fournit également une indication des problèmes qui peuvent surgir et des messages d'erreur qui peuvent apparaître.
Le tutoriel commence par une brève introduction à l'utilisation de SPSS. Les techniques de traitement de données les plus courantes sont ensuite abordées. Le tutoriel commence par les analyses les plus simples. Tout d'abord, des statistiques descriptives sont discutées telles que la création d'affichages visuels et le calcul de la tendance centrale et des mesures de dispersion. Après cela, nous discutons des tests d'hypothèse. Le test du chi carré et les tests t sont les principaux objectifs, en plus des mesures d'association les plus récentes. En outre, les procédures statistiques multivariées sont longuement discutées. Les procédures plus exploratives (analyse factorielle, analyse de cluster, techniques d'échelle multidimensionnelle et mesure conjointe) ainsi que les techniques de confirmation (analyse de variance, analyse de régression linéaire, analyse de régression logistique et modèles structurels linéaires) sont également expliquées. Certaines de ces techniques exigent que le lecteur dispose de plus que les modules standard disponibles dans SPSS à sa disposition. Le chapitre «Analyse factorielle confirmative et analyse de trajectoire à l'aide de SEM» nécessite par exemple le module séparé «Amos», et le chapitre «Techniques de mise à l'échelle multidimensionnelle» utilise le module «Catégories».
Chaque chapitre peut essentiellement être lu indépendamment des autres chapitres. Le lecteur n'a pas à tout examiner dans les moindres détails. Les sections «creuser plus profondément» indiquent que le texte suivant implique une exploration en profondeur que le lecteur peut ignorer si désiré. Ces zones de texte peuvent impliquer des commandes dans les fenêtres SPSS ainsi que les interprétations des sorties SPSS. Les cadres gris avec texte et figures contiennent des étapes qui peuvent être immédiatement pertinentes dans le cadre de la technique discutée, mais qui ne sont pas forcément liées à cette étiquette sous SPSS (voir par exemple le calcul des valeurs Alpha de Cronbach dans un chapitre sur les fac¬ analyse). Ils sont étiquetés comme des techniques de soutien.

Les méthodes analytiques multivariées sont des méthodes de recherche dans lesquelles différentes variables sont analysées en même temps. Chacune de ces techniques nécessite des types de données spécifiques et possède ses propres champs d'application pour la recherche marketing. Savoir quel type de données nécessite une certaine technique analytique est essentiel pour prendre les bonnes décisions sur les méthodes et techniques de collecte de données, compte tenu de certains problèmes de marketing et de recherche marketing.
Les techniques analytiques multivariées à utiliser dépendent d'un certain nombre de critères. Une première question importante est de savoir s'il faut faire une distinction entre les variables indépendantes et les variables dépendantes. Les variables dépendantes sont des facteurs que le chercheur veut expliquer ou prédire au moyen d'une ou de plusieurs variables indépendantes, facteurs dont il croit pouvoir contribuer à l'explication dans la variation ou l'évolution des variables dépendantes. Par exemple, une brasserie peut vouloir étudier dans quelle mesure les prix, la publicité, la distribution et les promotions des ventes (variables indépendantes) expliquent et prédisent l'évolution de la consommation de bière sur une certaine période (variable dépendante). Ce type de techniques s'appelle l'analyse de la dépendance. Dans le cas où le problème de recherche en question ne nécessite pas cette distinction, un autre ensemble de techniques, l'analyse de l'interdépendance, est nécessaire. Par exemple, une banque peut s'interroger sur le nombre de segments de clientèle fondamentalement différents qu'elle peut définir sur la base de multiples caractéristiques clients. Dans cet exemple, aucune distinction entre les variables dépendantes et indépendantes n'est faite; l'objectif est d’évaluer la relation entre les variables ou les observations. Les techniques d'interdépendance sont également appelées exploratoires, tandis que les techniques de dépendance sont dites confirmatoires. En effet, le but de la première est de rechercher des modèles, de structurer des variables et des observations, alors que l'objectif de la seconde est de trouver la preuve d'un modèle prédéfini qui prédit un critère en utilisant des prédicteurs. Par conséquent, les techniques d'interdépendance seront principalement utilisées dans les étapes exploratoires et descriptives d'un projet de recherche, lors de la recherche de modèles et de structures. Les techniques de confirmation seront principalement utilisées dans les étapes finales d'un projet, dans lesquelles des réponses concluantes sont recherchées sur les phénomènes et les facteurs qui expliquent et prédisent les autres.
Le deuxième critère important qui est important pour sélectionner une technique d'analyse multivariée n'est pertinent que pour les techniques de dépendance, à savoir le niveau de mesure des variables dépendantes et indépendantes. Plus particulièrement, la distinction doit être faite entre les variables nominales ou catégoriques d'une part, et les variables d'intervalle / ratio d'autre part. Des techniques analytiques multivariées utilisant des données ordinales existent également, mais elles sortent du cadre de ce livre et ne seront pas discutées plus avant. La figure Techniques statistiques multivariées donne un aperçu des techniques multivariées abordées dans ce tutoriel.
Techniques statistiques multivariées

Exploratoire
Intervalle indépendant et dépendant
• Analyse de régression linéaire
• Analyse factorielle confirmatoire et analyse de chemin
Catégorique indépendante, dépendante de l'intervalle
• Analyse de la variance
• Analyse conjointe
Indépendant catégorique et échelonnée, catégorique dépendante
• Analyse de régression logistique

L'objectif de l'analyse factorielle exploratoire est une réduction significative du nombre de variables dans un ensemble de données, en fonction des associations entre ces variables. Dans le processus, des dimensions significatives dans un ensemble de variables sont trouvées, et le nombre de facteurs à utiliser dans une analyse ultérieure est réduit. Dans l'analyse par grappes, l'objectif est de réduire le nombre d'observations en les affectant à des grappes significatives sur la base de récurrences dans un ensemble de variables. Le résultat final d'une analyse en grappes est un nombre relativement restreint de grappes ou de groupes de répondants ou d'observations, à utiliser dans une analyse plus poussée. Dans la mise à l'échelle multidimensionnelle, les perceptions et préférences des consommateurs sont cartographiées, en fonction de l'opinion des consommateurs sur les produits, les marques et leurs caractéristiques. Encore une fois, le résultat est un aperçu plus structuré de la perception et de la préférence des répondants que sur la base de leurs préférences détaillées ou de leurs scores de perception.
Dans l'analyse de régression linéaire, une relation mathématique est définie qui exprime la relation linéaire entre une variable dépendante échelonnée dans l'intervalle et un certain nombre de variables à échelons d'intervalle indépendantes. L'objectif est de déterminer dans quelle mesure les variables indépendantes peuvent expliquer ou prédire la variable dépendante, et quelle est la contribution de chaque variable indépendante à l'explication des variations de la variable dépendante. Les données utilisées pour appliquer cette technique peuvent être longitudinales (c'est-à-dire mesurées à différents moments dans le temps), transversales (mesures sur différents répondants ou points d'observation à un moment donné), ou les deux. L'analyse de régression logistique est une technique similaire, mais dans ce cas, la variable dépendante est catégorique, et les variables indépendantes peuvent être à la fois catégoriques et échelonnées.

L'objectif de l'analyse de la variance et de l'analyse conjointe est similaire, mais le niveau de mesure des variables est différent. Dans les deux techniques, l'impact relatif d'un certain nombre de variables indépendantes catégorielles sur une variable dépendante inter-échelle est mesuré. Enfin, dans l'analyse factorielle confirmatoire, un modèle de mesure prédéfini (un certain nombre de facteurs prédéfinis) et la relation (chemin) entre un certain nombre de variables indépendantes, intermédiaires et dépendantes à l'échelle sont testées statistiquement. Dans la pièce 2, pour chacune de ces méthodes multivariées, un certain nombre d'exemples sont donnés de problèmes de recherche en marketing pour lesquels ils peuvent être utilisés.

Pièce 2: Applications de recherche en marketing de méthodes statistiques multivariées
1. Analyse factorielle exploratoire
■ Un constructeur automobile mesure la réaction d'un groupe de clients à 50 critères de qualité de la voiture et essaie de trouver quelles sont les dimensions de base de la qualité qui sous-tendent cette mesure
■ Une banque mesure les scores de satisfaction d'un groupe de clients sur 40 critères de satisfaction et explore les dimensions de base des jugements de satisfaction
■ Un supermarché demande à ses clients comment ils évaluent l'importance de 20 motivations d'achat différentes pour essayer de découvrir un nombre plus limité de motivations d'achat de base
2. Analyse de cluster
■ Une banque tente d'identifier des segments de marché de clients potentiels similaires sur la base des similitudes de leurs caractéristiques sociodémographiques (âge, niveau d'éducation ...) et de leur préférence pour certains investissements
■ Une chaîne de supermarchés tente de définir différents segments de clients sur la base des similitudes dans le type de produits qu'ils achètent, le montant qu'ils achètent et les marques qu'ils préfèrent.
■ Une station de radio définit différents types d'annonces en fonction des caractéristiques des publicités, des formats et des techniques émotionnelles et informatives utilisées (image, niveau de contenu informatif, degré d'humour, sentiments ...).
3. Mise à l'échelle multidimensionnelle
■ Un constructeur automobile veut savoir dans quelle mesure les clients potentiels perçoivent ses modèles et ceux des concurrents de manière similaire ou différente, et pour quels modèles le client a le plus de préférence
■ Une boutique de mode veut savoir comment elle se positionne sur différents attributs d'image par rapport à ses concurrents
■ Un supermarché de meubles veut savoir quels types de clients sont attirés par le type de caractéristiques de son magasin
4. Analyse de régression linéaire
■ Un fabricant de crème glacée de marque veut savoir dans quelle mesure son niveau de prix et ses efforts de publicité ont contribué aux ventes sur une période de 36 mois
■ Une compagnie d'assurance a recueilli des notes sur six composantes de la satisfaction de la clientèle et veut évaluer dans quelle mesure chacune d'elles contribue à la satisfaction globale
5. Analyse factorielle confirmatoire et analyse de la voie
■ Un magasin Internet a identifié cinq facteurs qui contribuent au «goût des magasins» et, sur la base de mesures effectuées auprès d'un échantillon de clients potentiels, cherche à déterminer dans quelle mesure ces cinq facteurs sont compatibles avec les données collectées. «aimer le magasin», et dans quelle mesure le goût du magasin, à son tour, détermine l'intention d'achat
■ Un annonceur a identifié trois facteurs de l'attitude des consommateurs vis-à-vis des publicités. Il veut savoir si ces trois facteurs se reflètent dans la perception d'un échantillon de clients, et si ces facteurs, associés à une mesure de fidélité à la marque, déterminent les attitudes et le comportement d'achat de la marque.
6. Analyse de la variance
■ Un fabricant de yaourts a testé trois types de promotions et deux types d'emballage dans un certain nombre de magasins. Il veut savoir dans quelle mesure chacune de ces variables a influencé les ventes et quel est leur effet conjoint
■ Un fabricant de chaussures veut savoir si l'âge de ses clients (trois catégories) et la taille des familles des clients (célibataires, mariés ou en couple avec enfants) ont un impact sur les ventes annuelles de chaussures
7. Analyse conjointe
■ Une compagnie aérienne veut savoir quel est l'impact des boissons gratuites ou non, des journaux gratuits ou non, et la disponibilité des services de téléphonie mobile dans l'avion sur la préférence des clients pour un vol
■ Un bijoutier veut lancer un nouveau type de bijou en diamant et cherche à savoir dans quelle mesure la couleur, la clarté, la coupe et le carat ont un impact sur la propension à dépenser une certaine somme d'argent pour le nouveau bijou
8. Analyse de régression logistique
■ Un fournisseur de télécommunications veut savoir dans quelle mesure l'âge d'une personne, son niveau d'éducation et le lieu où il vit déterminent s'il est un client ou non
■ Un hôtel veut savoir si le pays d'origine d'un voyageur, son âge et le nombre d'enfants qu'il possède déterminent s'il choisira ou non son hôtel pour des vacances d'été.

Statistiques univariées
Dans les statistiques univariées ou les tests statistiques, un ensemble d'observations dans une variable est analysé parmi différents groupes de répondants, et la signification statistique de la différence entre ces groupes est évaluée, par exemple quelle est la différence dans la consommation moyenne de café par mois kilogrammes entre hommes et femmes, et cette différence est statistiquement significative. Le choix du test statistique approprié repose sur trois caractéristiques des variables dans les échantillons: le niveau de mesure, le nombre d'échantillons à comparer et la (in) dépendance de ces échantillons. Les variables peuvent être mesurées sur un niveau nominal, ordinal ou intervalle / ratio. Les variables nominales sont des étiquettes de catégorie sans ordre significatif ou caractéristiques métriques de distance (par exemple les hommes et les femmes). Les variables ordinales ont un ordre significatif, mais aucune caractéristique de distance métrique (par exemple, les indications d'ordre de préférence pour un nombre donné de marques). Dans le cas des variables d'intervalle / rapport, les scores ont une signification métrique, par exemple le nombre de kilogrammes de café acheté par une certaine personne (une personne achète un kilogramme, l'autre achète trois, et la distance entre les deux observations est un 2 kilogrammes significatifs sur le plan métrique).
L'analyse univariée peut être effectuée sur un échantillon (par exemple, le score de satisfaction moyen de l'ensemble de l'échantillon des répondants est-il significativement différent du score médian?), Sur deux échantillons (par exemple, marque A significativement différente entre hommes et femmes), ou sur plus de deux échantillons (la consommation moyenne de café est-elle significativement différente entre les trois groupes d'âge d'un échantillon?).
Enfin, dans le cas de deux échantillons ou plus, ces échantillons peuvent être dépendants ou indépendants. Dans le cas des échantillons indépendants, les répondants d'un sous-échantillon ne sont pas liés aux répondants d'un autre sous-échantillon, par exemple les hommes et les femmes, ou à trois groupes d'âge qui ne sont aucunement liés. Dans les échantillons dépendants, les répondants d'un sous-échantillon sont apparentés à ceux des autres sous-échantillons, par exemple les maris et les épouses, les fils et les filles, ou les mêmes répondants qui sont mesurés à différents moments dans le temps.
Sur la base de ces trois caractéristiques, une grille de sélection pour les tests statistiques univariés peut être construite:

Measurement

Level

un échantillon deux

deux échantillons

k échantillons

Independent

Dependent

Independent

Dependent

Nominal

test   Binomial (Z-test on proportion)  x2

x2

McNemar

  x2

Cochran Q

Ordinal

Kolmogorov-Smirnov

Mann­Whitney U

Wilcoxon

Kruskal-Wallis

Friedman

Interval ou ratio

t-test

Z-test

t-test

Z-test

Test t pour les différences

Analyse de Variance

Mesures répétées Analyse de la variance


Dans chaque cellule, les tests statistiques appropriés peuvent être trouvés. Dans la pièce 1, pour chacune de ces cellules, un certain nombre d'exemples de questions de recherche marketing sont donnés.
Pièce 1: Applications de recherche marketing pour les tests statistiques univariés
■ Le pourcentage de personnes intéressées par les musées, tel que mesuré dans un échantillon de citoyens camerounais, est-il significativement différent du pourcentage d'amateurs de musées tel que mesuré dans une étude gabonaise antérieure?
■ Le score de satisfaction moyen d'un échantillon de clients d'une entreprise, mesuré sur une échelle de 5 points, est-il significativement différent du point médian (3)?
■ Le nombre moyen de paires de chaussures achetées par famille aux Togo est-il significativement supérieur à 6?
■ Le pourcentage moyen de rappels de publicités à la radio diffère-t-il entre les hommes et les femmes dans un échantillon?
■ Y a-t-il une différence entre la préférence pour différents modèles de voiture entre trois groupes d'âge au Cameroun et au Tchad?
■ La consommation moyenne de bière par habitant et par an au Nigérie est-elle sensiblement différente du Cameroun?
■ Y a-t-il une différence significative entre l'intention d'achat (volonté / non achat) pour une marque de vin dans un échantillon de consommateurs potentiels, avant et après une campagne publicitaire pour le produit?
■ Y a-t-il une différence significative entre les résultats de deux examens d'un échantillon d'étudiants?
■ Y a-t-il une différence entre les scores d'attitude de la marque mesurés à différents moments (tracking), dans un échantillon de clients potentiels?
■ Y a-t-il une différence entre les chiffres de vente de trois échantillons de magasins dans lesquels une campagne de promotion des ventes différente a été mise en œuvre?

La description statistique univariée contient généralement trois types d'indicateurs: les distributions de fréquence, les mesures de tendance centrale et les mesures de dispersion. Les distributions de fréquences indiquent comment les scores des répondants individuels sont répartis sur des catégories significatives, par exemple, combien de répondants hommes et femmes ou répondants dans trois groupes d'âge prédéfinis se trouvent dans l'échantillon. Les mesures de tendance centrale résument les caractéristiques d'une variable dans un indicateur statistique, par exemple la consommation moyenne de café par mois en kilogrammes, le score moyen de satisfaction d'un échantillon de clients d'une entreprise sur une échelle de cinq points (moyenne), le groupe de sexe dans lequel il y a le plus de répondants (mode), ou le score moyen d'un ensemble de scores classés de bas à haut (médiane). Les mesures de dispersion fournissent une indication de la variabilité d'un ensemble de scores sur une variable. Les répondants peuvent largement s'entendre sur certaines questions, auquel cas la dispersion sera faible, ou les scores sur une certaine variable peuvent varier considérablement entre eux, auquel cas la dispersion sera élevée. Par exemple, tout le monde peut consommer à peu près la même quantité de café, ou le score de satisfaction d'un échantillon de clients peut varier fortement, un grand nombre de répondants obtenant 1 et 2 ainsi que 4 et 5 sur une échelle de cinq points. Les statistiques descriptives permettent de résumer de grands ensembles de données dans un plus petit nombre d'indicateurs statistiques significatifs.
La description multivariée peut prendre plusieurs formes, en fonction de la technique multivariée utilisée. Ils font normalement partie intégrante du résultat de chaque analyse, ainsi que des mesures de validation statistique, qui peuvent également être différentes pour chaque technique.

Dans la recherche marketing quantitative, que ce soit par enquête ou par observation, des éléments d'information sont recueillis dans un échantillon de répondants pertinents. Cette information est ensuite transformée en variables contenant des étiquettes verbales ou numériques (scores) par réponse. Pour donner un sens à cet ensemble de données, diverses méthodes analytiques statistiques peuvent être utilisées. L'analyse statistique se déroule normalement en plusieurs étapes. Le premier ensemble de techniques, appelées statistiques descriptives, est utilisé pour obtenir un aperçu descriptif des données disponibles et pour résumer les données au moyen d'un nombre limité d'indicateurs statistiques. Ensuite, chaque variable peut être étudiée séparément, par exemple pour comparer les scores moyens d'une variable pour différents groupes ou sous-échantillons de répondants, ou pour juger de la différence entre les classements ou les distributions de fréquences. Ces analyses sont appelées statistiques univariées ou tests statistiques. Enfin, dans les statistiques multivariées, plusieurs variables peuvent être analysées conjointement, pour évaluer quelles variables expliquent ou prédisent d'autres variables, ou comment les variables sont liées les unes aux autres. Dans les statistiques univariées et multivariées, non seulement la description est importante, mais aussi la validation statistique. En d'autres termes, les résultats doivent non seulement être décrits et être évalués sur ce que cette description signifie pour le problème de marketing en question; il est au moins aussi important d'évaluer à quel point les résultats sont statistiquement significatifs, c'est-à-dire à quel point le chercheur peut être sûr que les conclusions descriptives sont statistiquement fiables et valides.