Tip:
Highlight text to annotate it
X
L'objectif de cette vidéo est de montrer comment faire une AFM avec FactoMineR
et notamment comment améliorer les graphiques
qui sont obtenus avec FactoMineR. Je vais d'abord charger la librairie
et je vais faire une analyse factorielle multiple sur le jeu de données exemple
de l'AFM, donc je vais faire ?MFA
pour avoir l'aide de la fonction.
En bas de l'aide je vais lancer
l'exemple sur les données vin.
Dans un premier temps, on charge le jeu de données
et ensuite on réalise l'AFM.
Je vais explicité rapidement
les lignes de code. J'ai d'abord charger le jeu de données vins.
Ensuite j'ai fait l'AFM sur le jeu de données vin,
je crée des groupes de variables. L'AFM va équilibrer l'influence de
chaque groupe de variables dans la construction des axes, dans la
construction du premier axe.
J'ai un premier groupe de variables constitué des 2 premières variables
ensuite les 5 suivantes constitue un groupe,
puis les 3 suivantes, puis les 10 suivantes, les 9 suivantes et les 2 dernières.
La nature des variables d'un groupe est ici: le premier groupe de variables sont
des variables nominales donc des variables qualitatives, ensuite on a des variables
quantitatives avec un "s" ici qui signifie qu'on va "scaler"
c'est-à-dire réduire les variables.
Ensuite ncp = 5 signifie qu'on va
avoir les résultats pour 5 dimensions.
Enfin je peux nommer les groupes de variables:
un variable sur l'origine des vins
(le label, le type de sol),
des variables de description olfactive,
des variables sur le visuel, sur l'olfaction après agitation, sur le gustatif
ou des variables d'ensemble.
Et puis on précise que les groupes de variables 1 et 6 donc l'origine et
les variables d'ensemble
sont des groupes supplémentaires et donc ne vont pas participer à la construction des axes.
Une fois qu'on a fait l'AFM, les résultats sont dans l'objet res
et je peux avoir un résumé
de cet objet
en faisant summary(res)
Je vais grandir un petit peu la fenêtre pour avoir tous les résultats
summary(res) va d'abord rappeler ligne de commandes;
ensuite un tableau sur les valeurs propres
et les pourcentages d'inertie associés à chaque dimension.
Donc la première dimension
récupère 49% de l'information, 49 % de l'inertie
la deuxième dimension 19%.
Ensuite j'ai des résultats sur les groupes de variables donc les groupes
actifs d'abord avec les coordonnées
des groupes, les contributions de chacun des groupes à la construction de
la première dimension et la qualité de représentation sur la première dimension.
Ensuite, les résultats sur la deuxième dimension : coordonnées,
contribution et cosinus carré
puis la 3ème et on peut avoir
les résultats sur, par défaut 3 dimensions mais on peut
à voir sur 4, 5 ou 2 dimensions par exemple en utilisant l'argument ncp.
On a ensuite les résultats sur les groupes supplémentaires avec
les coordonnées et les cosinus carrés. On n'a pas de contribution puisque ce sont des
groupes qui ne contribuent pas à la construction des axes.
Ensuite on a les résultats sur les individus alors
sur les premiers individus, par défaut les dix premiers.
On peut voir les résultats sur tous les individus
en mettant l'argument nbelements = Inf
pour infinity. C'est-à-dire qu'on aura les résultats pour tous
les éléments, donc tous les individus toutes les variables, etc.
Là encore on a les coordonnées, les contributions et les cosinus carrés,
d'abord sur la dimensions 1, puis 2 puis 3.
On a les résultats sur les variables quantitatives actives, donc les résultats
pour les dix premières variables avec là encore coordonnées, contributions, cos².
Pour les variables quantitatives supplémentaires, on a juste les
coordonnées et les cos²; là encore ce sont des variables
qui n'ont pas contribuées.
Il n'y a pas de variables qualitatives ici qui sont actives donc on a des résultats
que pour les variables qualitatives supplémentaires et plus particulièrement pour les modalités
des variables qualitatives supplémentaires. Donc on a la coordonnée,
le cosinus carré, pas de contribution bien entendu et une valeur-test.
La valeur test est comprise le plus souvent entre -1.96 et 1.96 au-delà ça
signifie que la coordonnée est significativement différente de 0.
Par exemple, la modalité référence a une coordonnée
significativement différente de 0 sur la première dimension;
et supérieure à 0 sur la première dimension.
Voilà les principaux résultats de l'AFM.
Alors ensuite, de nombreux graphes sont apparus tout à l'heure.
On a d'abord le graphe des groupes de
avec en bordeau les groupes actifs et en vert les groupes illustratifs.
On a ensuite un graphe avec les axes partiels.
Pour chaque groupe de variables on a fait une analyse : pour les variables
quantitatives, on a fait une ACP et on projette
en supplémentaire les dimensions de l'ACP.
Donc par exemple, pour le groupe de visuels, la première dimension du
visuelle est très liée
à la première dimension de l'AFM.
La deuxième dimension visuelle un peu moins.
Pour les groupes de variables qualitatives,
comme l'origine ici,
on fait une ACM et ce sont les dimensions de l'ACM qui sont projetées.
J'ai un graphe avec uniquement les individus,
un graphe avec les variables,
et les variables sont coloriées en fonction leur groupe d'appartenance.
Donc une même couleur pour un même groupe.
On peut avoir sur le graphe des individus
certains des individus qui ont des points partiels donc ici on demande les individus
qui ont des points partielle très différents donc
une inertie intra qui est très grande.
Les deux individus qui ont une inertie intra la plus grande
ont des points partiels ainsi que les deux individus qui ont les inerties intra les plus petites.
Et là ce sont les graphes avec
les modalités supplémentaires ou modalités actives (ici il n'y en a pas)
et donc le graphe avec les modalités uniquement.
Je peux revenir sur des graphes
pour voir comment construire les graphes. Je crée une nouvelle fenêtre graphique
et je vais construire le graphe
des individus plot(res) pour voir
comment modifier ces graphes, améliorer ces graphes éventuellement.
Là j'ai un graphe avec les individuels actifs
et les modalités des variables supplémentaires.
Donc je peux rendre invisible par exemple
les modalités des variables qualitatives.
Les individuels ont tous des couleurs différentes,
je peux habiller
les individus,
plutôt ne pas habiller les individus donc
mettre une même couleur, le noir, pour chaque individu.
Le graphe est assez lisible;
si je veux
que les libellés soient moins proches les uns des autres
ou si j'ai plus de points et que je veux bien séparer les libellés,
je peux diminuer un petit peu la police
en utilisant l'argument cex = 0.8 par exemple.
Les points sont un peu mieux séparés et le graphe est plus lisible.
Sur ce graphe je peux mettre des points partiels
pour par exemple les vins 1VAU, PER1.
Pour ces deux points, je vais avoir des points partiels.
Les points partiels
peuvent être habillés
en fonction des groupes plutôt que de mettre aucun habillage.
Le fait d'habiller par groupe, on voit plus précisément.
Donc par exemple, pour le vin 1VAU
j'ai le point rouge ici qui signifie comment
le vin 1VAU est vu par rapport aux variables d'olfaction uniquement.
Et ici comment le vin 1VAU est vu par rapport aux variables visuelles uniquement.
On retrouve ici les couleurs qui étaient utilisées pour les groupes de variables
quand on avait le graphe des variables.
Si je fais
plot(res,choix="group",habillage="group")
Les groupes sont coloriées avec l'olfaction en rouge, l'olfaction après
agitation en bleu foncé,
la gustation en bleu ciel, et le visuel en vert.
Et donc ce sont ces mêmes couleurs qui sont utilisées pour points partiels ici.
Je peux sélectionner certains individus
donc par exemple ne pas dessiner
tous les points mais sélectionner uniquement les vins
qui sont bien représentés sur le plan, qui ont un cosinus carré supérieur à 0.8.
Donc je vais avoir
en noir, avec un libellé,
les individus qui ont un cos² supérieur à 0 8 et puis en gris ici
les individus qui ont
un cosinus carré inférieur 0.8.
Sont dessinés les points partiels
pour lesquels les individus ont un cos² supérieur à 0.8.
Je peux également habiller les individus
en fonction d'une variable donc de la variable 1
qui est une variable qualitative.
J'habille les points en rouge.
Je ne vais plus mettre points partiel ici parce qu'on a un peu trop d'informations.
Donc j'ai habillé en rouge
les vins l'appellation Saumur, en vert
les Bourgueuils et en bleu les Chinons.
Alors j'ai mis
habillage = 1
j'aurais pu utiliser la variable de sol.
Donc je peux soit mettre le numéro de la variable soit le nom de la variable
et donc là les vins
sont coloriées en fonction de la variable de sol.
Donc j'ai toujours une sélection avec cos² > 0.8
je peux aussi
sélectionner en fonction d'une contribution
et prendre les 8 individus qui ont le plus contribué
à la construction des axes.
Donc sont coloriées uniquement les individus qui ont contribué,
qui ont le plus contribué à la construction des axes. Les 8
individus qui ont le plus contribué à la construction des axes.
Je peux jouer sur la transparence ici en mettant unselect = 0
J'ai pas du tout de transparence, donc les points sont de la même couleur:
Les points qui n'ont pas contribué fortement sont de la même couleur que autres points
mais on voit qu'il n'y a pas de libellés pour ces points là.
Et au contraire, je peux mettre
une transparence totale, c'est-à-dire que les points disparaissent pour les individus
qui ne sont pas les 8 qui ont le plus contribué à la construction des axes.
Donc voilà pour la construction des axes.
Il peut éventuellement y avoir un petit problème
quand on met de la transparence car ces graphes là ne peuvent
pas être utilisés dans PowerPoint
parce que la transparence n'est pas gérée
et donc je vous conseille d'utiliser une couleur de gris par exemple grey70.
Donc on a une même couleur de gris; les points ne sont plus habillée par rapport
au sol mais ils sont en gris
par contre là, on va pouvoir utiliser le graphe dans PowerPoint, et éventuellement bouger les libellés.
Donc par défaut, j'ai le graphe avec le plan 1-2 mais je peux
faire le plan 3-4.
Il suffit que je précise axes = 3:4
Donc voici le graphe sur les axes 3 et 4.
Et j'ai donc les individus qui ont le plus contribué à la construction
des axes 3 et 4.
Pour ma sélection, j'ai les contributions les plus importantes,
je peux aussi préciser les vins que je veux visualiser: 1VAU, PER1 par exemple.
Donc j'ai 2 vins qui vont être précisés.
Donc voilà pour le graphe des individus.
On peut aussi travailler sur le graphe des variables.
je mets choix = "var" pour dire que je travaille sur le graphe des variables.
Donc le graphe par défaut est celui-ci.
Alors c'est toujours intéressant d'habiller les variables
en fonction de leur groupe.
Ca c'est à conseiller et à faire tout le temps je pense.
Vous voyez qu'ici beaucoup de libellés se superposent. En fait les libellés sont
assez longs et ne peuvent pas être écrits sur la droite du graphe.
Ce qui est conseillé de faire, c'est d'agrandir la fenêtre un petit peu et de relancer
la commande. Donc là, les libellés peuvent aller plus vers la droite
et donc assez peu de libellés se superposent. Le graphe est un petit peu
plus lisible comme ça.
Dans ce graphe, on voit qu'on peut améliorer le graphe en mettant une ombre
shadow = TRUE pour dire que je mets une ombre
sous le libellé. Donc vous voyez que maintenant
je ne dessine plus le cercle quand il y a un libellé qui
passe au-dessus du cercle.
Alors, ces graphes là sont plus jolis
mais par contre l'ombre reste visible quand vous allez importer
le graphique dans PowerPoint par exemple. Vous allez avoir
des carrés blancs qui sont difficiles à gérer si vous voulez bouger les
libellés. Donc si vous voulez bouger par la suite les libellés, il est conseillé de ne pas mettre d'ombres
mais si vous pouvez
utiliser le graphe tel quel, il est conseillé de mettre une ombre parce que
le graphe sera un petit peu plus propre.
Donc voilà pour le graphe des variables. Donc là encore, on peut utiliser une sélection
et sélectionner uniquement les variables qui ont contribué le plus à la
construction des axes donc les 8 variables qui ont contribué le plus
vont être avec des libellés, pour les autres elles sont avec une certaine
transparence. Donc on voit
leur appartenance au groupe, on voit où elles se projettent, qu'elles sont moins bien projetées.
Cela permet d'avoir des graphes avec des libellés qui vont moins se chevaucher.
Donc des graphes qui sont plus lisibles si on a une quantité importante de variables.
Souvent c'est intéressant parce que les variables qui sont très près du centre du cercle,
des variables avec des flêches très courtes
sont pas très intéressantes à interpreter parce que pas très
bien projetées. Et donc on va souvent s'intéresser aux variables
les mieux projetées, qui ont donc une coordonnée élevée,
ou qui ont fortement contribuer (c'est la même information)
à la construction des axes.
Je peux faire la même chose sur le plan 3-4
et donc avoir les variables qui ont le plus contribué à la construction du plan 3-4.
Evidemment les variables sont moins bien projetées sur ce plan 3-4 mais les
variables qui ont le plus contribué sont les 8 suivantes.