Analyse Factorielle Multiple - Afm - Avec factominer

L'objectif de cette vidéo est de montrer comment faire une AFM avec FactoMineR et notamment comment améliorer les graphiques qui sont obtenus avec FactoMineR. Je vais d'abord charger la librairie et je vais faire une analyse factorielle multiple sur le jeu de données exemple de l'AFM, donc je vais faire ?MFA pour avoir l'aide de la fonction. En bas de l'aide je vais lancer l'exemple sur les données vin. Dans un premier temps, on charge le jeu de données et ensuite on réalise l'AFM. Je vais explicité rapidement les lignes de code. J'ai d'abord charger le jeu de données vins. Ensuite j'ai fait l'AFM sur le jeu de données vin, je crée des groupes de variables. L'AFM va équilibrer l'influence de chaque groupe de variables dans la construction des axes, dans la construction du premier axe. J'ai un premier groupe de variables constitué des 2 premières variables ensuite les 5 suivantes constitue un groupe, puis les 3 suivantes, puis les 10 suivantes, les 9 suivantes et les 2 dernières. La nature des variables d'un groupe est ici: le premier groupe de variables sont des variables nominales donc des variables qualitatives, ensuite on a des variables quantitatives avec un "s" ici qui signifie qu'on va "scaler" c'est-à-dire réduire les variables. Ensuite ncp = 5 signifie qu'on va avoir les résultats pour 5 dimensions. Enfin je peux nommer les groupes de variables: un variable sur l'origine des vins (le label, le type de sol), des variables de description olfactive, des variables sur le visuel, sur l'olfaction après agitation, sur le gustatif ou des variables d'ensemble. Et puis on précise que les groupes de variables 1 et 6 donc l'origine et les variables d'ensemble sont des groupes supplémentaires et donc ne vont pas participer à la construction des axes. Une fois qu'on a fait l'AFM, les résultats sont dans l'objet res et je peux avoir un résumé de cet objet en faisant summary(res) Je vais grandir un petit peu la fenêtre pour avoir tous les résultats summary(res) va d'abord rappeler ligne de commandes; ensuite un tableau sur les valeurs propres et les pourcentages d'inertie associés à chaque dimension. Donc la première dimension récupère 49% de l'information, 49 % de l'inertie la deuxième dimension 19%. Ensuite j'ai des résultats sur les groupes de variables donc les groupes actifs d'abord avec les coordonnées des groupes, les contributions de chacun des groupes à la construction de la première dimension et la qualité de représentation sur la première dimension. Ensuite, les résultats sur la deuxième dimension : coordonnées, contribution et cosinus carré puis la 3ème et on peut avoir les résultats sur, par défaut 3 dimensions mais on peut à voir sur 4, 5 ou 2 dimensions par exemple en utilisant l'argument ncp. On a ensuite les résultats sur les groupes supplémentaires avec les coordonnées et les cosinus carrés. On n'a pas de contribution puisque ce sont des groupes qui ne contribuent pas à la construction des axes. Ensuite on a les résultats sur les individus alors sur les premiers individus, par défaut les dix premiers. On peut voir les résultats sur tous les individus en mettant l'argument nbelements = Inf pour infinity. C'est-à-dire qu'on aura les résultats pour tous les éléments, donc tous les individus toutes les variables, etc. Là encore on a les coordonnées, les contributions et les cosinus carrés, d'abord sur la dimensions 1, puis 2 puis 3. On a les résultats sur les variables quantitatives actives, donc les résultats pour les dix premières variables avec là encore coordonnées, contributions, cos². Pour les variables quantitatives supplémentaires, on a juste les coordonnées et les cos²; là encore ce sont des variables qui n'ont pas contribuées. Il n'y a pas de variables qualitatives ici qui sont actives donc on a des résultats que pour les variables qualitatives supplémentaires et plus particulièrement pour les modalités des variables qualitatives supplémentaires. Donc on a la coordonnée, le cosinus carré, pas de contribution bien entendu et une valeur-test. La valeur test est comprise le plus souvent entre -1.96 et 1.96 au-delà ça signifie que la coordonnée est significativement différente de 0. Par exemple, la modalité référence a une coordonnée significativement différente de 0 sur la première dimension; et supérieure à 0 sur la première dimension. Voilà les principaux résultats de l'AFM. Alors ensuite, de nombreux graphes sont apparus tout à l'heure. On a d'abord le graphe des groupes de avec en bordeau les groupes actifs et en vert les groupes illustratifs. On a ensuite un graphe avec les axes partiels. Pour chaque groupe de variables on a fait une analyse : pour les variables quantitatives, on a fait une ACP et on projette en supplémentaire les dimensions de l'ACP. Donc par exemple, pour le groupe de visuels, la première dimension du visuelle est très liée à la première dimension de l'AFM. La deuxième dimension visuelle un peu moins. Pour les groupes de variables qualitatives, comme l'origine ici, on fait une ACM et ce sont les dimensions de l'ACM qui sont projetées. J'ai un graphe avec uniquement les individus, un graphe avec les variables, et les variables sont coloriées en fonction leur groupe d'appartenance. Donc une même couleur pour un même groupe. On peut avoir sur le graphe des individus certains des individus qui ont des points partiels donc ici on demande les individus qui ont des points partielle très différents donc une inertie intra qui est très grande. Les deux individus qui ont une inertie intra la plus grande ont des points partiels ainsi que les deux individus qui ont les inerties intra les plus petites. Et là ce sont les graphes avec les modalités supplémentaires ou modalités actives (ici il n'y en a pas) et donc le graphe avec les modalités uniquement. Je peux revenir sur des graphes pour voir comment construire les graphes. Je crée une nouvelle fenêtre graphique et je vais construire le graphe des individus plot(res) pour voir comment modifier ces graphes, améliorer ces graphes éventuellement. Là j'ai un graphe avec les individuels actifs et les modalités des variables supplémentaires. Donc je peux rendre invisible par exemple les modalités des variables qualitatives. Les individuels ont tous des couleurs différentes, je peux habiller les individus, plutôt ne pas habiller les individus donc mettre une même couleur, le noir, pour chaque individu. Le graphe est assez lisible; si je veux que les libellés soient moins proches les uns des autres ou si j'ai plus de points et que je veux bien séparer les libellés, je peux diminuer un petit peu la police en utilisant l'argument cex = 0.8 par exemple. Les points sont un peu mieux séparés et le graphe est plus lisible. Sur ce graphe je peux mettre des points partiels pour par exemple les vins 1VAU, PER1. Pour ces deux points, je vais avoir des points partiels. Les points partiels peuvent être habillés en fonction des groupes plutôt que de mettre aucun habillage. Le fait d'habiller par groupe, on voit plus précisément. Donc par exemple, pour le vin 1VAU j'ai le point rouge ici qui signifie comment le vin 1VAU est vu par rapport aux variables d'olfaction uniquement. Et ici comment le vin 1VAU est vu par rapport aux variables visuelles uniquement. On retrouve ici les couleurs qui étaient utilisées pour les groupes de variables quand on avait le graphe des variables. Si je fais plot(res,choix="group",habillage="group") Les groupes sont coloriées avec l'olfaction en rouge, l'olfaction après agitation en bleu foncé, la gustation en bleu ciel, et le visuel en vert. Et donc ce sont ces mêmes couleurs qui sont utilisées pour points partiels ici. Je peux sélectionner certains individus donc par exemple ne pas dessiner tous les points mais sélectionner uniquement les vins qui sont bien représentés sur le plan, qui ont un cosinus carré supérieur à 0.8. Donc je vais avoir en noir, avec un libellé, les individus qui ont un cos² supérieur à 0 8 et puis en gris ici les individus qui ont un cosinus carré inférieur 0.8. Sont dessinés les points partiels pour lesquels les individus ont un cos² supérieur à 0.8. Je peux également habiller les individus en fonction d'une variable donc de la variable 1 qui est une variable qualitative. J'habille les points en rouge. Je ne vais plus mettre points partiel ici parce qu'on a un peu trop d'informations. Donc j'ai habillé en rouge les vins l'appellation Saumur, en vert les Bourgueuils et en bleu les Chinons. Alors j'ai mis habillage = 1 j'aurais pu utiliser la variable de sol. Donc je peux soit mettre le numéro de la variable soit le nom de la variable et donc là les vins sont coloriées en fonction de la variable de sol. Donc j'ai toujours une sélection avec cos² > 0.8 je peux aussi sélectionner en fonction d'une contribution et prendre les 8 individus qui ont le plus contribué à la construction des axes. Donc sont coloriées uniquement les individus qui ont contribué, qui ont le plus contribué à la construction des axes. Les 8 individus qui ont le plus contribué à la construction des axes. Je peux jouer sur la transparence ici en mettant unselect = 0 J'ai pas du tout de transparence, donc les points sont de la même couleur: Les points qui n'ont pas contribué fortement sont de la même couleur que autres points mais on voit qu'il n'y a pas de libellés pour ces points là. Et au contraire, je peux mettre une transparence totale, c'est-à-dire que les points disparaissent pour les individus qui ne sont pas les 8 qui ont le plus contribué à la construction des axes. Donc voilà pour la construction des axes. Il peut éventuellement y avoir un petit problème quand on met de la transparence car ces graphes là ne peuvent pas être utilisés dans PowerPoint parce que la transparence n'est pas gérée et donc je vous conseille d'utiliser une couleur de gris par exemple grey70. Donc on a une même couleur de gris; les points ne sont plus habillée par rapport au sol mais ils sont en gris par contre là, on va pouvoir utiliser le graphe dans PowerPoint, et éventuellement bouger les libellés. Donc par défaut, j'ai le graphe avec le plan 1-2 mais je peux faire le plan 3-4. Il suffit que je précise axes = 3:4 Donc voici le graphe sur les axes 3 et 4. Et j'ai donc les individus qui ont le plus contribué à la construction des axes 3 et 4. Pour ma sélection, j'ai les contributions les plus importantes, je peux aussi préciser les vins que je veux visualiser: 1VAU, PER1 par exemple. Donc j'ai 2 vins qui vont être précisés. Donc voilà pour le graphe des individus. On peut aussi travailler sur le graphe des variables. je mets choix = "var" pour dire que je travaille sur le graphe des variables. Donc le graphe par défaut est celui-ci. Alors c'est toujours intéressant d'habiller les variables en fonction de leur groupe. Ca c'est à conseiller et à faire tout le temps je pense. Vous voyez qu'ici beaucoup de libellés se superposent. En fait les libellés sont assez longs et ne peuvent pas être écrits sur la droite du graphe. Ce qui est conseillé de faire, c'est d'agrandir la fenêtre un petit peu et de relancer la commande. Donc là, les libellés peuvent aller plus vers la droite et donc assez peu de libellés se superposent. Le graphe est un petit peu plus lisible comme ça. Dans ce graphe, on voit qu'on peut améliorer le graphe en mettant une ombre shadow = TRUE pour dire que je mets une ombre sous le libellé. Donc vous voyez que maintenant je ne dessine plus le cercle quand il y a un libellé qui passe au-dessus du cercle. Alors, ces graphes là sont plus jolis mais par contre l'ombre reste visible quand vous allez importer le graphique dans PowerPoint par exemple. Vous allez avoir des carrés blancs qui sont difficiles à gérer si vous voulez bouger les libellés. Donc si vous voulez bouger par la suite les libellés, il est conseillé de ne pas mettre d'ombres mais si vous pouvez utiliser le graphe tel quel, il est conseillé de mettre une ombre parce que le graphe sera un petit peu plus propre. Donc voilà pour le graphe des variables. Donc là encore, on peut utiliser une sélection et sélectionner uniquement les variables qui ont contribué le plus à la construction des axes donc les 8 variables qui ont contribué le plus vont être avec des libellés, pour les autres elles sont avec une certaine transparence. Donc on voit leur appartenance au groupe, on voit où elles se projettent, qu'elles sont moins bien projetées. Cela permet d'avoir des graphes avec des libellés qui vont moins se chevaucher. Donc des graphes qui sont plus lisibles si on a une quantité importante de variables. Souvent c'est intéressant parce que les variables qui sont très près du centre du cercle, des variables avec des flêches très courtes sont pas très intéressantes à interpreter parce que pas très bien projetées. Et donc on va souvent s'intéresser aux variables les mieux projetées, qui ont donc une coordonnée élevée, ou qui ont fortement contribuer (c'est la même information) à la construction des axes. Je peux faire la même chose sur le plan 3-4 et donc avoir les variables qui ont le plus contribué à la construction du plan 3-4. Evidemment les variables sont moins bien projetées sur ce plan 3-4 mais les variables qui ont le plus contribué sont les 8 suivantes.