Data visualization Cours pratiques - Data visualization

Introduction à la data visualisation

Dans cet article je vais introduire le sujet autour de la data visualisation. Je ne ferrais qu’introduire et je n’irais pas plus loin car c’est un domaine dans laquelle les formations en mathématiques, statistiques et probabilités sont le cœur du métier et qui forme les data scientist. Ce sont des personnes qui vont analyser des bases de données et extraire des informations, afin de trouver d’éventuelle corrélations entres elle. En effet, il se peut que certains facteurs puissent influer les autres. Connaître ces informations peut ajouter de la plus-value aux entreprises. Mieux vous connaîtrez votre marché et les besoins des clients, plus vous optimiserez les ventes de vos produits.

Prenons un exemple simple. Il y a fort à parier que les ventes de parapluie soient plus importantes en hiver, qu’en été. Et cela peut venir d’un principal facteur, qu’est la météo.

Le secteur étant large, je vais me consacrer qu’a une infime partie du domaine. Je vais me servir de plusieurs bibliothèques, tout cela en python :

  • Matplotlib : la plus connue de toute, elle permet de faire beaucoup, beaucoup de chose. Pour rapidement résumer, elle permet de réaliser très simplement des graphiques 2D.
  • Seaborn : elle se base sur la librairie précédente, et propose des graphiques encore plus détaillés pour pousser d’avantage l’aspect data visualisation.

Comme d’habitude, les sources du dataset utilisé et l’ensemble de mon code est disponible sur mon profil Github.

C’est parti ! 😎

 

Origine du dataset

Nous avons comme jeu de donnée diverses mesures médicales prises sur 768 patients. Celui-ci va vous permettre via 7 attributs différents nous permettre de déceler une quelconque relation si une personne est diabétique ou non. Nous avons les attributs suivants :

  • Pregnancies : nombre d’enfant
  • Glucose : taux de glucose dans le plasma sanguin (mm Hg)
  • Blood pressure : pression artérielle
  • Skin thinckness : épaisseur de peau au niveau du triceps (mm)
  • Insulin : taux d’insuline (mu U/mL)
  • BMI : indice de masse corporel (IMC, poids en kg / ( taille en m)²)
  • Diabete pedigree function
  • Age (année)
  • Outcome : la sortie qui sera 0 pour non diabétique, et 1 pour diabétique

 

On peut noter que le dataset n’est franchement pas équilibré :

Equilibre du dataset 2

 

Premiers pas

 

Graphique tout individu confondu
Graphique tout individu confondu
Graphique non diabetique exclusif
Graphique non diabétique exclusif
Graphique diabetique exclusif
Graphique diabétique exclusif

On comparant les 3 graphiques précédent, on peut réaliser déjà quelques observations qui pourraient influencer ou non le fait d’être diabétique. Cela reste purement statistique et donc n’en fait pas une science absolue :

  • Glucose : il semblerait qu’un taux plus important de glucose dans le sang soit perçue chez une personne diabétique
  • Skin thickness : on peut voir qu’une personne diabétique à une peau plus fine en moyenne
  • Insulin : une valeur légèrement plus forte serait présente chez une personne diabétique

 

Sur certains attributs, on ne peut trouver d’informations concluantes :

  • BMI : Peu/pas d’influence
  • Blood pressure : Peu/pas d’influence
  • Diabete pedigree function : Peu/pas d’influence
  • Pregnancies : Peu/pas d’influence

 

 

 

Pair plot tout individu
Corrélation entre nos deux classes de sortie sur l’ensemble des attributs

 

Matrice de correlation
Matrice de corrélation

Remerciements

Smith, J.W., Everhart, J.E., Dickson, W.C., Knowler, W.C., & Johannes, R.S. (1988). Using the ADAP learning algorithm to forecast the onset of diabetes mellitusIn Proceedings of the Symposium on Computer Applications and Medical Care (pp. 261–265). IEEE Computer Society Press.

 

 

 

 

 

Bastien Maurice
Développeur junior, j’ai un profil spécialisé dans le développement logiciel et les systèmes embarqués. Je m’intéresse depuis peu au domaine de la data science.

Laisser un commentaire