IV.             POWER QUERY

Dans certains cas (données provenant d'internet, données non filtrées à l'extraction, données difficiles à appréhender…), les données doivent être "nettoyées" et préparées avant leur utilisation ; un outil de traitement des données très puissant est associé à Power BI : PowerQuery.

ONGLET "ACCUEIL"
groupe "requêtes" (3ème bloc)
<clic g> sur  
powerQuery s'affiche
<clic g> sur   ou pour avoir des données à jour

 

 

  ONGLET "ACCUEIL"
groupe "données"  (2ème bloc)
après la sélection des données
<clic g> sur
(au lieu de )
powerQuery s'affiche
<clic g> sur   ou pour avoir des données à jour

 

Une image contenant table

Description générée automatiquement

 

Les données ne sont pas modifiées en dur : Toutes les étapes de transformation des données sont enregistrées et affichées dans le volet droit et rejouées lors de la connexion au fichier de données actualisé

 

Afficher "base.pbix" dans PowerQuery

A.                   LES DONNÉES

1.            LA SOURCE DE DONNÉES

La chose la plus importante est de maintenir la liaison avec les sources de données. Cependant, dans un environnement local notamment, cette source peut être déplacée ; il faut donc pouvoir la désigner pour que Power BI accède de nouveau aux données.

Une image contenant texte, signe

Description générée automatiquement  ONGLET "ACCUEIL"
groupe "sources de données" (3ème bloc)
<clic g> sur
les sources de données du fichier actif s'affichent
<clic g> sur la source
<clic g> sur
<clic g> sur pour désigner le nouvel emplacement (ou la nouvelle source)
<clic g> sur
pour valider
<clic g> sur

 

Une image contenant texte

Description générée automatiquement

 

Dans "base.pbix" et dans PowerQuery
Afficher les sources des données

 

Power BI permet d'exporter le fichier source.

Une image contenant texte, signe

Description générée automatiquement  ONGLET "ACCUEIL"
groupe "sources de données" (3ème bloc)
<clic g> sur
les sources de données du fichier actif s'affichent
<clic g> sur la source puis <clic g> sur
<clic g> sur (modifier éventuellement le nom et le dossier)
modifier le fichier source (notepad++) puis l'importer
<clic g> sur

 

Une image contenant texte

Description générée automatiquement

2.            SOURCE DE DONNÉES COMME PARAMÈTRE

Un moyen plus simple de gérer les sources locales est d'enregistrer comme paramètre le chemin d'accès au fichier et de faire appel à ce paramètre. Ainsi, la simple modification de ces paramètres permet de mettre à jour les sources.

Une image contenant texte, signe

Description générée automatiquement  ONGLET "ACCUEIL"
groupe "paramètres" (4ème bloc)
<clic g> sur de
<clic g> sur   en haut et gauche
renseigner les caractéristiques
pour valider
les paramètres s'affichent dans le volet gauche

 

Une image contenant texte

Description générée automatiquement

 

Un moyen simple pour indiquer la valeur du paramètre soit le chemin d'accès au fichier, est de le copier à partir du volet droit "source" puis de le coller dans la valeur du paramètre

 Une image contenant texte

Description générée automatiquement
Une image contenant texte

Description générée automatiquement 

 

 

Il ne reste plus qu'à remplacer le chemin par le paramètre dans la requête.

Une image contenant texte, signe

Description générée automatiquement  ONGLET "ACCUEIL"
groupe "sources de données" (3ème bloc)
<clic g> sur
les sources de données du fichier actif s'affichent
<clic g> sur la source
<clic g> sur
<clic g> sur de devant
sélectionner
<clic g> sur puis sélectionner le paramètre adéquat
pour valider

 

Une image contenant texte

Description générée automatiquement

 

 

Il est aussi possible de faire directement la modification dans la barre de formule.

Une image contenant texte, signe

Description générée automatiquement  VOLET GAUCHE
dans le volet gauche, sélectionner la requête
dans le volet droit, <clic g> sur
la source s'affiche dans la barre de formule
remplacer le chemin d'accés par le paramètre adéquat

Une image contenant texte

Description générée automatiquement

 

Dans "base.pbix"
Remplacer les chemins d'accès aux fichiers par des paramètres

3.            IMPORTER DES DONNÉES WEB

Un des cas de figure où les données ont besoin d'un "nettoyage" avant utilisation est lorsque les données viennent du Web. C'est une source importante de données générales. Sur les sites spécialisés, ces données vont pouvoir être téléchargées dans un format exploitable (souvent .csv). Lors de l'actualisation, les opérations seront de nouveau effectuées sur les données à jour.

NAVIGATEUR
ouvrir le navigateur
se rendre sur la page désirée
paramétrer éventuellement
<clic g> sur l'icône de téléchargement

 

Fermer tous les fichiers ouverts et Afficher le navigateur
Se rendre sur "Yahoo finances" sur la page des indices boursiers à l'adresse :
https://fr.finance.yahoo.com/indices-mondiaux/
dans la barre des indices, <clic g> sur "cac 40"
<clic g> sur
Modifier la période du "06 mars 2013" à la date du jour -
<clic g> sur pour télécharger le fichier
Le renommer "cac_40.csv"
Idem pour les indices HSI_hongkong, JKSE,  IMOEX.ME_russie, N225_japon et IXIC_composite_us, tous à partir du 06/03/2013 jusqu'à la date du jour
revenir éventuellement à la page d'origine pour trouver les indices

 

 

Une image contenant texte

Description générée automatiquement

 

Une image contenant texte

Description générée automatiquement

 

 

ONGLET "ACCUEIL"
groupe "données" (2ème bloc)
<clic g> sur
sélectionner le fichier .csv
vérifier et/ou modifier le délimiteur (qui sépare les données de chaque champ)
<clic g> sur

 

Il est aussi possible de charger les données avec puis de cliquer sur
pour accéder à PowerQuery

 

Importer les données du fichier "cac40.csv"
Enregistrer le fichier sous le nom "indices"

Une image contenant table

Description générée automatiquement

 

Les problèmes principaux rencontrés lors de l'import d'un .csv sont :

  • Le séparateur de champ : le problème est géré dès l'import
  • Le séparateur décimal : le problème est géré par une recherche/remplacement
  • Les lignes incomplètes ou vides : le problème est géré par Power Query
  • Les entêtes de colonne incluses dans les données : idem

4.            MODIFIER LE TYPE DE DONNÉES

Il arrive que le séparateur décimal utilisé soit anglo-saxon, c’est-à-dire le point "." et non la virgule "," comme en France. La colonne est alors considérée comme "texte" au lieu de "numérique" (comme dans Excel, les chiffres sont alignés à droite et le texte à gauche).

Il faut donc remplacer d'abord les "." par des ","

Une image contenant texte, signe

Description générée automatiquement  ONGLET
groupe  "n'importe quelle colonne" (2ème bloc)
<clic g> dans la colonne concernée
<clic g> sur
pour valider
 

 

Si la valeur recherchée n'existe pas, les commande sont en grisé

 

Il reste à convertir les données de "texte" en "chiffre".

Une image contenant texte, signe

Description générée automatiquement  ONGLET
groupe  "n'importe quelle colonne" (2ème bloc)
dans la même colonne
<clic g> sur
choisir le format numérique adéquat

 

Une image contenant texte

Description générée automatiquement

 

Dans le fichier "indices.pbix"et avec POWERQUERY, transformer les données considérées à tort comme texte en valeurs numériques "décimales"

5.            ARRONDIR LE CHIFFRE DÉCIMAL

Il est préférable que tous les chiffres décimaux aient le même nombre de décimales et, pour des raisons de lisibilité, plus pratique que ces chiffres soient arrondis.

Une image contenant texte, signe

Description générée automatiquement  ONGLET
groupe  " colonne nombre" (4ème bloc)
<clic g> dans la colonne concernée
<clic g> sur
choisir l'arrondi

 

 

Dans le fichier "indices.pbix" et avec PowerQuery,
Arrondir toutes les valeurs à "0" décimales

6.            AFFICHER LA QUALITÉ DES DONNÉES

Pour voir les modifications qu'il reste à faire pour que les données soient exploitables, des outils de colonne sont à disposition.

Une image contenant texte, signe

Description générée automatiquement  ONGLET
groupe  "aperçu des données" (2ème bloc)
<clic g> sur
les informations s'affichent

 

 

Ces informations vont entre autre permettre de connaître les problèmes potentiels (lignes vides à supprimer)

 

Dans le fichier "indices.pbix" et avec PowerQuery,
Afficher la qualité des données

 

 

La distribution des colonnes donne aussi des informations graphiques sur chacune des colonnes.

Une image contenant texte, signe

Description générée automatiquement  ONGLET
groupe  "aperçu des données" (2ème bloc)
<clic g> sur
les informations s'affichent

 

 

Ces informations sont gérées par colonne ; elles sont donc à prendre en compte uniquement pour les colonnes "clé"

 

Dans le fichier "indices.pbix" et avec PowerQuery,
Afficher la distribution des données

 

Le profil des colonnes donne des informations intéressantes sur la colonne sélectionnée

Une image contenant texte, signe

Description générée automatiquement  ONGLET
groupe  "aperçu des données" (2ème bloc)
<clic g> dans l'entête de la colonne concernée
<clic g> sur
les informations s'affichent

 

 

Dans le fichier "indices.pbix" et avec PowerQuery,
Afficher le profil de la colonne "low"

Modifié le: lundi 24 octobre 2022, 11:36