A. LES DONNÉES
IV. POWER QUERY
Dans certains cas (données provenant d'internet, données non filtrées à l'extraction, données difficiles à appréhender…), les données doivent être "nettoyées" et préparées avant leur utilisation ; un outil de traitement des données très puissant est associé à Power BI : PowerQuery.
ONGLET "ACCUEIL"
groupe "requêtes" (3ème bloc)
<clic g> sur
powerQuery s'affiche
<clic g> sur ou pour avoir des données à jour
ONGLET "ACCUEIL"
groupe "données" (2ème bloc)
après la sélection des données
<clic g> sur
(au lieu de )
powerQuery s'affiche
<clic g> sur ou pour avoir des données à jour
Les données ne sont pas modifiées en dur : Toutes les étapes de transformation des données sont enregistrées et affichées dans le volet droit et rejouées lors de la connexion au fichier de données actualisé
Afficher "base.pbix" dans PowerQuery
A. LES DONNÉES
1. LA SOURCE DE DONNÉES
La chose la plus importante est de maintenir la liaison avec les sources de données. Cependant, dans un environnement local notamment, cette source peut être déplacée ; il faut donc pouvoir la désigner pour que Power BI accède de nouveau aux données.
ONGLET "ACCUEIL"
groupe "sources de données" (3ème bloc)
<clic g> sur
les sources de données du fichier actif s'affichent
<clic g> sur la source
<clic g> sur
<clic g> sur pour désigner le nouvel emplacement (ou la nouvelle source)
<clic g> sur
pour valider
<clic g> sur
Dans "base.pbix" et dans PowerQuery
Afficher les sources des données
Power BI permet d'exporter le fichier source.
ONGLET "ACCUEIL"
groupe "sources de données" (3ème bloc)
<clic g> sur
les sources de données du fichier actif s'affichent
<clic g> sur la source puis <clic g> sur
<clic g> sur (modifier éventuellement le nom et le dossier)
modifier le fichier source (notepad++) puis l'importer
<clic g> sur
2. SOURCE DE DONNÉES COMME PARAMÈTRE
Un moyen plus simple de gérer les sources locales est d'enregistrer comme paramètre le chemin d'accès au fichier et de faire appel à ce paramètre. Ainsi, la simple modification de ces paramètres permet de mettre à jour les sources.
ONGLET "ACCUEIL"
groupe "paramètres" (4ème bloc)
<clic g> sur de
<clic g> sur en haut et gauche
renseigner les caractéristiques
pour valider
les paramètres s'affichent dans le volet gauche
Un moyen simple pour indiquer la valeur du paramètre soit le chemin d'accès au fichier, est de le copier à partir du volet droit "source" puis de le coller dans la valeur du paramètre
Il ne reste plus qu'à remplacer le chemin par le paramètre dans la requête.
ONGLET "ACCUEIL"
groupe "sources de données" (3ème bloc)
<clic g> sur
les sources de données du fichier actif s'affichent
<clic g> sur la source
<clic g> sur
<clic g> sur de devant
sélectionner
<clic g> sur puis sélectionner le paramètre adéquat
pour valider
Il est aussi possible de faire directement la modification dans la barre de formule.
VOLET GAUCHE
dans le volet gauche, sélectionner la requête
dans le volet droit, <clic g> sur
la source s'affiche dans la barre de formule
remplacer le chemin d'accés par le paramètre adéquat
Dans "base.pbix"
Remplacer les chemins d'accès aux fichiers par des paramètres
3. IMPORTER DES DONNÉES WEB
Un des cas de figure où les données ont besoin d'un "nettoyage" avant utilisation est lorsque les données viennent du Web. C'est une source importante de données générales. Sur les sites spécialisés, ces données vont pouvoir être téléchargées dans un format exploitable (souvent .csv). Lors de l'actualisation, les opérations seront de nouveau effectuées sur les données à jour.
NAVIGATEUR
ouvrir le navigateur
se rendre sur la page désirée
paramétrer éventuellement
<clic g> sur l'icône de téléchargement
Fermer tous les fichiers ouverts et Afficher le navigateur
Se rendre sur "Yahoo finances" sur la page des indices boursiers à l'adresse :
https://fr.finance.yahoo.com/indices-mondiaux/
dans la barre des indices, <clic g> sur "cac 40"
<clic g> sur
Modifier la période du "06 mars 2013" à la date du jour -
<clic g> sur pour télécharger le fichier
Le renommer "cac_40.csv"
Idem pour les indices HSI_hongkong, JKSE, IMOEX.ME_russie, N225_japon et IXIC_composite_us, tous à partir du 06/03/2013 jusqu'à la date du jour
revenir éventuellement à la page d'origine pour trouver les indices
ONGLET "ACCUEIL"
groupe "données" (2ème bloc)
<clic g> sur
sélectionner le fichier .csv
vérifier et/ou modifier le délimiteur (qui sépare les données de chaque champ)
<clic g> sur
Il est aussi possible de charger les données avec puis de cliquer sur
pour accéder à PowerQuery
Importer les données du fichier "cac40.csv"
Enregistrer le fichier sous le nom "indices"
Les problèmes principaux rencontrés lors de l'import d'un .csv sont :
- Le séparateur de champ : le problème est géré dès l'import
- Le séparateur décimal : le problème est géré par une recherche/remplacement
- Les lignes incomplètes ou vides : le problème est géré par Power Query
- Les entêtes de colonne incluses dans les données : idem
…
4. MODIFIER LE TYPE DE DONNÉES
Il arrive que le séparateur décimal utilisé soit anglo-saxon, c’est-à-dire le point "." et non la virgule "," comme en France. La colonne est alors considérée comme "texte" au lieu de "numérique" (comme dans Excel, les chiffres sont alignés à droite et le texte à gauche).
Il faut donc remplacer d'abord les "." par des ","
ONGLET
groupe "n'importe quelle colonne" (2ème bloc)
<clic g> dans la colonne concernée
<clic g> sur
pour valider
Si la valeur recherchée n'existe pas, les commande sont en grisé
Il reste à convertir les données de "texte" en "chiffre".
ONGLET
groupe "n'importe quelle colonne" (2ème bloc)
dans la même colonne
<clic g> sur
choisir le format numérique adéquat
Dans le fichier "indices.pbix"et avec POWERQUERY, transformer les données considérées à tort comme texte en valeurs numériques "décimales"
5. ARRONDIR LE CHIFFRE DÉCIMAL
Il est préférable que tous les chiffres décimaux aient le même nombre de décimales et, pour des raisons de lisibilité, plus pratique que ces chiffres soient arrondis.
ONGLET
groupe " colonne nombre" (4ème bloc)
<clic g> dans la colonne concernée
<clic g> sur
choisir l'arrondi
Dans le fichier "indices.pbix" et avec PowerQuery,
Arrondir toutes les valeurs à "0" décimales
6. AFFICHER LA QUALITÉ DES DONNÉES
Pour voir les modifications qu'il reste à faire pour que les données soient exploitables, des outils de colonne sont à disposition.
ONGLET
groupe "aperçu des données" (2ème bloc)
<clic g> sur
les informations s'affichent
Ces informations vont entre autre permettre de connaître les problèmes potentiels (lignes vides à supprimer)
Dans le fichier "indices.pbix" et avec PowerQuery,
Afficher la qualité des données
La distribution des colonnes donne aussi des informations graphiques sur chacune des colonnes.
ONGLET
groupe "aperçu des données" (2ème bloc)
<clic g> sur
les informations s'affichent
Ces informations sont gérées par colonne ; elles sont donc à prendre en compte uniquement pour les colonnes "clé"
Dans le fichier "indices.pbix" et avec PowerQuery,
Afficher la distribution des données
Le profil des colonnes donne des informations intéressantes sur la colonne sélectionnée
ONGLET
groupe "aperçu des données" (2ème bloc)
<clic g> dans l'entête de la colonne concernée
<clic g> sur
les informations s'affichent
Dans le fichier "indices.pbix" et avec PowerQuery,
Afficher le profil de la colonne "low"