Mise en place de Pentaho Data Integration (PDI)

A quoi sert PDI?

Comme son nom l'indique, il sert à intégrer des données. On appelle également cela un ETL. Pour nous, ses principaux atouts sont: la simplicité d'utilisation, de bonnes performances (reste subjectif) et son cout (version communautaire gratuite).

L'installer

Pour rappel nous travaillons uniquement sous Linux avec des outils gratuits.

1/ Télécharger la dernière version

Soit en allant sur leur site, soit en tapant directement:

$ wget http://downloads.sourceforge.net/project/pentaho/Data%20Integration/6.0/pdi-ce-6.0.1.0-386.zip

puis dézipper...

2/ Premier lancement

Aller dans votre répertoire et lancez le script spoon.sh.

Au premier lancement, vous devriez avoir la fenetre suivante qui vous invite à créer un repository: il s'agit d'un espace de stockage (généralement une base de donnée) utilisée par PDI pour fonctionner et qui va stocker tous vos schemas, préferences...

Note, vous pouvez retrouver la configuration du repository depuis l'écran principal par >> Tools / Repository / Connect (ou Ctrl+R)
askRepo

Mais avez-vous une base de donnée sous la main de disponible?
Faisons une rapide parenthèse pour en préparer une {

Lancer une base de données pour notre repository

Merci à docker, cela se fera en une seule commande:

$ docker run --name postgres-pdi -e POSTGRES_PASSWORD=postgres -d -p 5432:5432 postgres:9.4

== Attention, par cette commande les données seront stockées dans l'image à des fins de test. Si vous supprimez l'image, devinez quoi... ==

} fin de la parenthèse, et surtout nous voilà avec une base vide accessible en localhost.

Paramétrez le repository

Cliquez sur le "+" en haut à droite de l'écran pour ajouter un Repository en base de donnée.
ajoutRepo

Sélectionnez le driver Postgres et renseignez les champs comme suit (et faites un test de connection):
paramRepo

Puis créez les tables nécessaires au bon fonctionnement de PDI en clickant sur "Create or Upgrade"
createRepo
Le mot de passe par defaut d'admin est admin

et vous voilà avec l'interface de travail, pret à démarrer.

mainGui

Autres articles sur les ETL: