Après plusieurs semaines de travail, de recherche et de tests comparatifs, j’ai le plaisir de vous annoncer que le livre blanc :
« Les ETL Open Source – Une réelle alternative aux solutions propriétaires » est depuis hier disponible sur le site d’Atol Conseils & Développements.
Disponible sous licence Creative Commons ce livre blanc est librement téléchargeable ? l’adresse suivante : http://www.atolcd.com/actualites/detail-actualite/actualite/2/comparatif-etl-open-source-1.html
Après un bref rappel des fonctionnalités d’un ETL, ce document traite essentiellement des 2 ETL Open Source qui sont actuellement les plus reconnus : Talend et Kettle (Pentaho Data Integration). Un benchmark (modeste certes) de ces 2 outils permet notamment de se faire une idée des temps de traitements dans des cas d’utilisations volontairement simples.
Les enseignements que j’ai déj? pu retirer de cette étude sont les suivants :
- Talend et Kettle sont des outils qui présentent toutes les fonctionnalités nécessaires d’un ETL, et qui n’ont donc pas ? rougir face ? des solutions propriétaires… 🙂
- Ces 2 outils, pourtant d’une conception et d’une utilisation très différente, procurent une grande satisfaction ? l’utilisation. Personnellement, j’ai tout de même une petite préférence pour Kettle qui est d’une facilité de prise en main éblouissante… 😉
- Au niveau des temps de traitement, la rapidité des 2 ETL varie selon la typologie de ceux-ci. Il semble que Talend Open Studio soit beaucoup plus performant que Kettle 3 en ce qui concerne les calculs d’agrégation de données, alors que Kettle se débrouille un peu mieux pour du chargement fichier plat vers SGBD ou encore du Slow Changing Dimension
Bien sûr, j’attends vos diverses réactions sur ce livre blanc, ainsi que d’autres comparatifs éventuels !
PS: Au passage un grand merci ? Nicolas qui avait travaillé déj? en amont sur le benchmark et l’analyse fonctionnelle comparative entre Kettle et Talend
Ci-dessous 2 graphes comparatifs extraits du whitebook :
- Filtrage de données & lookup: Talend est plus rapide que Kettle !
- Slow Changing Dimension: Kettle plus rapide que Talend !
Bonjour Sylvain!
> Filtrage de données + lookup:
Serait-il possible de vérifier les 3 étapes « Recup echange_id » (Produits cartésiens)?
Je veut savoire si les « Etaps sources » sont spécifiés et si les mémoires caches sontes asser large pour les fichiers XLS.
> Slow Changing Dimension: Kettle plus rapide que Talend
Ils m’ont dit que Talend charge tous en mémoire. Es-ce que c’est vrai?
Aux niveau des connecteurs, Kettle évidemment a d’autres aussi:
http://wiki.pentaho.org/display/EAI/List+of+Available+Pentaho+Data+Integration+Plug-Ins
Merci d’avance!
Cordiallement,
Matt
Salut Sylvain,
bravo pour le bon boulot. Remarquable 🙂
Aux niveau des « autres » connecteurs, la démarche de PDI est « de ne garder » que les plus utilisés (par la communauté)
et donc de construire des plugins pour tout le reste (SalesForce, RSS, SSH, PALO,…).
Tout le monde (peut et) participe ici :
http://wiki.pentaho.org/display/EAI/List+of+Available+Pentaho+Data+Integration+Plug-Ins
Merci
Samatar
Bonjour Sylvain,
En complément de mon mail, je glisse aussi un grand remerciement pour cet excellent opus.
Pour les tests de vitesse, mon sentiment est qu’il faudrait tester Kettle en mode cluster … et l? , je pense que les vitesses de traitement de tes lookups vont décroitre … et donc que tes résultats pourraient être réactualisés.
Après, ? lire déj? les demandes de Matt dans ce mail, je pense qu’il serait intéressant que tes tests – indépendants – puissent recevoir l’aide des 2 communautés – Kettle et Talend – et que tu refasses tes propres tests après avoir reçu les conseils de chacun … ce serait aussi un juste retour qui te permettrait d’optimiser tes propres connaissances sur le sujet du tuning
Patrick
Bonjour Matt, Samatar et Patrick !
Je vois que les plus rapides ? commenter ce post sont des « Kettle-fans »…
Pour que vous puissiez refaire les mêmes tests que moi et les enrichir (clustering, tuning), je vais mettre ? disposition l’ensemble des jobs Talend et Kettle sur un serveur de fichier, probablement en fin de semaine…(Lundi et Mardi, je suis en ballade en Alsace 😉 )
En attendant, merci pour toutes vos remarques et commentaires, ce serait sympa de discuter de tout cela autour d’une bonne bière un de ces jours…
Sylvain
Bonjour,
le lien
Disponible sous licence Creative Commons ce livre blanc est librement téléchargeable ? l’adresse suivante : http://www.atolcd.com/actualites/detail-actualite/actualite/2/comparatif-etl-open-source-1.html
n’est plus opérationnel, serait-il possible de me faire parvenir le livre blanc par mail ?
Merci d’avance
Bonjour
Voici un lien alternatif pour le téléchargement (attention ce livre blanc est déjà ancien, donc plus forcément à jour…) :
https://drive.google.com/file/d/0B84GL71-EryVSUNkMjBYbERrYzA/edit?usp=sharing