OSBI.FR - Open Source Business Intelligence

Talend 4: proprietary etl killer ?

Hier se déroulait à Paris le Talend Partner Summit, une journée d’échange entre Talend et ses partenaires intégrateurs.  Atol CD étant partenaire Gold, j’y étais ;-).

Vraiment, quel beau chemin parcouru par Talend depuis la création de la société en 2006: désormais plus de 200 collaborateurs, 1000 clients payants avec un rythme de 100 nouveaux clients chaque mois.

Même le Gartner a reconnu Talend comme un acteur important dans l’intégration de données en faisant rentrer un éditeur Open Source dans son carré magique ETL (voir le détail sur le blog d’Olivier Carbone, ingénieur R&D chez Talend)

Début 2008, j’avais rédigé un Livre Blanc qui faisait un comparatif (non exhaustif bien sûr) de la version 2.2.3 de Talend et de la 3.01 de Kettle (Pentaho Data Integration), et déjà à l’époque Talend était très prometteur !

Les remarques et commentaires faits par Matt Casters (Pentaho) et Fabrice Bonan (Talend) avaient d’ailleurs permis d’apporter des éléments supplémentaires relayés sur le blog technique d’Atol CD.

Alors, pourquoi une version majeure de Talend ?

Parce que désormais, les 3 composantes majeures de Talend sont intégrées dans une même plate-forme unifiée :

  • Intégration de données : Talend Open Studio* et Talend Integration Suite**
  • Qualité de données: Talend Open Profiler* et Talend Data Quality**
  • Master Data Management (MDM): Talend MDM Community Edition* et Enterprise Edition**

De nombreuses fonctionnalités arrivent également dans cette V4 :

  • « Life Cycle Platform » (LCP): technologie s’appuyant sur les méthodes agiles et Xtreme programming qui permet l’automatisation de tests unitaires et des déploiements, ainsi qu’un audit de la plate-forme permettant de vérifier si les « bonnes pratiques » ont été mises en oeuvre dans les jobs. On peut aussi détecter les jobs susceptibles d’être « coûteux » en terme de maintenance (en cas de modifications)
  • Le moteur de règles métiers Drools permet à des analystes métiers (profils fonctionnels) de définir des règles au travers d’une IHM web simple. Les règles peuvent ensuite être utilisées en tant que composant dans les jobs Talend, et modifiées à chaud si besoin.
  • Analyse d’impact: cette fonctionnalité (essentielle pour une meilleure productivité) permet de détecter les impacts des modifications d’une colonne d’un champ (source ou cible) sur les jobs Talend qui l’utilisent.
  • La supervision en temps réel est améliorée et ne se limite plus seulement au job courant mais à l’ensemble des jobs.
  • On peut désormais profiter au maximum des fonctionnalités du SVN (stockage des jobs) et ainsi faire du versionning avancé (gestion de branches). Le comparateur de version ne compare pas du code Java (comme un simple WinMerge), mais présente sous forme d’arbre les composants qui ont été ajoutés/retirés.
  • Haute disponibilité: afin de ne jamais être coincé en cas de crash ou d’indisponibilité serveur, le clustering est désormais disponible sur la console d’administration et le scheduler
  • Ajouts de nouveaux composants

On peut sans réserve dire que cette nouvelle version fait de Talend le leader incontournable en gestion de données d’entreprise au sens le plus large (intégration, qualité, mdm).

Le modèle économique de Talend fonctionne désormais très bien (il a d’ailleurs fait ses preuves chez d’autres comme Alfresco, Pentaho, Jasper…) : il s’agit d’un modèle open source commercial avec un « dual-licensing », des versions communautaires puissantes et fiables complétées par des versions « Enterprise » (payantes) dont le but est l’amélioration de la productivité dans le cadre de déploiements à moyenne et grande échelle.

Le modèle de pricing va permettre à Talend de prendre de nombreuses parts de marché aux plus grands (Informatica, DataStage, Oracle), car chez Talend, on ne paye que ce qu’on utilise vraiment (licences développeurs, indépendantes des volumes traités) alors que pour les ETL commerciaux, on paye à la CPU (donc plus on a de volume de données à traiter, plus on doit renforcer les machines, plus on paye des licences !)

Pour conclure, il me semble désormais que les 2 ETL Open Source vraiments intéressants du marché adoptent des positionnements différents :

  • Talend s’affirme comme la référence pour la gestion des données au sein d’une entreprise/organisation (Intégration, Qualité de la données, Master Data Management)
  • Kettle se positionne plus comme un ETL orienté BI (la version 4 le démontre avec AGILE BI), même si globalement, en terme d’intégration de données, la couverte fonctionnelle est identique à celle de Talend.

Bien sûr, si vous voulez télécharger Talend V4, c’est par ici.

PS pour les annotations: (*)=versions Community / (**)=versions Enterprise

3 Comments

  1. Très bon résumé du show Sylvain, merci.
    En ce qui me concerne, les fonctionnalitées étendues de gestion des versions, et l’impact analysis m’intéressent au plus haut point.

  2. Salut Vincent.
    Juste pour infos, ces fonctionnalités sont dans la version Enterprise uniquement (car elles concernent la productivité)
    Bon WE !
    A+
    Sylvain

Les commentaires sont fermés.