Dans cet article, nous étudierons la solution ILM d’ Informatica – Informatica Test Data Management.
Nous décrirons un process d’utilisation sur un exemple concret.
Nous donnerons à notre sens les points forts et les points faibles du produit.
ILM est un acronyme anglais faisant référence à la gestion du cycle de vie de l’information.
L’ILM se définit comme une réflexion globale sur la gestion rationnelle du patrimoine d’information de l’entreprise en fonction de la valeur de l’information et du coût de son stockage.
Une démarche d’ILM permet d’appliquer des règles de stockage différentes selon la valeur de la donnée à sauvegarder, afin d’adapter au mieux les critères suivants :
- utilité de la donnée
- exigences de sécurité : intégrité, confidentialité et disponibilité des données
- exigences réglementaires sur les données
- temps d’accès aux données
- coût de stockage
Dans les années 2004-2005, le marché de l’ILM semble porteur…
L’ILM concerne surtout les grandes entreprises. Toute société engagée dans des processus de certification se voit contrainte de faire appel à l’ILM pour répondre aux obligations de traçabilité et d’archivage légal.
Les fonctionnalités des produits spécialisées ILM sont exclusivement orientées vers des solutions de stockage. Une poignée d’acteurs significatifs se partage le marché avec des solutions complètes de bout en bout (EMC, HP, IBM, Sun, Network Appliance).
Mais, il reste que le marché de l’ILM ne peut se suffire aux seuls projets d’archivage en raison peut être du coût de moins en moins onéreux des périphériques de stockage.
Février 2009 : un nouvel arrivant sur le marché de l’ILM pour une nouvelle vision ?
En Février 2009, Informatica acquiert l’éditeur Applimation (Informia) pour 40 millions de dollars.
La suite ILM d’ Informatica s’affirme en s’étoffant d’une palette d’outils hétéroclites et de nouvelles fonctionnalités.
Aux modules d’archivage Data Archive et Data Validation Option déjà présents dans sa suite ILM viennent s’ajouter une suite de logiciels hétéroclites, qui regroupés ensemble, offre une plate-forme complète d’outils dédiés à la Gestion du cycle de vie de la donnée.

source : ILM TDM Student Guide
Avant le rachat d’Applimation (Informia), Data Masking Option (DMO) et Data Validation Option pouvaient être vendus séparément et intégrés dans l’ETL PowerCenter par l’acquisition d’une licence supplémentaire.
Aujourd’hui, leurs acquisitions individuelles ne sont plus permises. Le client doit acheter le pack Informatica ILM Test Data Management (TDM).
Les produits de la suite Applimation (Informia) ont été intégrés dans la suite ILM d’Informatica dans Informatica ILM Test Data Management (voir tableau ci-dessus).
Aujourd’hui Informatica ILM TDM fait partie intégrante de la solution complète d’ILM d’ Informatica.
Les composants logiciels d’Informatica ILM Test Data Management (TDM)
Informatica ILM – Test Data Management est un sous – ensemble de la suite d’Informatica ILM.
Informatica ILM Test Data Management (TDM) est composé de 3 briques logicielles :
- Data Subset pour extraire et fournir des échantillons de données à partir d’un modèle relationnel en respectant l’intégrité référentielle
- Data Masking : pour masquer des données sensibles et confidentielles d’un échantillon de données pour les fournir à un tiers
- Data Discovery pour explorer et découvrir les champs de tables éligibles au statut de clé primaire, ou de clé étrangère d’un modèle relationnel qui en est dépourvu.
Comment cela marche ?
Les services d’ILM Test Data Management sont pilotés par ILM server : c’est le service applicatif qui gère les interactions entre le client ILM TDM (ILM Workbench) et les services applicatifs de PowerCenter et de Data Explorer
- Les services Data Explorer vont gérer les opérations de découverte et de profilage des données (Data Discovery)
- Les services de PowerCenter vont gérer les opérations d’extraction des échantillons de données (Data Subset) et leur masquage (Data Masking)

Source : User Guide ILM TDM 9.3
Comment utiliser Informatica ILM Test Data Management ?
Prenons comme exemple fictif, le cas de l’entreprise WEAVETECO.
Cette société veut mettre en application une politique de sécurité très performante pour masquer les données sensibles lorsqu’elle diffuse des données pour ses environnements de développement et de qualification.
Elle va utiliser les services de la plate – forme d’ILM Test Data Management.
Le projet de la société WEAVETECO (distributeur de contenus vidéo payants) va s’effectuer en 4 étapes distinctes :
- Data Import Process
- Data Discovery Process
- Data Subset Process
- Data Masking Process
Le Data Import Process
La première étape consiste à identifier les données que l’on veut importer.
La société WEAVETECO souhaite extraire de son Datawarehouse l’ensemble des informations concernant les clients et les factures clients.
Un nouveau projet CRM est en cours et elle doit fournir aux équipes de développement et de test, un échantillon de données cohérent et fiable.
Les données nécessaires pour construire cette base CRM s’appuie sur deux Datawarehouse. Ces deux modèles de données sont alimentés par des traitements Informatica PowerCenter. Leurs métadonnées sont donc disponibles à partir du Repository PowerCenter.
Le rapatriement des métadonnées dans Informatica ILM Test Data Management va pouvoir être opéré avec le client ILM Workbench.
- A partir du client ILM TDM – (ILM Workbench), les métadonnées du Repository PowerCenter relatives aux modèles de données du DataWarehouse Client et du Datawarehouse Factures clients sont importées dans le Repository ILM
- Le service ILM Server transfert les métadonnées du Repository de PowerCenter dans le Repository ILM.
|
Le Data Discovery Process
La seconde étape consiste à identifier les clés primaires ou étrangères potentiels des deux Datawarehouse.
Problème : les deux équipes de développement travaillent sur deux modèles de données différents mais complémentaires. Chaque SSII maitrise parfaitement son modèle de données mais il ne connait pas très bien le modèle de données de l’autre SSII.
- la SSII A travaille sur le Datawarehouse Clients
- la SSII B travaille sur le Datawarehouse Comptabilité
Le chef de projet CRM souhaite :
- identifier les interactions entre les deux Datawarehouse
- identifier les données confidentielles dites sensibles
La découverte des clés primaires et des clés étrangères va pouvoir être opéré avec l’outil Data Discovery.
- A partir du client ILM TDM – (ILM Workbench), il est nécessaire de se connecter aux deux Datawarehouse pour récupérer les métadonnées.
- L’outil détectera les clés primaires ou les clés étrangères potentielles entre les différentes tables.
- Par exemple : identifier que la clé primaire de la table client du Datawarehouse Client est identique à la clé primaire de la table factures clients du Datawarehouse Comptabilité.
- Il appartient ensuite au chef de projet CRM de suivre ou non les recommandations de l’outil Data Discoverypour appliquer ou non les clés primaires ou étrangères sur les tables des deux Datawarehouse.
- Le service ILM Server a envoyé une requête au Data Integration Service pour extraire le profil des données de chaque table. Le Data Integration Service a ensuite chargé le profilage de chaque table dans le Repository du Profiling Warehouse.
|
Le Data Subset Process
La troisième étape consiste à créer un échantillon de données regroupant les données des deux Datawarehouse Clients et Comptabilité. Cette dernière étape s’effectue en trois phases.
i. Le chef de projet CRM doit identifier les tables des deux Datawarehouse qu’il va devoir sélectionner pour son propre modèle de données CRM.
Exemple : sur la centaine de tables de fait et de dimensions qu’il a pu identifier sur les deux modèles de données avec Data Discovery. Seuls 15 tables de dimensions et trois tables de fait sont nécessaires pour créer son modèle de données CRM.
ii. Le chef de projet CRM doit appliquer des contraintes d’intégrité sur les colonnes des tables qu’il a pu détecter dans le Data Discovery Process. Il doit ensuite sélectionner un échantillon de données en créant un subset basé sur un critère de sélection.
Exemple : sélectionner les tables des deux modèles qui constitueront son modèle relationnel CRM final et appliquer un critère de sélection sur la région des clients
iii. Le chef de projet CRM doit générer un traitement PowerCenter qui va alimenter son modèle relationnel CRM.
La génération des échantillons de données va pouvoir être opéré avec l’outil Data Subset.
i. A partir du client ILM TDM – (ILM Workbench), il faut créer une application Test Data Management et y incorporer le modèle de données relationnel CRM dans des entities et des groups.
- Une entities définit un ensemble de tables reliées entre elles par des liens physiques ou des contraintes logiques (clés primaires et étrangères)
- Un group est un ensemble de tables n’ayant aucun lien physique entre elles ou pour lequel il n’y aucune règle de Data Masking.
ii. Data Subset va appliquer un critère de sélection pour extraire un échantillon de données (subset).
iii. Le chef de projet CRM va implémenter son application Test Data Management en créant un plan à partir duquel il va générer un workflow PowerCenter pour alimenter son modèle cible CRM.
- L’ILM Server stocke les objets créés avec le Workbench (applications, entities, groups, rules, policies, plans) dans le Repository ILM.
- Lors de la génération du workflow à partir du plan, le Powercenter Repository Service se charge de stocker le workflow et ses composants dans le Repository PowerCenter.
- Enfin c’est le Powercenter Integration Service qui exécute le workflow pour charger les données dans la base cible.
|
Le Data Masking Process
La troisième étape consiste à masquer les informations de l’échantillon de données extrait des deux Datawarehouse.
Certaines informations de l’échantillon de données sont très sensibles. La direction de WEAVETECO souhaite que les données qui seront transmises aux équipes de développement et de qualification soient masquées afin de conserver une totale confidentialité.
Dans la partie Discovery Process, le chef de projet CRM a appliqué les clés primaires et les clés étrangères sur son modèle de données CRM.
Une autre tâche lui incombe. Il doit anonymiser les données confidentielles. Il note que certaines données sont très sensibles (Ex : n° de client, nom, prénom, n° de carte bleu, n° de téléphone, email de contact, date de naissance, montant des factures, genre du film).
Les difficultés auxquelles il doit faire face sont les suivantes :
- conserver une intégrité entre les données : son modèle CRM doit respecter une intégrité référentielle et les données doivent garder une homogénéité globale entre elles.
- propager la clé primaire dans le modèle : la clé primaire de certaines tables se base sur le N° de client et cette donnée est présente dans plusieurs tables du modèle CRM final sous forme de clé étrangère
- gérer le masquage des champs composés : certains champs dont le N° de client résulte d’une concaténation de plusieurs champs qui sont eux-mêmes anonymisés en amont.
Exemple : le N° de client est la concaténation de la première lettre du prénom, du nom patronymique, des 5 derniers chiffres du téléphone et de la typologie du sexe
Ci-joint un exemple final de masquage de données.
| COLONNES |
Données réelles |
Données masquées |
| N° DE CLIENT |
NTARKOPY524691 |
CDOVIETRI513892 |
| PRENOM |
NORBERT |
CARMEN |
| NOM |
TARKOPY |
DOVIETRI |
| SEXE1 pour Homme2 pour Femme |
1 |
2 |
| TELEPHONE |
01 43 25 24 69 |
07 34 45 13 89 |
| VILLE |
PARIS (75) |
HAUTS DE SEINE (92) |
| DATE DE NAISSANCE |
28 – 01 – 1955 |
12 – 03 – 1982 |
| N° de C.B. |
0123 4567 8901 8765 |
0145 4578 3201 4545 |
| EMAIL |
NORBERT.TARKOPY@MAFRANCE.COM |
CARMEN.DOVIETRI@MAGUITARE.FR |
| FACTURE |
234 EUROS |
6 EUROS |
| NOM DU FILM |
LES PLAISIRS D’EMMANUELLE |
LA CONQUETE |
| GENRE DU FILM |
EROTIQUE |
DRAMATIQUE |
Le masquage des données va pouvoir être opéré avec l’outil Data Masking.
- Le client ILM TDM – (ILM Workbench) permet de sélectionner les champs candidats au masquage et de les déclarer comme sensibles (sensitive).
- Après avoir sélectionné les données dites sensibles, il faut leur appliquer des règles de masquage de données (rules, policies)
- L’ILM Server stocke les objets créés avec le Workbench (rules, policies) dans le Repository ILM. Lors de la génération du workflow à partir du plan, le Powercenter Repository Service se charge de stocker les règles de masquage dans le Repository PowerCenter.
|
Quels sont les points forts et les points faibles d’Informatica ILM Test Data Management ?
Points négatifs :
- IHM du client ILM Workbench difficile à appréhender en raison des menus contextuels nombreux
- Mise à jour et suppression de TDM vers PowerCenter : en cas de nouvelle génération de workflow par ILM, il est fortement conseillé de supprimer l’ensemble des métadonnées PowerCenter déjà présente. ILM TDM n’effectue pas de suppression au préalable. Le processus peut s’avérer fastidieux dans un mode développement évolutif.
- complexité du modèle de métadonnées de l’ILM Repository
Points positifs :
- intégration des produits ILM dans PowerCenter
- communication entre les Repository ILM, PowerCenter et Data Explorer
- recherche et exploration facile dans les métadonnées ILM
- richesse des algorithmes de masquage
- réutilisation facile des règles de masquage au sein de l’entreprise
- masquage des données par pattern
- génération des rapports sur les données sensibles
- génération rapide des traitements PowerCenter à partir d’un plan ILM TDM
Conclusion :
Avec l’arrivée d’Informatica, les produits ILM semblent avoir trouvé un nouveau vecteur de croissance. Le marché de l’ILM ne semble plus cantonné au seul problématique d’archivage ou de stockage.
La contribution judicieuse d’Informatica est d’avoir à mon sens intégrer de nouvelles fonctionnalités à l’ILM comme l’anonymisation des données (Data Masking), l’exploration des données (Data Discover) ou l’échantillonnage des données (Data Subset).
L’association de ces trois produits hétéroclites dans une suite logicielle compacte a redonné un nouveau souffle à l’ILM en trouvant une véritable synergie.
Articles sources de l’article :
Définition ILM :
Applimation Informia – Enterprise Application Data Management :
Fonctionnalités d’ILM TDM :
Prospectives sur le marché de l’ILM :
Commentaires récents