Les catalogues produits : des données délicates à manipuler

14 mai 2020 Data Science, Intelligence artificielle, Retail & Marketplace

S’il y a bien une tâche au quotidien qui donne des insomnies à beaucoup de gens qui travaillent dans le domaine du retail, c’est le nettoyage de catalogues de produits. En effet, les personnes en charge de la qualité des catalogues produits – que ça soit au sein d’une marketplace, d’un distributeur, d’une marque ou d’une agence – sont confrontés à ce problème de qualité de données au sein de leur catalogue, et sont souvent amenés à devoir rectifier, nettoyer, enrichir leur catalogues de produits.

 

Bien que la tâche semble anodine, elle est d’une traître complexité à résoudre et souvent les tâches de nettoyage se font à la main et prennent énormément de temps. La complexité réside dans la nature hétérogène propre aux données de produits, mais également dans la variété de problèmes que l’on peut rencontrer en manipulant des catalogues de produits.

 

Cet article a pour but de mettre en exergue les raisons qui font que les tâches de nettoyage, et donc d’amélioration de la qualité des données de produit, sont complexes à résoudre et font que certains projets peuvent prendre plus de temps que prévu.

Introduction

La qualité des données de produit constitue une des clés les plus importante pour gérer des données de produits. En effet, des données de produits de bonne qualité permettent de construire de belles fiches produits, bien renseignées, précises et complètes. Lorsque l’on fait de la vente en ligne, c’est une composante essentielle pour bien vendre ses produits. Un produit bien décrit et détaillé, ça inspire confiance, on sait ce que l’on achète sans pour autant avoir vu le produit, et cette relation de confiance est essentielle pour éviter les mauvaises surprises lors de la réception du produit.

 

Plusieurs éléments constituent la chaîne de qualité de la donnée de produit, parmi lesquels on retrouve les données manquantes, les champs incorrects (mal remplis) ou encore les fiches produits doublonnées. 

 

Ces problématiques de qualité de données sont en général instigatrices de grands chantiers dont les gestionnaires de catalogues de produits sont responsables. Cette volonté forte d’automatisation de la chaîne de qualité de la donnée est motivée par un besoin de contrôle sur la vie de la donnée au sein d’une marketplace, mais également d’un besoin d’efficacité. 

 

En effet, le quotidien des gestionnaires de catalogues est trop souvent ponctué de travail manuel de vérification, de nettoyage et d’enrichissement, dont l’exécution est rébarbative et longue. L’automatisation de ces tâches permettrait au responsable de catalogue d’améliorer davantage la qualité de ses fiches produits, d’intégrer plus de catalogues, et surtout les intégrer beaucoup plus vite. 

 

Néanmoins, l’automatisation de la mise en qualité des fiches de produits n’est pas chose aisée, et est souvent très coûteuse en interne. Deux raisons à cela : la nature des données de produits et le type d’erreur rencontré. 

Particularité des données de produits

Les données de produits sont difficiles à manipuler car il s’agit d’un type de données bien particulier, qui est un mélange de données structurées (en général un tableau excel de valeurs, qui regroupe les catégories de produits et certains attributs propres aux produits) et de données non-structurées (des photos, des descriptions ou des catégories en texte libre). 

 

Il est assez rare de retrouver ce genre de données mixtes dans d’autres applications. On pourra citer notamment les données médicales, pour lesquelles on a en général des données d’imagerie associées à des données structurées, mais en règle générale c’est une caractéristique plutôt propre aux catalogues de produits.

 

Les méthodes pour traiter des données structurées et des données non-structurées sont fondamentalement différentes, et c’est là qu’intervient une des difficultés de travailler avec des données de produits. Certains acteurs sont très bons pour travailler avec des données non-structurées, et parmi ceux-ci, on distingue même souvent une distinction de spécialisation entre l’analyse d’images et l’analyse de texte (car les méthodes de traitement de ces deux types de données sont également bien distinctes). D’autres acteurs, sont spécialisés dans l’analyse de données structurées, et là encore, les méthodes d’analyse et les problèmes techniques rencontrés ne sont pas les mêmes.

Les images

L’analyse d’image est une discipline bien connue des data scientists, et consiste à extraire un certain nombre d’informations à partir d’images ou de photographies. Les méthodes d’analyse d’images consistent pour la plupart à décomposer l’analyse de l’image sur des parties très localisées de l’image, afin d’en déduire des associations de formes et de couleur et donc une disposition spatiale de l’image en termes de contenu (objets dans l’image par exemple). 

 

Les photographies des produits contiennent en général une grande quantité d’information sur le produit, notamment on peut déterminer sa catégorie principale ses sous-catégories en fonction de la nomenclature interne de classification, mais également déterminer précisément la couleur du produit et toutes les déclinaisons qui en découlent. 

 

Mettre en place un système d’analyse d’image pour un catalogue de produit permet de compléter automatiquement certains attributs des produits (par exemples, la catégorie, les sous-catégories, les couleurs, certaines caractéristiques techniques, etc.), et donc c’est un gain de temps notable comparé à l’exécution manuelle de la tâche.

 

Néanmoins, bien que l’intelligence artificielle permette de modéliser précisément certaines choses, il faut toujours garder en tête que ce n’est pas une baguette magique, et qu’on ne peut pas créer d’information. Ainsi, si l’information n’est pas présente dans les données, alors il ne faut pas s’attendre à ce qu’un modèle d’intelligence artificielle le fasse, car ça sera la déception à coup sûr.

L’analyse des descriptions des produits

L’analyse de texte consiste à extraire des informations cibles contenues dans un texte (souvent un texte libre), typiquement une description dans le cadre d’une fiche produit. Ce type de modélisation, dont les architectures à l’état de l’art permettent d’extraire des éléments assez subtils dans du texte, peut s’avérer utile lorsque les fournisseurs ne renseignent pas entièrement les catégories de leurs produits, et ne donnent qu’une brève description du produit.

 

Toutefois, ce type de modélisation est en général assez lourd à mettre en place, et est coûteux à entraîner (au même titre que les modèles d’analyse d’images). En règle générale on préfèrera mettre en place des modèles moins complexes, qui certes peuvent laisser passer quelques erreurs ou ne pas détecter autant de subtilités, mais qui vont chercher la bonne information rapidement, quitte à prévoir une boucle de rétroaction avec le gestionnaire de catalogue une fois en production.

 

Là encore, attention, comme tout modèle d’intelligence artificielle, on ne peut pas créer d’information. C’est à dire que si les descriptions des produits ne sont pas suffisamment exhaustives en termes de contenu, alors ce n’est pas la peine d’attendre d’un modèle de classification qu’il trouve l’information là où elle n’est pas.

L’analyse des catégories de produits

 

Les données structurées sont des données qui, comme leur nom l’indique, possèdent une structure, c’est à dire qu’on peut les ranger dans un joli tableau excel avec des colonnes bien définies et clairement nommées. Ce type de données est en général le plus rencontré, peu importe le secteur d’activité de l’entreprise, et contrairement à ce que l’on peut penser, ce ne sont pas les données les plus faciles à traiter

 

En effet, les problèmes de qualité de données les plus souvent rencontrés portent sur ce type de données. Valeurs manquantes, mal renseignées, partiellement renseignées, certains champs au mauvais endroit, autant de problèmes que l’on a déjà tous rencontré au moins un fois, et on en passe. 

 

Paradoxalement, les données structurées sont sans doute le format le plus important pour traiter des données de produits, étant donné que la plupart des systèmes de gestion de données de produit (Product Information Management, PIM) utilisés par les marketplaces sont conçus sur un schéma de données structurées. Et donc, pour que l’intégration d’un catalogue de produit sur une marketplace s’effectue correctement, chaque champ du catalogue doit être correctement renseigné, ce qui est assez lourd à construire, tant pour les marques que pour les marketplaces et tous les acteurs intermédiaires comme les agences ou les intégrateurs de flux.

 

Ainsi, le nettoyage et l’enrichissement d’un catalogue de produits prend du temps et nécessite souvent des interactions entre les fournisseurs et les intégrateurs. Cela a donc un coût non-négligeable, ce qui renforce l’intérêt d’une automatisation (au moins partielle) du nettoyage de catalogues de produits.

Quels problèmes rencontre-t-on dans des catalogues de produits ?

Des problèmes de qualité de données, on peut en trouver autant que l’imagination le permet. Les données de produits sont particulièrement sujettes à des problèmes de qualité. Ceci est principalement causé par le fait que les catalogues de produits sont en général des agrégats de plusieurs catalogues de marques, et donc sont la résultante d’un savoureux mélange de processus de gestion de données bien distincts. En effet, il n’y a pas de raison qu’un fournisseur A emploie les mêmes règles de remplissage de son catalogue qu’un fournisseur B. 

 

Plus généralement, ce genre de problème de qualité de données intervient lorsque les entreprises travaillent avec des données qui proviennent de sources multiples et hétérogènes. Par exemple, une marketplace doit gérer les données de plusieurs marques (fournisseurs) distinctes, au même titre qu’un CRM est alimenté par plusieurs canaux de communication (un formulaire de contact, une entrée en contact via LinkedIn, parmi tant d’autres).

 

Les données de produit sont particulièrement sujettes à des problèmes de qualité, et à cela s’ajoute une particularité propre aux données de produits : le caractère hétérogène, à la fois au niveau du contenu (une grande variété de produits différents, et les articles de mode ne se traitent pas de la même façon que les articles de bricolage), mais aussi au niveau du type de donnée (des images, du texte libre et beaucoup de catégories). 

 

Cet article passe brièvement en revue les trois problèmes de qualité de données les plus rencontrés lorsque l’on doit gérer des catalogues de données de produits.

Les champs manquants

Ce n’est pas prendre un grand risque que de dire qu’aucun gestionnaire de catalogue produit n’a reçu du premier coup un fichier de produits où tout était à sa place, sans aucun élément manquant. Les données manquantes sont probablement le problème le plus rencontré dans la gestion des catalogues de produits. 

 

Les raisons qui conduisent à ce phénomène s’expliquent en partie par le fait que le nombre de champs à remplir (catégories, sous-catégories, les descriptions en plusieurs langues, les caractéristiques techniques, etc.) est souvent élevé et très exhaustif. Par ailleurs, ce travail de remplissage de données de produits doit souvent répondre à une norme bien précise (qui dépend en général de la marketplace ou du retailer), et les fournisseurs (les marques) doivent compléter ce genre de fichier pour toutes les normes, ce qui est potentiellement rébarbatif.

 

L’imputation (le remplissage) de données manquantes est une tâche délicate qui dépend de la nature du phénomène qui a conduit au non-remplissage du champ, et qui est souvent négligée par les méthodes standard d’imputation qui utilisent l’intelligence artificielle. Néanmoins, dans le cadre du remplissage d’un catalogue de produit, les raisons qui conduisent au non-remplissage ne dépendent en général pas de la nature du produit, et donc l’intelligence artificielle permet de compléter efficacement les champs manquants à partir des éléments à dispositions (les images, les descriptions et les caractéristiques renseignées). 

 

Attention toutefois à l’excès d’enthousiasme, il faut que l’information figure dans les données renseignées pour que ce genre d’approche fonctionne, il n’existe pas de modèle magique qui crée de l’information.

Les champs incorrects

Ahhhh les champs incorrects quelle douleur ! Oui, vous en avez déjà vu, c’est certain. Des tailles de vêtement rangées dans la colonne du prix, des matériaux rangés dans la colonne des codes barres, on pense qu’on a tout vu jusqu’à ce qu’on découvre une nouvelle anomalie dans les champs.

 

Techniquement parlant, on parle ici de détection d’anomalies (valeur aberrante). Les manières de détecter ce genre d’anomalies sont assez standards, c’est à dire qu’on va regarder chaque champ un par un, et on va regarder les produits pour lesquels la valeur du champ en question n’est pas cohérente avec le reste des produits. 

 

Par exemple, on va analyser pour chaque ligne les valeurs renseignées dans le le champ “taille” (pour des données de mode), et lever une alerte s’il y a une incohérence, comme par exemple un prix en euro dans le champ “taille”, là où tous les autres champs valent soit une taille lettrée (S, M, L, XL, etc.), soit une taille chiffrée normé (38, 40, 42, etc.). 

 

Détecter ce genre d’anomalies équivaut à entraîner un modèle de machine learning à :

  • comprendre la nature de chaque champ dans le fichier de produit,
  • détecter les anomalies au sein des valeurs d’un même champ, conditionnellement à la nature du champ et à la nature du produit.

Ce dernier point est crucial car une anomalie dépend également de la nature du produit. Par exemple, la taille d’une cravate est souvent exprimée en centimètres, là où la taille d’une chemise est exprimée en lettres (S, M, L, …) ou en chiffre. 

 

Ainsi, la détection d’anomalies est une tâche qui nécessite qu’un modèle ait une compréhension fine du catalogue de produit et des éléments qui le constitue.

Les produits en doublons

Parmi les problèmes fréquemment rencontrés dans la gestion des catalogues de produits, on pourra citer le problème des fiches produits en doublons. Deux fiches produits sont considérées comme étant des doublons si elles réfèrent au même modèle de produit et à la même marque

 

Ce genre de phénomène est gênant car cela réduit drastiquement l’expérience utilisateur des visiteurs du site de vente en ligne. En effet, lorsqu’un utilisateur cherche un produit en particulier sur un site, il ne s’attend pas à avoir sous les yeux des copies d’un même produit. Ce n’est pas clair pour l’acheteur si les produits sont les mêmes ou non, et donc le taux de conversion est naturellement plus bas, car dans le doute l’utilisateur va acheter le produit ailleurs.

 

Corriger les doublons dans un catalogue de produit peut paraître simple, mais cela soulève quelques difficultés que l’on n’a pas tendance à identifier avant de se lancer. En effet, il peut arriver que certains fournisseurs disposent de plusieurs déclinaisons d’un même produit (par exemple avec des finitions légèrement différentes, quelques accessoires en plus, etc.). Ces déclinaisons présentent souvent des attributs communs (comme les photographies, les descriptions et la plupart des caractéristiques), ce qui a tendance à rendre le dédoublonnage difficile (les différences étant subtiles, l’information est difficile à identifier). A contrario, certaines fiches produits doublonnées (même modèle, même marque) peuvent présenter quelques différences, notamment dans la description ou encore dans le titre, et pour autant référer au même produit.

 

Il faut donc construire un modèle capable de faire la part des choses entre les petites différences que peuvent comporter les fiches produits, et leurs similarités. Ce juste milieu est compliqué à construire sans un a priori métier fort, c’est pourquoi il est souvent nécessaire de prévoir une boucle de rétroaction avec des gestionnaire de catalogues, pour ré-entraîner régulièrement le modèle à bien détecter les produits présents en doublons.

En conclusion

La qualité des données de produits a une influence forte sur la vitesse d’intégration et de mise en ligne des catalogues de produits. Cela représente un coût, en général un coût humain car les choses sont souvent faites à la main, et c’est le point de départ de nombreux projets de création de référentiels produits unifiés (RPU). 

 

Les données de produits présentent une particularité que l’on retrouve rarement ailleurs : elles ont des types de données multiples, avec des données non-structurées (les images, les descriptions), et des données structurées (les caractéristiques, les catégories, le tout rangé dans un tableur Excel).

 

Certains acteurs sont spécialisés pour travailler sur un type particulier de données, et très peu de solutions existent pour traiter l’ensemble de la chaîne de qualité de la donnée. Attention également avec les solutions basées sur des données non-structurées : en général les approches sont basées sur du Deep Learning, et les coûts d’entraînements et de maintenance sont en général plus élevés.
N’hésitez pas à nous contacter si vous rencontrez ce type de problématiques. 

Newsletter

Ne manquez pas nos articles ! (1 email/mois)