D’une manière générale, le text mining couvre l’ensemble des techniques permettant l’extraction d’information à partir des formes ou patrons non manifestes dans des grands corpus de données textuelles.
L’un des objectifs du text mining consiste donc à extraire des informations qu’il aurait été difficile de trouver sans une analyse automatique et systématique de gros volumes de données. Pour y parvenir, il utilise des techniques linguistiques et mathématiques (statistiques et/ou intelligence artificielle) afin d’analyser et synthétiser de grands volumes de textes.
Le text mining n’est pas le data mining ! En effet, on peut définir le data mining comme étant un ensemble de techniques statistiques qui, en « fouillant » un grand nombre de données structurées, permet de découvrir et de présenter des informations à valeur ajoutée dans une forme compréhensible. Outre les techniques d’analyse employées, la distinction fondamentale entre datamining et text mining est fondée sur la nature même des données auxquelles s’adressent l’une et l’autre de ces disciplines. Alors que le data mining s’intéresse aux données structurées, c’est-à-dire aux données contenues dans les bases de données relationnelles, le text mining travaille sur des données textuelles non structurées.
Une application de text mining n’est pas un outil monolithique mais une suite de composants logiciels, dédiés chacun à des tâches spécifiques. Même si tous les outils de text mining ne possèdent pas la même architecture, nous pouvons cependant présenter ici, dans un but essentiellement pédagogique, les composants les plus couramment utilisés.
Comme son nom l’indique, ce composant a pour principal objectif de collecter les documents qui vont être soumis à l’analyse, quelles que soient leurs sources. Ce composant est généralement constitué de plusieurs composants, plus petits et spécifiquement dédiés à des sources précises.
Par exemple : un spider pour les pages web, un composant pouvant accéder aux documents contenus dans des bases de données Lotus/Notes, etc.
Les documents peuvent exister sous différents formats, et ce composant a pour vocation de standardiser leur contenu, quels que soient leur format de création. Il s’agit de structurer l’ensemble des données, initialement hétérogènes, selon le même schéma structurel basé sur l’étiquetage d’attributs tels que le titre du document, l’auteur, la date, la source, le corps du texte, etc. Cette structuration se fait généralement à l’aide de langages documentaires du type SGML ou XML.
Ce composant contient des outils linguistiques permettant une analyse plus ou moins fine du contenu du document grâce à des techniques d’analyse de contenu. Nous aborderons ces techniques de manière plus détaillée dans les paragraphes suivants.
Véritable épine dorsale du système de text mining, ce composant est entièrement dédié à l’acquisition de connaissances qui consiste à transformer les données textuelles initiales en information à valeur ajoutée : identification des concepts importants contenus dans les données textuelles initiales, catégorisation des documents, etc.
Le composant de visualisation a pour vocation de faciliter la compréhension et l’apprentissage des résultats obtenus par le composant d’acquisition de connaissances. Pour ce faire, ce composant utilise des outils de cartographie de l’information.
Cette architecture permet à une application de text mining d’analyser simultanément de gros corpus de documents de manière à :
Au coeur de ce processus, deux phases sont particulièrement importantes : l’extraction d’information et la classification.
Partager |
|
|
Gilles Balmisse, Directeur associé chez Knowledge Consult ![]() KnowledgeConsult est un cabinet de conseil spécialisé dans la mise en oeuvre de dispositifs de management de connaissances et de veille. Les savoir-faire de KnowledgeConsult couvrent le champ complet de la gestion des connaissances et de la veille. Pour ce qui concerne le management des connaissances, KnowledgeConsult intervient dans la définition d’une stratégie de management des connaissances, dans la mise en oeuvre de la gestion du capital immatériel, l’implémentation de communautés de pratique et la réalisation de livres de connaissances. |



