Proposition d'une nouvelle approche d'extraction des motifs ferm\'es   fr\'equents

Ons Khemiri

arXiv:1906.04586·cs.LG·June 12, 2019

Proposition d'une nouvelle approche d'extraction des motifs ferm\'es fr\'equents

Ons Khemiri

PDF

Open Access

TL;DR

This paper introduces UFCIGs-DAC, a novel method for efficiently extracting frequent closed itemsets and their minimal generators by partitioning the search space, enabling simultaneous exploration and updating of patterns.

Contribution

It proposes a new approach that allows simultaneous exploration and updating of frequent closed patterns and their minimal generators through data partitioning.

Findings

01

Implemented UFCIGs-DAC on test bases demonstrating effectiveness.

02

Allows adaptation to any frequent closed pattern extraction algorithm.

03

Enhances data analysis efficiency in large transaction databases.

Abstract

This work is done as part of a master's thesis project. The increase in the volume of data has given rise to various issues related to the collection, storage, analysis and exploitation of these data in order to create an added value. In this master, we are interested in the search of frequent closed patterns in the transaction bases. One way to process data is to partition the search space into subcontexts, and then explore the subcontexts simultaneously. In this context, we have proposed a new approach for extracting frequent closed itemsets. The main idea is to update frequent closed patterns with their minimal generators by applying a strategy of partitioning of the initial extraction context. Our new approach called UFCIGs-DAC was designed and implemented to perform a search in the test bases. The main originality of this approach is the simultaneous exploration of the research…

Equations12

ϕ : P (O) \to P (I)

ϕ : P (O) \to P (I)

ϕ (O) = {i \in I ∣ \forall o \in O, (o, i) \in R}

ϕ (O) = {i \in I ∣ \forall o \in O, (o, i) \in R}

Ψ : P (I) \to P (O)

Ψ : P (I) \to P (O)

ϕ (O) = {o \in O ∣ \forall i \in I, (o, i) \in R}

ϕ (O) = {o \in O ∣ \forall i \in I, (o, i) \in R}

S u p (\propto) \leq s u p_{b} es t (I) T e l q u e

S u p (\propto) \leq s u p_{b} es t (I) T e l q u e

s u p_{b} es t (I) = \sum I f r e q S u p p^{i} (I) + \sum I n o n f r e q (M in s u pp * P^{i} - 1)

s u p_{b} es t (I) = \sum I f r e q S u p p^{i} (I) + \sum I n o n f r e q (M in s u pp * P^{i} - 1)

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsData Mining Algorithms and Applications · Business Process Modeling and Analysis · Customer churn and segmentation

Full text

UNIVERSITÉ DE TUNIS EL MANAR

FACULTÉ DES SCIENCES MATHÉMATIQUES, PHYSIQUES ET NATURELLES DE TUNIS

**Mémoire de Mastère **

Présenté en vue de l’obtention du diplôme de

MASTÈRE DE RECHERCHE EN INFORMATIQUE

Par

Ons KHEMIRI

Proposition d’une nouvelle approche d’extraction des motifs fermés fréquents

Soutenue le 19/02/2018 devant le jury composé de :

M.Mohamed Mohsen GAMMOUDI Professeur à l’ISAMM Président

M.Samir ELLOUMI Maître-Assistant à la FST Rapporteur

M.Sadok BEN YAHIA Professeur à la FST **Directeur de mémoire

Mme.Souad BOUASKER** **Assistante à FSJEGJ ** Co-encadrante

**Au sein du laboratoire LIPAH : FST **

Remerciements

C’est un grand plaisir que je réserve cette page pour exprimer toute ma gratitude et ma reconnaissance à tous ceux qui m’ont aidé à la réalisation de ce travail qui m’a permis de m’épanouir professionnellement.

Je tiens d’abord à adresser mes plus sincères remerciements et toute ma reconnaissance, à mon directeur de mémoire, M. Sadok BEN YAHYA, Professeur à la Faculté des Sciences de Tunis,Université de Tunis Elmanar, qui a toujours été présent à mes côtés pour m’orienter. Il m’a permis d’approfondir au maximum mes travaux afin de pouvoir être fier aujourd’hui du travail réalisé.

Ce travail n’aurait pas vu le jour sans l’aide et le constant encouragement de Mme. Souad BOUASKER. A son contact, j’ai beaucoup profité de sa finesse d’analyse, tant lors de l’élaboration de réflexions scientifiques que pour la gestion des aspects politiques inhérents à toute activité de recherche, ainsi que pour son suivi conjoint et sa disponibilité.

Par la même occasion, je remercie tout spécialement l’ensemble du personnel et des enseignants de la Faculté des Sciences de Tunis et plus précisément au département de l’informatique pour leur implication pendant toutes mes années de formation. C’est grâce à qui j’ai acquis de précieuses connaissances lors de mon passage à la FST.

Mes remerciements sincères s’adressent aux membres de jury pour l’honneur qu’ils me font d’accepter de juger mon travail.

Dédicace

À mes parents

Aucun hommage ne pourrait être à la hauteur de l’amour dont ils ne cessent de me combler. Que dieu leur procure bonne santé et longue vie

À ma très chère sœur Oumaima

En souvenir d’une enfance dont nous avons partagé les meilleurs et les plus agréables moments.

À mon cher petit frère Taher

Pour toute l’ambiance dont tu m’as entouré, pour toute la spontanéité et ton élan chaleureux, Je te dédie ce travail .

À qui je souhaite toute la réussite et le bonheur. À toute personne qui m’a soutenue durant la période de ce projet. À tous ceux qui m’ont soutenu de près ou de loin à réaliser ce travail. Ainsi que tous ceux dont je n’ai pas indiqué le nom mais qui ne sont pas moins chers.

Introduction générale

La notion de "Knowledge Discovery from Databases KDD" ou en Français "Extraction de Connaissances à partir de Données ECD", a été initialement introduite au début des années 1990 [49, 21]. L’Extraction des Connaissances à partir de Données est une discipline qui regroupe tous les domaines des bases de données, des statistiques, de l’intelligence artificielle et de l’interface homme-machine [20].

Le principal objectif de cette discipline étant de découvrir des connaissances nouvelles, pertinentes et cachées par le volume important de données. La réalisation de cet objectif nécessite la conception et la mise au point de méthodes permettant d’extraire les informations essentielles et cachées qui seront interprétées par les experts afin de les transformer en connaissances utiles à l’aide à la décision.

Fayyad [35] décrit le processus d’extraction de connaissances à partir de bases de données comme un processus itératif composé de plusieurs étapes. Ce processus suscite un fort intérêt industriel, notamment pour son champ d’application très large, pour son coût de mise en œuvre relativement faible, et surtout pour l’aide qu’il peut apporter à la prise de décision. Le processus d’ECD peut être découpé en cinq grandes étapes comme l’illustre la Figure 1. Ce processus commence par sélectionner le sous-ensemble des données qui peuvent être effectivement intéressantes. Vient ensuite l’étape de pré traitement visant quant à elle à corriger les données manquantes ou erronées. Puis, il faut transformer les données pour qu’elles soient utilisables par l’algorithme de choix. Celui-ci génère un certain nombre de motifs qu’il faut interpréter pour enfin obtenir des nouvelles connaissances.

L’étape principale dans le processus de ECD est l’étape de fouille de données. C’est la partie la plus complexe du point de vue algorithmique. De nombreuses méthodes existent alliant statistiques, mathématiques et informatique, de la régression linéaire à l’extraction de motifs fréquents. L’un des objectifs fréquemment recherchés en fouille de données est la facilité d’interpréter les connaissances extraites.

Contexte et problématique

Notre mémoire de mastère s’inscrit dans le cadre du traitement des données. Dans ce travail, nous nous intéressons à la fouille des motifs fermés fréquents à partir des bases de données . En effet, l’augmentation du volume de données a donné naissance à diverses problématiques liées à la collecte, au stockage, à l’analyse et l’exploitation de ces données pour créer de la valeur ajoutée. Pour traiter des données, une solution consiste à partitionner l’espace de recherche en des sous-contextes, puis explorer ces derniers simultanément. Dans le cadre de nos travaux de recherche, nous proposons une approche visant l’extraction des motifs fermés fréquents, ainsi que leurs générateurs minimaux associés à partir des bases des transactions. En effet, l’idée principale de notre approche est de mettre à jour des motifs fermés fréquents avec leurs générateurs minimaux, et ce, en appliquant une stratégie de partitionnement du contexte d’extraction initial.

Organisation du mémoire

Les résultats de nos travaux de recherche sont synthétisés dans ce mémoire qui est composé de quatre chapitres.

—

Le premier chapitre introduit les notions de base qui seront utilisées tout au long de ce travail. Ces dernières incluent les notions préliminaires relatives à l’extraction des motifs fréquents et à l’analyse des concepts formels AFC.

—

Le deuxième chapitre décrit l’état de l’art des approches séquentielles d’extraction des motifs fréquents ainsi que les motifs fermés fréquents. Nous y étudions et analysons aussi les approches de fouille parallèle.

—

Dans ** le troisième chapitre**, nous introduisons notre nouvelle approche UFCIGs-DAC d’extraction des motifs fermés fréquents, ainsi que leurs générateurs minimaux. Nous allons présenter la démarche et le processus de déroulement de notre approche.

—

Le quatrième chapitre présente les études expérimentales menées sur des bases de test Benchmark. Cette étude s’étalera sur deux principaux axes. Le premier axe concerne la comparaison du temps de réponse de notre algorithme. Le second axe, concerne le nombre des motifs fermés fréquents extraits par notre approche UFCIGs-DAC.

Pour finir, nous clôturons ce mémoire par une conclusions générale récapitulant les résultats de nos travaux ainsi qu’un nombre de perspectives futures de recherches.

Chapitre 1 Notions de base

1.1 Introduction

Ce chapitre a pour objectif de définir les notions de bases, qui constituent le point de départ dans la présentation de notre approche. De ce point de vue, la première section sera consacrée aux concepts nécessaires utiles dans l’extraction des motifs. Nous enchaînons dans, la deuxième section avec la présentation de la méthode d’analyse des concepts formels $\mathit{ACF}$ .

1.2 Extraction des motifs

Nous commençons par définir l’ensemble des notions de base relatives à la technique d’extraction des motifs, qui seront utilisés tout au long de ce travail. Définissons d’abord la version de base d’extraction de motifs qui permet de faire la fouille dans une base des transactions.

Base de transactions

Une base de transactions (appelée aussi contexte d’extraction) est défini par un triplet $\emph{D}=(\mathit{T,I,R})$ ou :

—

$T$ :est un ensemble fini de transactions (ou objets).

—

$\mathit{I}$ :est un ensemble fini d’items (ou attributs).

—

$\mathit{R}$ : est une relation binaire $\mathit{R}$ $\subseteq$ $\mathit{T}$ $\ast$ $\mathit{I}$ entre les transactions et les items.

Un couple (t, i) $\in$ $\mathit{R}$ dénote le fait que la transaction $t\in\mathit{T}$ contient l’item $i\in\mathit{I}$ .

Exemple : Un exemple d’une base de transactions $\emph{D}=(\mathit{T,I,R})$ (resp contexte d’extraction $\mathit{K}=(\mathit{O,I,R}))$ est donné par la table 1.1. Dans cette base (resp. ce contexte), l’ensemble de transactions $\mathit{T=\{1,2,3,4,5\}}$ (resp. d’objets $O=\{1,2,3,4,5\})$ et l’ensemble d’items $I=\{A,B,C,D,E\}$ . Le couple $(2,B)\in R$ car la transaction $2\in T$ contient l’item $B\in I$ .

[TABLE]

Le tableau ci-dessous représente également la base de transactions $\mathit{D}$ en mode binaire.

[TABLE]

Nous notons, par souci de précision, que les notations de base de transactions et de contexte d’extraction seront les mêmes dans la suite. Ils seront notés $\emph{D}=(\mathit{T,I,R})$ .

Motif ou Itemset

Un motif, aussi appelé itemset, est un sous-ensemble non vide de $\mathit{I}$ où $\mathit{I}$ représente l’ensemble des items. Une transaction t $\in\mathit{T}$ , avec un identificateur communément noté TID (Tuple IDentifier), contient un ensemble, non vide, d’items de $\mathit{I}$ . Un sous-ensemble I de $\mathit{I}$ où k = $\left|I\right|$ est appelé un k-motif ou simplement un motif, et k représente la cardinalité de I Le nombre de transactions t d’une base $\mathit{D}$ contenant un motif $\mathit{I}$ , $\left|\left\{t\in D\mid I\subseteq t\right\}\right|$ , est appelé support absolu de I et noté par la suite Supp ( $\wedge I$ ) .

Treillis des motifs

Un treillis des motifs[53] est un regroupement conceptuel et hiérarchique des motifs. Il est aussi dit treillis d’inclusion ensembliste. Toutefois l’ensemble des parties de $\mathit{I}$ est ordonné par inclusion ensembliste dans le treillis des motifs. Le treillis des motifs associé au contexte donné par le Tableau 1.1 est représenté par la figure 1.2. Toutefois, plusieurs mesures sont utilisées pour évaluer l’intérêt d’un motif, dont les plus connues sont présentées à travers la définition 4.

Dans la base des transactions illustrée dans le Tableau 1.1, $t_{1}$ possède les motifs : $\phi$ , a, c, d, ac, ad, cd et acd. Parmi l’ensemble global de $2^{P}$ motifs, on va chercher ceux qui apparaissent fréquemment. Pour cela, on introduira les notions de connexion de Galois et de support d’un motif.

Supports d’un motif

Le support d’un motif $\mathit{i}$ est donc le rapport de la cardinalité de l’ensemble des transactions qui contiennent tous les items de I par la cardinalité de l’ensemble de toutes les transactions. Il capture la portée du motif, en mesurant sa fréquence d’occurrence.

support $(\textit{I})=\frac{{}\mid\psi(\textit{I})\mid}{\mid(\textsl{O})\mid}$ .

Nous distinguons trois types de supports correspondants à $\mathit{I}$ :

Support conjonctif : $Supp(\wedge\textit{I})=\mid\{t\in T\mid\forall i\in\textit{I}:(t,i)\in\mathfrak{R}\}\mid$ 2. 2.

Support disjonctif : $Supp(\vee\textit{I})=\mid\{t\in T\mid\exists i\in\textit{I}:(t,i)\in\mathfrak{R}\}\mid$ 3. 3.

Support négatif : $Supp(\neg\textit{I})=\mid\{t\in T\mid\forall i\in\textit{I}:(t,i)\notin\mathfrak{R}\}\mid.$

Exemple : Dans la base des transactions $D$ , on trouve, Supp(A)= $\frac{\left|\{1,3,5\}\right|}{6}=\frac{1}{2}$ , et Supp(CE) = $\frac{\left|\{2,3,5,6\}\right|}{6}=\frac{2}{3}$ . La valeur du support est décroissante, c’est à dire, si $\mathit{I_{1}}$ est un sous motif $\mathit{I}$ $(\mathit{I_{1}}\supseteq\mathit{I})$ alors Support $(\mathit{I_{1}})$ $\geq$ Support $(\mathit{I})$ . Le support mesure la fréquence d’un motif : plus il est élevé, plus le motif est fréquent. On distinguera les motifs fréquents des motifs in-fréquents à l’aide d’un seuil minimal de support conjonctif Minsupp. Dans la suite, s’il n’y a pas de risque de confusion, le support conjonctif sera simplement appelé support.

Correspondance de Galois[23]

Soit le contexte d’extraction $\mathfrak{\emph{D}}=(\mathfrak{\{}\emph{T},I,R\})$ . Soit l’application $\phi$ de l’ensemble des parties de O (c’est-à-dire l’ensemble de tous les sous-ensembles de $\emph{O})$ , noté par $P(\emph{O})$ , dans l’ensemble des parties de I, noté par $P(\emph{I})$ . L’application $\phi$ associe à un ensemble d’objets O $\subseteq$ O, l’ensemble des items i $\in\emph{I}$ communs à tous les objets o $\in\emph{O}$ .

[TABLE]

Soit l’application $\Psi$ de l’ensemble des parties de I dans l’ensemble des parties de O. Elle associe à un ensemble d’items $\mathit{I}$ $\subseteq$ I, l’ensemble d’objets o $\in$ O communs à tous les items i $\in$ $\mathit{I}$ :

[TABLE]

$\phi$ (O ) dénote l’ensemble de tous les items communs à un groupe de transactions T (intension), et $\psi$ (I) l’ensemble de toutes les transactions partageant les même items de I (extension).

Le couple $(\psi,\phi)$ définit une correspondance de Galois entre I et T Par exemple, dans la base de données du tableau 2.2, nous avons $\phi$ $(\{4,6\})=\{B,E\}$ et $\psi$$(\{A,C\})=\{1,3,5\}$ . Ce qui signifie que l’ensemble de transactions {4, 6} possède en commun l’ensemble d’attributs $\{B,E\}$ . De la même manière, l’ensemble d’attributs $\{A,C\}$ possède en commun l’ensemble de transactions $\{1,3,5\}$ .

La définition suivante présente le statut de fréquence d’un motif, fréquent ou in-fréquent, étant donné un seuil minimal de support

Motif fréquent-rare[1]

Soit une base de transactions $\mathit{D}=(\mathit{T,I,R})$ , un seuil minimal de support conjonctif minsupp, un motif I $\subseteq$ $\mathit{I}$ est dit fréquent si Supp( $\wedge$$\mathfrak{I}$ ) $\geq$ minsupp. I est dit infréquent ou rare sinon.

** Exemple 3 ** Dans le tableau 1.1, en fixant une valeur minsupp = $\frac{3}{6}$ , on obtient que $\{A\}$ et $\{BC\}$ sont fréquents, alors que le motif $\{ABC\}$ est in-fréquent ou rare .

1.3 Analyse de concepts formels

L’analyse de concepts formels (ACF), est une méthode mathématique de classification, a été introduite dans [8],cette approche a été popularisée par Wille qui a utilisé le treillis de Galois[55] comme base de l’ACF [57]. Cette méthode a pour objectif de découvrir et d’organiser hiérarchiquement es regroupement possibles d’éléments ayant des caractéristiques en communs. La notion de treillis de Galois est utilisée comme base de l’ACF.Chaque élément du treillis est considéré comme un concept formel et le graphe(diagramme de Hasse) comme une relation de généralisation -spécialisation entre les concepts.

Concept formel

Soit $(\mathit{T,I,R})$ un contexte formel. Un concept formel est un couple (A, B) tel que $A\subseteq T$ , $B\subseteq I$ , $A^{{}^{\prime}}=B\ etB^{{}^{\prime}}=A.$ A et B sont respectivement appelés extension (extent) et intension (intent) du concept formel (A, B).

Un motif fermé est l’intension d’un concept formel alors que son support est la cardinalité de l’extension du concept.

Classe d’équivalence

L’ensemble des parties de I est divisé en des sous-ensembles distincts ,nommés aussi classes d’équivalence [bastide2000mining].les éléments de chaque classe possèdent la même fermeture :

Soit $IsubsteI$ , la classe d’équivalence de $I$ , dénotée , $\left[I\right]$ , est : $\left[I\right]=I_{1}\subseteq I\mid\lambda(I)=\lambda(I_{1})$ . Les éléments de la classe d’équivalence $\left[I\right]$ ont ainsi la même valeur de support.

Exemple : Étant donné le contexte d’extraction de tableau 1.1,la figure 1.1 représente Le treillis d’Iceberg associé pour minsupp = 2. Chaque nœud dans ce treillis représente une classe d’équivalence. Il contient un motif fermé fréquent ainsi que son support et est étiqueté par les générateurs minimaux associés.

Deux classes d’équivalence sont dites comparables si leurs motifs fermés associés peuvent être ordonnés par inclusion ensembliste, sinon elles sont dites incomparables. La définition d’une classe d’équivalence nous amène à celle d’un générateur minimal.

Générateur minimal

Un itemset g $\subseteq\mathfrak{I}$ est un générateur minimal [bastide2000mining, 53] d’un itemset fermé I si et seulement si $\lambda(g)=\textit{I}$ et $\nexists$ g’ $\subseteq$ g tel que $\lambda(g^{\prime})=\textit{I}$ .

**Exemple : ** Dans la base $D$ du tableau 1.1, l’itemset $\{AB\}$ est un générateur minimal de $\{ABCE\}$ puisque $\lambda$$(\{AB\})$ = $\{ABCE\}$ et aucun de ses sous-ensembles propres a l’itemset $\{ABCE\}$ comme fermeture.

Ainsi, un motif fermé fréquent apparaît dans le même ensemble d’objets et par conséquent il a le même support que celui de ses générateurs. Il représente donc un ensemble maximal partageant les mêmes items, tandis que ses générateurs minimaux représentent les plus petits éléments décrivant l’ensemble d’objets. Ainsi, tout motif est nécessairement compris entre un générateur minimal et un motif fermé.

Nous allons maintenant nous focaliser sur des propriétés structurelles importantes associées à l’ensemble des motifs fermés et à l’ensemble des générateurs minimaux.

Treillis de concepts formels (de Galois)

Étant donné un contexte d’extraction K, l’ensemble de concepts formels $C_{K}$ , extrait à partir de K, est un treillis complet $\mathfrak{L_{C}K}$ = $(C_{K},\leq)$ , appelé treillis de concepts (ou treillis de Galois), quand l’ensemble $C_{K}$ est considéré avec la relation d’inclusion ensembliste entre les motifs [ganter1999formal, barbutordre] : soient $c_{1}=(O_{1},I_{1})\ etc_{2}=(O_{2},I_{2})$ deux concepts formels, $c_{1}\leq c_{2}$ si $I_{1}\sqsubseteq I_{2}$ .

Outre la contrainte de fréquence minimale traduite par le seuil minsupp, d’autres contraintes peuvent être intégrées dans le processus d’extraction des motifs. Ces contraintes admettent différents types, dont les deux principaux sont définis dans ce qui suit [31].

Contrainte anti-monotone/monotone

Dans le processus d’extraction des motifs , deux contraintes principales sont définies dans [47] comme suit :

—

Une contrainte Q est anti-monotone si $\forall\mathit{I}\subseteq\emph{I},\forall\mathit{I_{1}}\subseteq\mathit{I}:\mathit{I_{1}}satisfait\emph{Q}\Rightarrow\mathit{I}satisfait\emph{Q}$

—

Une contrainte Q est monotone si $\forall\mathit{I}\subseteq\emph{I},\forall\mathit{I_{1}}\supseteq\mathit{I}:\mathit{I_{1}}satisfait\emph{Q}\Rightarrow\mathit{I}satisfait\emph{Q}$

Exemple :

Soit P ( $\mathit{I}$ ) l’ensemble de tous les sous-ensembles de $\mathit{I}$ . Dans ce qui suit, nous introduisons les notions duales d’idéal d’ordre et de filtre d’ordre [50] définis sur P ( $\mathit{I}$ ).

Idéal d’ordre

Soit P(I) l’ensemble de tous les sous-ensembles * S* de I .La notion idéal d’ordre est introduit dans [39] . S de P(I) est un idéal d’ordre s’il vérifie les propriétés suivantes:

—

Si $\mathit{I}\in\emph{S},alors\forall\mathit{I_{1}}\subseteq\mathit{I}:\mathit{I_{1}}\in\emph{S}$

—

Si $\mathit{I}\notin\emph{S},alors\forall\mathit{I}\subseteq\mathit{I_{1}}:\mathit{I_{1}}\notin\emph{S}$

Filtre d’ordre

Soit P(I) l’ensemble de tous les sous-ensembles S de I .La notion filtre d’ordre est introduit dans [39] . S de P(I) est un filtre d’ordre s’il vérifie les propriétés suivantes:

—

Si $\mathit{I}\in\emph{S},alors\ \forall\mathit{I_{1}}\supseteq\mathit{I}:\mathit{I_{1}}\in\emph{S}$

—

Si $\mathit{I}\notin\emph{S},alors\ \forall\mathit{I}\supseteq\mathit{I_{1}}:\mathit{I_{1}}\notin\emph{S}$

Une contrainte anti-monotone telle que la contrainte de fréquence induit un idéal d’ordre. D’une manière duale, une contrainte monotone telle que la contrainte de rareté forme un filtre d’ordre. L’ensemble des motifs satisfaisant une contrainte donnée est appelé théorie dans [38]. Cette théorie est délimitée par deux bordures, une dite bordure positive et l’autre appelée bordure négative, et qui sont définies comme suit.

Bordure positive

Compte tenu d’un seuil minimum de support minsupp.La bordure positive [38] $Bd^{+}$ représentée par les motifs fréquents maximaux. $Bd^{+}$ , est l’ensemble des plus grands itemsets fréquents (au sens de l’inclusion) dont tous les sur-ensembles sont fréquents, et est définie comme suit:

$Bd^{+}$ = $\{\mathit{I}\in\emph{I}\mid supp(\mathit{I})\geqslant minsupp,\forall\mathit{I_{1}}\supseteq\mathit{I},supp(\mathit{I_{1}})\geqslant minsupp\}$

Bordure négative

Compte tenu d’un seuil minimum de support minsupp. La bordure négative [38] $Bd^{-}$ est représentée par les motifs in-fréquents minimaux.

$Bd^{-}$ , est l’ensemble des plus petits itemsets qui ne sont pas fréquents dont tous les sous ensembles sont fréquents, et est définie comme suit :

$Bd^{-}$ = $\{\mathit{I}\in\emph{I}\mid supp(\mathit{I})\leq minsupp,\forall\mathit{I_{1}}\subseteq\mathit{I},supp(\mathit{I_{1}})\geqslant minsupp\}$

Opérateur de fermeture

Les applications $\lambda$ = $\Phi\circ\Psi$ et $\sigma=\Psi\circ\Phi$ sont appelées les opérateurs de fermeture [50] de la correspondance de Galois [23].

Par exemple, dans le contexte $\mathfrak{D}$ du tableau 2.2, on a si $T=\{3,5\}$ , alors $\phi(T)$ = $\{ABCE\}$ et donc $\sigma$ = $\{3,5\}$ . Et si $T=\{1,2,3\}$ , alors $\phi(T)$ = {C} et donc $\sigma$ $=\{1,2,3,5,6\}$ . Si $O=\{AC\}$ , alors $\psi(O)$ $=\{1,3,5\}$ et donc $\lambda$$=\{AC\}$ . Dans ces exemples, les ensembles $\{3,5\}$ et $\{AC\}$ sont fermés.

L’opérateur de fermeture $\lambda$ , tout comme $\sigma$ , est caractérisé par le fait qu’il est :

Isotonie. 2. 2.

Expansivité 3. 3.

Idempotence.

Types de motifs fréquents

Nous allons maintenant introduire la notion de motif fréquent et celle de motif fermé. Selon la nature des motifs fréquents nous pouvons trouver deux types :

Motif fermé fréquent

Un itemset I $\sqsubseteq$ I est fermé si seulement si $\textit{I}=\lambda(\textit{I})\cite[cite]{[\@@bibref{}{pasquier1998pruning}{}{}]}$ .

I est un ensemble maximal d’items communs à un ensemble d’objets [46]. Un itemset fermé I est fréquent si seulement si son support noté support(I) $=\frac{{}\mid\psi(\textit{I})\mid}{\mid(\textsl{O})\mid}\geq$ minsup (i.e., le seuil minimal de support) Exemple : Dans la base de données B du tableau 2.2, les motifs $\{AB\}$ , $\{ABC\}$ et $\{ABCE\}$ sont dans la même classe d’équivalence. Donc, $\{ABCE\}$ est l’itemset fermé.

Motif fréquent maximal

Un motif fréquent est dit Maximal si aucun de ses sur-motifs immédiats n’est fréquent.

Exemple : Le schéma suivant illustre la relation entre le motifs fréquents, fréquents fermés et fréquents maximaux :

—

Les motifs encadrés par les lignes minces ne sont pas fréquents, les autres le sont.

—

Les motifs encadrés par des lignes plus épais sont fermés.

—

Les motifs encadrés par des lignes plus épais et colorés sont maximaux

$\ Les\ motifs\ maximaux\sqsubset\ Les\ motifs\ ferm\'{e}s\sqsubset\ Les\ motifs\ fr\'{e}quents$

1.4 Conclusion

Dans ce chapitre, nous avons présenté l’ensemble des notions de bases relatives à l’extraction des motifs que nous utiliserons au chapitre suivant. De surcroît, nous nous avons focalisé sur les propriétés structurelles importantes à l’analyse des concepts formels. Le chapitre suivant est consacré à la présentation de l’état de l’art des approches traitant de l’extraction des motifs fréquents et des motifs fermés fréquents.

Chapitre 2 État de l’art

Introduction

Étant donné que dans le cadre de ce mémoire, nous jugeons intéressant de consacrer ce chapitre à la présentation et l’étude des approches de l’état de l’art s’inscrivant dans le cadre de notre problématique. Dans ce chapitre, nous abordons dans la première section la présentation des approches d’extraction des motifs fréquents et des motifs fermés fréquents en séquentiel. Dans la deuxième section nous présentons les approches d’extraction des motifs fréquents et des motifs fermés fréquents en parallèle. La troisième section sera consacrée à une synthèse qui permet de classer les différentes approches d’extraction parallèle des motifs fréquents et des motifs fermés fréquents selon des différentes stratégies.

2.1 Exploration séquentielle des motifs

2.1.1 Algorithmes d’extractions séquentielles des motifs fréquents

Une approche naïve pour déterminer tous les motifs fréquents dans une base des données D, consiste simplement à déterminer le support (support) de toutes les combinaisons des items dans D. Ensuite, garder seulement les items/motifs qui satisfont un seuil de support minimum (MinSup).

Les algorithmes de recherche de motifs fréquents peuvent se séparer en deux stratégies: en largeur d’abord [2], ou en profondeur d’abord [32].

—

Stratégie en largeur d’abord [2] :En adoptant une stratégie en largeur d’abord , tous les k-itemsets candidats sont génères en faisant une auto-jointure de l’ensemble des $(k-1)$ itemsets fréquents: calculer les motifs du treillis en largeur d’abord, niveau par niveau. Le premier niveau, $L_{1}$ , est initialisé avec l’ensemble des items fréquents[51]. Chaque niveau $L_{k}$ est construit en combinant des motifs du niveau précédent, $L_{k}-1$ .

—

Stratégie en profondeur d’abord [32]: Cette méthode consiste à énumérer les motifs fréquents dans un ordre prédéfini(par exemple ordre Lexicographique).

—

Stratégie hybride[25]: explore en profondeur d’abord le treillis des itemsets, mais ne génère qu’un seul itemset à la fois.

2.1.1.1 Algorithme Apriori

L’algorithme Apriori a été proposé dans [36]. Il se concentre sur la réduction de l’accès au disque d’E/S lors de l’extraction des motifs fréquents.

Pour ce faire, l’algorithme Apriori répond au critère d’anti-monotonie. C’est à dire, si un item/itemset n’est pas fréquent, alors tous ses sur-ensembles ne peuvent pas être fréquents. Apriori opère en deux étapes pour extraire les motifs fréquents:

Étape de combinaison des items. 2. 2.

Étape d’élagage.

Pour extraire les motifs fréquents, Apriori parcourt la base de données $D$ et détermine une liste candidate $C_{1}$ d’items fréquents de taille 1, puis l’algorithme filtre $C_{1}$ et ne conserve que les items qui satisfont le support minimum $MinSup$ et les stocke dans une liste des fréquents $F_{1}$ . À partir de $F_{1}$ , l’algorithme génère les motifs candidats de taille 2 dans une liste disons $C_{2}$ et cela en combinant toutes les paires d’items fréquents de taille 1 en $F_{1}$ . Ensuite, Apriori analyse $D$ et détermine tous les motifs dans $C_{2}$ qui satisfont le support $MinSup$ , le résultat est stocké dans une liste $F_{2}$ . Le processus d’exploration d’Apriori est exécuté jusqu’à ce qu’il n’y ait plus des motifs candidats dans $D$ à vérifier.

2.1.1.2 Algorithme Eclat

L’algorithme Eclat a été introduit par Zaki dans [61], consiste à effectuer un processus d’extraction des motifs fréquents dans la mémoire sans accéder au disque. L’algorithme procède en stockant une liste d’identifiants de transaction (TID) dans la mémoire de chaque item de la base de données. Pour déterminer le support d’un motif $I$ , Eclat croise les TIDs de tous les items de $I$ . Eclat effectue une recherche des itemsets fréquents en profondeur d’abord et se base sur le concept de classes d’équivalence. Par exemple, ABC et ABD appartiennent à la même classe d’équivalence. Deux k-itemsets appartiennent à une même classe d’équivalence s’ils ont en communun préfixe de taille (k -1).

2.1.1.3 AlgorithmeFP-Growth

FP-Growth (Frequent-Pattern Growth)[32], a été considéré comme l’algorithme le plus performant par rapport aux autres algorithmes pour extraire des itemsets fréquents.

L’algorithme consiste d’abord à compresser la base de données en une structure compacte appelée FP-tree (Frequent Pattern tree) et qui apporte une solution au problème de la fouille de motifs fréquents dans une grande base de données transactionnelle. Contrairement aux techniques mentionnées précédemment, l’algorithme FP-Growth ne repose sur aucune approche de génération de motifs candidats.

L’algorithme FP-Growth effectue deux passes (scans) à la base de transactions :

—

Passe 1 le premier passage de FP-Growth sur la base de données D est consacré à déterminer la valeur du support de chaque item dans D. L’algorithme ne retient que les éléments fréquents dans une liste F-List. Ensuite, FP-Growth trie F-List dans un ordre décroissant en fonction du valeur de support et qui est comparé avec le seuil de support préfixé (MinSup).

—

Passe 2 un FP-Tree est construit par la création d’une racine vide et un second parcours de la base de données où chaque transaction est décrite dans l’ordre des items donné par la liste F-List.

Chaque nœud de l’arbre FP-Tree représente un élément dans L et chaque nœud est associé à un compteur (c’est-à-dire, compte de support initialisé à 1). Si une transaction partage un préfixe commun avec une autre transaction, le compte de support de chaque nœud visité est incrémenté de 1. Pour faciliter la traversée de FP-Tree, une table d’en-tête est construite pour que chaque élément pointe vers ses occurrences dans l’arbre via une chaîne de liens-nœuds.

En dernier lieu, le FP-Tree est fouillé par la création des (sub-)fragment conditionnels de base. En fait, pour trouver ces fragments, on extrait pour chaque fragment de longueur 1 (suffix pattern) l’ensemble des préfixes existant dans le chemin du FP-Tree (conditional pattern base). L’itemset fréquent est obtenu par la concaténation du suffixe avec les fragments fréquents extraits des FP-Tree conditionnels.

[TABLE]

En dernier lieu, le FP-Tree est fouillé par la création des (sub-)fragment conditionnels de base. En fait, pour trouver ces fragments, on extrait pour chaque fragment de longueur 1 (suffix pattern) l’ensemble des préfixes existant dans le chemin du FP-Tree (conditional pattern base). L’itemset fréquent est obtenu par la concaténation du suffixe avec les fragments fréquents extraits des FP-Tree conditionnels (voir tableau 2.3)

[TABLE]

2.1.1.4 Algorithme SON

l’algorithme SON a été introduit dans [52]. Cet algorithme permet l’extraction des itemsets fréquent. Le principe d’extraction de SON est tiré du fait que l’ensemble de tous les itemsets fréquents globaux (c’est-à-dire tous les itemsets fréquents dans D est inclus dans l’union de l’ensemble de tous les itemsets fréquents locaux. Pour déterminer l’ensemble des itemsets fréquents, le processus SON procède en effectuant un processus d’exploration en deux phases comme suit :

**Phase1 :

**Diviser la base de données d’entrée D en n partitions de données, D $=\{P_{1}$ , $P_{2}$ ,…., $P_{n}$ } d’une manière que chaque $P_{i}$ dans D s’insère dans la mémoire disponible.Ensuite, extraire chaque partition de données $P_{i}$ dans la mémoire en fonction d’un support minimum local LMinSup (le support minimum local est calculé en fonction du nombre de transactions en $P_{i}$ et du support minimum global donné GMinSup) et d’un algorithme FIM spécifique ( par exemple, algorithme Apriori ou une de ses améliorations). Ainsi, la première phase de l’algorithme SON est consacrée à la détermination d’une liste des itemsets fréquents locaux $LF_{I}$ . 2. 2.

**Phase2 :

**Cette phase passe en filtrant les itemsets fréquents locaux dans la liste $LF_{I}$ en fonction du support minimum global GMinSup . Cette étape est effectuée pour valider la fréquence globale de l’ensemble des itemsets fréquents locaux. L’algorithme SON analyse la base de données entière D et vérifie la fréquence de chaque ensemble d’items fréquents locaux dans $LF_{I}$ .Ensuite, il renvoie une liste d’iemsets fréquents globaux ( $GF_{I}$ ) qui est un sous-ensemble de $LF_{I}$ , c’est-à-dire $GFI\subseteq LF_{I}$ .

2.1.2 Discussion

Dans cette sous-section, nous allons discuter les différents algorithmes d’extraction séquentielle des motifs fréquents. Nous récapitulons dans le tableau 2.4 les caractéristiques des différentes approches étudiées. Cette comparaison couvre les axes suivants :

—

**Stratégie d’exploration:**Cette propriété décrit la stratégie d’exploration des motifs fréquents[6] .

—

**Caractéristiques :**Cette propriété décrit les caractéristiques de l’approche en question.

En comparant les algorithmes décrits dans cette sous section, nous pouvons noter les remarques suivantes :

—

Apriori: Malgré la propriété anti-monotonie, la performance de l’algorithme Apriori est proportionnelle à son nombre de candidats itemset à vérifier par rapport à la base de transactions. Une amélioration AprioriTID et Eclat [2] qui consiste à intégrer les identificateurs des transactions (TIDs).

—

FP-Growth : L’avantage majeur de l’algorithme est qu’il ne fait que deux balayages de la base des transactions. De surcroît, il peut être considéré comme un algorithme complet puisqu’il contient toutes les informations sur les éléments fréquents, ainsi es items sont classés en ordre de fréquence décroissante.Néanmoins, malgré sa structure compacte, cela ne garantit pas, dans le cas ou la base de transactions est trop volumineuse, que toute la structure du FP-tree tiendra en mémoire centrale.

—

SON Comme il effectue deux analyses de bases de données, le système SON a montré de meilleures performances que l’algorithme Apriori. Cependant, la principale limitation de cet algorithme est sa première phase d’extraction. c’est-à-dire, dans le cas où une partition de données contient un grand nombre de MOTIFS fréquents locaux, dans ce cas, les performances de la seconde phase seraient également affectées.

[TABLE]

Afin de résoudre les problèmes rencontrés par les algorithmes d’extraction des itemsets fréquents, une nouvelle approche basée sur l’extraction des itemsets fermés fréquents est apparue[11]. Cette approche est basée sur la fermeture de la connexion de Galois[43]. Elle est fondée sur un élagage du treillis des itemsets fermés, en utilisant les opérateurs de fermeture de la connexion de Galois. Plusieurs algorithmes ont été proposés dans la littérature, dont le but est de découvrir les itemsets fermés fréquents.

2.1.3 Algorithmes d’extractions séquentielles des motifs fermés fréquents

Dans la littérature, plusieurs algorithmes ont été proposés pour résoudre le problème d’extraction des motifs fréquents. En effet, ce problème a été d’abord introduit dans [2]. Dans cette sous section, nous allons passer en revue les principaux algorithmes permettant l’extraction des motifs fermés fréquents en séquentiel.

les stratégies adoptées pour l’exploration de l’espace de recherche soient classées en deux stratégies, à savoir la stratégie "Générer-et-tester", et la stratégie "Diviser-et générer"

—

La stratégie "Générer-et-tester"[27] : Les algorithmes adoptant cette stratégie parcourent l’espace de recherche par niveau. A chaque niveau k, un ensemble de candidats de taille k est génère. Cet ensemble de candidats est, généralement, élagué par la conjonction d’une métrique statistique ( le support) et des heuristiques basées essentiellement sur les propriétés structurelles des itemsets fermés et/ou des générateurs minimaux.[12]

—

La stratégie Diviser-et-régner [15]: Les algorithmes adoptant cette stratégie essaient de diviser le contexte d’extraction en des sous-contextes et d’appliquer le processus de découverte des itemsets fermés récursivement sur ces sous-contextes. Ce processus de découverte repose sur un élagage du contexte base essentiellement sur l’utilisation d’une métrique statistique et d’heuristiques introduites[12].

2.1.3.1 Algorithme Close

L’algorithme Close a été proposé d’abord dans[46]. C’est un algorithme itératif d’extraction des itemsets fermés fréquents, en parcourant l’ensemble des générateurs des itemsets fermés fréquents par niveaux. Durant chaque itération k de l’algorithme, un ensemble $FF_{k}$ de k-générateurs candidats est considéré. Chaque élément de cet ensemble est constitué de trois champs :

k-générateur candidat. 2. 2.

La fermeture de k-générateur, qui est un itemset fermé candidat. 3. 3.

Le support de k-générateur.

À la fin de l’itération k, l’algorithme stocke un ensemble $FF_{k}$ contenant les k-générateurs fréquents, leurs fermetures, qui sont des itemsets fermés fréquents, et leurs supports.

Ainsi, chaque itération est composée de deux étapes :

Etape d’élagage : dans cette étape, une fonction GEN-CLOSURE est appliquée à chaque générateur de $FFC_{k}$ , déterminant ainsi son support et sa fermeture. 2. 2.

Etape de construction: Après l’élagage des générateurs non fréquents, une fonction GEN-GENERATOR utilise l’ensemble d’itemsets fermés fréquents $FF_{k}$ et calcule l’ensemble $FFC_{k}+1$ contenant tous les (k + 1)-itemsets, qui seront utilisés dans l’itération suivante. À ce stade, l’ensemble $FFC_{k}+1$ est élagué comme suit. Pour tout $c\in FFC_{k}+1$ , si c est inclus dans la fermeture d’un des sous-ensembles, i.e. les éléments de $FC_{k}$ dont la jointure a permis d’obtenir c. Dans ce cas, c est éliminé $FFC_{k}+1$ . L’algorithme s’arrête quand il n’y a plus de générateurs à traiter.

Exemple La figure 2.2 représente l’exécution de l’algorithme Close sur le contexte d’extraction D pour un seuil minimal de support de $\frac{2}{6}$ .

L’ensemble $FFC_{1}$ est initialisé avec la liste des 1-itemsets du contexte D. La procédure Gen- Closure génère les fermetures des 1-générateurs, qui sont les itemsets fermés fréquents potentiels, et leurs supports dans $FFC_{1}$ . Les groupes candidats de $FFC_{1}$ qui sont fréquents sont insérés dans l’ensemble $FF_{1}$ . La première phase de la procédure Gen-Generator appliquée à l’ensemble $FF_{1}$ génère six nouveaux 2-générateurs candidats : {AB}, {AC}, {AE}, {BC}, {BE} et {CE} dans $FFC_{2}$ . Les 2-générateurs {AC} et {BE} sont supprimés de $FFC_{2}$ par la troisième phase de la procédure Gen-Generator car nous avons

{AC} $\subseteq\gamma$ ({A}) et {BE} $\subseteq\gamma$ ({B}). La procédure Gen-Closure calcule ensuite les fermetures et les supports des 2-générateurs restant dans $FFC_{2}$ et les ensembles $FF_{2}$ et $FFC_{2}$ sont identiques car tous les itemsets fermés de $FFC_{2}$ sont fréquents. L’application de la procédure Gen-Generator à l’ensemble $FF_{2}$ génère le 3-générateur {ABE} qui est supprimé car le 2-générateur {BE} n’appartient pas à $FF_{2}$ et l’algorithme s’arrête.

2.1.3.2 Algorithme A-Close

Parmi les premiers algorithmes extrayant les itemsets fermés fréquents nous retrouvons l’algorithmeA-Close [45]. Entre autres qualités, par rapport à Close ,après avoir construit un ensemble de k-générateurs candidats à partir des (k-1)-générateurs minimaux retenus dans la (k-1) i‘eme itération. À ce niveau A-close supprime de cet ensemble tout candidat g dont le support est égal au support d’un de ses sous-ensembles de taille (k-1)

A-Close considère un ensemble de générateurs candidats d’une taille donnée,et détermine leurs supports et leurs fermetures en réalisant un balayage du contexte lors de chaque itération. Les fermetures (fréquentes) des générateurs fréquents sont les itemsets fermés fréquents extraits lors de l’itération. Les générateurs candidats sont construits en combinant les générateurs fréquents extraits durant l’itération précédente. Ainsi, A-Close procède en deux étapes successives :

il détermine tous les générateurs minimaux fréquents, c’est à dire, les plus petits éléments incomparables des classes d’équivalence induites par l’opérateur de fermeture ã. 2. 2.

Pour chaque classe d’équivalence, il détermine l’élément maximal résidant au sommet de la hiérarchie. i.e l’itemset fermé fréquent.

2.1.3.3 Algorithme LCM

LCM (connu sous la terminologie anglaise Linear time Closed item set Miner) a été proposé dans [56]. Cet algorithme est consacré pour l’extraction des itemsets fermés. LCM se distingue des autres algorithmes de type backtrack, c’est à dire, qu’il énumère linéairement l’ensemble des itemsets fréquents fermés par un parcoure en profondeur, sans explorer des motifs fréquents non nécessaires. Tel qu’illustré dans l’exemple de la Figure 2.4. Pour ce faire, un arbre sous forme de trajets transversaux contenant seulement tous les motifs fermés fréquents est crée. Deux techniques ont utilisées pour accélérer les mises à jour sur les occurrences des motifs :

Occurrence deliver: Cette technique calcule simultanément les ensembles d’occurrences de tous les successeurs du motif courant durant une, et une seule, itération de balayage sur l’ensemble d’occurrences actuel. 2. 2.

Diffsets: Cette technique a été introduite dans [60] pour réduire l’utilisation de la mémoire des calculs intermédiaires.

L’algorithme LCM repose sur un parcours optimisé de l’espace de recherche exploitant le concept de « core prefix ». Il faut aussi pouvoir définir un ordre sur les items (l’ordre alphabétique,par exemple). Intuitivement, le core prefix d’un itemset fermé $I$ sert de « noyau » d’extension pour générer un autre itemset fermé $\mathit{I^{{}^{\prime}}}$ .Le core prefix d’un itemset $I$ est le plus petit préfixe (selon l’ordre sur les items) qui apparaît dans toutes les transactions où apparaît $I$ .

Exemple

2.1.3.4 Algorithme CLOSET

L’algorithme CLOSET a été proposé dans [48]. Cet algorithme utilise une structure de données avancée, basée sur la notion de trie, appelée arbre FP-Tree [32]. La particularité de cette structure réside dans le fait que plusieurs transactions partagent un même chemin, de longueur n dans l’arbre FP-Tree. S’ils ont les n premiers items en commun, l’algorithme CLOSET effectue le processus d’extraction des itemsets fermés fréquents en deux étapes successives [48] :

Construction de l’arbre FP-Tree :Tel qu’illustré dans l’exemple de la Figure 2.5. Les items des transactions sont ordonnés par support décroissant après avoir élagué les items in-fréquents. Ensuite, l’arbre FP-Tree est construit comme suit. Premièrement, le noeud racine est créé et est étiqueté par "root". Pour chaque transaction du contexte, les items sont traités et une branche est créée suivant le besoin. Dans chaque noeud de la structure FP-Tree, il y a un compteur qui garde la trace du nombre de transactions partageant ce noeud. Dans le cas où une transaction présente un préfixe commun avec une branche dans le FP-Tree, le compteur de chaque noeud appartenant a ce préfixe est incrémenté et une sous-branche va être créée contenant le reste des items de la transaction. 2. 2.

Exploration de l’arbre FP-Tree : Au lieu d’une exploration en largeur d’abord des itemsets fermés candidats, CLOSET effectue une partition de l’espace de recherche pour effectuer ensuite une exploration en profondeur d’abord. Ainsi, il commence par considérer les 1-itemsets fréquents, triés par ordre croissant de leurs supports respectifs, et examine seulement leurs sous-contextes conditionnels (ou FP-Tree conditionnels) . Un sous-contexte conditionnel ne contient que les items qui co-occurrent avec le 1-itemset en question. Le FP-Tree conditionnel associé est construit et le processus se poursuit d’une manière récursive.

2.1.3.5 Algorithme TITANIC

L’algorithme TITANIC a été proposé par Stumme et al [53] ,et qui permet de déterminer les itemsets fermés fréquents. Le but de cet algorithme est de minimiser le cout du calcul des fermetures Ceci est réalisé en utilisant un mécanisme de comptage par inférence [bastide2000mining]. En reposant sur la stratégie Générer-et-tester,et qui est la mème stratégie que A-Close . Titanic , explore l’espace de recherche par niveau, c’est-à- dire en partant de l’ensemble vide vers les motifs de taille 1, ensuite ceux de taille 2, et ainsi de suite. De surcroît, cet algorithme adopte un élagage basé sur la mesure statistique minsupp. TITANIC évite le balayage coûteux effectué par A-CLOSE pour vérifier la dernière stratégie d’élagage. Pour cela, TITANIC utilise pour chaque candidat g de taille k une variable où il stocke son support estimé, c’est-à-dire le minimum du support de ses sous-ensembles de taille (k - 1), et qui doit être différent de son support réel, sinon g n’est pas minimal. Ceci est basé sur le lemme suivant :

Lemme 1 :Soient X, Y $\subseteq$ I. Si X $\subseteq$ Y et $Supp(X)=Supp(Y)$ , alors $\Lambda$ (X) = $\Lambda$ (Y ).

2.1.3.6 Algorithme Prince

Prince a été proposé dans [29], dont l’objectif principal est de pallier les principales lacunes des algorithmes dédiés à l’extraction des motifs fermés fréquents, c’est-à-dire le coût du calcul des fermetures ainsi que le fait de ne pas construire la relation d’ordre partiel[30]. Prince opère en trois étapes successives :

Détermination des générateurs minimaux :Prince détermine tous les générateurs minimaux [27] fréquents ainsi que la bordure négative non fréquente. En effet, Prince parcourt l’espace de recherche par niveau (et donc par taille croissante des candidats générateurs minimaux). Tout au long de ce parcours, Prince élimine tout candidat g ne pouvant pas être un générateur minimal. L’élagage d’un tel candidat est basé sur la 2. 2.

Construction du treillis des générateurs minimaux. 3. 3.

Extraction des bases génériques de règles[bastide2000mining].

2.1.3.7 Algorithme ZART

ZART a été proposé dans [54]. Un algorithme d’extraction d’itemset multifonctionnel. En effet, ZART affiche un certain nombre de fonctionnalités supplémentaires et effectue les tâches suivantes, généralement indépendantes:

Mécanisme de comptage par inférence: cette partie de Zart est basée sur Pascal[bastide2002pascal], qui utilise les propriétés du comptage inférence [bastide2000mining]. À partir d’un certain niveau, tous les générateurs peuvent être trouvés, ainsi tous les itemsets fréquents restants et leurs supports peuvent être déduits sans autre passage de base de transactions. 2. 2.

Identification les itemsets fermés fréquents: cette phase consiste à identifier les itemsets fermés fréquents parmi les itemsest fréquents. Par définition : Un motif(Itemset) fréquent est dit fermé s’il ne possède aucun sur-motif qui a le même support. 3. 3.

Associer les générateurs à leurs fermetures: lorsqu’un itemset fermé fréquent est trouvé, tous ses sous-ensembles fréquents sont déjà connus. Cela signifie que ses générateurs sont déjà calculés, ils doivent seulement être identifiés.

2.1.4 Discussion

Nous récapitulons dans le tableau 2.6 les caractéristiques des différentes approches d’extraction séquentielle des motifs fermés fréquents étudiées. Cette comparaison couvre les axes suivants :

Stratégie d’exploration: Cette propriété décrit la stratégie d’exploration [58] des motifs générés par l’algorithme. 2. 2.

**Motifs extraits :**Cette propriété décrit les motifs générés en sortie par l’algorithme 3. 3.

Caractéristiques: Cette propriété décrit les caractéristiques de l’approche en question

En comparant les algorithmes décrits dans cette sous section, nous pouvons noter les remarques suivantes :

—

**CLOSE, A-CLOSE et TITANIC:**ont pour désavantage de calculer la même fermeture plusieurs fois dans le cas où elle admet plusieurs générateurs minimaux. Les stratégies d’élagage adoptées par TITANIC sont une amélioration de celle de A-CLOSE. En effet, en utilisant le support estimé d’un candidat, TITANIC évite le coUt des balayages effectués par A-CLOSE pour comparer le support d’un candidat générateur minimal de taille k aux supports de ses sous-ensembles de taille (k-1).

—

**Closet **évite le calcul dupliqué des fermetures. Ainsi il utilise les mêmes stratégies d’élagages.

—

LCM: LCM se distingue des autres algorithmes de type backtrack de la méthode de vérification qu’un itemset est fermé et la méthode d’étendre un itemset fréquent fermé pour générer un nouvel itemset fréquent fermé[34].

—

Prince : La principale originalité de PRINCE réside dans la structure de treillis des générateurs minimaux. Ce qui permet de maintenir l’ordre partiel entre les motifs fermés fréquents ainsi que leurs générateurs associés [29].

—

ZART : un algorithme d’extraction d’itemset multifonctionnel. L’idée introduite dans ZART peut être généralisée, et ainsi elle peut être appliquée à n’importe quel algorithme d’extraction d’itemset.

[TABLE]

2.2 Extraction parallèle des itemsets

Malgré l’efficacité de plusieurs algorithmes séquentiels, ces algorithmes voient leurs performances se dégrader lorsque la taille des données augmente. Pour maintenir les performances de ces algorithmes, le développement d’algorithmes parallèles et distribués[62] apparaît comme une solution pouvant aider à accélérer la vitesse de traitement et réduire la taille d’espace mémoire utilisée.

2.2.1 Extraction des motifs fréquents en parallèle

Dans cette sous section , nous allons passer en revue les principaux algorithmes permettant l’extraction des motifs fermés fréquents en parallèle.

2.2.1.1 Algorithme Parallel Apriori Algorithm

Parallel Apriori Algorithm se base sur l’algorithme Apriori [36]. Dans un environnement volumineux et distribué Parallel Apriori Algorithm la version parallèle de l’algorithme Apriori est plus performant que son séquentiel.

Même avec le paramètre de parallélisme et la disponibilité d’un nombre élevé de ressources, l’algorithme Apriori a apporté des problèmes et des limitations réguliers, comme indiqué dans sa mise en œuvre séquentielle. Dans un environnement massivement distribué tel que MapReduce [16], utilisant l’algorithme Apriori, le nombre de jobs requis pour extraire les itemsets fréquents est proportionnel à la taille du long itemset. Par conséquent, avec un très faible support minimum et une grande quantité de données, les performances de Parallel Apriori sont très médiocres. Ceci est dû au fait que le processus de travail interne de l’algorithme Apriori est basé sur une approche de génération et de test candidats qui aboutit à un accès E / S disque élevé. De plus, dans un environnement massivement distribué, l’algorithme Apriori permet une communication de données élevée entre les mappeurs et les reducers, ceci est particulièrement le cas lorsque le support minimum a tendance à être très faible.

2.2.1.2 Algorithme Parallel SON

L’algorithme SON est plus flexible et adapté pour être parallélisé dans un environnement massivement distribué. La version parallèle de l’algorithme SON a été proposé dans [36]. L’objectif de Prallel SON est l’extraction des itemsets fréquents selon le paradigme MapReduce . En effet Parallel SON opère avec deux Jobs.

—

Premier Job : la base de donnée est divisées en des sous -bases,la fouilles des sous-bases s’effectue de façon parallèle à l’aide des mappers et en utilisant un algorithme d’extraction des motifs fréquents selon une valeur minsupp locale.Ensuite les mappers ces résultats( motifs fréquents dans leurs partitions) aux reducers. Ces derniers joindraient les résultats et font la somme des valeurs de chaque clé qui sont les motifs selon l’algorithme SON puis écrivaient les résultats dans sytème de fichiers distribué de Hadoop HDFS.

—

Deuxième job : un classement est effectué,en séparant les motifs qui sont globalement fréquents de ceux qui ne sont que localement fréquents.

2.2.1.3 Algorithme Parallel Eclat

L’algorithme Parllel Eclat a été introduit dans [61]. En effet, cette version parallèle apporte les mêmes problèmes et limitations de sa mise en œuvre séquentielle. En particulier, le nombre élevés d’items fréquents entraîne une grande augmentation de nombre d’identifiant (TID) de transactions à stocker . Cet inconvénient serait terrible dans la capacité du mémoire, c’est à dire que la liste des identifiants de transaction ne peut pas entrer dans la mémoire disponible.

2.2.1.4 Algorithme PFP -Growth

PFP-Growth a été proposé dans [37]. C’est la version parallèle du FP-Growth.

PFP-Growth a été appliqué avec succès pour extraire efficacement les itemsets fréquents dans les grandes base de données. Le processus de fouille de PFP-Growth se déroule en mémoire suivant les principes suivants : Lors de son premier travail MapReduce, PFP-Growth effectue un processus de comptage simple pour déterminer une liste d’items fréquents. Le second travail MapReduce est dédié à la construction d’un arbre FP-tree à extraire ultérieurement lors de la phase réductrice "Reduce".

Exemple Dans cet exemple une base de transactions comporte cinq transactions composées d’alphabets en minuscules et avec une valeur minsupp = 3. La première étape que FP-Growth effectue consiste à trier les items dans les transactions en supprimant les items in-fréquents.Après cette étape, par exemple, $\mathit{T1}$ (la première transaction) est élagué de $\{f,a,c,d,g,i,m,p\}\`{a}\{f,c,a,m,p\}$ . FP-Growth alors compresse ces transactions "élaguées" dans un arbre préfixe,dont lequel le racine est l’item le plus fréquent f. Chaque chemin sur l’arbre représente un ensemble de transactions qui partagent le même préfixe,chaque nœud correspond à un item. Chaque niveau de l’arborescence correspond à un item et une liste d’éléments est créée pour lier toutes les transactions qui possèdent cet item.Une fois que l’arbre a été construit, l’extraction de motifs suivante peut être effectuée.

2.2.2 Extraction des motifs fermés fréquents en parallèle

2.2.2.1 Algorithme PLCM

L’algorithme PLCM a été proposé dans [42],c’est version parallèle de l’algorithme LCM. Le but de PLCM est l’extraction des motifs fermés fréquents en parallèle. Pour ce faire, PLCM adopte un modèle où les threads communiquent par le biais d’un espace de mémoire partagée appelé Tuple Space auquel ils peuvent ajouter ou retirer des tuples. Le tuple space stoque les tuples dans N “bancs de travail”, où N est le nombre de threads utilisés. Le fait d’avoir un banc de travail assigné à chaque thread permet de limiter la contention au moment des appels aux primitives put et get. Chaque thread ajoute et consomme des tuples dans un banc qui lui est propre. Lorsque le banc d’un thread est vide, le tuple space lui donne des tuples d’un autre banc. Il s’agit d’une forme de vol de travail, qui est directement gérée par le tuple space et transparente pour l’algorithme.

2.2.2.2 Algorithme DARCI

L’algorithme DARCI "Distributed Association Rule mining utilizing Closed Itemsets" a été proposé dans [3].Il se base sur l’algorithme CLOSET pour l’extraction des motifs fermés fréquents locaux .Pour trouver les motifs fermés globaux ,l’algorithme DARCI implique une échange des supports locaux des itemsets fréquents localement dans chaque partitions. L’algorithme opère en deux phases :

—

Phase 1 :Envoi des itemsets fermés fréquents.

—

Phase 2 :DARCI utilise une technique qui s’appel ‘best scenario pruning’ pour envoyer les supports locaux aux autres partitions ’, si un itemset(motif) I est localement fréquent dans une partition $P_{i}$ alors il est diffusé dans le cadre des itemsets fréquents locaux, mais si I est non fréquent dans la partition $P_{i}$ , $P_{i}$ doit décider la diffusion du support local de l’itemset I ou non. $P_{i}$ ne devrait pas diffuser le support de I si ce dernier n’est pas fréquent globalement dans le meilleur scénario possible.

$P_{i}$ diffuse le support de I si $Sup_{b}est(I)\geq\sigma$ tel que $\sigma$ est le support minimum global,et le $Sup_{b}est$ est le meilleur scénario possible du support global de I.

[TABLE]

2.2.3 Discussion

Le tableau 2.7 présente une comparaison entre les différents algorithmes que nous avons présenté ci-dessus. La comparaison est faite selon les axes suivants :

—

**Algorithme de base **

—

**Type de motifs extraits **

—

**Version parallèle **

[TABLE]

2.3 Classification des algorithmes distribués d’extraction des motifs fréquents et des motifs fermés fréquents

Un premier examen de ces algorithmes permet de les classer selon la stratégie de partitionnement, à savoir le partitionnement des données et le partitionnement de l’espace de recherche. Nous présentons dans cette section ces caractéristiques permettant de montrer les différences majeures qui pourraient exister entre les algorithmes parallèles et distribués passés en revue.

—

**Stratégie de partitionnement **: Deux stratégies de partitionnements ont été avancées : un partitionnement des données et un partitionnement de l’espace de recherche.

—

**Technique d’exploration **: Il existe deux techniques d’exploration de l’espace de recherche, à savoir « tester et générer » et « diviser pour régner ».

—

Algorithme de base : Se sont des algorithmes séquentiels utilisés pour extraire les itemsets fréquents locaux et les itemsets fermés fréquents locaux.

—

**Type de motifs extraits **: Se sont les motifs générés en sortie

[TABLE]

2.4 Conclusion

Dans ce chapitre nous avons discuté les problèmes reliés au processus d’extractions des motifs fréquents et des motifs fermés fréquents. En étudiant les approches proposées dans l’état de l’art les avantages et les limitations de ces processus d’extraction des motifs sont reliés particulièrement aux accès multiples à la base des données et la capacité de la mémoire. Typiquement, ces différents limitations présentent un défi majeur quand le volume des données est énorme et que le support minimum est très petit ou que les motifs à découvrir sont de grande taille.

À cet égard, nous proposons une nouvelle approche permettant l’extraction des motifs fermés fréquents avec leurs générateurs minimaux associés.

Chapitre 3 Une nouvelle approche pour l’extraction des itemsets fermés fréquents

3.1 Introduction

Pour pallier aux insuffisances des algorithmes séquentiels, la recherche simultanée d’itemsets fermés fréquents en partitionnant l’espace de recherche apparaît comme une solution intéressante.

Dans ce chapitre, nous allons introduire dans la première section le principe de l’approche proposée. Dans la deuxième section, nous allons présenter l’architecture globale de notre approche. La troisième section est dédiée à la conception détaillée de notre approche. Enfin la quatrième section est consacrée à présenter un exemple illustratif de notre approche.

3.2 Principe de l’approche

Dans cette section, nous introduisons le paradigme "diviser pour régner", c’est principe sur lequel se base notre approche.

3.2.1 présentation du paradigme "Diviser pour régner"

En informatique, diviser pour régner ( "divide and conquer" en anglais) est une technique algorithmique consistant à :

—

Diviser : découper un problème initial en sous-problèmes

—

Régner : résoudre les sous-problèmes.

—

Combiner : calculer une solution au problème initial à partir des solutions des sous-problèmes.

La méthode de diviser pour régner est une méthode qui permet, parfois de trouver des solutions efficaces à des problèmes algorithmiques. L’idée est de découper le problème initial, de taille n, en plusieurs sous-problèmes de taille sensiblement inférieure, puis de recombiner les solutions partielles.

De façon informelle, il s’agit de résoudre un problème de taille n à partir de la résolution de deux instances indépendantes du même problème mais pour une taille inférieure. De nombreux problème peuvent être résolus de cette façon. À cet égard, nous allons diviser la base des transactions D, puis nous allons appliquer sur chaque partition(sous-base ou sous-contexte) de la base des transactions un algorithme d’extraction des motifs fermés fréquents ainsi leurs générateurs minimaux pour avoir un fichier pour chaque partition contenant des motifs fermés fréquents avec les générateurs minimaux. Ensuite deux algorithmes que nous avons proposé UFCIGs et UFCIGs-pruning seront appliqué pour combiner les fichiers par deux. En effet, ces algorithmes permettent la mise à jours des motifs fermés fréquents avec leurs générateurs minimaux .

3.3 Conception globale de l’approche UFCIGs-DAC

Les algorithmes de ce type apparaissent comme composés de deux algorithmes; le premier partage le problème en sous-problèmes, le second algorithme fusionne les résultats partiels en résultat global. Donc l’architecture de notre approche comporte deux grandes phases .

Phase 1 : Phase de partitionnement de la base et d’extractions des Itemsets fermés fréquents avec leurs générateurs minimaux. 2. 2.

**Phase 2 **: c’est la phase du fusionnement des résultats partiels; la mise à jour des motifs fermés fréquents et des générateurs minimaux

Le graphe résultant de cette architecture est comme suit:

3.4 Conception détaillée de l’approche

Dans cette section, nous allons détailler les deux phases que nous les avons énoncé dans la section précédente.

3.4.1 Phase1

Cette phase est destinée à préparer les entrées de l’algorithme UFCIGs-DAC de la deuxième phase. D’abord, un partionnement de la base de transactions $\emph{D}\ en\left|P\right|=n$ partitions de transactions (par exemple n=4). $\emph{D}=\{P_{1},P_{2},P_{3},P_{4}\}$ . Ensuite, le processus d’extraction des Itemsets fermés fréquents avec leurs générateurs minimaux sera exécuté sur chaque partition. Enfin, les fichiers $F_{1},F_{2},F_{3},\ et\ F_{4}$ sont respectivement les résultats d’extractions des partitions $P_{1},P_{2},P_{3},\ et\ P_{4}$ .

3.4.2 Phase 2

Après avoir récupéré les fichiers $F_{1},F_{2},F3,etF_{4}$ , l’algorithme UFCIGs sera appliqué pour faire la mise à jour des Itemsets fermés fréquents avec leurs générateurs minimaux. Ce processus sera effectué entre chaque deux fichiers pour fournir en sortie un seul fichier résultat global.

3.4.2.1 Présentation de l’algorithme UFCGs-DAC

Réduire l’espace de recherche (le nombre des transactions )en partitionnant la base des transactions totale en des sous-bases. Sur chaque sous-base nous appliquons un algorithme d’extractions des Itemset fermés fréquents et des générateurs minimaux, puis récolter les résultats en un seul sans prendre en considérations les propriétés de la fermeture et de générateur minimal ça va donner des résultats erronés certainement.

UFCIGs-DAC "Update of frequent closed itemsets and their generators" est un algorithme de mise à jour des itemsets fermés fréquents et des générateurs minimaux selon la stratégie "Divide And Conquer" . L’objectif principal de ** UFCIGs-DAC** est de recombiner chaque deux solutions partielles toute en respectant les notions de fermeture, de générateur minimal avec leur valeur de support que nous avons déjà présenté dans le premier chapitre "notions de base". nous rappelons les propriétés suivantes :

—

Propriété 1: un motif $I\subseteq\emph{I}$ est dit fréquent si son support relatif, Supp(I)= $\frac{\left|\psi(I)\right|}{\left|\mathrm{O}\right|}$ dépasse un seuil minimum fixé par l’utilisateur noté minsupp.Notons que $\left|\psi(I)\right|$ est appelé support absolu de ( $I$ )[28].

—

Propriété 2 : Un itemset (motif) $I\subseteq I$ est dit fermé si $I=\lambda(I)$ . L’itemset $\mathit{I}$ est un ensemble maximal l’items communs un ensemble d’objets [28].

—

**Propriété 3 **: Un itemset g $\subseteq$$\mathfrak{I}$ est un générateur minimal d’un itemset fermé I si et seulement si $\lambda(g)=\textit{I}$ et $\nexists$ g’ $\subseteq$ g tel que $\lambda(g^{\prime})=\textit{I}$ [28].

3.4.2.2 Description de l’algorithme principal de l’approche UFCIGs-DAC

Les notations utilisées sont résumées dans le tableau 3.1.

[TABLE]

L’algorithme principal de notre approche est présenté dans l’algorithme 1 et la Figure 3.2. Ces derniers décrivent le processus de déroulement de notre approche, c’est à dire les appels entre les différents algorithmes de notre approche .

3.4.2.3 Description détaillée des différentes algorithmes de l’approche UFCIGs-DAC

Dans cette sous-section, nous allons décrire de façon détaillée et ordonnée les appels entre les différents composants "algorithmes" de notre approche.

**Algorithme Partitionnement

**L’algorithme Partitionnement permet de partitionner le contexte initial $Contexte\_init$ et prend en entrée :

—

$Context\_init$ : représentant le fichier du contexte initiale, c’est à dire la base des transactions totale.

Pour obtenir les partitions:

—

$P_{1}$ : la première partition ou (sous-contexte).

—

$P_{2}$ : la deuxième partition ou (sous-contexte). 2. 2.

**Algorithme BitSet-Rpr

**

En se basant sur l’algorithme $AprioriTID\_BitSet$ [2], qui permet de calculer les itemsets fréquents dans une base de transactions. Cet algorithme utilise les bitsets comme structures internes pour représenter les TIDs des transactions. En effet, l’avantage de l’algorithme $AprioriTID\_BitSet$ réside dans l’utilisation de BitSets permettant de représenter les ensembles d’identifiants de transactions de façon efficace en termes de consommation de mémoire permettant l’exécution de l’intersection de deux ensembles d’identifiants de transactions (TIDs) efficacement avec des ensembles de bits. Nous allons proposer un algorithme BitSet-Rpr qui se base sur l’algorithme $AprioriTID\_BitSet$ , toutefois nous nous intéressons à la représentation des TIDs des items en BitSets.

$BitSet-Rpr$ prend en entrée :

—

$Context\_init$ : représente contexte initiale, c’est à dire la base des transactions totale.

Pour retourner le fichier:

—

F_Bitset: correspond au fichier contenant tous les items du contexte initial, ainsi que leurs TIDs.

Cela permet de calculer les supports Supp-Biset-Rpr et Sup-Abs par l’algorithme 2. 3. 3.

**Algorithme d’extraction des IFFs,GMs

**Aprés avoir partitionné le contexte intial, nous allons appliquer un algorithme d’extraction spécifique (par exemple ZART [54]) sur chaque partition $P_{1}$ et $P_{2}$ , pour obtenir les fichiers $F_{1}$ et $F_{2}$ . Chacun de ces fichiers contient les iemsets fermés fréquents, ainsi que leurs générateurs minimaux associés. 4. 4.

**Algorithme UFCIGs

**Une fois que le processus d’extraction des partions est terminé, l’algorithme UFCIGs, commence à faire la mise à jour de l’ensemble des itemsets fermés fréquents et des générateurs minimaux. L’algorithme UFCIGs, dont le pseudo-code est décrit par les algorithmes 2 et 3 prend en entrée :

—

$CL_{1}$ : Liste des objets de type ClosedSuppGen, c’est à dire, l’objet ClosedSuppGen qui contient les attributs Closed, Support, et générateur du fichier $F_{1}$ .

—

$CL_{2}$ : Liste des objets de type ClosedSuppGen. c’est à dire, l’objet ClosedSuppGen qui contient les attributs Closed, Support, et générateur du fichier $F_{2}$ . UFCIGs commence à parcourir les deux listes $CL_{1}$ et $CL_{2}$ comme suit:

—

Si un IFF (Closed $c_{1}$ ) de la liste des motifs fermés fréquents Listclosed de $LC_{1}$ apparaît dans la liste des motifs fermés fréquents Listclosed ou la liste des générateurs minimaux Listgm de $LC_{2}$ , dans ce cas UFCIGs, stocke $c_{1}$ dans la liste LFres avec une valeur de support égale à la somme des deux supports.

—

Si un IFF (Closed $c_{1}$ ) de la liste des motifs fermés fréquents Listclosed de $LC_{1}$ n’apprait pas ni dans la liste des motifs fermés fréquents Listclosed ni dans la liste des générateurs minimaux Listgm de $LC_{2}$ , dans ce cas UFCIGs faire le calcule de support( $Supp\_BitSet\_Rpr(c_{1})$ ) en Bitset, c’est à dire en faisant l’intersection des TIDs qui sont représentés dans le fichier $F\_BitSet$ . Aprés avoir calculé le Support $Supp\_BitSet\_Rpr(c_{1})$ en Bitsets, UFCIGs vérifie si son support $Supp\_BitSet\_Rpr$ est supérieur ou égale au support absolu du contexte initial. Ceci est expliqué par le fait qu’un itemset fermé fréquent localement se trouvant dans une seule partition peu ne plus l’être globalement. Si le $Supp\_BitSet_{R}pr(c_{1})\geq Supp\_Abs$ , UFCIGs stocke $c_{1}$ dans la liste LFres avec une la valeur de support calculée en BitSets, sinon il ne l’enregistre pas dans LFres.

—

Le même processus est appliqué avec les IFFs de $CL_{2}$ .

—

Aprés avoir visité tous les IFFs des Listclosed de $CL_{1}$ et $CL_{2}$ , UFCIGs se déclenche à traiter les GMs ( $gm_{1}$ ) de la liste des générateurs minimaux Listgm de $LC_{1}$ : Si un $gm_{1}$ de $LC_{1}$ n’apparaît pas ni dans la Listclosed de $LC_{1}$ et $LC_{2}$ , c’est à dire qu’il n’est pas traité : Si $gm_{1}$ de la Listgm de $LC_{1}$ apparaît dans la Listgm de $LC_{1}$ , stocke $gm_{1}$ dans la liste LFres en tant qu’un itemset fermés fréquent avec une valeur de support égale à la somme des deux supports. Sinon, UFCIGs calcule son support en BitSets, si $Supp\_BitSet\_Rpr(gm_{1})\geq Supp\_Abs$ , dans ce cas, $gm_{1}$ sera stocké dans LFres en tant qu’un itemset fermés fréquent avec un valeur de support calculé en BitSets, sinon il ne l’enregistre pas dans LFres.

—

Le même processus est appliqué avec les GMs de $CL_{2}$ .

L’algorithme UFCIGs génère en sortie :

—

LFres: Liste des itemsets qui sont globalement fermés fréquents . 5. 5.

**Algorithme UFCIGs pruning :

Après avoir récupéré le fichier Fres par l’algorithme UFCIGs, une étape d’élagage doit être appliquée pour répondre à la propriété de fermeture, puis générer et affecter les générateurs minimaux aux itemsets fermés fréquents correspondants. Ceci est effectué par l’algorithme ** UFCIGs pruning dont le pseudo-code est décrit par l’algorithme 4 qui prend en entrée:

—

LFres: Liste Fres de **l’algorithme UFCIGs ** contenant l’ensemble des itemsets fermés fréquents après leurs mise à jour.

Pour donner en sortie :

—

LFres: Liste finale contenant l’ensemble des itemsets fermés fréquents ainsi que leurs générateurs minimaux après leurs mises à jour.

L’algorithme commence par :

(a)

Tester la notion de fermeture comme suit: si un $IFF\subset dansIFF^{{}^{\prime\prime}}etsupp(IFF)=supp(IFF^{{}^{\prime}})$ , alors IFF ne sera plus considéré comme un motif fréquent fermé selon la propriété 2, donc il sera supprimé de la lise LFres. 2. (b)

affecter les GMs aux IFFs restants dans LFres à travers la procédure Find generators. Cette procédure associe les items ou les itemsets aux IFFs adéquats comme des GMs s’ils vérifient la propriété 3 comme suit:

Si un item $I\subset IFF$ et $supp(I)=supp(IFF)$ et $I=I-plus-petit$ ( itemset composé de moins d’items). Sinon, le motif fermé fréquent confond avec son générateur minimal, c’est à dire $IFF=GM$ .

L’algorithme s’arrête lorsque il n’y a plus des IFFs à visiter.

3.5 Exemple illustratif

Dans cette section, nous allons présenter un exemple illustratif qui décrit les différentes pahses de notre approche. Considérons la base des transactions D décrit par la Figure 2.3, avec le choix de la valeur de support relatif comme mesure de fréquence est minsupp =0.6.

Tout d’abord, nous allons partitionner la base des transactions D, par exemple en deux partitions $P_{1}$ et $P_{2}$ , puis nous allons appliquer sur chaque partition un algorithme spécifique à l’extraction des IFFs avec leurs GMs associés, pour avoir les fichiers $F_{1}$ et $F_{2}$ .

Le processus est est représenté dans la Figure 3.4 ci-après.

La Figure 3.6 montre les deux partitions $P_{1}$ et $P_{2}$ . Chaque partition contient six transactions. En fixant une valeur de minsupp=0.6. A cet étape nous allons appliquer un algorithme (par exemple ZART[54]) pour extraire les IFFs, GMs et les valeurs de support sur les partitions $P_{1}$ et $P_{2}$ .

Les résultats de la première phase sont représentés dans la Figure 3.7. Le fichier $F_{1}$ est le résultat de la partition $P_{1}$ contenant l’ensemble des IFFs avec leur valeur de support et leurs GMs, alors que le fichier $F_{2}$ est le résultat de la partition $P_{2}$ contenant l’ensemble des IFFs avec leur valeur de support et leurs GMs.

Le tableau 3.2 est le résultat de l’algorithme BitSet_Rpr. c’est la représentation en BitSet de tous les items de la base des transaction D. L’idée de cet algorithme est de déterminer les "TIDs" de chaque item . En outre ,BitSet-Rpr détérmine les transactions dont lesquelles est apparu un item i. Par exemple l’item "1" est apparu dans les transactions $\{1,2,3,4,5,6,7,8,9,10,11,12\}$ , l’item "16" est apparu dans les transactions $\{9,10\}$ .

[TABLE]

L’algorithme UFCIGs prend en entrée les fichiers $F_{1},F_{2}$ et $F\_BitSet$ .

UFCIGS commmence à parcourrir les IFFs des $F_{1}$ et $F_{2}$ (cf.Figure 3.7).

—

"1 3 5 7 9 13 15 17" appartient à la liste des IFFs de $F_{2}$ , alors il sera inséré dans le fichier Fres avec une valeur de support égale à la somme des deux supports, c’est à dure (6+4 = 10). Les itemsets (IFFs ou GMs) de ce type sont colorés en rouge.

—

"1 3 5 7 9 11 13 15 17" n’appartient ni à la liste des IFFs , ni à la liste des GMs de $F_{2}$ . Dans ce cas, son support sera calculé en BitSet.

$Supp\_BitSet\_Rpr({\color[rgb]{0,0.5,0}\definecolor[named]{pgfstrokecolor}{rgb}{0,0.5,0}\ 1\ 3\ 5\ 7\ 9\ 11\ 13\ 15\ 17})=8\geq Supp\_Abs=8$ . Alors, "1 3 5 7 9 11 13 15 17" sera inséré dans Fres avec une valeur de support =8.

—

" 1 3 5 7 9 13 15 17 19" n’appartient ni à la liste des IFFs , ni à la liste des GMs de $F_{2}$ . Dans ce cas, son support sera calculé en BitSet.

$Supp\_BitSet\_Rpr({\color[rgb]{0,0.5,0}\definecolor[named]{pgfstrokecolor}{rgb}{0,0.5,0}\ 1\ 3\ 5\ 7\ 9\ 13\ 15\ 17\ 19})=6<Supp\_Abs$ . Alors, " 1 3 5 7 9 13 15 17 19" ne sera pas inséré dans Fres. De même pour "1 3 5 7 9 11 13 15 17 19".

—

"1 3 5 7 9 13 17" n’appartient ni à la liste des IFFs , ni à la liste des GMs de $F_{1}$ . Dans ce cas, son support sera calculé en BitSet.

$Supp\_BitSet\_Rpr({\color[rgb]{0,0,1}\definecolor[named]{pgfstrokecolor}{rgb}{0,0,1}\ 1\ 3\ 5\ 7\ 9\ 13\ 15\ 17\ 19})=12\geq Supp\_Abs=8$ . Alors, "1 3 5 7 9 13 15 17 19" sera inséré dans Fres avec une valeur de support =12. De même pour les IFFs "1 3 5 7 9 11 13 17" et "1 3 5 7 9 13 17 19".

Une fois, que tous les IFFs de $F_{1}$ et de $F_{2}$ sont traités,nous allons passer au traitement des GMs de $F_{1}$ et de $F_{2}$ .

—

EMPTYSET appartient à la liste des GMs de $F_{2}$ , alors il sera inséré dans le fichier Fres avec une valeur de support égale à la somme des deux supports, c’est à dure (6+6 = 12).

—

11 appartient à la liste des GMs de $F_{2}$ , alors il sera inséré dans le fichier Fres avec une valeur de support égale à la somme des deux supports, c’est à dure (5+4 = 9).

—

19 appartient à la liste des GMs de $F_{2}$ , alors il sera insérér dans le fichier Fres avec une valeur de support égale à la somme des deux supports, c’est à dure (5+4 = 9).

—

11 19 n’appartient à la liste des IFFs des GMs de $F_{2}$ . Dans ce cas, son support sera calculé en BitSet.

$Supp\_BitSet\_Rpr({\color[rgb]{0,0.5,0}\definecolor[named]{pgfstrokecolor}{rgb}{0,0.5,0}\ 11\ 19})=6<Supp\_Abs$ . Alors, " 11 19" ne sera pas inséré dans Fres.

—

"15" n’appartient à la liste des IFFs des GMs de $F_{1}$ . Dans ce cas, son support sera calculé en BitSet.

$Supp\_BitSet\_Rpr({\color[rgb]{0,0,1}\definecolor[named]{pgfstrokecolor}{rgb}{0,0,1}15})=10>=Supp\_Abs$ . Alors, "15" sera inséré dans Fres.

Aprés avoir traiter tous les IFFs et les GMs des fichier $F_{1}$ et $F_{2}$ , nous allons appliquer l’algorithme UFCIGs pruning. En effet, pour générer et affecter les GMs aux IFFs adéquats du fichier Fres, un traitement doit être effectué comme suit ( : Un motif(Itemset) fréquent est dit fermé s’il ne possède aucun sur-motif qui a le même support.

—

$\textsl{EMPYSET}\subset\textsl{"1 3 5 7 9 13 17"}$ , et Supp(EMPTYSET)= Supp(1 3 5 7 9 13 17)=12. Donc "EMPTYSET" n’est plus un itemset fermés fréquent et il sera élagué.

—

$\textsl{"11"}\subset\textsl{"1 3 5 7 9 11 13 15 17"}$ , et Supp(11)= Supp(1 3 5 7 9 11 13 15 17)=9. Donc "11" n’est plus un itemset fermés fréquent et il sera élagué.

—

$\textsl{"19"}\subset\textsl{" 1 3 5 7 9 13 17 19"}$ , et Supp(19)= Supp(1 3 5 7 9 13 17 19)=9. Donc "19" n’est plus un itemset fermés fréquent et il sera élagué.

—

$\textsl{"15"}\subset\textsl{1 3 5 7 9 13 15 17}$ , et Supp(15)= Supp(1 3 5 7 9 13 15 17 )=10. Donc "15" n’est plus un itemset fermés fréquent et il sera élagué.

Pour affecter les GMs aux IFFs restants dans Fres

—

IFF "1 3 5 7 9 13 17" son GM ="EMPTYSET".

Supp(1 3 5 7 9 13 17) = Supp(EMPTYSET) = 12, et "EMPTYSET"= $plus\_petit$ .

—

IFF"1 3 5 7 9 11 13 15 17" son GM= "11".

Supp (1 3 5 7 9 11 13 15 17)=Supp(11), et "11"

—

IFF "1 3 5 7 9 13 15 17" son GM = 15.

Supp(1 3 5 7 9 13 15 17) = Supp(15) = 9, et "15"= $plus\_petit$

—

IFF "1 3 5 7 9 11 13 17" son GM= 11 15.

Supp( 1 3 5 7 9 11 13 17 )= Supp(11 15) = 8 et "11 15" = $plus\_petit$

—

IFF"1 3 5 7 9 13 17 19" son GM= "19".

Supp ( 1 3 5 7 9 13 17 19)=Supp(19), et "19" = $plus\_petit$

La figure 3.13 résultat final Fres de notre algorithme UFCIGs pruning après la phase d’élagage et d’affectation des GMs aux IFFs correspondants.

La figure 3.14 montre le résultat d’extraction séquentielle des IFFs avec leurs GMs t sur la totalité de la base, c’est à dire sans partitionner le contexte initial. Donc Comparons ce fichier avec notre fichier résultat Fres, nous remarquons que nous avons trouvé les mêmes IFFs ainsi que leurs GMS associés et les mêmes valeurs de supports.

3.6 Conclusion

Dans ce chapitre, nous avons proposé une nouvelle approche permettant l’extraction des itemsets fermés fréquents , ainsi que leurs générateurs minimaux associés, dans une base transactionnelle, en les mettant à jour selon la stratégie "diviser pou régner". Dans le chapitre suivant, nous allons tester les performance de notre algorithme UFCIGs-DAC sur des bases de tests.

Chapitre 4 Étude Expérimentale

4.1 Introduction

Dans le chapitre précédent, nous avons introduit un nouvel algorithme, appelé UFCIGs-DAC dédié à l’extraction des motifs fermés fréquents avec leurs générateurs minimaux associés. En effet, notre algorithme, opère en trois étapes successives:

Partitionner la base de transactions initiale. 2. 2.

Appliquer sur chaque partition un algorithme d’extraction des motifs fermés fréquents avec leurs générateurs minimaux (par exemple ZART[54]). 3. 3.

La mise à jour des motifs fermés fréquents ainsi que leurs générateurs minimaux.

Dans ce chapitre, nous allons discuter les résultats des expérimentations que nous avons réalisé avec notre approche sur plusieurs bases de tests pour évoluer ses performances. Dans un premier lieu, nous allons présenter l’environnement de l’évaluation de notre approche. Dans un deuxième lieu, nous allons présenter les bases "benchmark". Ensuite, nous comparerons les performances de notre algorithme UFCIGs-DAC à l’algorithme séquentiel ZART.

4.2 Environnement d’expérimentation

Dans cette section, nous allons commencer tout d’abord par la présentation de l’environnement expérimental sur lequel nous avons travaillé pour évaluer et tester notre approche de mise à jour des motifs fermés fréquents et leurs générateurs minimaux .

Environnement matériel et logiciel

Toutes les expérimentations ont été réalisées sur PC muni d’un processeur Intel Core i3 ayant une fréquence d’horloge de 2.10 GHz et 4 Go de mémoire tournant sur la plate-forme Windows 7. Afin de mener une étude comparative avec les approches d’extractions des itemsets fermé fréquents dans le chapitre 2, nous avons implémenté notre algorithme UFCGs-DAC, en java.

4.3 Bases de tests

Dans cette section, nous présentons les résultats de l’étude expérimentale que nous avons réalisée sur les bases “benchmark” MUSHROOMS, CHESS, Retail, et Foodmart. Typiquement, les bases de transactions réélles sont très denses et elles produisent un nombre important d’itemsets fréquents de taille assez large, et ce même pour des valeurs élevées de support. Les bases de transactions synthétiques limitent les transactions d’un environnement de ventes au détail. Habituellement, les bases de transactions synthétiques sont plus éparses comparées aux bases réelles. La table 4.1 énumère les caractéristiques des différentes bases que nous avons utilisé pour nos tests.

[TABLE]

4.4 Résultats expérimentaux

Nous présentons les résultats obtenus suite aux différentes expérimentations réalisées dans l’objectif de comparer les performances de UFCIGs-DAC. Tout d’abord,nous avons partitionner les contextes de tests en deux sous-contextes (partitions $P_{1}$ , $P_{2})$ , dont les caractéristiques sont résumées par le tableau 4.2. Puis nous avons extrait les partitions $P_{1}$ et $P_{2}$ simultanément en utilisant les Threads. Enfin, nous avons mis à jour l’ensemble des motifs fermés fréquents et leurs générateurs minimaux extrait par ZART.

[TABLE]

Dans ce qui suit, nous allons évaluer les performances de notre algorithme UFCIGs-DAC par rapport à l’algorithme ZART selon deux parties distinguées :

—

Temps d’exécution de UFCIGs-DAC versus ZART pour les bases denses et éparses.

—

Nombre des itemsets fermés fréquent extraits par UFCIGs-DAC par rapport à ZART pour les bases denses et éparses.

4.4.1 Temps d’exécution de UFCIGs-DAC versus ZART

4.4.1.1 Expérimentations sur les contextes denses

Les temps d’exécution de l’algorithme UFCIGs-DAC comparés respectivement à l’algorithme séquentiel ZART sur les contextes qui sont présentés par les Figures 4.1, 4.2.

—

MUSHROOMS : pour cette base ZART fait mieux que UFCIGs-DAC avec un seuil de support minimum très petit.Les performances de UFCIGs-DAC se dégradent considérablement étant donné qu’ils effectuent des intersectionsn sur un grand nombre d’objets de taille élevée à partir de valeur de minsupp = $70\%$ . En effet les motifs fermés fréquents sont longs et nombreux, et c’est du au fait que les partitions $P_{1}$ et $P_{2}$ partagent de nombreux items en commun).Donc, pour passer à la phase de mise à jour, il faudra attendre ZART très long finisse d’extraire les itemsets fermés fréquents avec leurs générateurs minimaux localement.

—

CHESS : pour cette base,bien qu’il ait eu un partitionnement de la base,UFCIGs-DAC réalise des temps d’exécution beaucoup moins importants dans la partition $P_{2}$ que ceux réalisés dans la partitions $P_{1}$ . En effet, la performance de UFCIGs-DAC dépend fortement de la fouille de l’algorithme ZART dans les partitions. C’est du au fait que la partition $P_{1}$ contient plusieurs transactions similaires alors le nombre de motifs qui sont fréquents localement dans cette partition est élevé. Dans ce cas, le temps d’exécution de ZART sur $P_{1}$ serait élevé ce qui impacte la performance globale de UFCIGs-DAC.

4.4.1.2 Expérimentations sur les contextes épars

Les temps d’exécution de l’algorithme UFCIGs-DAC comparés respectivement à l’algorithme séquentiel ZART sur les contextes épars qui sont présentés par les Figures 4.3 ,4.4.

—

Retail: pour cette base, les performances de *UFCIGs-DAC * sont meilleurs que ZART pour les valeurs de minsupp ( $50\%,30\%,20\%,et10\%$ ). Alors que c’est l’inverse pour les valeurs de minsupp ( $2\%et1\%$ ). Ceci peut être expliqué par le fait que UFCIGs-DAC est pénalisé par le coût le calcul des supports Bitset-Rpr, c’est à dire, pour les valeurs de minsupp ( $2\%et1\%$ ), les itemsets fermés fréquents se trouvant dans l’une des partitions sont plus nombreux que les itemsets fermés fréquents se trouvant dans les deux partitions à la fois.

—

Foodmart : dans le cas du contexte Foodmart, les performance de *UFCIGs-DAC * sont largement meilleurs que celles de ZART pour des valeurs de minsupp inférieures ou égales à $0,4\%$ . Les performances réalisées peuvent être expliquées la taille moyenne des motifs fermés fréquents relativement petite sur lesquelles ils exécutent des intersections. De surcroît, la majorité des iemsets fermés fréquents extraits de $P_{1}$ égales aux iemsets fermés fréquents extraits de $P_{2}$ .

4.4.2 Nombre des itemsets fermés fréquents extraits

Une étude statique qui permet de déterminer la fréquence en pourcentage (%) de l’algorithme UFCIGs-DAC, c’est à dire, nous allons indiquer le nombre des IFFs retournés par UFCIGs-DAC par rapport à la totalité (le nombre des IFFs retourné par l’algorithme ZART).

4.4.2.1 Expérimentations sur les contextes denses

Le nombre des itemsets fermés fréquents extraits par l’algorithme UFCIGs-DAC comparés respectivement à l’algorithme ZART sur les contextes qui sont présentés par la Figure 4.5 et le Tableau 2.6.

—

MUSHROOMS: dans cette base, a réussi à extriare toue les motifs fermés fréquents extraits par Zart pour les valeurs de mmissup = $80\%$ et $70\%$ . Cependant, pour les autres valeurs de minsupports UFCIGs-DAC a pratiquement donné les mêmes résultats que nous jugeons satisfaisants.

—

CHESS: dans cette base, comparé à l’algorithme séquentiel ZART, UFCIGs-DAC n’a pas extrait tous les motifs fermés fréquents quelles que soient les valeurs de minsupp, mais l’ensemble des motifs fermés fréquents extrait, présente une fréquence d’apparition jugée satisfaisante. De son coté, UFCIGs-DAC pose un problème de perte d’information dans des certains valeur de support miniumum par rapport à l’algorithme Zart. En outre, ceci est expliqué par la décomposition des contextes qui peut provoquer la disparition des certaines motifs fermés fréquents.

4.4.2.2 Expérimentations sur les contextes épars

Le nombre des itemsets fermés fréquents extraits par l’algorithme UFCIGs-DAC comparés respectivement à l’algorithme ZART sur les contextes qui sont présentés par la Figure 4.5 et le Tableau 2.6.

—

Retail: dans le cas du contexte Retail, UFCIGs-DAC bénéficie du partitionnement de ce contexte, et il a réussi à extraire pratiquement les mêmes résultats que ZART. En effet le type de la base Retail qui est considérée comme une base éparse, c’est à dire, elle produit un nombre d’itmsets fermés fréquent de taille assez petit par rapport aux bases denses.

—

Foodmart: dans cette base, comparé à ZART, notre algorithme a extrait tous les motifs fermés fréquents quelle que soit la valeur de minsupp.

4.5 Interprétation des résultats

Dans le cas des contextes épars,les performances de UFCIGs-DAC s’avèrent largement meilleures que celles de Zart. En effet, les motifs fermés fréquents extraits des contextes épars sont aussi les générateurs minimaux, tandis que dans les contextes denses il y’a des plusieurs motifs longs même pour des valeurs de supports élevées. Dans ce cas, UFCIGs-DAC faudra attendre très long l’alogrithme d’extraction spécifique (ZART) finisse d’extraire les itemsets localement. C’est pour cela, Zart a un écart de temps d’exécution meilleur que UFCIGs-DAC dans les bases denses. De son coté, UFCIGs-DAC pose un problème de perte d’information dans des certains valeur de support miniumum par rapport à l’algorithme Zart. En outre, ceci est expliqué par la décomposition des contextes qui peut provoquer la disparition des certaines motifs fermés fréquents. Par contre, dans les bases éparses, le temps d’exécution de l’algorithme UFCIGs-DAC commence à être distinguable. Les performances réalisées peuvent être expliquées par la taille moyenne des motifs fermés fréquents relativement petite sur lesquelles ils exécutent des intersections. Ainsi, notre algorithme a réussi à extraire pratiquement les mêmes résultats que ZART.

4.6 Conclusion

Dans ce chapitre, nous avons mené une étude expérimentale de l’algorithme UFCIGs-DAC sur des bases "benchmark" communément utilisées. Nous avons prouvé expérimentalement que nous pouvons réduire le temps d’exécution des motifs fermés fréquents et leurs générateurs minimaux associés .

Conclusion générale

Dans ce mémoire, nous nous sommes intéressés à la fouille des motifs fermés fréquents dans les baeses des transactions. À cet égard, nous avons proposé, dans ce mémoire, une nouvelle approche permettant l’extraction des itemsets fermés fréquents. En effet, nous avons entamé ce mémoire par la présentation des notions préliminaires relatives aux motifs fréquents et aux motifs fermés fréquents. Nous avons tout de même décrit les notions offertes par le cadre de l’analyse des concepts formels ACF. Ensuite, nous avons étudié dans le deuxième chapitre, les différentes approches de la littérature traitant de l’extraction séquentielle des motifs fréquents, des motifs fermés fréquents ainsi que les approches parallèles de fouille. Egalement, nous avons mené une étude critique des principaux algorithmes d’extraction dans les bases massives en se basant sur une stratégie de partitionnement « Diviser pour régner » du contexte de données. Notre nouvelle approche appelé UFCIGs-DAC a été conçu et implémenté afin de réaliser la fouille dans les bases de tests. La principale originalité de notre approche est l’exploration simultanée de l’espace de recherche en mettant à jour les motifs fermés fréquents et les générateurs minimaux. De plus, notre approche pourrait être adaptée à tout algorithme d’extraction des motifs fermés fréquents avec leurs générateurs minimaux.

Dans le bus d’améliorer l’exploitation et la flexibilitéion notre approches, en voici quelques perspectives que nous jugeons intéressantes:

—

Application d’une stratégie de partitionnement non-aléatoire du contexte. Autrement dit, en prenant en considération l’équité du nombre d’items dans les différentes partitions ainsi que leur répartition. Par exemple, quand une partition contient plusieurs transactions similaires (elles partagent de nombreux items en commun), alors le nombre de motifs qui sont fréquents localement dans cette partition est élevé et par la suite le nombre des motifs fermés fréquents.

—

Adapter notre approche pour la fouille des "Big Data" dans les environnements distribués ( Hadoop [33], Spark [59]).

—

Entamer l’étape d’extraction des règles associatives [1],[14]. Une règle d’association de la forme $X\rightarrow Y$ , où X et Y sont des motifs disjoints ( $X\cap Y=\phi$ ), appelées respectivement la prémisse et la conclusion de la règle. Cette règle est traduite par " si X, alors Y ". Notons que X c’est l’Itemset fermé fréquent et Y est le générateur minimal associé au fermé X [24],[13].

Références

[1] Rakesh Agrawal, Tomasz Imielinski, and Arun Swami. Mining association rules between sets of items in large databases. In Acm sigmod record, volume 22, pages 207–216. ACM,

[2] Rakesh Agrawal, Ramakrishnan Srikant, et al. Fast algorithms for mining association rules. In Proc. 20th int. conf. very large data bases, VLDB, volume 1215, pages 487–499, 1994.
[3] Suad Alramouni and Jae Young Lee. Darci : Distributed association rule mining utilizing closed itemsets. CSIT 2006 computer science and information technology, 2006.
[4] Colin Atkinson, Dirk Draheim, and Verena Geist. Typed business process specification. In 2010 14th IEEE International Enterprise Distributed Object Computing Conference (EDOC), pages 69–78. IEEE, 2010.
[5] Dagmar Auer, Verena Geist, and Dirk Draheim. Extending BPMN with submit/responsestyle user interaction modeling. In IEEE Conference on Commerce and Enterprise Computing (CEC), pages 368–374. IEEE, 2009.
[6] Sarra Ayouni, Sadok Ben Yahia, and Anne Laurent. Extracting compact and information lossless sets of fuzzy association rules. Fuzzy Sets and Systems, 183(1) :1–25, 2011.
[7] M Barbut and B Monjardet. L’ordre et la classification, algèbre et combinatoire, tome ii. paris, hachette, 1970. Google Scholar.
[8] Marc Barbut and Bernard Monjardet. Ordre et classification. Paris : Hachette Université, 1970.
[9] Yves Bastide, Rafik Taouil, Nicolas Pasquier, Gerd Stumme, and Lotfi Lakhal. Mining frequent patterns with counting inference. ACM SIGKDD Explorations Newsletter, 2(2) :66–75, 2000.
[10] Yves Bastide, Rafik Taouil, Nicolas Pasquier, Gerd Stumme, and Lotfi Lakhal. Pascal : un algorithme d’extraction des motifs fréquents. Techniques et Sciences Informatiques, 21(1) :65–95, 2002.
[11] Sadok Ben Yahia, Tarek Hamrouni, and Engelbert Mephu Nguifo. Frequent closed itemset based algorithms : a thorough structural and analytical survey. ACM SIGKDD Explorations Newsletter, 8(1) :93–104, 2006.
[12] Sadok Ben Yahia and Engelbert Mephu Nguifo. Approches d’extraction de règles d’association basées sur la correspondance de galois. Ingénierie des systèmes d’information, 9(3-4) :23–55, 2004.
[13] Slim Bouker, Rabie Saidi, Sadok Ben Yahia, and Engelbert Mephu Nguifo. Ranking and selecting association rules based on dominance relationship. In Tools with Artificial Intelligence (ICTAI), volume 1, pages 658–665. IEEE, 2012.
[14] Ines Bouzouita, Samir Elloumi, and Sadok Ben Yahia. Garc : A new associative classification approach. In International Conference on Data Warehousing and Knowledge Discovery, pages 554–565. Springer, 2006.
[15] Hanen Brahmi, Imen Brahmi, and Sadok Ben Yahia. Omc-ids : at the cross-roads of olap mining and intrusion detection. In Pacific-Asia Conference on Knowledge Discovery and Data Mining PAKDD, pages 13–24. Springer, 2012.
[16] Jeffrey Dean and Sanjay Ghemawat. Mapreduce : simplified data processing on large clusters. Communications of the ACM, 51(1) :107–113, 2008.
[17] Dirk Draheim. The service-oriented metaphor deciphered. Journal of Computing Science and Engineering (JCSE), 4(4) :253–275, 2010.
[18] Dirk Draheim. Generalized Jeffrey Conditionalization - A Frequentist Semantics of Partial Conditionalization. Springer, 2017.
[19] Dirk Draheim. Semantics of the Probabilistic Typed Lambda Calculus - Markov Chain Semantics, Termination Behavior, and Denotational Semantics. Springer, 2017.
[20] Usama Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth. From data mining to knowledge discovery in databases. AI magazine, 17(3) :37, 1996.
[21] William J Frawley, Gregory Piatetsky-Shapiro, and Christopher J Matheus. Knowledge discovery in databases : An overview. AI magazine, 13(3) :57, 1992.
[22] B Ganter and R Wille. Formal concept analysis : mathematical foundations.(translated from the german by cornelia franzke) springer-verlag, 1999.
[23] Bernhard Ganter and Rudolf Wille. Contextual attribute logic. Conceptual Structures : Standards and Practices, pages 377–388, 1999.
[24] Ghada Gasmi, Sadok Ben Yahia, Engelbert Mephu Nguifo, and Slim Bouker. Extraction of association rules based on literalsets. In International Conference on Data Warehousing and Knowledge Discovery, pages 293–302. Springer, 2007.
[25] Tarek Hamrouni, Sadok Ben Yahia, and Engelbert Mephu Nguifo. Succinct minimal generators : Theoretical foundations and applications. International journal of foundations of computer science, 19(02) :271–296, 2008.
[26] Tarek Hamrouni, Sadok Ben Yahia, and Engelbert Mephu Nguifo. Succinct system of minimal generators : A thorough study, limitations and new definitions. In Concept Lattices and Their Applications, pages 80–95. Springer, 2008.
[27] Tarek Hamrouni, Sadok Ben Yahia, and Engelbert Mephu Nguifo. Generalization of association rules through disjunction. Annals of Mathematics and Artificial Intelligence, 59(2) :201–222, 2010.
[28] Tarek Hamrouni, Sadok Ben Yahia, and Engelbert Mephu Nguifo. Construction efficace du treillis des motifs fermés fréquents et extraction simultanée des bases génériques de règles. Mathématiques et sciences humaines. Mathematics and social sciences, (195) :5–54, 2011.
[29] Tarek Hamrouni, Sadok Ben Yahia, and Engelbert Mephu Nguifo. Efficient construction of the lattice of frequent closed patterns and simultaneous extraction of generic bases of rules. arXiv preprint arXiv :1312.1558, 2013.
[30] Tarek Hamrouni, Sadok Ben Yahia, and Yahya Slimani. Prince : An algorithm for generating rule bases without closure computations. In International Conference on Data Warehousing and Knowledge Discovery, pages 346–355. Springer, 2005.
[31] Jia-Wei Han, Jian Pei, and Xi-Feng Yan. From sequential pattern mining to structured pattern mining : a pattern-growth approach. Journal of Computer Science and Technology, 19(3) :257–279, 2004.
[32] Jiawei Han, Jian Pei, and Yiwen Yin. Mining frequent patterns without candidate generation. In ACM sigmod record, volume 29, pages 1–12. ACM, 2000.
[33] Alex Holmes. Hadoop in practice. Manning Publications Co., 2012.
[34] M Nidhal Jelassi, Christine Largeron, and Sadok Ben Yahia. Efficient unveiling of multimembers in a social network. Journal of Systems and Software, 94 :30–38, 2014.
[35] Lukasz A Kurgan and Petr Musilek. A survey of knowledge discovery and data mining process models. The Knowledge Engineering Review, 21(1) :1–24, 2006.
[36] Jure Leskovec, Anand Rajaraman, and Jeffrey D Ullman. Mining of massive datasets, 2014.
[37] Haoyuan Li, Yi Wang, Dong Zhang, Ming Zhang, and Edward Y Chang. Pfp : parallel fp-growth for query recommendation. In Proceedings of the 2008 ACM conference on Recommender systems, pages 107–114. ACM, 2008.
[38] Heikki Mannila and Hannu Toivonen. Levelwise search and borders of theories in knowledge discovery. Data mining and knowledge discovery, 1(3) :241–258, 1997.
[39] Guy Mineau, Gerd Stumme, and Rudolf Wille. Conceptual structures represented by conceptual graphs and formal concept analysis. In International Conference on Conceptual Structures, pages 423–441. Springer, 1999.
[40] Amira Mouakher and Sadok Ben Yahia. Qualitycover : Efficient binary relation coverage guided by induced knowledge quality. Information Sciences, 355-356 :58–73, 2016.
[41] Amira Mouakher and Sadok Ben Yahia. On the efficient stability computation for the selection of interesting formal concepts. Information Sciences, 472 :15–34, 2019.
[42] Benjamin Négrevergne, Jean-François Méhaut, Alexandre Termier, and Takeaki Uno. Découverte d’itemsets fréquents fermés sur architecture multicoeurs. In EGC, pages 465–470, 2010.
[43] Engelbert MEPHU NGUIFO, Patrick Njiwoua, Huaiguo Fu, Huaiyu Fu, and Sadok Ben Yahia. Fouille de données et treillis de galois. Tutoriel, Clermont-Ferrand France, 2004.
[44] Nicolas Pasquier, Yves Bastide, Rafik Taouil, and Lotfi Lakhal. Pruning closed itemset lattices for association rules. In BDA’1998 international conference on Advanced Databases, pages 177–196, 1998.
[45] Nicolas Pasquier, Yves Bastide, Rafik Taouil, and Lotfi Lakhal. Discovering frequent closed itemsets for association rules. In International Conference on Database Theory, pages 398–416. Springer, 1999.
[46] Nicolas Pasquier, Yves Bastide, Rafik Taouil, and Lotfi Lakhal. Efficient mining of association rules using closed itemset lattices. Information systems, 24(1) :25–46, 1999.
[47] Jian Pei and Jiawei Han. Constrained frequent pattern mining : a pattern-growth view. ACM SIGKDD Explorations Newsletter, 4(1) :31–39, 2002.
[48] Jian Pei, Jiawei Han, Runying Mao, et al. Closet : An efficient algorithm for mining frequent closed itemsets. In ACM SIGMOD workshop on research issues in data mining and knowledge discovery, volume 4, pages 21–30, 2000.
[49] Gregory Piateski and William Frawley. Knowledge discovery in databases. MIT press, 1991.
[50] Uta Priss. Formal concept analysis in information science. Arist, 40(1) :521–543, 2006.
[51] Ahmed Samet, Eric Lefevre, and Sadok Ben Yahia. Mining frequent itemsets in evidential database. In Knowledge and Systems Engineering, pages 377–388. Springer, 2014.
[52] Ashok Savasere, Edward Robert Omiecinski, and Shamkant B Navathe. An efficient algorithm for mining association rules in large databases. Technical report, Georgia Institute of Technology, 1995.
[53] Gerd Stumme, Rafik Taouil, Yves Bastide, Nicolas Pasquier, and Lotfi Lakhal. Computing iceberg concept lattices with titanic. Data & knowledge engineering, 42(2) :189–222, 2002.
[54] Laszlo Szathmary, Amedeo Napoli, and Sergei O Kuznetsov. Zart : A multifunctional itemset mining algorithm. 2006.
[55] Sondess Ben Tekaya, Sadok Ben Yahia, and Yahia Slimani. Algorithme de construction d’un treillis des concepts formels et de détermination des générateurs minimaux. Revue Africaine de la Recherche en Informatique et Mathématiques Appliquées, 3 :171–193, 2005.
[56] Takeaki Uno, Tatsuya Asai, Yuzo Uchida, and Hiroki Arimura. Lcm : An efficient algorithm for enumerating frequent closed item sets. In FIMI, volume 90, 2003.
[57] Rudolf Wille. Restructuring lattice theory : an approach based on hierarchies of concepts. In Ordered sets, pages 445–470. Springer, 1982.
[58] Sadok Ben Yahia and Engelbert Mephu Nguifo. Emulating a cooperative behavior in a generic association rule visualization tool. In International Conference on Tools with Artificial Intelligence ICTAI, volume 110. CEUR-WS.org, 2004.
[59] Matei Zaharia, Mosharaf Chowdhury, Michael J Franklin, Scott Shenker, and Ion Stoica. Spark : Cluster computing with working sets. HotCloud, 10(10-10) :95, 2010.
[60] Mohammed J Zaki and Ching-Jui Hsiao. Charm : An efficient algorithm for closed itemset mining. In Proceedings of the 2002 SIAM international conference on data mining, pages 457–473. SIAM, 2002.
[61] Mohammed Javeed Zaki. Scalable algorithms for association mining.* IEEE Transactions on Knowledge and Data Engineering*, 12(3) :372–390, 2000.
[62] Mehdi Zitouni, Reza Akbarinia, Sadok Ben Yahia, and Florent Masseglia. Massively distributed environments and closed itemset mining : The dcim approach. In International Conference on Advanced Information Systems Engineering, pages 231–246. Springer, 2017.

Bibliography62

The reference list from the paper itself. Each links out to its DOI / PubMed record.

1[1] Rakesh Agrawal, Tomasz Imielinski, and Arun Swami. Mining association rules between sets of items in large databases. In Acm sigmod record , volume 22, pages 207–216. ACM, 1993.
2[2] Rakesh Agrawal, Ramakrishnan Srikant, et al. Fast algorithms for mining association rules. In Proc. 20th int. conf. very large data bases , VLDB, volume 1215, pages 487–499, 1994.
3[3] Suad Alramouni and Jae Young Lee. Darci : Distributed association rule mining utilizing closed itemsets. CSIT 2006 computer science and information technology , 2006.
4[4] Colin Atkinson, Dirk Draheim, and Verena Geist. Typed business process specification. In 2010 14th IEEE International Enterprise Distributed Object Computing Conference (EDOC) , pages 69–78. IEEE, 2010.
5[5] Dagmar Auer, Verena Geist, and Dirk Draheim. Extending BPMN with submit/responsestyle user interaction modeling. In IEEE Conference on Commerce and Enterprise Computing (CEC) , pages 368–374. IEEE, 2009.
6[6] Sarra Ayouni, Sadok Ben Yahia, and Anne Laurent. Extracting compact and information lossless sets of fuzzy association rules. Fuzzy Sets and Systems , 183(1) :1–25, 2011.
7[7] M Barbut and B Monjardet. L’ordre et la classification, algèbre et combinatoire, tome ii. paris, hachette, 1970. Google Scholar .
8[8] Marc Barbut and Bernard Monjardet. Ordre et classification. Paris : Hachette Université , 1970.

TL;DR

Contribution

Findings

Abstract

Peer Reviews

Videos

Taxonomy

Remerciements

Dédicace

Table des matières

Table des figures

Liste des tableaux

Introduction générale

Contexte et problématique

Organisation du mémoire

Chapitre 1 Notions de base

1.1 Introduction

1.2 Extraction des motifs

Base de transactions

Motif ou Itemset

Treillis des motifs

Supports d’un motif

Correspondance de Galois[23]

Motif fréquent-rare[1]

1.3 Analyse de concepts formels

Concept formel

Classe d’équivalence

Générateur minimal

Treillis de concepts formels (de Galois)

Contrainte anti-monotone/monotone

Idéal d’ordre

Filtre d’ordre

Bordure positive

Bordure négative

Opérateur de fermeture

Types de motifs fréquents

Motif fermé fréquent

Motif fréquent maximal

1.4 Conclusion

Chapitre 2 État de l’art

Introduction

2.1 Exploration séquentielle des motifs

2.1.1 Algorithmes d’extractions séquentielles des motifs fréquents

2.1.1.1 Algorithme Apriori

2.1.1.2 Algorithme Eclat

2.1.1.3 AlgorithmeFP-Growth

2.1.1.4 Algorithme SON

2.1.2 Discussion

2.1.3 Algorithmes d’extractions séquentielles des motifs fermés fréquents

2.1.3.1 Algorithme Close

2.1.3.2 Algorithme A-Close

2.1.3.3 Algorithme LCM

2.1.3.4 Algorithme CLOSET

2.1.3.5 Algorithme TITANIC

2.1.3.6 Algorithme Prince

2.1.3.7 Algorithme ZART

2.1.4 Discussion

2.2 Extraction parallèle des itemsets

2.2.1 Extraction des motifs fréquents en parallèle

2.2.1.1 Algorithme Parallel Apriori Algorithm

2.2.1.2 Algorithme Parallel SON

2.2.1.3 Algorithme Parallel Eclat

2.2.1.4 Algorithme PFP -Growth

2.2.2 Extraction des motifs fermés fréquents en parallèle

2.2.2.1 Algorithme PLCM

2.2.2.2 Algorithme DARCI

2.2.3 Discussion

2.3 Classification des algorithmes distribués d’extraction des motifs fréquents et des motifs fermés fréquents

2.4 Conclusion

Chapitre 3 Une nouvelle approche pour l’extraction des itemsets fermés fréquents

3.1 Introduction

3.2 Principe de l’approche

3.2.1 présentation du paradigme "Diviser pour régner"

3.3 Conception globale de l’approche UFCIGs-DAC

3.4 Conception détaillée de l’approche

3.4.1 Phase1

3.4.2 Phase 2

3.4.2.1 Présentation de l’algorithme UFCGs-DAC

3.4.2.2 Description de l’algorithme principal de l’approche UFCIGs-DAC

3.4.2.3 Description détaillée des différentes algorithmes de l’approche UFCIGs-DAC