February 16, 2019 4:40 am

Modèles de co-clustering

Posted In: Uncategorized
By:

Voici le cadre technique pour savoir comment cela fonctionne: en règle générale, les données sont stockées dans une matrice de contingence ou de co-occurrence C où les lignes et les colonnes de la matrice représentent les types de données à co-cluster. Une entrée CIJ de la matrice signifie la relation entre le type de données représenté par la ligne i et la colonne j. le co-clustering est le problème de dérivation de sous-matrices de la matrice de données plus grande en regroupant simultanément les lignes et les colonnes de la matrice de données. Les noms tels que le bi-clustering, le clustering bi-dimensionnel et le regroupement de blocs, entre autres, sont souvent utilisés dans la littérature pour faire référence à la même formulation de problème. La relation entre ces modèles de cluster et d`autres types de clustering tels que le clustering de corrélation est discutée dans. [15] 5.2.3. Modèles de blocs latents gaussiens parsimonieux 161 4.3.3. Co-clustering avec le coefficient Phi-squared 124 4.3.4. Co-clustering avec l`information mutuelle 129 le co-clustering est également utilisé dans les applications biomédicales pour classer les symptômes des patients et les diagnostics médicaux. Le diagnostic assisté par ordinateur traduit les symptômes d`un patient et les données de soutien en probabilités. Le Biclurenforcement est une méthode d`exploration de données qui permet le regroupement simultané de deux lignes et colonnes de variables d`une matrice.

Un bicéclat correspond typiquement à une sous-matrice qui présente une certaine tendance cohérente. Une tâche traditionnelle pour les variables catégorielles consiste à déterminer des sous-graphes lourds qui correspondent à des biclusters significatifs, c.-à-d. des biclusters avec des valeurs de co-occurrence élevées. Bien que des algorithmes ont été proposés pour extraire des sous-graphes biclusters, ils présentent des connaissances limitées sur l`importance pertinente du bicéclat individuel, ainsi que l`importance des variables pour chaque bicluster. Pour résoudre les problèmes ci-dessus, il y a eu plusieurs tentatives d`employer la méthode bayésienne ou des modèles de mélange utilisant la théorie de l`information. Bien qu`ils puissent classer les biclusters et les variables pour le bicluster spécifique; ils ne visent pas à extraire des sous-graphes lourds biclusters. De plus, ces modèles forcent la recherche de biclusters de telle sorte que chaque cellule de la matrice doive s`engager dans un certain bicéclat. Nous essayons d`atténuer ces contraintes en employant des modèles à deux rubriques. En particulier d`abord, nous proposons un modèle de rubrique d`allocation de Dirichlet latent (LDA) généralisé qui obtient des sujets doubles, c.-à-d., des sujets dans des directions opposées: rubriques de ligne et de colonne.

Pour obtenir de meilleurs sujets, il applique le renforcement des articulations, c`est-à-dire l`examen des rubriques de colonne tout en créant des rubriques de ligne, et inversement. Des sous-graphes lourds biclusters, l`Association de co-produit élevé, sont extraits utilisant des seuils. Nous démontrons que notre modèle de co-clustering proposé pour Dual topic est utile pour obtenir des sous-graphes lourds biclusters en testant des données simulées, un corpus de texte et des données d`expression génique de microarray. Les résultats expérimentaux montrent que les biclusters extraits par co-clustering pour le modèle Dual topic sont meilleurs que les modèles traditionnels de biclutimation. Il y a un débat en cours sur la façon de juger les résultats de ces méthodes, car le bicouement permet le chevauchement entre les clusters et certains algorithmes permettent l`exclusion des colonnes/conditions difficiles à concilier.

Valid XHTML 1.0 Transitional     © 2011 Labadie Environmental Organization — All Rights Reserved.
Designed by Premium WordPress® Themes     Powered by WordPress®