资源类型:
收录情况:
◇ 统计源期刊
◇ 北大核心
◇ CSCD-C
文章类型:
机构:
[1]昆明理工大学信息工程与自动化学院,昆明,650500
[2]昆明理工大学附属医院,云南省第一人民医院消化科,昆明650532
云南省第一人民医院
[3]昆明市延安医院,昆明医科大学附属延安医院急诊科,昆明650051
出处:
ISSN:
关键词:
LDA模型
Gibbs抽样
蒙特卡洛算法
系统聚类
K-Means聚类
摘要:
微生物菌群结构的异质性在影响宿主健康与疾病等方面有着十分重要的作用.对于菌群结构的时间与空间尺度异质性研究主要有非监督学习算法以及监督学习算法.由于菌群数据特性与文本数据特性之间的相似性,本文采用非监督学习的LDA概率话题模型对菌群结构的时间异质性进行研究,并与系统聚类和K-Means聚类这两种方法进行比较.采用LDA模型折叠Gibbs抽样的蒙特卡洛算法对两种数据源北平顶猴(Macaca leonina)阴道菌群(MVB)和轻微型肝性脑病(MHE)菌群的时间异质性OTUs数据集进行了分析.用LDA模型分别将MVB和MHE数据源中的27个样本和77个样本的OTUs数据集分为6个Topic和4个Topic.这与系统聚类和K-Means聚类划分成的簇数目(分别为5,3与4,3)有所不同.此外,实验表明结合MVB样本间生理数据-pH和MHE中样本α多样性,pH和α值的分类相似性更能与LDA模型的样本分类特性保持一致.因此,LDA在样本的聚集程度上更能精确地对OTUs数据集进行分类.更为重要的是,LDA模型还可以鉴定出每个Topic中具有代表性的OTUs.与系统聚类和K-Means聚类方法相比较,LDA模型不仅能更为有效地量化菌群结构的异质性,还能鉴定出相对应影响异质性的OTUs.
基金:
国家自然科学基金(81260077,81560107,11265007)
第一作者:
第一作者机构:
[1]昆明理工大学信息工程与自动化学院,昆明,650500
共同第一作者:
通讯作者:
通讯机构:
[2]昆明理工大学附属医院,云南省第一人民医院消化科,昆明650532
[3]昆明市延安医院,昆明医科大学附属延安医院急诊科,昆明650051
推荐引用方式(GB/T 7714):
王侠林,左赞,周兰平,等.基于概率话题模型的微生物菌群结构研究[J].中国科学:生命科学.2017,47(11):1220-1234.