成果名称:云环境下基于正态分布的海量医疗数据集分割模型
成果简介:医疗和电子商务应用的激增产生了大量的数据,将人们带入了“大数据”时代。与传统的超大规模数据集不同,“大数据”一词不仅意味着数据量大,还表示数据生成的高速度。然而,目前的数据挖掘和分析技术面临着在短时间内处理大量数据的挑战。我们提出了在云环境中利用正态分布(ND)方法对大容量医疗数据进行拆分和处理的方法,该方法可以在拆分数据集中提供代表性信息。基于ND的新模型包括两个阶段。第一阶段采用ND方法进行大数据集拆分处理,可以减少数据集的数量。第二阶段在云计算基础架构中实现基于 ND 的模型,用于分配拆分的数据集。实验结果表明,与传统方法相比,所提方法在不将数据拆分为小分区的情况下,效率显著提高。基于ND的方法可以生成具有代表性的数据集,为大数据处理提供高效的解决方案。分割后的数据集可以在云计算环境中并行处理。学校张浩澜老师以第一作者完成此项研究,于2020年发表在JCR一区的云计算旗舰期刊《IEEE Transactions on Cloud Computing》上。
图1.原始数据值的变化和基于糖尿病(左)、CASP(右)来源的分割数据值 - 平均, 标准差
图 2.云模拟器下使用多核应用程序对原始文件进行分区的资源利用率