架构师训练营第十二周作业

用户头像
吴吴
关注
发布于: 2020 年 09 月 02 日

在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?



生物医学大数据广泛涉及人类健康相关的各个领域:临床医疗、公共卫 生、医药研发、医疗市场与费用、个体行为与情绪、人类遗传学与组学、社 会人口学、环境、健康网络与媒体数据。 大数据(bigdata)是指由于容量太大和过于复杂,无法在一定时间内用常规 软件对其内容进行抓取、管理、存储、检索、共享、传输和分析的数据集。

大数据具有“4V”特征:

1.数据容量(Volume)大,常常在 PB(1PB=250B)级以上;

2.数据种类(Variety)多,常常具有不同的数据类型(结构化、半结构化和非 结构化)和数据来源;

3.产生和更新速度(Velocity)快(如实时数据流),时效性要求高;

4.科学价值(Value)大,尽管利用密度低,却常常蕴藏着新知识或具有重要 预测价值。 人类已进人大数据时代。国际数据公司的研究结果表明,2011 年全球产 生的数据量高达 1.82ZB。2012 年 5 月,联合国发布了《大数据与人类发展: 挑战与机遇》白皮书,指出大数据是一个历史性机遇,人们可以使用极为丰 富的数据资源对社会经济进行前所未有的实时分析,帮助政府更好地响应社 会和经济运行。大数据受到越来越多的重视。欧美国家许多高校纷纷成立了数据科学研究 机构,开设了数据科学课程。Nature 和 Science 也分别于 2008 年和 2011 年推出了大数据专刊,对大数据带来的挑战进行讨论。作为最活跃的科学研 究领域之一,生物医学领域的大数据也备受关注。

生物医学大数据的来源: 以下因素促进了生物医学领域大数据的出现。

1.生命的整体性和疾病的复杂性。例如,严重威胁人类健康的慢性病多为 复杂性疾病,其发生具有复杂的遗传和分子机制,受到基因、环境及其交互 作用的影响,其病因学研究将产生大量的数据。

2.高通量技术的发展和基因组测序成本的下降。高通量测序技术可以对数 百万个 DNA 进行同时测序,使得对一个物种的转录组和基因组进行细致全 面的分析成为可能。随着人类基因组计划的完成和计算能力的快速发展,每 个基因组的测序成本已从数百万美元降低至数千美元(并且还将继续降低)。这 将产生海量测序数据。

3.医院信息化和 IT 业的迅速发展。人体本身就是生物医学大数据的一个重 要来源,随着医院信息化和 IT 业的迅速发展,越来越多的人体数据能够获得 储存和利用。例如,X 线、3D 核磁、乳腺 X 线、3DCT 扫描分别包括 30M、 150M、120M 和 1G 的数据量,至 2015 年美国平均每家医院需要管理 665T 的数据量。

4.生物医学大数据广泛涉及人类健康相关的各个领域:临床医疗、公共卫 生、医药研发、医疗市场与费用、个体行为与情绪、人类遗传学与组学、社 会人口学、环境、健康网络与媒体数据

生物医学大数据的应用

1.开展组学研究及不同组学间的关联研究。从环境、个体生活方式行为等 暴露组学,至个体细胞分子水平上的基因组学、表观组学、转录组学、蛋白 组学、代谢组学、宏基因组学,再到个体健康和疾病状态的表型组学等。利 用大数据将各种组学进行综合及整合,既能为疾病发生、预防和治疗提供全 面、全新的认识,也有利于开展个体化医学,即通过整合系统生物学与临床 数据,可以更准确地预测个体患病风险和预后,有针对性地实施预防和治疗。

2.快速识别生物标志物和研发药物。利用某种疾病患者人群的组学数据, 可以快速识别有关疾病发生、预后或治疗效果的生物标志物。在药物研发方 面,大数据使得人们对病因和疾病发生机制的理解更加深入,从而有助于识 别生物靶点和研发药物;同时,充分利用海量组学数据、已有药物的研究数据 和高通量药物筛选,能加速药物筛选过程。

3.快速筛检未知病原和发现可疑致病微生物。通过采集未知病原样本,对 病原进行测序,并将未知病原与已知病原的基因序列进行比对,从而判断其 为已知病原或与其最接近的病原类型,据此推测其来源和传播路线、开展药 物筛选和相应的疾病防治。

4.实时开展生物监测与公共卫生监测。公共卫生监测包括传染病监测、慢 性非传染性疾病及相关危险因素监测、健康相关监测(如出生缺陷监测、食品 安全风险监测等)。此外,还可以通过覆盖全国的患者电子病历数据库进行疫 情监测”,通过监测社交媒体或频繁检索的词条来预测某些传染病的流行。 例如,GoogleTrends 通过找寻“流感症状”和“流感治疗”之类搜索词 的峰值,在医院急诊流感患者增加之前就能对某些地区的流感做出预测。

5.了解人群疾病谱的改变。这有助于制定新的疾病防治策略。全球疾病负 担研究是一个应用大数据的实例,该研究应用的数据范围广、数据量巨大, 近 4700 台并行台式计算机完成了数据准备、数据仓库建立和数据挖掘分析 的自动化和规范化计算。其有关中国的研究发现:与 1990 年相比,2010 年造成中国人群寿命损失 的前 25 位病因中,慢性非传染性疾病显著上升,传染病则显著下降,说明慢 性非传染性疾病已经成为我国人群健康的主要威胁。

6.实时开展健康管理。通过可穿戴设备对个体体征数据(心率、脉率、呼吸 频率、体温、热消耗量、血压、血糖、血氧、体脂含量等)的实时、连续监测, 提供实时健康指导与建议,更好地实施健康管理。

7.实施更强大的数据挖掘。数据挖掘的任务包括关联分析、聚类分析、分 类分析、异常分析等。大数据挖掘能够增加把握度和发现弱关联的能力。



用户头像

吴吴

关注

还未添加个人签名 2018.03.02 加入

还未添加个人简介

评论

发布
暂无评论
架构师训练营第十二周作业