“3+3”看华为云 FusionInsight 如何引领“数据新基建”持续发展
摘要:一个统一的现代化的数据基建需要三类架构来实践三种不同的应用场景。
近期,美国知名科技企业风投机构A16Z总结出一套通用的技术架构服务,分为以下三种场景。
一、数据基建架构全景
数据流向显示,左侧的数据源经数据处理(批量、实时流、事件流等)将数据统一汇聚到数据湖或数仓中,通过数据科学或机器学习进行AI分析,通过AD Hoc和实时分析为客户或APP提供敏捷的结果数据。华为云FusionInsight为政企客户提供一站式全场景的云原生数据湖,围绕政企客户在采存算管用等数据全生命周期提供领先的整体解决方案,方案主要包含MRS大数据、DWS数据仓库、一站式数据治理中心等云服务,助力政企客户释放海量数据价值!其架构如下:
上千个大型客户已经基于FusionInsight架构构建其大数据应用平台。
A16Z经过调查相关业内人士得出一个结论:一个统一的现代化的数据基建需要三类架构来实践三种不同的应用场景。
现代化 BI 架构
多模式数据处理架构
人工智能和机器学习架构
1.现代化 BI 架构
这是对小型数据团队和预算有限的企业的默认选项,企业逐渐从传统数仓迁移到这个架构,利用云的灵活度和可扩展性。
应用场景包含:报表,仪表盘,自助式分析,主要使用SQL来分析结构化数据。
优势:前期投入低,启动快,市场上人才储备充分。
缺陷:对于数据场景复杂的团队不适用,比如需要数据科学,机器学习,或者实时场景。
传统的小型数据团队其面对的数据基本以核心交易系统的RDBMS结构化数据为主,数据量在GB级,普通的数仓都可支持其数据的分析挖掘,无需大数据支撑就可完成,这种处理方式在2008年时的大型企业中也较为常见,其数据量较小基本上使用数仓就可完成日常的数据大屏、数据分析等工作。这是对小型数据团队和预算有限的企业的默认选项,利用云的灵活度和可扩展性,企业逐渐从传统数仓迁移到这个架构。
华为云FusionInsight可提供企业级数仓,DWS目前服务于全球1000+大型客户,广泛应用于政府、金融、运营商、大企业等领域。产品始于2011年,经历将近10年技术积累,已取得180+国内外授权专利。DWS可支撑日常的结构化数据分析,其具有如下特点:
大规模:GaussDB(DWS)基于分布式架构,在保证ACID的基础下,突破大规模分布式场景下集群通信(Multi-Streams)、逻辑集群(Multi-Groups)技术,具备2048节点扩展能力。值得一提的是,逻辑集群可将ODS、数据仓库、数据集市、自助分析等不同业务负载,有机的统一起来,有效隔离、有效共享。
高性能:GaussDB(DWS)具备多层级全并行计算引擎。支持多个物理节点并行计算,在一个物理节点内部,支持多个CPU核心并行计算,在一个CPU核心的指令序列中,支持SIMD指令,实现一个指令同时操作多条数据。将并行能力发挥到极致,为业务提供极致的性能。另外,Multi-Cores技术使得在鲲鹏上性能相比同代x86芯片提升30%以上。
高可靠:GaussDB(DWS)具备多层级容灾能力,在AZ、集群、节点及进程出现软硬件异常的情况下能够平滑处理。另外,Server端Multi-Retries技术大幅减少故障失败的业务感知;其次,在棘手的亚健康问题上,GaussDB(DWS)也有完善的检测和处理机制;最后,离线扩容、半在线扩容、在线扩容技术能够从容应对客户不同的扩容需求。
华为云DWS数据仓库技术核心是分布式架构,过去十年一直围绕分布式构筑竞争力。未来,GaussDB(DWS) 数据仓库将基于分布式架构持续演进,围绕云、大数据、5G/IoT、人工智能,构筑下一代开放的、全场景分析型数据库。
2.多模式数据处理架构
这个架构通常用于大型企业和科技公司,用来满足复杂的数据需求场景。
应用场景包括:BI及高级功能,包括AI/ML,低延时分析,大规模数据转换,多类型的数据处理(文字,图像和视频)使用各种语言(JAVA/SCALA,Python和SQL)
优势:能灵活的支持各种应用,工具和UDF和部署环境。在大规模数据集上的成本优势。
缺陷:不适合小型数据团队,维护这套架构需要较多的时间,费用和专家资源投入。
在现实世界中,需求侧觉醒的同时,在平行的赛博世界中,技术的进化也一直在持续。自从2006年Apache Hadoop架构发布以来,到2011年,企业逐渐采用Hadoop架构演进出来的开源或商用大数据软件,开启了离线计算时代;2012年,以Spark等为核心的流式计算开启了实时计算时代,在线分析和实时计算的场景也开始逐渐应用,但这一阶段的使用者主要是开发人员;2013年至今,随着数据的激增,大数据平台演进成了融合大数据平台,而随着AI等技术的突飞猛进,从数据分析到数据挖掘,大数据平台向着智能化进行演进。
权威调研机构IDC表示,“数字化时代下的竞争正在加速,市场参与者要么通过数字化转型成为领头企业形成规模化优势,要么将逐渐被市场淘汰”。随着5G、AI、IoT等技术的迅猛发展,到2025年,全球数据量将从2018年的33ZB快速增长到180ZB,全球数字经济总量将达25万亿,CEO也越来越重视,参与度高达67%,数字化技术让投资回报率达到6.7倍,政企数字化进程为64%。综上可知,数字化转型是政企充分释放复杂场景用数需求的必经之路。
数字底座如此关键,那么大数据作为主要承载技术,自然是其重中之重。华为云FusionInsight提供MRS数据湖服务,让政企客户在一个大、快、融、稳的云原生数据湖架构下持续演进:
1)大:支持最大2万+节点大规模集群,可集群联邦无限扩容;
2)快:可T+0实时增量更新同步,可毫秒级高效实时OLAP,缩短分析链路,实现实时数据湖;
3)融:通过HetuEngine打破多引擎、多源、跨地域的限制,消除数据孤岛,统一SQL接口融合分析,简化用数,全民BI;
4)稳:支持在线滚动升级,无需拆集群、搬应用,使客户一个架构持续演进,十年无忧!
5)云原生数据湖:通过统一元数据,让数据全局可视;通过存算分离的企业级EC,降低TCO。
华为云大数据,自2008 年开始投入研究,最早于2014年推出商用产品,秉承开源开放的心态,践行“平台+生态”战略,华为云踩对了历史的进程,围绕政企大数据全生命周期,华为云FusionInsight是一个技术领先的云原生智能数据湖,是华为云三大使能之数据使能方案的坚实数据底座。
3. 人工智能和机器学习架构
应用机器学习的公司已经在使用这套架构的一部分技术。深度使用机器学习的企业会部署整套架构,甚至自研新的工具。
场景:数据驱动的内外部应用程序,场景有实时的或批处理的。
优势:完全掌控整体的开发过程,将机器学习打造为企业核心且长期的能力。
缺陷:不适合尚在探索机器学习,只为小范围的内部应用场景。大规模应用机器学习仍是当前最大的数据挑战
华为云ModelArts为政企客户提供一站式的AI训练和推理平台,其具有如下特点:
支持AI全栈、全流程、全场景开发训练
支持资源统一管理、统一池化调度
支持业界主流引擎和自研引擎,实现零成本迁移
提供多维度功能特性,满足各类用户
在近日发布的《IDC MarketScape: 中国大数据管理平台厂商评估,2020》(以下简称IDC大数据报告)报告中,对中国主流大数据厂商从能力、战略、市场份额三个维度进行了全面评估,华为云位居领导者象限领先位置,并在技术实力和市场份额两大维度双领先在技术上持续创新打磨之外,华为云FusionInsight也是“最懂行”的大数据解决方案:
在政府领域,国内50%的智慧城市都有华为云FusionInsight的孜孜不倦的身影,华为云大数据已支撑多个部委和各省市地区建设“大数据+政务”。在某市,华为云FusionInsight联合伙伴建成“一云二网三平台”,在统一的政务数据逻辑模型的指导下,针对民生、产业、政府的“痛点”和“难点”,从构建城市数据资源库为开端,以大数据分析支撑政府智慧决策,以建设智慧应用为抓手,打破信息孤岛,实现信息资源交换共享,在 “数聚惠民”、“数聚兴业”、“数聚善政”三大方面,发挥大数据的威力,支撑 “一号、一窗、一网” 政务服务,让简政放权、百姓办业务“最多跑一次”成为现实。
在金融领域,国内50%的TOP20金融客户(含银行、证券、保险等)均已使用华为云FusionInsight构建其大数据平台。某行使用华为云FusionInsight构建大数据基础平台,支撑了银行企业级数据湖、数据仓库、集团信息库为核心的“一湖两库”建设,承载了总行及各支行业务系统,支撑日常银行BI、AI、数据挖掘、数据分析等,实现了一份数据全局可用,免除数据搬迁,提升协同效率10倍,存储周期提升2倍,资源利用率最大可达90%,加速银行数字化转型进程。
在运营商领域,国内三大运营商均使用华为云FusionInsight构建其大数据平台。广东移动基于华为云FusionInsight,联合政企客户共同打造智慧电网、智慧交通、智慧港口、高清视频等系列标杆应用,打通数据全生命周期链路,实现对内业务支撑、对外应用赋能,全面支撑了各类政务、民生等大数据应用服务。
在交通领域,深圳地铁在6、10号线采用华为云FusionInsight构建大数据分析平台,打造领先的5G+大数据方案,并构建其数据资产中心和运行监控中心,承载地铁各业务系统,支撑设备健康、能耗管理、客流统计、线路中心级监控、应急决策和图像型火灾分析等线路级数据分析,数据分析效率从周级缩短至分钟级,实现高效运营,推动深圳步入更美好的全联接数字化轨道交通新时代…
除过在以上各行业的应用,在环境保护方面,青海绿能数据有限公司基于华为云FusionInsight构建了国内首个能源大数据创新平台,实现了规划辅助决策、用气象数据科学指导发电等创新业务,为上下游产业链企业提供25类47项数据服务,推动28座新能源场站实现了“无人值班、少人值守”,并有效支撑了青海“绿电15日”,以大数据为基石,建设绿色新青海,守护高原和谐生态。
同时,华为坚持“自己的降落伞自己先跳”,华为集团IT通过FusionInsight构建OneData大数据集群,实现大数据平台在大规模场景下的开拓,OneData集群其规模已至1万+节点;同时,实现了统一的数据管理服务,在菩提海UniDB产品中,通过逻辑统一方式,把50+物理分散的计算集群(Hadoop+MPP),基于五统一(数据安全,元数据目录,数据集成,数据访问,任务调度),整合成湖仓一体的架构,支撑上千个企业租户的PB级数据分析处理需求。一个基于FusionInsight MRS+DWS 的“+治理,+AI,+运营,+云”的融合数据底座(菩提海)已经在华为集团IT广泛使用,未来可期。
以上只是“冰山的一角”,华为云FusionInsight一方面不断深入理解客户不断发展的业务诉求,另一方面,持续技术创新并引领行业发展,商业诉求+技术创新双轮驱动行业可持续、高质量发展,“用数”助力客户商业成功!上面的论述已经充分证明,华为云是“懂行”的大数据领导者,真正让客户用好数、管好数、放心用。
据了解,截至2020 年10月底,华为云FusionInsight 智能数据湖已服务60+个国家和地区,3,000+客户,覆盖政府、金融、运营商、电力、传媒、医疗、教育、交通、油气、物流、零售、制造、互联网等行业。
版权声明: 本文为 InfoQ 作者【华为云开发者社区】的原创文章。
原文链接:【http://xie.infoq.cn/article/01d1d05655b9d0d87782cda22】。文章转载请联系作者。
评论