数据湖

0 人感兴趣 · 19 次引用

  • 推荐
  • 最新
https://static001.geekbang.org/infoq/b7/b7d6089e468c590996a26f9b0afa1657.png?x-oss-process=image/resize,w_416,h_234

Ray 分布式计算框架详解

用户头像
lipi 2020 年 8 月 30 日

Ray 是 UC Berkeley RISELab 出品的分布式框架。为了应对 增强学习对大数据集实时计算的需求。 Ray 底层对于分布式计算的优化。尤其是采用了 Apache Arrow 的 plasma 内存数据架构性能非常优秀,Ray 的衍生项目 Modin 针对 Pandas 做了优化。值得深入研究。

https://static001.geekbang.org/infoq/47/47aeaca21169949f208b4b5e72dff018.png?x-oss-process=image/resize,w_416,h_234

嫌 OSS 查询太慢?看我们如何将速度提升 10 倍!

用户头像
苏锐 2020 年 5 月 12 日

本文详细对比了用来构建数据湖方案的 JuiceFS 和 OSS 的性能。JuiceFS 为 OSS 提速,Spark 查询提升 11 倍,写入提升 8 倍

数据平台、大数据平台、数据中台……你确定能分得清吗?

用户头像
华为云开发者社区 2020 年 8 月 13 日

造概念,在IT行业可不是一件陌生的事儿,中文博大精深,新名词、新概念往往简单准确,既可以被大众接受,又可以被专家把玩,真正做到雅俗共赏、各有趣味。近年来,数据中台之火爆,什么数据平台、数据中台、数据湖、数据集市等等,不同的叫法把大家绕的云里雾

https://static001.geekbang.org/infoq/b6/b6e6c1c98cb3e6d1732bde572e7ef2dd.jpeg?x-oss-process=image/resize,w_416,h_234

数据分析师应该了解的数据湖

用户头像
WindyQin 2020 年 4 月 22 日

数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。

3.7 亿条保单数据怎么分析?这个大数据平台有绝招

用户头像
华为云开发者社区 2020 年 8 月 25 日

受到新冠疫情影响,全球经济面临冲击,国内经济已进入复工复产有序发展的新常态阶段,企业想要实现持续增长需另寻突破点,越来越多的企业把视线转向了企业内部,希望通过推进精细化管理来实现降本增效。

银行大数据新玩法,构建“一湖两库”金融数据湖

用户头像
华为云开发者社区 2020 年 8 月 31 日

摘要:烟囱式的数据平台建设导致“数据孤岛”,“一湖两平台”的金融数据湖让大数据发挥最大的业务价值。

技术揭秘:华为云 DLI 背后的核心计算引擎

用户头像
华为云开发者社区 2020 年 8 月 27 日

摘要:介绍隐藏在华为云数据湖探索服务背后的核心计算引擎Spark,玩转DLI,,轻松完成大数据的分析处理。

https://static001.geekbang.org/infoq/0b/0b8c33655659436546bbd8050c50b89d.jpeg?x-oss-process=image/resize,w_416,h_234

数据湖引擎是什么鬼

用户头像
WindyQin 2020 年 5 月 9 日

数据湖引擎是一种开源软件解决方案或云服务,它通过一组统一的api和数据模型为分析工作负载的各种数据源提供关键功能。数据湖引擎解决了快捷访问、加速分析处理、保护和屏蔽数据、管理数据集以及提供跨所有数据源的统一数据目录等方面的关键需求。

微服务架构下,DLI 的部署和运维有何奥秘?

用户头像
华为云开发者社区 2020 年 8 月 28 日

摘要:探讨DLI两个问题:如何在生产环境中部署与运维实现快速迭代上线,如何实现监控告警来提升整体运维能力。

奈学:数据湖和数据仓库的区别有哪些?

用户头像
古月木易 2020 年 6 月 28 日

储存方面:数据湖中数据为非结构化的,所有数据都保持原始形式;存储所有数据,并且仅在分析时再进行转换。数据仓库就是数据通常从事务系统中提取,在将数据加载到数据仓库之前,会对数据进行清理与转换。

大数据管理:构建数据自己的“独门独院”

用户头像
华为云开发者社区 2020 年 9 月 7 日

摘要:海量数据浪涌促成大数据集群不断升级扩容,为减少数据搬迁、避免跨集群用数,大集群出现是发展的必然。

奈学:数据湖有哪些缺点?

用户头像
古月木易 2020 年 6 月 28 日

数据湖本身是一个中心化的存储,能够存储任意规模的结构化与非结构化数据。数据湖相比数据仓库有很多的优势,但大多是在理想状态下的,一旦执行起来还有很多技术挑战。

数据隔离、访问授权,用好大数据为什么这么难?

用户头像
华为云开发者社区 2020 年 8 月 27 日

摘要:如何保证企业大数据在满足各业务部门数据访问需求的同时又能精细化保障数据访问安全、避免数据泄露是每个企业大数据资产管理者必须关注的话题。

数据湖应用解析:Spark on Elasticsearch 一致性问题

用户头像
华为云开发者社区 2020 年 7 月 21 日

摘要:脏数据对数据计算的正确性带来了很严重的影响。因此,我们需要探索一种方法,能够实现Spark写入Elasticsearch数据的可靠性与正确性。

GaussDB for DWS:内存自适应控制技术总结

用户头像
华为云开发者社区 2020 年 7 月 15 日

在SQL语句复杂、处理数据量大的AP场景下,单个查询对内存的需求越来越大,多个语句的并发很容易将系统的内存吃满,造成内存不足的问题。为了应对这种问题,GaussDB for DWS引入了内存自适应控制的技术,在上述场景下能够对运行的作业进行内存级的管控,避免高

奈学:数据湖和数据仓库的区别有哪些?

用户头像
奈学教育 2020 年 6 月 28 日

储存方面:数据湖中数据为非结构化的,所有数据都保持原始形式;存储所有数据,并且仅在分析时再进行转换。数据仓库就是数据通常从事务系统中提取,在将数据加载到数据仓库之前,会对数据进行清理与转换。

有了数据湖探索服务,企业决策“新”中有数

用户头像
华为云开发者社区 2020 年 9 月 19 日

摘要:全托管Serverless服务DLI就像是我们日常使用的滴滴共享打车,我们不再需要为购买和保养私家车而支出固定成本。

奈学:数据湖有哪些缺点?

用户头像
奈学教育 2020 年 6 月 28 日

数据湖本身是一个中心化的存储,能够存储任意规模的结构化与非结构化数据。数据湖相比数据仓库有很多的优势,但大多是在理想状态下的,一旦执行起来还有很多技术挑战。

网易:Flink + Iceberg 数据湖探索与实践

用户头像
Apache Flink 2020 年 10 月 23 日

今天主要和大家交流的是网易在数据湖 Iceberg 的一些思考与实践。从网易在数据仓库建设中遇到的痛点出发,介绍对数据湖 Iceberg 的探索以及实践之路。

数据湖_数据湖资料文章-InfoQ写作平台