写点什么

大数据

286 人感兴趣 · 1931 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/92/921e184a183b85452af755b672b8c59d.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

CSR 格式如何更新? GES 图计算引擎 HyG 揭秘之数据更新

HyG图计算引擎采用CSR格式来存储图的拓扑信息,CSR格式可以将稀疏矩阵的存储空间压缩,进而大大降低图的存储开销,同时具备访问效率高、格式易转化等优点。

https://static001.geekbang.org/infoq/b4/b42cc1224f85ad7c6ed7933db1e0ea74.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Flink 流批一体在 Shopee 的大规模实践

Shopee 研发专家李明昆,在 Flink Forward Asia 2022 流批一体专场的分享。

https://static001.geekbang.org/infoq/58/5802a602e7fb3296e878ba52c229714a.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

数仓架构“瘦身”,Hologres 5000CU 时免费试用

Hologres基于创新的HSAP架构,可以将您原先数仓架构中的OLAP系统(Greenplum、Presto、Impala、ClickHouse)、KV数据库/Serving系统(HBase、Redis)统一在一个大数据计算引擎中,并提供快速的离线实时一体化分析能力。

https://static001.geekbang.org/infoq/de/de0ce0f3ba52f957e6fc85793a0742c8.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

大文件上传功能在标签服务的简单应用和代码实现

各位看官大家好,今天给大家分享的又是一篇实战文章,希望大家能够喜欢。

https://static001.geekbang.org/infoq/4d/4d468209e017481651238833eac94a7d.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

MaxCompute 中如何处理异常字符

在处理数据时,当业务数据同步至MaxCompute后,会产生一些含异常字符的脏数据,比如字段中包含了一个不可见字符,在DataWorks中显示不出来,但在BI界面又会显示成其他字符,影响整体观感。这种情况,通常我们的解法是,将异常的字符洗掉。

https://static001.geekbang.org/infoq/25/25a6156021fd48408588d4c37aa2f9f8.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

火山引擎 DataLeap:一个易用、高效的数据目录,是如何搭建的?

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群

https://static001.geekbang.org/infoq/4f/4f366de46d3b6f915d9d3d4c0b4ada7b.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

美团买菜基于 Flink 的实时数仓建设

美团买菜实时数仓技术负责人严书,在 Flink Forward Asia 2022 实时湖仓专场的分享。

政务云建设提速,天翼云夯实智慧政务数字底座

5月30日,2023数字政府高质量发展论坛在北京举办,大会聚焦业界关注的政策、技术、应用、标准、发展等议题,邀请政产学研各界共议政府数字化转型之路。现场重磅发布了由中国电信联合中国信息通信研究院云计算与大数据研究所共同撰写的《安全可信政务云一体化

https://static001.geekbang.org/infoq/56/561aa3f06897591e71ba428718558ceb.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

CloudOps 自动化运维套件助力企业更好上云、用云、管云

2023年6月1日,阿里云峰会·粤港澳大湾区——企业上云与飞天云上创新论坛中,阿里云弹性计算高级产品专家马小婷带来了云上自动化运维最佳实践的相关分享,以及使用阿里云ECS产品的方法和技巧,帮助众多用户更轻松、更安全、更低成本的使用ECS。

https://static001.geekbang.org/infoq/0c/0c0353c376d3de9a34fe439eb7c45e7e.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

正式启动|2023 中国高校计算机大赛—大数据挑战赛火热报名中!

清华大学「中国高校计算机大赛——大数据挑战赛」火热报名中,20万奖金池,外加清华科研项目实习机会、云智慧绿色招聘通道等丰厚奖励,快来报名参与吧!

https://static001.geekbang.org/infoq/8e/8ef03187590c2f8cd54ea689afc3d580.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

一篇文章带你入门 HBase

HBase(Hadoop Database)是一个开源的、分布式的、面向列的NoSQL数据库,它是构建在Hadoop之上的。HBase旨在提供可靠的、高性能的、可扩展的存储和访问大规模数据集的能力。

https://static001.geekbang.org/infoq/21/212ead1cefcb8d6ae2b32ccf9e6d3f1e.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Meetup 报名|06.17 StarRocks & Friends 与你相约上海

StarRocks & Friends 是由 StarRocks 社区发起的城市线下 meetup,旨在联合社区与行业的专家小伙伴们分享基于 StarRocks 的最佳实践、大数据分析的前沿技术和 StarRocks 生态融合等热门话题。不远千里奔赴,只为与你相聚。这个夏天,让我们以技术会友,一同体

https://static001.geekbang.org/infoq/49/49a87b32059e9af7a5af7db7a6043a3f.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

活动预告|6 月 15 日 Apache Paimon Meetup,深入解读 Apache Paimon 0.4.0 !

活动预告|6月15 日 Apache Paimon Meetup,深入解读 Apache Paimon 0.4.0 !

https://static001.geekbang.org/infoq/59/59103861fefb52163c8fea7fdf1cfdd8.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

火山引擎 DataLeap:从短视频 APP 实践来看,如何统一数据指标口径?

短视频正在成为越来越多人发现世界的窗口,其背后的创作者生态建设是各大短视频APP不可忽视的重要组成部分。

https://static001.geekbang.org/infoq/a8/a87ba3cac768bc81f739443331a0c0c7.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

揭秘新一代云数仓技术架构与最佳实践

从传统数仓到湖仓一体,历经三十多年发展,技术的浪潮快速迭代,以云原生数仓为中心的现代数据栈时代已然到来。

https://static001.geekbang.org/infoq/31/315cb3a9b456a7271f5f799228090011.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

揭秘阿里云 Flink 智能诊断利器——Fllink Job Advisor

解决用户在使用Flink全托管产品全生命周期中可能遇到的各种难题,提升用户使用Flink的体验,降低对人工服务的依赖。

https://static001.geekbang.org/infoq/a4/a47db75f0cde3a8444556dba5080efe1.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

百度离线资源治理

本文将介绍百度MEG(移动生态事业群组)在离线资源降本增效方面用到的一些技术以及取得的一些成果。

https://static001.geekbang.org/infoq/b1/b183d85f35063c07cd39c5fd26117834.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

一份配置轻松搞定表单渲染,配置式表单渲染器在袋鼠云的实现思路与实践

本文将为大家详细介绍配置式表单渲染器在袋鼠云的实现思路与实践,在对接新的数据源时,可以不再关心表单渲染相关问题,从数据源中心新建数据源一直到数据源在数据同步模块的应用,全链路的表单都可以通过配置化的方式解决。

Maxcompute 数据上云一致性比对

当把数据集成到Maxcompute上后,用户其实最关心的一个技术问题就是集成数据是否与源端一致,本文中介绍的一致性方案比对方案是基于阿里云多个大数据项目实际项目交付实践总结。

https://static001.geekbang.org/infoq/61/61dccd2679a5d2f560845700814e0e01.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

快手 Flink 的稳定性和功能性扩展

快手技术专家刘建刚,在 Flink Forward Asia 2022 生产实践专场的分享。

https://static001.geekbang.org/infoq/cd/cdfc93885cf344aac2d419c536582733.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

SeaTunnel StarRocks 连接器的使用及原理介绍

作者:毕博,马蜂窝数据平台负责人,StarRocks 活跃贡献者 & Apache SeaTunnel 贡献者

https://static001.geekbang.org/infoq/b6/b690b053786239869704a0cde070877d.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

带你走进大数据 | 写给小白的大数据指南

本文将介绍数大数据与数据分析之间的关系,并追溯大数据的发展历史,本文重点内容将介绍大数据有关内容。在当今数字化时代,数据扮演着无比重要的角色。由于硬件设备和软件的发展,产生了海量的数据,挑战着我们处理和理解信息的能力。

https://static001.geekbang.org/infoq/e1/e1eb1772a053910debb2d8fb671f283a.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

5 分钟在 k8s 上可视化搭建 Kylin5

使用CloudEon可以极快地在Kubernetes上搭建Kylin5需要的HDFS、YARN、Hive、Zookeeper等组件

大数据_大数据技术文章_InfoQ写作社区