spark
3 人感兴趣 · 218 次引用
- 最新
- 推荐
在 Inteillj IDEA 中使用 Spark 操作 Hive
前面已经简单介绍过在windows下hadoop和hive环境搭建和基本使用。这次的Spark有点突兀,但是也可以先忽略,重要的是先在IDEA中安装bigData插件连接hadoop已经HDFS,而后再简单介绍使用Spark操作Hive。
Hive 和 Spark 分区策略剖析
随着技术的不断的发展,大数据领域对于海量数据的存储和处理的技术框架越来越多。在离线数据处理生态系统最ju代表性的分布式处理引擎当属Hive和Spark,它们在分区策略方面有着一些相似之处,但也存在一些不同之处。
流处理计算平台 StreamPark 2.0.0 重磅发布,首个 Apache 版本终于来了
Apache StreamPark 2.0.0 正式发布, 这是 StreamPark 加入 Apache 孵化器以来发布的第一个版本,也是一个重大功能更新的版本, 有超过 100 位 Contributor 贡献了超过 700 个 Pull Request,带来了诸多的新特性和改进修复.
Hadoop 及 Spark 分布式 HA 运行环境搭建
工欲善其事必先利其器,在深入学习大数据相关技术之前,先手动从0到1搭建一个属于自己的本地Hadoop和Spark运行环境,对于继续研究大数据生态圈各类技术具有重要意义。本文旨在站在研发的角度上通过手动实践搭建运行环境,文中不拖泥带水过多讲述基础知识,结
BIGO 如何做到夜间同时运行 2.4K 个工作流实例?
主要介绍了 BIGO 如何使用 DophinScheduler 来调度以 Spark 为主的多种类型的离线任务,以及为了满足业务需求、提升用户使用体验,在 DS 和 Spark 上所做的各种改进。
Spark 在 KaiwuDB 中的应用与实践
数据库面对大量数据复杂 OLAP 查询,性能出现局限性,无法满足用户 AP 方面的高性能要求。可借助 Spark 平台,融合了 KaiwuDB 分布式集群及列存存储的性能优势,定制了 Spark 工具,为用户提供一个高性能的 OLAP 解决方案,并满足了大数据生态的客户需求。
Spark 在 KaiwuDB 中的应用与实践
当数据库面对大量数据复杂 OLAP 查询时,性能出现局限性,无法满足用户 AP 方面的高性能要求。KaiwuDB 推出了此项解决方案:借助 Spark 平台,融合了 KaiwuDB 分布式集群及列存存储的性能优势,定制了 Spark 工具,为用户提供一个高性能的 OLAP 解决方案。
正式毕业!Apache Kyuubi 成为 Apache 基金会顶级项目!
2022年12月22日,Apache 软件基金会(ASF)官方宣布 Apache Kyuubi 正式毕业,成为顶级项目(TLP)。
Spark RDD 分区数与分区器源码解析
现如今Spark已经得到了几乎所有大数据企业的认可,而这些企业也迅速将自己的产品与Spark进行了紧密地集成。
多点 DMALL × Apache Kyuubi:构建统一 SQL Proxy 探索实践
伴随着国家产业升级的推进和云原生技术成熟,多点 DMALL 大数据技术也经历了从存算一体到存算分离的架构调整变迁。本文将从引入 Kyuubi 实现统一 SQL Proxy 的角度讲述这一探索实践的历程。
如何杜绝 spark history server ui 的未授权访问?
如何杜绝 spark history server ui 的未授权访问? 默认状况下,Spark history Sever ui 是没有任何访问控制机制的,任何用户只要知道 shs 对应的 url,就可以访问链接查看 spark 作业的运行状况。
比 DataX 快 20%!SeaTunnel 同步计算引擎性能测试全新发布
在相同测试环境下,最新发布的同步计算引擎SeaTunnel Engine均比DataX同步数据的速度更快。
线上 hive on spark 作业执行超时问题排查案例分享
分享一个某业务系统的线上 hive on spark 作业在高并发下频现作业失败问题的原因分析和解决方法
Spark on k8s 在阿里云 EMR 的优化实践
随着大数据技术的发展,Spark成为当今大数据领域最受关注的计算引擎之一。在传统的生产环境中,Spark on YARN成为主流的任务执行方式,而随着容器化概念以及存算分离思想的普及,尤其是Spark3.1版本下该模式的正式可用(GA),Spark on K8s已成燎原之势。
概述 Spark 主要特点
Spark是在MapReduce基础上产生的,它克服了MapReduce存在的性能低下、编程不够灵活等缺点。Spark作为一种DAG计算框架,其主要特点如下。
谈谈 spark 性能调优的方法
说到大数据,现在普遍使用的是hadoop和spark。而spark因其优越的性能优势,已经在逐步取代hadoop了。 spark固然好用,但其学习成本较高,配置项繁多。我们要用好spark,需要知道它的原理及特性。今天就来讲讲spark的性能调优方向。
SparkSQL on K8s 在网易传媒的落地实践
随着云原生技术的发展和成熟,大数据基础设施积极拥抱云原生是业内发展的一大趋势。网易传媒在 2021 年成功将 SparkSQL 部署到了 K8s 集群,并实现与部分在线业务的混合部署,到目前已经稳定运行了一年多。期间传媒联合杭研 Spark 内核团队和云计算团队对出现
开源无国界,从 openEuler Maintainer 到 Spark Committer 的贡献开源之路
2022年10月初,openEuler Maintainer 姜逸坤接受Apache Spark PMC邀请,正式成为Apache Spark Committer。