- 博客(26)
- 资源 (2)
- 论坛 (1)
- 收藏
- 关注
转载 MapReduce任务参数调优
http://blog.javachen.com/2014/06/24/tuning-in-mapreduce/本文主要记录Hadoop 2.x版本中MapReduce参数调优,不涉及Yarn的调优。Hadoop的默认配置文件(以cdh5.0.1为例):core-default.xmlhdfs-default.xmlmapred-default.xml说明:
2016-09-23 15:05:46
576
转载 Hive窗口和分析函数[RANK()、DENSE_RANK()、ROW_NUMBER()]
row_number()的使用方法 及原博主相关文章。Analytics functionsRANK()、DENSE_RANK()、ROW_NUMBER()使用示例:select calling_nbr,called_nbr,count, RANK() OVER (PARTITION by calling_nbr order by count desc) ra
2016-09-23 14:48:25
1310
原创 git的使用
在项目文件:1$ git init2Administrator@pgos MINGW32 /f/anPro/mysql1 (master)$ git add --all$ git commit -m "put in 2016-09-22"3Administrator@pgos MINGW32 /f/anPro/mysql1 (master)
2016-09-22 15:11:48
389
转载 Spark面对OOM问题的解决方法及优化总结
转载请保持完整性并注明来源链接: http://blog.csdn.net/yhb315279058/article/details/51035631 Spark中的OOM问题不外乎以下两种情况map执行中内存溢出shuffle后内存溢出 map执行中内存溢出代表了所有map类型的操作,包括:flatMap,filter,mapPatitions等。shuffl
2016-09-22 10:58:13
256
转载 spark 内存管理
从Spark 1.6版本开始,Spark采用Unified Memory Management这样一种新的内存管理模型。Spark中的内存使用分为两部分:执行(execution)与存储(storage)。执行内存主要用于shuffles、joins、sorts和aggregations,存储内存则用于缓存或者跨节点的内部数据传输。在Spark 1.6之前,这两部分内存的分配是静态的,以配
2016-09-22 10:36:19
346
转载 Apache Spark Jobs 性能调优
Spark 是如何执行程序的选择正确的 Operator什么时候不发生 Shuffle什么情况下 Shuffle 越多越好二次排序结论调试资源分配调试并发压缩你的数据结构数据格式转载地址: http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-1/当你开始编写 Apac
2016-09-21 18:00:49
329
转载 Spark性能优化-------shuffle调优
影响一个Spark作业性能的因素,主要还是代码开发,资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占到一小部分而已。负责shuffle过程的执行,计算和处理的组件主要就是ShuffleManager。SortShuffleManager运行原理SortShuffleManager的运行机制主要分为两种,一种是普通运行机制,另一种是bypass运行机制,
2016-09-21 17:56:31
1096
转载 Spark性能优化-------开发调优
开发调优,知道Spark基本开发原则,包括:RDD lineage设计,算子的合理使用,特殊操作的优化等。原则一:不要对同一份数据重复创建RDD。原则二:尽量复用同一个RDD。原则三:对多次使用的RDD进行持久化对多次使用的RDD进行持久化,此时Spark就会根据你的持久化测量,将RDD的数据保存到内存或磁盘中。Spark的持久化级别:MEMORY_ON
2016-09-21 17:53:39
394
转载 Spark性能优化-------资源调优
为作业配置合适的资源,Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。Spark作业基本运行原理X使用spark-submit提交一个Spark作业后,这个作业就会启动一个对应的Driver进程,根据使用的部署模式(deploy-mode)不同,Driver进程可能在本地启动,也可能在集群中某个工作节点上启动。Driver进程本身会根据设置
2016-09-21 17:50:58
957
转载 Spark性能优化------数据倾斜
常见的数据倾斜是怎么造成的?Shuffle的时候,将各个节点上相同的key拉取到某个节点的一个task进行处理,比如按照key进行聚合或join等操作,如果某个key对应的数据量特别大的话,就会发生数据倾斜现象。数据倾斜就成为了整个task运行时间的短板。触发shuffle的常见算子:distinct、groupByKey、reduceByKey、aggregateByKey、join、c
2016-09-21 17:48:46
428
转载 SQL中inner join、outer join和cross join的区别
对于SQL中inner join、outer join和cross join的区别很多人不知道,我也是别人问起,才查找资料看了下,跟自己之前的认识差不多,如果你使用join连表,缺陷的情况下是inner join,另外,开发中使用的left join和right join属于outer join,另外outer join还包括full join.下面我通过图标让大家认识它们的区别。现有两张
2016-09-21 17:45:45
226
转载 Spark排错与优化
版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[-]一 运维Master挂掉standby重启也失效解决worker挂掉或假死解决二 运行错误shuffle FetchFailedException错误提示解决ExecutorTask Lost错误提示解决倾斜错误提示解决OOM
2016-09-21 17:41:58
411
转载 解决spark中遇到的数据倾斜问题
目录(?)[-]一 数据倾斜的现象二 数据倾斜的原因数据问题spark使用问题三 数据倾斜的后果四 数据问题造成的数据倾斜找出异常的key解决办法举例五 spark使用不当造成的数据倾斜提高shuffle并行度使用map join 代替reduce join一. 数据倾斜的现象多数task执行速度较快,少数task执行时间非常
2016-09-21 17:38:39
340
转载 spark join broadcast优化
目录(?)[-]举例样本数据2000w性能测试对比实现代码spark15在大量数据中对一些字段进行关联。举例ipTable:需要进行关联的几千条ip数据(70k) hist:历史数据(百亿级别)直接join将会对所有数据进行shuffle,需要大量的io操作,相同的key会在同一个partition中进行处理,任务的并发度也收到了限制。
2016-09-21 17:38:19
820
3
转载 Spark map-side-join 关联优化
目录(?)[-]何时使用原理代码说明完整代码将多份数据进行关联是数据处理过程中非常普遍的用法,不过在分布式计算系统中,这个问题往往会变的非常麻烦,因为框架提供的 join 操作一般会将所有数据根据 key 发送到所有的 reduce 分区中去,也就是 shuffle 的过程。造成大量的网络以及磁盘IO消耗,运行效率极其低下,这个过程一般被称为 reduce-si
2016-09-21 17:36:59
276
转载 Spark性能优化(1)——序列化、内存、并行度、数据存储格式、Shuffle
序列化背景:在以下过程中,需要对数据进行序列化:shuffling data时需要通过网络传输数据RDD序列化到磁盘时性能优化点:Spark默认的序列化类型是Java序列化。Java序列化的优势是兼容性好,不需要自已注册类。劣势是性能差。为提升性能,建议使用Kryo序列化替代默认的Java序列化。Kryo序列化的优势是速度快,体积小,劣势是兼容性差,
2016-09-21 17:34:30
337
转载 关于Hive优化的四种方法总结
1、Hive整体架构优化点有哪些?2、如何在MR阶段进行优化?3、Hive在SQL中如何优化?4、Hive框架平台中如何优化?一、整体架构优化现在hive的整体框架如下,计算引擎不仅仅支持Map/Reduce,并且还支持Tez、Spark等。根据不同的计算引擎又可以使用不同的资源调度和存储系统。 整体架构优化点:1、根据不同业务需求进行日期分区,
2016-09-21 17:33:27
764
转载 Spark性能优化指南:基础篇
前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速
2016-09-21 17:32:25
195
转载 Spark 2.0系列之SparkSession详解
原创 2016-08-23 刘旭坤(译者) Spark技术日报Spark2.0中引入了SparkSession的概念,它为用户提供了一个统一的切入点来使用Spark的各项功能,用户不但可以使用DataFrame和Dataset的各种API,学习Spark的难度也会大大降低。本文就SparkSession在Spark2.0中的功能和地位加以阐释。SparkSession的
2016-09-21 17:31:24
857
原创 union和union all的区别
union会自动压缩多个结果集合中的重复结果,而union all则将所有的结果全部显示出来,不管是不是重复。
2016-09-20 18:45:35
245
转载 hive大数据倾斜总结
原因:1)、key分布不均匀 2)、业务数据本身的特性 3)、建表时考虑不周 4)、某些SQL语句本身就有数据倾斜参数调节: hive.map.aggr=true(默认开启)Map 端部分聚合,相当于Combiner hive.groupby.skewindata=true(默认false)3典型的业务场景 3.1空值产生的数据倾斜 3.2不同数据类型关联产生数据倾斜 3.3小表不小不大,怎么用 map join 解决倾斜问题
2016-09-20 17:40:47
155
原创 Hive排序 cluster by column = distribute by column + sort by column
Hive排序 cluster by column = distribute by column + sort by column
2016-09-20 15:54:37
339
转载 Hive最新数据操作详解(超级详细)
数据操作能力是大数据分析至关重要的能力。数据操作主要包括:更改(exchange),移动(moving),排序(sorting),转换(transforming)。Hive提供了诸多查询语句,关键字,操作和方法来进行数据操作。
2016-09-20 15:41:27
339
原创 flask 设置headers['Access-Control-Allow-Origin']='*'实现跨域访问
需要flask将数据发送到web前端,定义一个路由,访问该路由获取数据。 res= make_response(json.dumps(result)): 通过make_response封装数据及类型转换,返回res即可。 rst = make_response(result_text) rst.headers['Access-Control-Allow-Origin'] = '*'
2016-09-19 11:59:10
25634
原创 Hive 正则表达式使用 与 匹配中文
1.regexp语法: A REGEXP B 描述: 功能与RLIKE相同2.regexp_extract3.regexp_replace
2016-09-09 10:51:28
17571
Thutmose.cn的留言板
发表于 2020-01-02 最后回复 2020-01-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人 TA的粉丝