自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

图特摩斯科技-博客

AbutionGraph:首个时序动态知识图谱数据库、AI大数据分析平台,分布式高可用,60种图挖掘算法,实时多维指标聚合、兼容TensorFlow,Spark,Flink全栈、物联网,金融等行业应用、NLP,OCR,计算机视觉,目标检测..

  • 博客(26)
  • 资源 (2)
  • 论坛 (1)
  • 收藏
  • 关注

转载 MapReduce任务参数调优

http://blog.javachen.com/2014/06/24/tuning-in-mapreduce/本文主要记录Hadoop 2.x版本中MapReduce参数调优,不涉及Yarn的调优。Hadoop的默认配置文件(以cdh5.0.1为例):core-default.xmlhdfs-default.xmlmapred-default.xml说明:

2016-09-23 15:05:46 576

转载 Hive窗口和分析函数[RANK()、DENSE_RANK()、ROW_NUMBER()]

row_number()的使用方法  及原博主相关文章。Analytics functionsRANK()、DENSE_RANK()、ROW_NUMBER()使用示例:select calling_nbr,called_nbr,count, RANK() OVER (PARTITION by calling_nbr order by count desc) ra

2016-09-23 14:48:25 1310

原创 git的使用

在项目文件:1$ git init2Administrator@pgos MINGW32 /f/anPro/mysql1 (master)$ git add --all$ git commit -m "put in 2016-09-22"3Administrator@pgos MINGW32 /f/anPro/mysql1 (master)

2016-09-22 15:11:48 389

转载 Spark面对OOM问题的解决方法及优化总结

转载请保持完整性并注明来源链接: http://blog.csdn.net/yhb315279058/article/details/51035631    Spark中的OOM问题不外乎以下两种情况map执行中内存溢出shuffle后内存溢出    map执行中内存溢出代表了所有map类型的操作,包括:flatMap,filter,mapPatitions等。shuffl

2016-09-22 10:58:13 256

转载 spark 内存管理

从Spark 1.6版本开始,Spark采用Unified Memory Management这样一种新的内存管理模型。Spark中的内存使用分为两部分:执行(execution)与存储(storage)。执行内存主要用于shuffles、joins、sorts和aggregations,存储内存则用于缓存或者跨节点的内部数据传输。在Spark 1.6之前,这两部分内存的分配是静态的,以配

2016-09-22 10:36:19 346

转载 Apache Spark Jobs 性能调优

Spark 是如何执行程序的选择正确的 Operator什么时候不发生 Shuffle什么情况下 Shuffle 越多越好二次排序结论调试资源分配调试并发压缩你的数据结构数据格式转载地址: http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-1/当你开始编写 Apac

2016-09-21 18:00:49 329

转载 Spark性能优化-------shuffle调优

影响一个Spark作业性能的因素,主要还是代码开发,资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占到一小部分而已。负责shuffle过程的执行,计算和处理的组件主要就是ShuffleManager。SortShuffleManager运行原理SortShuffleManager的运行机制主要分为两种,一种是普通运行机制,另一种是bypass运行机制,

2016-09-21 17:56:31 1096

转载 Spark性能优化-------开发调优

开发调优,知道Spark基本开发原则,包括:RDD lineage设计,算子的合理使用,特殊操作的优化等。原则一:不要对同一份数据重复创建RDD。原则二:尽量复用同一个RDD。原则三:对多次使用的RDD进行持久化对多次使用的RDD进行持久化,此时Spark就会根据你的持久化测量,将RDD的数据保存到内存或磁盘中。Spark的持久化级别:MEMORY_ON

2016-09-21 17:53:39 394

转载 Spark性能优化-------资源调优

为作业配置合适的资源,Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。Spark作业基本运行原理X使用spark-submit提交一个Spark作业后,这个作业就会启动一个对应的Driver进程,根据使用的部署模式(deploy-mode)不同,Driver进程可能在本地启动,也可能在集群中某个工作节点上启动。Driver进程本身会根据设置

2016-09-21 17:50:58 957

转载 Spark性能优化------数据倾斜

常见的数据倾斜是怎么造成的?Shuffle的时候,将各个节点上相同的key拉取到某个节点的一个task进行处理,比如按照key进行聚合或join等操作,如果某个key对应的数据量特别大的话,就会发生数据倾斜现象。数据倾斜就成为了整个task运行时间的短板。触发shuffle的常见算子:distinct、groupByKey、reduceByKey、aggregateByKey、join、c

2016-09-21 17:48:46 428

转载 SQL中inner join、outer join和cross join的区别

对于SQL中inner join、outer join和cross join的区别很多人不知道,我也是别人问起,才查找资料看了下,跟自己之前的认识差不多,如果你使用join连表,缺陷的情况下是inner join,另外,开发中使用的left join和right join属于outer join,另外outer join还包括full join.下面我通过图标让大家认识它们的区别。现有两张

2016-09-21 17:45:45 226

转载 Spark排错与优化

版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[-]一 运维Master挂掉standby重启也失效解决worker挂掉或假死解决二 运行错误shuffle FetchFailedException错误提示解决ExecutorTask Lost错误提示解决倾斜错误提示解决OOM

2016-09-21 17:41:58 411

转载 解决spark中遇到的数据倾斜问题

目录(?)[-]一 数据倾斜的现象二 数据倾斜的原因数据问题spark使用问题三 数据倾斜的后果四 数据问题造成的数据倾斜找出异常的key解决办法举例五 spark使用不当造成的数据倾斜提高shuffle并行度使用map join 代替reduce join一. 数据倾斜的现象多数task执行速度较快,少数task执行时间非常

2016-09-21 17:38:39 340

转载 spark join broadcast优化

目录(?)[-]举例样本数据2000w性能测试对比实现代码spark15在大量数据中对一些字段进行关联。举例ipTable:需要进行关联的几千条ip数据(70k) hist:历史数据(百亿级别)直接join将会对所有数据进行shuffle,需要大量的io操作,相同的key会在同一个partition中进行处理,任务的并发度也收到了限制。

2016-09-21 17:38:19 820 3

转载 Spark map-side-join 关联优化

目录(?)[-]何时使用原理代码说明完整代码将多份数据进行关联是数据处理过程中非常普遍的用法,不过在分布式计算系统中,这个问题往往会变的非常麻烦,因为框架提供的 join 操作一般会将所有数据根据 key 发送到所有的 reduce 分区中去,也就是 shuffle 的过程。造成大量的网络以及磁盘IO消耗,运行效率极其低下,这个过程一般被称为 reduce-si

2016-09-21 17:36:59 276

转载 Spark性能优化(1)——序列化、内存、并行度、数据存储格式、Shuffle

序列化背景:在以下过程中,需要对数据进行序列化:shuffling data时需要通过网络传输数据RDD序列化到磁盘时性能优化点:Spark默认的序列化类型是Java序列化。Java序列化的优势是兼容性好,不需要自已注册类。劣势是性能差。为提升性能,建议使用Kryo序列化替代默认的Java序列化。Kryo序列化的优势是速度快,体积小,劣势是兼容性差,

2016-09-21 17:34:30 337

转载 关于Hive优化的四种方法总结

1、Hive整体架构优化点有哪些?2、如何在MR阶段进行优化?3、Hive在SQL中如何优化?4、Hive框架平台中如何优化?一、整体架构优化现在hive的整体框架如下,计算引擎不仅仅支持Map/Reduce,并且还支持Tez、Spark等。根据不同的计算引擎又可以使用不同的资源调度和存储系统。 整体架构优化点:1、根据不同业务需求进行日期分区,

2016-09-21 17:33:27 764

转载 Spark性能优化指南:基础篇

前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速

2016-09-21 17:32:25 195

转载 Spark 2.0系列之SparkSession详解

原创 2016-08-23 刘旭坤(译者) Spark技术日报Spark2.0中引入了SparkSession的概念,它为用户提供了一个统一的切入点来使用Spark的各项功能,用户不但可以使用DataFrame和Dataset的各种API,学习Spark的难度也会大大降低。本文就SparkSession在Spark2.0中的功能和地位加以阐释。SparkSession的

2016-09-21 17:31:24 857

原创 union和union all的区别

union会自动压缩多个结果集合中的重复结果,而union all则将所有的结果全部显示出来,不管是不是重复。

2016-09-20 18:45:35 245

转载 hive大数据倾斜总结

原因:1)、key分布不均匀 2)、业务数据本身的特性 3)、建表时考虑不周 4)、某些SQL语句本身就有数据倾斜参数调节: hive.map.aggr=true(默认开启)Map 端部分聚合,相当于Combiner hive.groupby.skewindata=true(默认false)3典型的业务场景 3.1空值产生的数据倾斜 3.2不同数据类型关联产生数据倾斜 3.3小表不小不大,怎么用 map join 解决倾斜问题

2016-09-20 17:40:47 155

原创 Hive排序 cluster by column = distribute by column + sort by column

Hive排序 cluster by column = distribute by column + sort by column

2016-09-20 15:54:37 339

转载 Hive最新数据操作详解(超级详细)

数据操作能力是大数据分析至关重要的能力。数据操作主要包括:更改(exchange),移动(moving),排序(sorting),转换(transforming)。Hive提供了诸多查询语句,关键字,操作和方法来进行数据操作。

2016-09-20 15:41:27 339

原创 flask 设置headers['Access-Control-Allow-Origin']='*'实现跨域访问

需要flask将数据发送到web前端,定义一个路由,访问该路由获取数据。 res= make_response(json.dumps(result)): 通过make_response封装数据及类型转换,返回res即可。 rst = make_response(result_text) rst.headers['Access-Control-Allow-Origin'] = '*'

2016-09-19 11:59:10 25634

原创 Hive 正则表达式使用 与 匹配中文

1.regexp语法: A REGEXP B 描述: 功能与RLIKE相同2.regexp_extract3.regexp_replace

2016-09-09 10:51:28 17571

原创 Spark reduce task数目设置,解决小任务过多slave挂掉

spark.default.parallelism=8

2016-09-08 17:29:52 5492

ubuntu版64位 cuda8 和cudnn 6 百度网盘下载

ubuntu cada8 + cudnn6 资源下载,我是用来装deepin15.5系统的

2018-05-12

《Hadoop MapReduce Cookbook》hadoop推荐书籍

有兴趣研究的同志可以看看 英文要好~ 看到很多资深专家都推荐这本书

2014-07-23

Thutmose.cn的留言板

发表于 2020-01-02 最后回复 2020-01-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除