图特摩斯科技-博客

AbutionGraph:首个时序动态知识图谱数据库、AI大数据分析平台,分布式高可用,60种图挖掘算法,实时多维指标聚合、兼容TensorFlow,Spark,Flink全栈、物联网,金融等行业应用、NLP,OCR,计算机视觉,目标检测..
私信 关注
www.thutmose.cn
码龄8年
  • 820,045
    被访问量
  • 118
    原创文章
  • 6,676
    作者排名
  • 278
    粉丝数量
  • 于 2013-03-19 加入CSDN
获得成就
  • 获得185次点赞
  • 内容获得286次评论
  • 获得661次收藏
荣誉勋章
兴趣领域
  • #大数据
    #spark
TA的专栏
  • Thutmose
    9篇
  • AbutionGraph
    2篇
  • 编程-工具
    3篇
  • 编程--技巧
    1篇
  • linux
    11篇
  • Trouble Shooting
    16篇
  • python
    12篇
  • spark
    42篇
  • Impala
    5篇
  • hadoop
    5篇
  • hive
    21篇
  • mysql
    3篇
  • 机器学习
    11篇
  • java
    2篇
  • Hbase
    7篇
  • Shell
    2篇
  • SparkSQL
    4篇
  • Flask
    1篇
  • 微信开发
  • Zeppelin
    5篇
  • SparkStreaming
    8篇
  • Kafka
    4篇
  • 深度学习
    13篇
  • Keras
    10篇
  • Kudo
    3篇
  • Flume
    1篇
  • 图形数据库
    8篇
  • Neo4j
    1篇
  • 图存储与计算
    10篇
  • BigDL
    1篇
  • MMLSpark
    1篇
  • Jep
    1篇
  • node2vec
    1篇
  • 图计算
    5篇
  • IndexR
    1篇
  • 社区发现
    2篇
  • Druid
    1篇
  • SnappyData
    1篇
  • AI
    7篇
  • OCR文字识别
    2篇
  • tensorflow
    1篇
  • PostgreSQL
  • HAWQ
  • 图像分割
    2篇
  • openCV
    2篇
  • 计算机视觉
    9篇
  • 数据库
    8篇
  • SparkServing
    1篇
  • Flink
    4篇
  • Kubernetes
    1篇
  • 增强学习
    3篇
  • Ray
    3篇
  • 微服务
    2篇
  • 后端
    3篇
  • Zookeeper
    1篇
  • Accumulo
    1篇
  • HugeGraph
    2篇
  • JanusGraph
    4篇
  • Gremlin
    1篇
  • graphML
    1篇
  • 最近
  • 文章
  • 资源
  • 问答
  • 课程
  • 帖子
  • 收藏
  • 关注/订阅

知识图谱数据库:AbutionGraph,TigerGraph,JanusGraph,Neo4j读写性能基准测试报告

为帮助用户了解AbutionGDB的指标,特将它与Neo4j,JanusGraph,TigerGraph做了读写性能对比测试。其实AbutionGDB与其它图数据库是有着明显差异的,它是唯一面向OLAP场景的图数据仓库,而其它对比者是面向OLTP的图数据库,不过技术架构的不同并不影响读写性能的测试。目录1.测试用数据说明 三2.统计结果说明 四3.AbutionGDB与其他数据库单节点对比测试 四3.1测试环境及步骤说明 四3.2 写入性能对比 五3.2.1 AbutionGDB
原创
0评论
0点赞
发布博客于 1 月前

知识图谱数据库还有OLTP、OLAP(MOLAP、ROLAP、HOLAP)的区别? 首个实时图数仓架构分析...

面向大规模实时数据分析的HOLAP知识图谱数据仓库AbutionGraph与传统的OLTP图库有什么不同?我们将对OLAP图库的应用场景、面向的客户、实现原理、未来发展做出对比分析。
原创
0评论
1点赞
发布博客于 4 月前

[AbutionGraph] 报表制作-使用Grafana动态可视化知识图谱指标

使用开源报表可视化工具Grafana实时监控时序知识图谱数据仓库AbutionGraph中的数据,实时性报表查询, 满足单次百万千万级的数据查询,毫秒级查询延迟,亚秒级对千亿数据量汇总统计,每日过亿报表查询/多维分析/日志分析等数据指标...
原创
0评论
0点赞
发布博客于 6 月前

图谱智能中台AbutionGraph分布式计算引擎 - 边缘计算+时序动态知识图谱~=“数字孪生”

技术概览AbutionGraph是北京图特摩斯科技自研的首款时序动态知识图数据仓库与分析系统。AbutionDB是底层数据的承载,存储包括:动静结合的图谱数据、时间序列数据、KV表格数据、地理空间数据、事件数据、文本数据。AbutionGRS是首个以图谱为核心构建的下一代数据认知中台,是数据的开发层,提供所有大数据以及AI技术的逻辑封装、一键业务功能调用、指标数据查询、数据及资源资产管理等支持。AbutionGraph与外部数据库系统关系图为图谱智能中台AbutionGRS提供快速数据流转的
原创
0评论
1点赞
发布博客于 8 月前

AbutionDB`知识图谱+时序机器学习特征存储

关于AbutionDB​AbutionDB是一个多模态的数据库,支持动静态知识图谱、时序事件数据、空间数据、机器学习特征、关系型数据、文本数据的存储,其中动态知识图谱平台AbutionGraph是一套包含数据采集、存储、计算、分析、监控的闭环大数据解决方案,本文将介绍知识图谱特征及其它用户行为特征在AbutionDB中作为机器学习特征存储的功能。机器学习概念机器学习是教会计算...
原创
0评论
1点赞
发布博客于 9 月前

1台笔记本 vs 1个Hbase集群 - AbutionGraph图数据库+Flink性能测试

作者 | 闭雨哲出品 | 图特摩斯科技(thutmose.cn)AbutionGraph是图特摩斯自研的时序图数据库,它可以满足永不掉线的实时知识图谱指标计算任务以及历史数据分析,静态图+动态图+时序图同时存储。在面向大规模在线场景时,使用Flink技术做ETL的同时,保证数据接入更稳定且无丢失。目录:测试目的 业务场景 测试过程 AbutionGraph v.s Hb...
原创
0评论
0点赞
发布博客于 10 月前

Cassandra3.11读写性能测试

1. 测试目的测试Cassandra集群读写TPS的极值,确定Cassandra读写性能。2. 测试环境2.1 硬件信息CPU 8核 Intel(R) Xeon(R) CPU E5-2650 v4 @ 2.20GHz RAM 16G 2.2 软件信息JDK 1.8u151 Cassandra 3.11.1 cassandra-drive...
转载
0评论
0点赞
发布博客于 10 月前

HBase 2.2 随机读写性能测试

测试环境测试环境包括测试过程中HBase集群的拓扑结构、以及需要用到的硬件和软件资源,硬件资源包括:测试机器配置、网络状态等等,软件资源包括操作系统、HBase相关软件以及测试工具等。集群拓扑结构本次测试中,测试环境总共包含3台物理机作为Hadoop数据存储,其中2台物理机作为RegionServer部署宿主机,每个宿主机上起2个RegionServer节点,整个集群一共4个Regio...
转载
0评论
0点赞
发布博客于 11 月前

[AbutionGraph] 新冠肺炎实时动态时序图谱建模与分析

原文<--观看视觉更佳一、背景介绍新冠肺炎是一种具有最长达24天潜伏期的新型突发性传染疾病,这种特性给疫情防控带来了巨大的挑战,随着感染规模的不断扩增,简单的人为治理已不太奏效,使用“大数据”技术手段来辅助人为治理社会有助于快速准确的定位问题关键,帮助决策者及时作出下一步规划。个人感受:这一个月来每天都会在各大站点查看感染人数的更新、病例的行程发布等等,然而互联信息...
原创
2评论
5点赞
发布博客于 1 年前

[AbutionGraph] 轻松构建以知识图谱为核心的下一代数据中台

作者 | Raini出品 | 北京图特摩斯科技 (thutmose.cn)前言图特摩斯科技(Thutmose)基于自研的图形数据库AbutionGraph(实时多维数据存储与计算一体化的高可用平台)为核心,构建AI智能认知中台(认知图谱平台)来实现业务衔接,它不仅是一个能力中台,也是一个战略中台。作为能力平台,Thutmose认知中台向下作为整合者融合大数据与人工智能技术能力,向...
原创
0评论
0点赞
发布博客于 1 年前

[AbutionGraph] 知识图谱+Flink:大规模实时动态图谱平台的实现

作者 | Raini出品 | 北京图特摩斯科技(www.thutmose.cn)Flink:目前最受关注的大数据技术,最活跃 Apache 项目之一。AbutionGraph:北京图特摩斯科技自研的国内首个准实时多维图形数据库,首个将实时/离线/指标聚合/图挖掘/AI框架等热门技术线深度整合在一起的认知图谱平台,本文仅对实时性的相关优势做分析。AbutionGraph 具有以...
原创
0评论
3点赞
发布博客于 2 年前

[AbutionGraph] 大规模准实时动态时序知识图谱+AI平台

作者 | Raini出品 | 图特摩斯(北京)科技有限公司AbutionGraph是什么?AbutionGraph是一种能对历史和实时数据提供亚秒级别查询的多维图数据存储与分析平台。AbutionGraph支持低延时的数据摄取,灵活的数据探索分析,高性能的数据聚合,简便的水平扩展。高容错的架构在发生代码部署、机器故障以及其他产品系统遇到宕机等情况时,仍能够保持100...
原创
0评论
1点赞
发布博客于 2 年前

IDEA搭建javaWeb项目图文教程

1、新建一个Web项目两种方法:java 和Java Enterprise(推荐)第一种)通过Java工程创建,这个方法需要手动导入Tomcat的servlet包才能使用servlet导入包的方法是创建项目并配置好Tomcat后,File->Project Structure,点击 Modules --> 选中项目“JavaWeb” -->切换到 Depende...
转载
0评论
0点赞
发布博客于 2 年前

Web项目(Swagger+Jersey)用IDEA打war包并部署

我一个算法工程师勤学多看,抓狂两周终于完成了自己想要的后端首先:IDEA搭建javaWeb项目步骤:一、文件->项目结构二、注意一定选空的Artifacts,我用现有的导致swagger一直不能显示api信息三、取一个war包的名字四、选择web资源root路径,一般为src/main下的"webapp"我的在src/main下的"web",点击即...
原创
0评论
0点赞
发布博客于 2 年前

知识图谱「技术」~

知识图谱与图挖掘技术QQ交流群2:529757057bo主w~x:lovebyz99(交流请备注,对创业有想法欢迎联系)Breaking\Locking\Popping、AI、算法、大数据、前端、后端、知识图谱、微服务、云计算、区块链。。。...
原创
0评论
1点赞
发布博客于 2 年前

图形聚类算法:MCL

Different ClusteringVector Clustering我们在描述一个人时,常常会使用他所拥有的特点来表示,比如说:张三,男,高个子,有点壮。那么,这就可以用四维向量来表示,如果再复杂一些,就是更高维的向量空间了。下图是在二维空间之中的分布情况,可以较为直观的看出,以红色虚线为界,可以分为两个类别。Graph Clustering和特征聚类不同,图聚类比较难以观察...
转载
0评论
2点赞
发布博客于 2 年前

Graph Neural Network Review

图(graph)是一个非常常用的数据结构,现实世界中很多很多任务可以描述为图问题,比如社交网络,蛋白体结构,交通路网数据,以及很火的知识图谱等,甚至规则网格结构数据(如图像,视频等)也是图数据的一种特殊形式,因此图是一个很值得研究的领域。针对graph的研究可以分为三类:1.经典的graph算法,如生成树算法,最短路算法,复杂一点的二分图匹配,费用流问题等等;2.概率图模型,将条件概率...
转载
0评论
0点赞
发布博客于 2 年前

「JanusGraph-Gremlin」高级语法sack()局部数据结构

sack(麻袋)帮助人们更细致有效地解决问题在某些情况下,人们正在编写使用路径信息进行数据聚合的Gremlin遍历。通常,人们将使用path()然后再执行一些过滤以“减少”路径中的数据获得特定结果。不幸的是,这是低效的,因为路径计算是昂贵的,且是不可以合并的,计算全部路径再过滤相当耗资源和时间且笨拙。原理sack是相对于每个遍历者的局部数据结构,与aggregate()/st...
原创
0评论
0点赞
发布博客于 2 年前

实现将输入字符串转成唯一数字id输出--Groovy/Scala/Java

MD5,Message Digest Algorithm 5,是一种被广泛使用的信息摘要算法,可以将给定的任意长度数据通过一定的算法计算得出一个 128 位固定长度的散列值。步骤(Groovy):// 第一步,获取MessageDigest对象,参数为MD5表示这是一个MD5算法md5 = MessageDigest.getInstance("MD5")// 第二步...
原创
0评论
1点赞
发布博客于 2 年前

Linux shell中使用sed 替换换行符 (多行边一行、一行变多行)

基本语法:sed"s/要匹配的字符串/要替换成的字符串/g"test.gson语法解释:sed是按行处理文本数据的,每次处理一行数据后,都会在行尾自动添加trailing newline,其实就是行的分隔符即换行符。连续两行执行一次sed命令,这样就可以把前一行的
替换完成。(Ps:执行一次命令其实就是数据两两去除了中间的
而已)(多行)替换/删除所有换行符(变一行):...
原创
0评论
1点赞
发布博客于 2 年前

实现GraphX与GraphSON格式相互转换

摘要转换器实现了:1.根据用户输入的SparkContext,和文件路径,读取GraphSON格式文件,转换为GraphX所接受的graphRDD;2.用户输入GraphX的graphRDD,在指定文件路径输出GraphSON格式文件。相关版本Apache TinkerPop 3.3.3scala 2.11.8spark-graphx 2.11提示假设读者较为熟悉Graph...
转载
0评论
0点赞
发布博客于 2 年前

SparkJDBC并行查询RDBMS数据库的参数方法

当通过spark读取mysql时,如果数据量比较大,为了加快速度,通常会起多个task并行拉取mysql数据。api:defjdbc(url: String, table: String, columnName: String, lowerBound: Long, upperBound: Long, numPartitions: Int, connectionProperties: Pro...
原创
0评论
0点赞
发布博客于 2 年前

「JanusGraph与HugeGraph」图形数据库 - 技术选型-功能对比

Tinkerpop highlevel-archgremlin server: httpserver/websocket server接收标准的gremlin dsl语法,自身相当于一个计算节点,完成图的遍历,或者操作DML语言,操作底层OLTP图库。 gremlin traversal language:图的查询遍历语言及语言解释实现,类似sqlparser provider ...
原创
1评论
2点赞
发布博客于 2 年前

「JanusGraph」图形数据库 - 技术选型调研

JanusGraph各组件版本兼容性匹配表JanusGraphJanusGraph提供多种后端存储和后端索引,使其能够更灵活的部署。本章介绍了几种可能的部署场景,以帮助解决这种灵活性带来的复杂性。在讨论部署场景之前,理解JanusGraph本身的角色定位和后端存储的角色定位是非常重要的。首先,应用程序与JanusGraph进行交互大多数情况下都是进行Gremlin遍历,然后,Jan...
原创
0评论
2点赞
发布博客于 2 年前

「HugeGraph」图形数据库 - 个人选型文档备份

(仅为个人操作记录使用)安装zookeeper这里安装的是单机模式。版本是zookeeper-3.4.9.tar.gz。已装,步骤略。(看我博客-集群安装)安装Hbase单机模式配置Hbase1.下载:https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/2.1.2/hbase-2.1.2-bin.tar.gz2.~$ g...
原创
2评论
0点赞
发布博客于 2 年前

解决SSH免密登录配置成功后不生效问题

配置免密登录很简单,重点就两步,分布式scp~/.ssh/authorized_keys 中内容到所有你想相互免密的机器即可。1. 执行命令$ ssh-keygen-trsa-P""回车后会在 ~/.ssh/ 下生成两个文件:id_rsa 和 id_rsa.pub,这两个文件是成对出现的2. cat~/.ssh/id_rsa.pub>>~/.ssh/aut...
原创
5评论
8点赞
发布博客于 2 年前

Accumulo安装部署

Accumulo依赖Zookeeper:需首先安装ZookeeperPs:对Accumulo应用开发感兴趣的小伙伴请加wx:lovebyz99简介Accumulo是一款开源分布式NoSQL数据库,基于谷歌的BigTable构建而成。其能够非常高效地对超大规模数据集(通常即指大数据)执行CRUD(即创建、读取、更新与删除)操作。相较于其它类似的分布式数据库选项(例如HBase或者Couc...
原创
4评论
0点赞
发布博客于 2 年前

[Zookeeper] 安装and各 配置参数详解

分布式常见问题容易出现死锁 容易活锁,处于活锁的线程都是非阻塞的,而且每个线程都抢不到资源,会造成cpu的耗费 集群的管理问题,比如某台的宕机需要能够检测到 集群配置文件的统一管理问题 集群中信息更新通知问题,某一台机器发布一个信息,能够让整个集群的机器都知道 管理集群的选举问题,管理集群的机器本身也是一个集群(例如zookeeper集群),其中有一台为主(选举得到),其他为从。 ...
原创
0评论
0点赞
发布博客于 2 年前

Structured Streaming与Flink比较

flink是标准的实时处理引擎,而且Spark的两个模块Spark Streaming和Structured Streaming都是基于微批处理的,不过现在Spark Streaming已经非常稳定基本都没有更新了,然后重点移到spark sql和structured Streaming了。Flink作为一个很好用的实时处理框架,也支持批处理,不仅提供了API的形式,也可以写sql文本。这...
转载
0评论
0点赞
发布博客于 2 年前

GET和POST两种基本请求方法的区别

转自:这位小哥 GET和POST是HTTP请求的两种基本方法,要说它们的区别,接触过WEB开发的人都能说出一二。 最直观的区别就是GET把参数包含在URL中,POST通过request body传递参数。 你可能自己写过无数个GET和POST请求,或者已经看过很多权威网站总结出的他们的区别,你非常清楚知道什么时候该用什么。 当你在面试中被问到这个问题,你的内心充满了...
转载
0评论
0点赞
发布博客于 3 年前

深度学习目标检测技术演进:R-CNN、Fast R-CNN、Faster R-CNN

转自:基于深度学习的目标检测技术演进:R-CNN、Fast R-CNN、Faster R-CNNobject detection我的理解,就是在给定的图片中精确找到物体所在位置,并标注出物体的类别。object detection要解决的问题就是物体在哪里,是什么这整个流程的问题。然而,这个问题可不是那么容易解决的,物体的尺寸变化范围很大,摆放物体的角度,姿态不定,而且可以出现在图片的任何地方...
转载
0评论
0点赞
发布博客于 3 年前

JAVA fasterxml.Jackson(ObjectMapper) 在SCALA中的用法

Jackson(ObjectMapper) 在SCALA中的用法maven配置: &lt;properties&gt; &lt;fasterxml.jackson.version&gt;2.6.5&lt;/fasterxml.jackson.version&gt; &lt;/properties&gt; &lt;dependency&gt...
原创
0评论
0点赞
发布博客于 3 年前

使用Py-OpenCV(SIFT关键点)实现自然图像中的logo商标识别和定位

logo是包含了颜色、形状、特征等信息的图形实体。logo检测有很多挑战,比如视角变化、弯曲、形状和颜色的变化、遮挡、背景变化等。下图是我跑的一个(百度随便找的,非项目图)识别一般的效果图,虽然可以识别出指定的logo(1中左图),也受到logo多余部分的影响,最终匹配获取的logo区域有所放大,仔细观察发现logo外围区域颜色都是自下而上渐变变淡,野点(离群点)阈值不够,导致识别区域多了一部...
原创
7评论
2点赞
发布博客于 3 年前

使用(SIFT特征KMeans聚类关键点训练SVM)实现自然图像中的logo商标识别和定位

(本博客只记录方法,因为本人觉得这是机器学习特征工程中一种比较不错的做法)上一篇博客中的方法:使用Py-OpenCV(SIFT关键点)实现自然图像中的logo商标识别和定位当然也能提前欲知该方法的缺点,对于新的logo需要重新训练模型,而且所需的数据集远大于上面的方法。 实现方法:bb = [v for v in image_to_descriptors.values()]...
原创
4评论
0点赞
发布博客于 3 年前

主流深度学习OCR文字识别方法对比:Tesseract(LSTM)、CTPN+CRNN、Densenet

作者 | Raini出品 | 北京图特摩斯科技有限公司(www.thutmose.cn)也是几个月前的项目了,由于手头事儿多,也已经转交给别的同事去继续优化。本博客仅做个简单的记录用。这里是Tesseract(LSTM)、CTPN+CRNN、Densenet三个方法测试结果对比(结果不是最优,代码也经过优化):PS:官方Tesseract-4.0需要Ubuntu-18...
原创
45评论
20点赞
发布博客于 3 年前

[OpenCV_GrubCut]实现交互式图像分割提取前景--Python抠图

这部分内容是几个月前做的项目,一直没时间整理记录,在这里随便写一下方便日后回忆. "GrabCut":使用迭代图形切割的交互式前景提取工具,用于在分割任务中按像素标记图像数据.OpenCV官网例子算法过程:    首先,输入矩形框,矩形框外部区域都是背景。内部一定包含前景。     电脑对输入图像进行初始化,标记前景和背景的像素。     使用高斯混合模型(GMM)对前景和...
原创
5评论
5点赞
发布博客于 3 年前

增强学习框架Ray——Actor模型

1. ActorsRay中的远程函数被认为是功能性强和副作用低的框架。 仅限于远程函数的情况下,可以为我们提供分布式函数编程,这对于许多使用情况非常有用,但在实践中会受到一些限制。Ray通过actor扩展了数据流模型。 一个actor本质上是一个有状态的worker(或service)。 当一个新的actor被实例化时,一个新的worker被创建,并且该actor的方法被安排在该特定的wo...
转载
0评论
2点赞
发布博客于 3 年前

分布式算法调参神器HyperOptSearch-[增强学习Ray.tune]-使用XGboost举例

分布式增强学习Ray.tune调参神器HyperOptSearch近日在研究分布式增强学习框架Ray.tune(深度学习参数优化)模块时,发现里面使用的HyperOptSearch其实是基于HyperOpt(最后章节讲解)(https://github.com/hyperopt/hyperopt)支持的SearchAlgorithm,用于执行基于模型的顺序超参数优化,但是又结合了一些新的算法进...
原创
10评论
5点赞
发布博客于 3 年前

分布式算法调参神器HyperOptSearch-[增强学习Ray.tune]-使用XGboost举例

分布式增强学习Ray.tune调参神器HyperOptSearch近日在研究分布式增强学习框架Ray.tune(深度学习参数优化)模块时,发现里面使用的HyperOptSearch其实是基于HyperOpt(最后章节讲解)(https://github.com/hyperopt/hyperopt)支持的SearchAlgorithm,用于执行基于模型的顺序超参数优化,但是又结合了一些新的算法进...
原创
10评论
5点赞
发布博客于 3 年前

运行增强学习框架Ray报错:关于Redis的一些东西,redis.exceptions...

(不断更新...) Ray Version:0.5.3 Python Version:3.5.6导入ray,并初始化执行环境import rayray.init(use_raylet=True)得到如下错误1:redis.exceptions.DataError:类型的输入无效:'NoneType'。首先转换为字节,字符串或数字。Process STDOUT an...
原创
2评论
1点赞
发布博客于 3 年前

[SemanticSoftSegmentation:语义软分割]-2018最强图像分割光谱消光算法调研与测试

SSS据说是迄今为止效果最好的图像分割算法,效果超过Mask-RCNN,我们来研究一下下。(项目测试结果在最后)Github项目:https://github.com/yaksoy/SemanticSoftSegmentation算法主要处理步骤:特征降维,从128维特征降到3维。超像素处理,用于计算Superpixels。计算仿射变换和 Laplacian,包括:Matting ...
原创
5评论
1点赞
发布博客于 3 年前

Kubernetes的2种部署方式:Minikube开发环境+Kubeadm单节点集群环境

本人环境:Ubuntu18.04     ---(CSDN格式显示有问题,如遇到第一个字显示不全,先下拉到文章中部,在拉回来就好了)   基于 Minikube 的部署方式( Kubernetes 的本地实验环境)基于Web 的环境易于访问,但不是持久性的。如果您想继续在可以回归和改变的工作空间中探索Kubernetes ,Minikube是一个不错的选择,其安装方便快捷。Mini...
原创
0评论
0点赞
发布博客于 3 年前

Spark持续流处理与Flink比对

 Spark流处理Spark从2.3版本开始引入了持续流式处理模型,可将流处理延迟降低至毫秒级别,让 Structured Streaming 达到了一个里程碑式的高度;使用 Pandas UDF 提升 PySpark 的性能;为 Spark 应用程序提供 Kubernetes 原生支持。出于某些原因的考虑,Spark 引入 Structured Streaming 将微批次处理从高级...
原创
0评论
3点赞
发布博客于 3 年前

基于LBP纹理特征计算GLCM的纹理特征统计量+SVM/RF识别纹理图片

## 局部特征检测方法斑点 Blob检测,LoG检测 , DoG,DoH检测,SIFT算法,SUFT算法边缘检测 梯度边缘检测算子,拉普拉斯算子,LoG检测 ,Canny边缘检测算子,Roberts,Sobel,Prewitt,角点检测 Kitchen-Rosenfeld,Harris角点,多尺度Harris角点,KLT,SUSAN检测算子,Shi-Tomasi将基于主分量分析和Fisher线性鉴别分析所获得的特征抽取方法,统称为线性投影分析。这些方法与本文无太大关系,主要用于Logo检
原创
8评论
25点赞
发布博客于 3 年前

scikit-image图像操作示例

多个例子 scikit-image的通用和介绍性示例。地址:http://scikit-image.org/docs/dev/auto_examples/在叙述文档介绍了基本的图像操作。腾讯云上面的scikit-image开发文档:https://cloud.tencent.com/developer/section/1414780#stage-100056610scikit-im...
转载
0评论
0点赞
发布博客于 3 年前

R语言·radiomics·纹理特征分析包

                                                                  「原文」                 「项目地址」 title author date tags layout excerpt How Good is Texture Analysis at Classificat...
转载
0评论
4点赞
发布博客于 3 年前

[MMLSpark]使用Spark Serving将模型部署为实时的Web服务

新东西,我们一起来尝鲜~~使用人口普查数据集(点击可下载)预测收入我们将使用Spark Serving将其部署为实时的Web服务。 首先,我们导入所需的包:import sysimport numpy as npimport pandas as pdimport mmlspark...
原创
5评论
0点赞
发布博客于 3 年前

大数据平台搭建:Hadoop-3.x + Spark-2.x + Hive-2.x + Hbase-1.4 + Phoenix-4.14 + Cassandra + ES

换了新笔记本,做个笔记。一,软件准备(自取所需)Java-1.8Scala-2.11Hadoop-3.1.1Spark-2.3.2Hive-2.3.4phoenix二,SSH免密码登录(即使是当地的单机也需要SSH,否则格式化的hadoop的存储系统时无权限,导致失败:本地主机:@localhost:权限被拒绝(公钥,密码)开始)ssh免密两步骤(...
原创
4评论
0点赞
发布博客于 3 年前

计算机视觉-图像描述符(图片分类)

标签: 关键点检测、提取局部特征描述符1、图像描述符、特征描述符和特征向量的定义特征向量:用于表示和量化图像的数字列表,简单理解成将图片转化为一个数字列表表示。特征向量中用来描述图片的各种属性的向量称为特征矢量。图像描述符:理解成一种算法和方法,控制整个图像如何转变为特征向量。量化是的图像形状,颜色,纹理,或三者的任何组合。输入1个图像时,图像描述符将返回1个特征向量。主要用于图像分类...
转载
1评论
0点赞
发布博客于 3 年前

计算机视觉-自定义对象检测器

标签: 自定义对象检测训练器, Hog与SVM联合运用, imglab运用示例 1、模板匹配运行指令:python template_matching.py --source 3.jpg --template 2.jpgimport argparseimport cv2ap = argparse.ArgumentParser()ap.add_argument("-s"...
转载
0评论
0点赞
发布博客于 3 年前

【IMG Feature matching】openCV获取图像特征点的方法

         在电脑视觉中,我们经常需要侦测或判断两个物件相似程度?该物件是否出现在相片中?在那里地方?例如下图中的这个City Café…        电脑是否能判断上图的咖啡与我手上的这杯是相同品牌?亦或,能否知道这杯就是City Café?                对于我们人类来说,这应该是直觉又简单不过的事,但对于电脑可不是这样了,从物件中找出像素变化的...
原创
0评论
5点赞
发布博客于 3 年前

Spark-2.4 Deep Learning Pipelines (Keras)Image Claasifer

(原文链接)-这是Spark2018 Submit 的一个演讲Demo, 针对Keras图片分类和使用Spark做分类的方法做了讲解,供学习使用。keras_dlp_image_classifier(Python) Import NotebookPart 1: Exploring and Classifying Images with Pretrained ModelsWe wil...
转载
0评论
0点赞
发布博客于 3 年前

AI 多类分类(multi-class) and 多标签分类(mulit-label) and 多输出-多分类-多标签classification

一些知识点:sigmoid和softmax是神经网络输出层使用的激活函数,分别用于两类判别和多类判别。binary cross-entropy和categorical cross-entropy是相对应的损失函数。对应的激活函数和损失函数相匹配,可以使得error propagation的时候,每个输出神经元的“误差”(损失函数对输入的导数)恰等于其输出与ground truth之差。...
原创
8评论
4点赞
发布博客于 3 年前

DL图像数据增广

数据增广计算机视觉有七类分类问题: 不同的视角,不同的大小,物体的形变问题,物体的遮挡问题,光照条件,背景复杂的问题,每一类中有多种形态的问题。 而数据增广的思路也就是解决这个问题。数据增广如何增广就要从实际的问题出发,比如医学的图片基本上拍摄的时候视角是固定的,所以就不需要不同视角的增广。木纹检测中视角是不固定的,就需要不同的视角,不同的大小的增广,还需要应不同的光照条件对数据进行增广。在不改变...
原创
1评论
2点赞
发布博客于 3 年前

[keras] FailedPreconditionError: Attempting to use uninitialized value batchnormalization_

使用keras编译模型时的错误:FailedPreconditionError: Attempting to use uninitialized value batchnormalization_1_running_mean/biased尝试在Fit之前调用: keras.backend.get_session().run(tf.global_variables_initializer())...
原创
0评论
0点赞
发布博客于 3 年前

OCR文字检测-tesseract4.0源码安装:ubuntu16.04 +x64+leptonica1.77.0

 tesseract-3.0 需要ubuntu-16.04 tesseract-4.0 需要ubuntu-18.04 (基于LSTM,效果较好),以下是在ubuntu-16.04 下安装tesseract-4.0方法  1)必要流程参考官方编译教程github: https://github.com/tesseract-ocr/tesseract/wiki/Compiling...
原创
0评论
1点赞
发布博客于 3 年前

ubuntu 安装cuda9.0+cudnn7.1-与cuda8.0共存

为了使用tensorflow目标检测API的所有算法,所以打算升级一下CUDA版本以支持tf-gpu 1.5++,但原本项目都是基于tf-gpu 1.4 的(tf-gpu 1.5以下都只能使用CUDA_8.0),所以保留了cuda-8.0的情况下安装cuda-9.0。系统信息:byz@ubuntu:~$ nvidia-smi -(在cuda-8时就已经安装好了的驱动,所以下面选择安装驱动时选No首...
原创
5评论
5点赞
发布博客于 3 年前

运行 Tensorflow object_detection API - 例子

在 Object Detection API 的示例代码中包含了一个训练识别宠物的 Demo,包括数据集和相应的一些代码。虽然本课程中我们会自己准备数据和脚本来进行训练,但是在这之前还需要安装一些库、配置一下环境。在配置完成之后,运行一下这个训练宠物的 Demo,以便检查环境配置是否 OK,同时对训练过程先有个整体的了解,然后再准备自己的数据和训练脚本。 请确保已经安装好了 Python 2.7-...
原创
8评论
0点赞
发布博客于 3 年前

TF目标检测API-Error: Argument must be a dense tensor: range(0, 3) - got shape [3], but wanted [].

此错误搞了大半天,翻看了很多很多文章,头痛。。ValueError: Tried to convert 't' to a tensor and failed. Error: Argument must be a dense tensor: range(0, 3) - got shape [3], but wanted [].执行检测任务:raini@biyuzhe:~/pro/tf_models/...
原创
9评论
3点赞
发布博客于 3 年前

tensorflow代码运行的最后抛出异常:TypeError: 'NoneType' object is not callable

tensorflow代码运行的最后抛出异常:问题:Exception ignored in: &lt;bound method BaseSession.__del__ of &lt;tensorflow.python.client.session.Session object at 0x7f15b0500400&gt;&gt;Traceback (most recent call last)...
原创
6评论
5点赞
发布博客于 3 年前

【instance segmentation】Mask-RCNN图像实例分割_基于DeepFasion数据集的实操

环境:tensorflow-gpu-1.4.1、keras-2.0.9、py35、cuda-8.0、opencv、PIL、labelmeDeepFashion是香港中文大学整理出来检测服装时尚元素的数据集,这里使用它做Mask-RCNN实例分割并不适合,因为数据中不包含Mask,仅有bbox坐标。但是用来做分类,MRCNN效果还是很棒的,本实验仅起到一个实验性学习作用。DeepFasion git...
原创
1评论
2点赞
发布博客于 3 年前

实例分割总结 Instance Segmentation Summary

实例分割:机器自动从图像中用目标检测方法框出不同实例,再用语义分割方法在不同实例区域内进行逐像素标记借一个浅显的说法:语义分割不区分属于相同类别的不同实例。例如,当图像中有多只猫时,语义分割会将两只猫整体的所有像素预测为“猫”这个类别。与此不同的是,实例分割需要区分出哪些像素属于第一只猫、哪些像素属于第二只猫基本思路 目标检测+语义分割。SDS-&gt;HyperColumns-&gt;CFM-...
转载
2评论
1点赞
发布博客于 3 年前

linux:deepin-15.5 + 小米笔记本pro 下的深度学习环境cuda+tensorflow-gpu-1.4版本搭建过程

深度学习环境tensorflow-gpu 1.4安装过程记录文章修改自:deepin linux 15.5 + 小米笔记本pro 下的深度学习环境tensorflow-gpu 1.4版本搭建过程参数:操作系统:Deepin Linux 15.5笔记本: 小米笔记本pro显卡:Nivdia MX150tensorflow版本:1.4cuda版本:8.0cudnn版本:6一、安装显卡驱动用的是deep...
原创
4评论
1点赞
发布博客于 3 年前

ubuntu版64位 cuda8 和cudnn 6 百度网盘下载

ubuntu cada8 + cudnn6 资源下载,我是用来装deepin15.5系统的
txt
发布资源于 3 年前

Mask R-CNN 训练自己的数据集—踩坑与填坑

作者 | Raini出品 |北京图特摩斯科技有限公司(thutmose.cn)tensorflow/keras版(项目地址https://github.com/matterport)。服务器cuda为8.0版本,尝试升级成9.1没成功,之后再降级回8.0了,python版本一开始为py36,提示错误libcublas.so.8.0:cannot open shared object...
原创
71评论
5点赞
发布博客于 3 年前

SnappyData-一个构建在Spark上的支持实时HTAP场景的解决方案

1、设计目标 1、实时的OLTP+OLAP型的操作   2、数据规模在50TB-100TB以下:太大规模的数据(PB规模),还要求实时出结果的场景,并不是SnappyData的设计目标。   3、微批的流失写入:实时数据的写入最好按批次写入。例如列表上的频繁的基于点的update,效率并不是很高。  2、数据流    上图介绍了流数据的注入以及数据分析的过程,如下:1、当集群搭建完成,此时就可以从...
转载
0评论
0点赞
发布博客于 3 年前

Druid架构概览

什么是DruidDruid是一个高效的数据查询系统,主要解决的是对于大量的基于时序的数据进行聚合查询。数据可以实时摄入,进入到Druid后立即可查,同时数据是几乎是不可变。通常是基于时序的事实事件,事实发生后进入Druid,外部系统就可以对该事实进行查询。Druid系统架构Druid是一组系统,按照职责分成不同的角色。目前存在五种节点类型:Historical: 历史节点的职责主要是对历史的数据进...
转载
0评论
0点赞
发布博客于 3 年前

神奇的HyperLogLog算法【转载 #涉及到数学原理】

什么是HyperLogLog首先,HyperLogLog是一个基数估计算法,并不是统计算法,而且不是数据估计算法,而是基数估计算法。其空间效率非常高,1.5K内存可以在误差不超过2%的前提下,用于超过10亿的数据集合基数估计。如果了解到HyperLogLog算法的空间效率优势后,就急着用其去实现大数据统计需求,经常会得到失望的结果。什么是基数统计呢,要明白这个词本来就区别于个数。比如说一个集合{0...
转载
0评论
0点赞
发布博客于 3 年前

网络表示学习(DeepWalk,LINE,node2vec,SDNE)

详细的资料可以参考:网络表示学习相关资料1.传统:基于图的表示(又称为基于符号的表示)如左图G =(V,E),用不同的符号命名不同的节点,用二维数组(邻接矩阵)的存储结构表示两节点间是否存在连边,存在为1,否则为0。 缺点:长尾分布下大部分节点间没有关系,所以邻接矩阵非常稀疏,不利于存储计算。2. 网络
转载
0评论
0点赞
发布博客于 3 年前

SCAN:基于密度的社团发现算法, SparklingGraph-实现PSCAN介绍

Paper: 《SCAN: A Structural Clustering Algorithm for Networks》 Auther: Xiaowei Xu, Nurcan Yuruk, Zhidan Feng, Thomas A. J. Schweiger Conference: SIGKDD 2007一:SCAN算法简介SCAN算法是由机器学习里的基于密度的聚类算法DB
原创
0评论
0点赞
发布博客于 3 年前

IndexR:速度最快的大数据存储格式介绍(与在spark上的使用)

摘要IndexR实现了一种可部署于分布式环境,可并行化处理,带索引的,列式的结构化数据格式。基于这种数据格式,IndexR构建了一个数据仓库系统(Data Warehouse),它基于Hadoop生态,可以对海量数据集做快速统计分析(OLAP),数据可实时导入并且对于查询零延迟。IndexR 为解决大数据场景下分析缓慢、数据延迟、系统复杂等问题而设计。本文描述了IndexR的设计思想,系统
原创
0评论
0点赞
发布博客于 3 年前

告别S! S! H! 秒杀终端工具——FastLogin快捷登录

题记:自从接触到“跳板机”的概念后,一直就被烦不胜烦的机器名,ip地址,用户名,密码折腾的死去活来,心说能有个小精灵随时帮我输入那些重复的登录信息就好了。我见过最挫的方式就是用记事本把一堆机器的ip、登录用户、密码记录下来,每次登录机器就像是一场战斗:打开笔记本->勾选复制->写ssh命令->登录->再打开笔记本->再复制。。。永无止境!有时候机器密码改了也记不住,还要问来问去。还有时候登录线上环
转载
0评论
0点赞
发布博客于 3 年前

node2vec: 网络结构特征提取、论文、算法python实现

概述论文主要观点本文将抽取网络中节点的特征转化成最优化一个“可能性”目标函数问题,这个“可能性”是该节点可以保存其邻居节点的信息。成果node2vec,如上述,利用SGD优化,高效“随机选择邻居”算法,可让node2vec可适应不同的网络方法模型定义可能性,并且给予两个条件,构成要优化的目标函数; 条件独立性: 节点之间对称性
转载
2评论
0点赞
发布博客于 4 年前

Spark 提供的概率与统计算法 - 基本统计算法

spark-mllib 使用到了Breeze线性代数包,Breeze 采用了 metlib-java包来优化数字处理,但是由于版权问题,Breeze 中缺省不包含 netlib-java 的 native proxy,需要在项目中自行引用。        compile "org.apache.spark:spark-mllib_${scalaMajorVersion}:${s
转载
0评论
0点赞
发布博客于 4 年前

[Jep]Scala与Python混编 - 遇到的问题(未解决)

本人觉得在spark里使用scala与python两种优秀的编程语言进行编程实现逻辑是件非常酷的事情,于是就实验了各种可行性,Jep算是最出众的工具,可惜由于python的不兼容问题...这是蛮久之前的实验了,,未成功,也没时间继续,,所以本篇文章只是作为记录,,后续有时间再跟近,,顺便说一下python问题解决思路,因为系统版本是py-2.6, spark需要py-2.7+,,而
原创
0评论
0点赞
发布博客于 4 年前

使用Python读取C语言.so文件-: libmysqlclient.so.16: cannot open shared object file: No such file o

imp主要有两种用法(1)imp.find_module(name[,path])    如果path为空,则按照sys.path路径搜索模块名, 返回三元组(file, pathname, description).file为刚打开的模块文件, pathname为模块的路径, description为imp.get_suffixes()返回的元组.    如果模块为包,file返回N
原创
0评论
0点赞
发布博客于 4 年前

Hive/sparkSQL ( NOT IN ) 语句优化 ---- bigger than spark.driver.maxResultSize (1.0 GB)

之前设置的6g,还是不够,报错如下:[Stage 5:===========================>                            (47 + 50) / 97]17/11/22 15:46:01 ERROR scheduler.TaskSetManager: Total size of serialized results of 52 tasks (
原创
0评论
0点赞
发布博客于 4 年前

Spark上的深度学习库MMLSpark 介绍

6 月 2 日,微软正式发布微软认知工具包(Microsoft Cognitive Toolkit,曾用名 CNTK) 2.0 版本。2.0 完整版适用于生产级和企业级的深度学习工作负载,包含自测试版发布以来新增的几百项功能。认知工具包 2.0 能够简化深度学习过程,并能与更广泛的 AI 生态系统无缝整合;不但支持深受深度学习开发者欢迎的 Keras (用户友好型开源神经网络库),还能够支持
原创
3评论
0点赞
发布博客于 4 年前

Spark上的深度学习框架BigDL 介绍

网址:https://github.com/intel-analytics/BigDLBigDL: Distributed Deep Learning Library for Apache Spark https://bigdl-project.github.io/BigDL是基于Apache Spark的分布式深度学习框架,借助现有的Spark集群来运行深度学习计
转载
0评论
0点赞
发布博客于 4 年前

谱聚类(spectral clustering)原理+算法流程--总结

谱聚类(spectral clustering)是广泛使用的聚类算法,比起传统的K-Means算法,谱聚类对数据分布的适应性更强,聚类效果也很优秀,同时聚类的计算量也小很多,更加难能可贵的是实现起来也不复杂。在处理实际的聚类问题时,个人认为谱聚类是应该首先考虑的几种算法之一。下面我们就对谱聚类的算法原理做一个总结。1. 谱聚类概述    谱聚类是从图论中演化出来的算法,后来在聚类中
转载
0评论
1点赞
发布博客于 4 年前

数据结构:图的存储结构之邻接矩阵

图的定义和术语一、图(Graph)是由顶点的有穷非空集合和顶点之间边的集合组成,通常表示为:G(V,E),其中,G表示一个图,V是图G中顶点的集合,E是图G中边的集合。在图中的数据元素,我们称之为顶点(Vertex),顶点集合有穷非空。在图中,任意两个顶点之间都可能有关系,顶点之间的逻辑关系用边来表示,边集可以是空的。二、图按照有无方向分为无向图和有向图。无向图由顶点和边组
转载
0评论
1点赞
发布博客于 4 年前

Caused by: java.io.NotSerializableException: org.apache.spark.SparkContext

当你执行各种转换(map,flatMap,filter等等)的时候,会有以下转换:1、在driver节点上序列化,2、上传到合适的集群中的节点,3、在节点上执行反序列化,4、最后在节点上执行。当然你也可以在本地运行,除了没有网络传输,其他的过程都一样的,这样的好处就是方便调试在你部署之前。在这个例子中,你在class Test1中定义了一个方法,并运用在了map中,Spar
原创
0评论
1点赞
发布博客于 4 年前

图形数据库Neo4j restart --( /var/run/neo4j/neo4j.pid: 没有那个文件或目录

启动Neo4j报错如下:raini@biyuzhe:~$ sudo neo4j restartNeo4j not runningStarting Neo4j.WARNING: Max 1024 open files allowed, minimum of 40000 recommended. See the Neo4j manual./usr/share/neo4j/bin/n
原创
0评论
0点赞
发布博客于 4 年前

使用Keras动手实践深度学习(下)

原文:http://www.sohu.com/a/162003640_465944在上一篇文章“”中,我们已经了解如何在Docker上从头构建一个Keras的运行平台,搭建基础的深度学习环境。接着对我们要做的事情“IMDB影评预测”问题做了分析,对数据做了解释,并且初步使用LSTM网络,实现了一个比较好的深度学习模型。同时我们还提到虽然我们已经取得了比较好的结果,我们还要继续研究一些基
转载
4评论
2点赞
发布博客于 4 年前

使用Keras动手实践深度学习(上)

原文:http://www.wanjishu.com/p/erygxT170731.html背景介绍文本分类是机器学习中一个非常常见而且重要的问题,比如新闻出版按照栏目分类(体育,旅游,军事,科技等),还有常见的网页分类、个性化新闻智能推荐、垃圾邮件过滤、情感分析等,都是文本分类的应用场景。分类有二分类(binary)和多分类(multiple-classes)。传统的
转载
2评论
0点赞
发布博客于 4 年前

Keras 实现 LSTM在20_newsgroup新闻数据集

#!/usr/bin/env python# -*- coding:utf-8 -*-import numpy as npimport osimport sysimport randomfrom keras.preprocessing.text import Tokenizerfrom keras.preprocessing.sequence import pad_sequence
原创
0评论
1点赞
发布博客于 4 年前

用Spark学习FP Tree算法和PrefixSpan算法

原文:http://www.cnblogs.com/pinard/p/6340162.html    在FP Tree算法原理总结和PrefixSpan算法原理总结中,我们对FP Tree和PrefixSpan这两种关联算法的原理做了总结,这里就从实践的角度介绍如何使用这两个算法。由于scikit-learn中没有关联算法的类库,而Spark MLlib有,本文的使用以Spark
转载
0评论
0点赞
发布博客于 4 年前

PrefixSpan算法原理总结

原文:http://www.cnblogs.com/pinard/p/6323182.html    前面我们讲到频繁项集挖掘的关联算法Apriori和FP Tree。这两个算法都是挖掘频繁项集的。而今天我们要介绍的PrefixSpan算法也是关联算法,但是它是挖掘频繁序列模式的,因此要解决的问题目标稍有不同。1. 项集数据和序列数据    首先我们看看项集数据和序列数
转载
0评论
0点赞
发布博客于 4 年前

Keras RNN 与 情感分类(代码)

原文:http://blog.csdn.net/zzulp/article/details/76589044 1 RNN简介RNN即循环神经网络,其主要用途是处理和预测序列数据。在CNN中,神经网络层间采用全连接的方式连接,但层内节点之间却无连接。RNN为了处理序列数据,层内节点的输出还会重新输入本层,以实现学习历史,预测未来。 RNN的两个主要改进是LSTM(长短时记忆网络)和GR...
转载
5评论
0点赞
发布博客于 4 年前

Keras中的神经网络层组件简介

原文:http://blog.csdn.net/zzulp/article/details/765907121 简介在对Keras的简单使用之后,本文对Keras提供的对各种层的抽象进行相对全面的概括,以对Keras有更全面的认识。2 基础常用层名称作用原型参数Dense实现全连接层
转载
0评论
0点赞
发布博客于 4 年前

Keras训练辅助工具及优化工具

1 CallbacksCallbacks提供了一系列的类,用于在训练过程中被回调,从而实现对训练过程进行观察和干涉。除了库提供的一些类,用户也可以自定义类。下面列举比较有用的回调类。类名作用构造函数ModelCheckpoint用于在epoch间保存要模型ModelCheckpoint(filepath, moni
转载
0评论
0点赞
发布博客于 4 年前

Keras---text.Tokenizer:文本与序列预处理

keras中文文档:http://keras-cn.readthedocs.io/en/latest/preprocessing/text/1 简介在进行自然语言处理之前,需要对文本进行处理。本文介绍keras提供的预处理包keras.preproceing下的text与序列处理模块sequence模块2 text模块提供的方法text_to_wo
转载
6评论
22点赞
发布博客于 4 年前

Spark结构化流处理与Kafka数据的-输出模式-方法汇总

原文:http://www.geeksense.cn/apache-spark-connect-with-kafka/编者按本文翻译自DataBricks官方博客,主要描述了Apache Spark 2.0中推出的新功能Structured Streaming(结构化流处理)从Kafka中读取消息,实时处理后再写入不同的下游系统的使用示例。结构化流处理API使得以一种兼具一...
转载
4评论
0点赞
发布博客于 4 年前

Flume中的拦截器(Interceptor)介绍与使用

http://lxw1234.com/archives/2015/11/543.htm关键字:flume、拦截器、interceptorFlume中的拦截器(interceptor),用户Source读取events发送到Sink的时候,在events header中加入一些有用的信息,或者对events的内容进行过滤,完成初步的数据清洗。这在实际业务场景中非常有用,F
转载
0评论
0点赞
发布博客于 4 年前

Kudu总结

介绍Kudu集HDFS的顺序读和Hbase的随机读于一身,同时具备高性能的随机写,以及很强大的可用性(单行事务,一致性协议),支持Impala Spark计算引擎。什么时候使用kudu大规模数据复杂的实时分析,例如大数据量的join。数据有更新查询准实时存储Kudu的存储是不基于HDFS的,构建集群时,kudu很有可能和HDFS共同占用物理磁盘或者云磁盘,理
转载
0评论
0点赞
发布博客于 4 年前

Kudo介绍 + Spark\Python\Scala开发Kudu应用程序

前半部分文章摘自:http://blog.csdn.net/a1043498776/article/details/72681890Kudu的背景Hadoop中有很多组件,为了实现复杂的功能通常都是使用混合架构,Hbase:实现快速插入和修改,对大量的小规模查询也很迅速HDFS/Parquet + Impala/Hive:对超大的数据集进行查询分析,对于这类场景, Pa
原创
0评论
0点赞
发布博客于 4 年前

Apache Kudu 与 Impala Shell 的结合使用文档(创建表、删、改、查)

Kudu与Apache Impala紧密集成,允许您在Impala使用Impala的SQL语法从Kudu去做 插入,查询,更新和删除数据,作为使用Kudu API 构建自定义Kudu应用程序的替代方法。另外,使用Impala作为代理,您可以使用JDBC或ODBC来使用任何语言、框架或BI工具编写的现有或新应用程序连接到Kudu数据。要求此文档特定于I
原创
4评论
5点赞
发布博客于 4 年前

如何基于spark做深度学习:从ML到keras、Elephas

http://blog.csdn.net/Richard_More/article/details/53215142分布式深层神经网络的Spark ML模型管线该笔记本描述了如何使用Spark ML为分布式版本的Keras深度学习模型构建机器学习流水线。作为数据集,我们使用来自Kaggle的Otto产品分类挑战。我们选择这个数据的原因是它很小,结构非常好。这样,我们可以更多地关注技
转载
2评论
1点赞
发布博客于 4 年前

用Spark 2.2中的结构化流API处理Kafka数据-端到端

http://www.geeksense.cn/apache-kafka2-0/本文译自Processing Data in Apache Kafka with Structured Streaming in Apache Spark 2.2,28 APRIL 2017, 类似编者翻译的另一篇文章,本文用实际的例子演示了Spark Structured Streaming和Ka
转载
2评论
1点赞
发布博客于 4 年前

SparkSQL 操作 Json 格式数据

从嵌套列中选择Dots(.)可用于访问嵌套列的结构和映射。// input{ "a": { "b": 1 }}Python: events.select("a.b") Scala: events.select("a.b") SQL: select a.b from events// output{ "b": 1}扁平结构一个
翻译
0评论
0点赞
发布博客于 4 年前