自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

图特摩斯科技-博客

AbutionGraph:首个时序动态知识图谱数据库、AI大数据分析平台,分布式高可用,60种图挖掘算法,实时多维指标聚合、兼容TensorFlow,Spark,Flink全栈、物联网,金融等行业应用...

原创 知识图谱数据库还有OLTP、OLAP(MOLAP、ROLAP、HOLAP)的区别? 首个实时图数仓架构分析...

面向大规模实时数据分析的HOLAP知识图谱数据仓库AbutionGraph与传统的OLTP图库有什么不同?我们将对OLAP图库的应用场景、面向的客户、实现原理、未来发展做出对比分析。

2020-09-29 11:22:26 679 0

原创 [AbutionGraph] 报表制作-使用Grafana动态可视化知识图谱指标
原力计划

使用开源报表可视化工具Grafana实时监控时序知识图谱数据仓库AbutionGraph中的数据,实时性报表查询, 满足单次百万千万级的数据查询,毫秒级查询延迟,亚秒级对千亿数据量汇总统计,每日过亿报表查询/多维分析/日志分析等数据指标...

2020-07-08 18:05:43 723 0

原创 图谱智能中台AbutionGraph分布式计算引擎 - 边缘计算+时序动态知识图谱~=“数字孪生”

技术概览 AbutionGraph是北京图特摩斯科技自研的首款时序动态知识图数据仓库与分析系统。 AbutionDB是底层数据的承载,存储包括:动静结合的图谱数据、时间序列数据、KV表格数据、地理空间数据、事件数据、文本数据。 AbutionGRS是首个以图谱为核心构建的下一代数据认知中台,...

2020-05-23 18:44:37 428 0

原创 AbutionDB`知识图谱+时序机器学习特征存储

关于AbutionDB​ AbutionDB是一个多模态的数据库,支持动静态知识图谱、时序事件数据、空间数据、机器学习特征、关系型数据、文本数据的存储,其中动态知识图谱平台AbutionGraph是一套包含数据采集、存储、计算、分析、监控的闭环大数据解决方案,本文将介绍知识图谱特征及其它用户...

2020-04-21 11:48:39 707 0

原创 1台笔记本 vs 1个Hbase集群 - AbutionGraph图数据库+Flink性能测试

作者 | 闭雨哲 出品 | 图特摩斯科技(thutmose.cn) AbutionGraph是图特摩斯自研的时序图数据库,它可以满足永不掉线的实时知识图谱指标计算任务以及历史数据分析,静态图+动态图+时序图同时存储。在面向大规模在线场景时,使用Flink技术做ETL的同时,保证数据接入更稳...

2020-03-08 18:19:46 434 0

原创 [AbutionGraph] 新冠肺炎实时动态时序图谱建模与分析

原文<--观看视觉更佳 一、背景介绍 新冠肺炎是一种具有最长达24天潜伏期的新型突发性传染疾病,这种特性给疫情防控带来了巨大的挑战,随着感染规模的不断扩增,简单的人为治理已不太奏效,使用“大数据”技术手段来辅助人为治理社会有助于快速准确的定位问题关键,帮助决策者及时作出下一步规划。 ...

2020-02-16 22:00:12 2886 2

原创 [AbutionGraph] 轻松构建以知识图谱为核心的下一代数据中台

作者 | Raini 出品 | 北京图特摩斯科技 (thutmose.cn) 前言 图特摩斯科技(Thutmose)基于自研的图形数据库AbutionGraph(实时多维数据存储与计算一体化的高可用平台)为核心,构建AI智能认知中台(认知图谱平台)来实现业务衔接,它不仅是一个能力中台,也...

2020-01-11 12:20:32 1299 0

原创 [AbutionGraph] 知识图谱+Flink:大规模实时动态图谱平台的实现

作者 | Raini 出品 | 北京图特摩斯科技(www.thutmose.cn) Flink:目前最受关注的大数据技术,最活跃 Apache 项目之一。 AbutionGraph:北京图特摩斯科技自研的国内首个准实时多维图形数据库,首个将实时/离线/指标聚合/图挖掘/AI框架等热门技术...

2019-12-30 22:28:37 2748 0

原创 [AbutionGraph] 大规模准实时动态时序知识图谱+AI平台

作者 | Raini 出品 | 图特摩斯(北京)科技有限公司 AbutionGraph是什么? AbutionGraph是一种能对历史和实时数据提供亚秒级别查询的多维图数据存储与分析平台。 AbutionGraph支持低延时的数据摄取,灵活的数据探索分析,高性能的数据聚合,简便的水...

2019-12-18 11:48:23 2567 0

原创 知识图谱「技术」~

知识图谱与图挖掘技术QQ交流群2:529757057 bo主w~x:lovebyz99 (交流请备注,对创业有想法欢迎联系) Breaking\Locking\Popping、AI、算法、大数据、前端、后端、知识图谱、微服务、云计算、区块链。。。 ...

2019-07-17 15:59:27 468 0

原创 使用Py-OpenCV(SIFT关键点)实现自然图像中的logo商标识别和定位

logo是包含了颜色、形状、特征等信息的图形实体。logo检测有很多挑战,比如视角变化、弯曲、形状和颜色的变化、遮挡、背景变化等。 下图是我跑的一个(百度随便找的,非项目图)识别一般的效果图,虽然可以识别出指定的logo(1中左图),也受到logo多余部分的影响,最终匹配获取的logo区域有所放...

2018-12-14 15:37:00 6366 5

原创 使用(SIFT特征KMeans聚类关键点训练SVM)实现自然图像中的logo商标识别和定位

(本博客只记录方法,因为本人觉得这是机器学习特征工程中一种比较不错的做法) 上一篇博客中的方法:使用Py-OpenCV(SIFT关键点)实现自然图像中的logo商标识别和定位 当然也能提前欲知该方法的缺点,对于新的logo需要重新训练模型,而且所需的数据集远大于上面的方法。   实现方法:...

2018-12-14 15:31:58 3479 4

原创 主流深度学习OCR文字识别方法对比:Tesseract(LSTM)、CTPN+CRNN、Densenet

作者 | Raini 出品 | 北京图特摩斯科技有限公司(www.thutmose.cn) 也是几个月前的项目了,由于手头事儿多,也已经转交给别的同事去继续优化。本博客仅做个简单的记录用。 这里是Tesseract(LSTM)、CTPN+CRNN、Densenet三个方法测试结果对比...

2018-12-11 20:07:06 28736 27

原创 [OpenCV_GrubCut]实现交互式图像分割提取前景--Python抠图

这部分内容是几个月前做的项目,一直没时间整理记录,在这里随便写一下方便日后回忆.   "GrabCut":使用迭代图形切割的交互式前景提取工具,用于在分割任务中按像素标记图像数据. OpenCV官网例子 算法过程:     首先,输入矩形框,矩形框外部区域都是背景。内部一定包含前景。 ...

2018-12-07 14:58:49 3878 5

原创 分布式算法调参神器HyperOptSearch-[增强学习Ray.tune]-使用XGboost举例

分布式增强学习Ray.tune调参神器HyperOptSearch 近日在研究分布式增强学习框架Ray.tune(深度学习参数优化)模块时,发现里面使用的HyperOptSearch其实是基于HyperOpt(最后章节讲解)(https://github.com/hyperopt/hyperop...

2018-12-06 18:22:18 2086 7

原创 [SemanticSoftSegmentation:语义软分割]-2018最强图像分割光谱消光算法调研与测试

SSS据说是迄今为止效果最好的图像分割算法,效果超过Mask-RCNN,我们来研究一下下。 (项目测试结果在最后) Github项目:https://github.com/yaksoy/SemanticSoftSegmentation 算法主要处理步骤: 特征降维,从128维特征降到3维。 超...

2018-11-27 19:07:06 3053 5

原创 Spark持续流处理与Flink比对

  Spark流处理 Spark从2.3版本开始引入了持续流式处理模型,可将流处理延迟降低至毫秒级别,让 Structured Streaming 达到了一个里程碑式的高度;使用 Pandas UDF 提升 PySpark 的性能;为 Spark 应用程序提供 Kubernetes 原生支持。...

2018-11-19 19:41:17 2533 0

原创 基于LBP纹理特征计算GLCM的纹理特征统计量+SVM/RF识别纹理图片

## 局部特征检测方法 斑点 Blob检测,LoG检测 , DoG,DoH检测,SIFT算法,SUFT算法 边缘检测 梯度边缘检测算子,拉普拉斯算子,LoG检测 ,Canny边缘检测算子,Roberts,Sobel,Prewitt, 角点检测 Kitchen-Rosenfeld,Harris...

2018-11-13 18:56:35 18277 8

原创 [MMLSpark]使用Spark Serving将模型部署为实时的Web服务

新东西,我们一起来尝鲜~~ 使用人口普查数据集(点击可下载)预测收入 我们将使用Spark Serving将其部署为实时的Web服务。 首先,我们导入所需的包: import sys import numpy as np import pandas as pd import mmlspark ...

2018-10-25 17:58:09 3111 5

原创 大数据平台搭建:Hadoop-3.x + Spark-2.x + Hive-2.x + Hbase-1.4 + Phoenix-4.14 + Cassandra + ES

换了新笔记本,做个笔记。 一,软件准备(自取所需) Java-1.8 Scala-2.11 Hadoop-3.1.1 Spark-2.3.2 Hive-2.3.4 phoenix 二,SSH免密码登录 (即使是当地的单机也需要SSH,否则格式化的hadoop的存储系统时无权限,导...

2018-10-24 18:28:24 3673 4

原创 AI 多类分类(multi-class) and 多标签分类(mulit-label) and 多输出-多分类-多标签classification

一些知识点: sigmoid和softmax是神经网络输出层使用的激活函数,分别用于两类判别和多类判别。 binary cross-entropy和categorical cross-entropy是相对应的损失函数。 对应的激活函数和损失函数相匹配,可以使得error propagatio...

2018-07-17 16:54:43 9185 6

原创 Mask R-CNN 训练自己的数据集—踩坑与填坑

作者 | Raini 出品 |北京图特摩斯科技有限公司(thutmose.cn) tensorflow/keras版(项目地址https://github.com/matterport)。 服务器cuda为8.0版本,尝试升级成9.1没成功,之后再降级回8.0了,python版本一开始为py...

2018-04-28 18:26:59 17600 69

转载 Cassandra3.11读写性能测试

1. 测试目的 测试Cassandra集群读写TPS的极值,确定Cassandra读写性能。 2. 测试环境 2.1 硬件信息 CPU 8核 Intel(R) Xeon(R) CPU E5-2650 v4 @ 2.20GHz RAM 16G 2.2 软件信息 JDK ...

2020-03-05 10:54:46 379 0

转载 HBase 2.2 随机读写性能测试

测试环境 测试环境包括测试过程中HBase集群的拓扑结构、以及需要用到的硬件和软件资源,硬件资源包括:测试机器配置、网络状态等等,软件资源包括操作系统、HBase相关软件以及测试工具等。 集群拓扑结构 本次测试中,测试环境总共包含3台物理机作为Hadoop数据存储,其中2台物理机作为Regi...

2020-02-28 13:37:47 381 0

转载 IDEA搭建javaWeb项目图文教程

1、新建一个Web项目 两种方法:java 和Java Enterprise(推荐) 第一种)通过Java工程创建,这个方法需要手动导入Tomcat的servlet包才能使用servlet 导入包的方法是创建项目并配置好Tomcat后,File->Project Structure,点...

2019-08-03 11:27:29 536 0

原创 Web项目(Swagger+Jersey)用IDEA打war包并部署

我一个算法工程师勤学多看,抓狂两周终于完成了自己想要的后端 首先:IDEA搭建javaWeb项目 步骤: 一、文件->项目结构 二、注意一定选空的Artifacts,我用现有的导致swagger一直不能显示api信息 三、取一个war包的名字 四、选择web资源roo...

2019-08-02 17:07:20 666 0

转载 图形聚类算法:MCL

Different Clustering Vector Clustering 我们在描述一个人时,常常会使用他所拥有的特点来表示,比如说:张三,男,高个子,有点壮。那么,这就可以用四维向量来表示,如果再复杂一些,就是更高维的向量空间了。下图是在二维空间之中的分布情况,可以较为直观的看出,以红色...

2019-06-28 14:36:41 3431 0

转载 Graph Neural Network Review

图(graph)是一个非常常用的数据结构,现实世界中很多很多任务可以描述为图问题,比如社交网络,蛋白体结构,交通路网数据,以及很火的知识图谱等,甚至规则网格结构数据(如图像,视频等)也是图数据的一种特殊形式,因此图是一个很值得研究的领域。 针对graph的研究可以分为三类: 1.经典的grap...

2019-05-17 15:26:03 701 0

原创 「JanusGraph-Gremlin」高级语法sack()局部数据结构

sack(麻袋)帮助人们更细致有效地解决问题 在某些情况下,人们正在编写使用路径信息进行数据聚合的Gremlin遍历。通常,人们将使用path()然后再执行一些过滤以“减少”路径中的数据获得特定结果。 不幸的是,这是低效的,因为路径计算是昂贵的,且是不可以合并的,计算全部路径再过滤相当耗资源和...

2019-04-24 10:00:50 870 0

原创 实现将输入字符串转成唯一数字id输出--Groovy/Scala/Java

MD5,Message Digest Algorithm 5,是一种被广泛使用的信息摘要算法,可以将给定的任意长度数据通过一定的算法计算得出一个 128 位固定长度的散列值。 步骤(Groovy): // 第一步,获取MessageDigest对象,参数为MD5表示这是一个MD5算法 m...

2019-04-19 14:10:01 6639 0

原创 Linux shell中使用sed 替换\n换行符 (多行边一行、一行变多行)

基本语法: sed"s/要匹配的字符串/要替换成的字符串/g"test.gson 语法解释:sed是按行处理文本数据的,每次处理一行数据后,都会在行尾自动添加trailing newline,其实就是行的分隔符即换行符。连续两行执行一次sed命令,这样就可以把前一行的\n替...

2019-04-18 14:37:35 11322 0

转载 实现GraphX与GraphSON格式相互转换

摘要 转换器实现了:1.根据用户输入的SparkContext,和文件路径,读取GraphSON格式文件,转换为GraphX所接受的graphRDD;2.用户输入GraphX的graphRDD,在指定文件路径输出GraphSON格式文件。 相关版本 Apache TinkerPop 3.3....

2019-04-15 15:07:46 1121 0

原创 SparkJDBC并行查询RDBMS数据库的参数方法

当通过spark读取mysql时,如果数据量比较大,为了加快速度,通常会起多个task并行拉取mysql数据。api: def jdbc(url: String, table: String, columnName: String, lowerBound: Long, upperBound: ...

2019-04-12 17:49:05 609 0

原创 「JanusGraph与HugeGraph」图形数据库 - 技术选型-功能对比

Tinkerpop highlevel-arch gremlin server: httpserver/websocket server接收标准的gremlin dsl语法,自身相当于一个计算节点,完成图的遍历,或者操作DML语言,操作底层OLTP图库。 gremlin travers...

2019-03-25 17:49:17 6665 1

原创 「JanusGraph」图形数据库 - 技术选型调研

JanusGraph各组件版本兼容性匹配表 JanusGraph JanusGraph提供多种后端存储和后端索引,使其能够更灵活的部署。本章介绍了几种可能的部署场景,以帮助解决这种灵活性带来的复杂性。 在讨论部署场景之前,理解JanusGraph本身的角色定位和后端存储的角色定位是非常重...

2019-02-27 17:14:19 1480 0

原创 「HugeGraph」图形数据库 - 个人选型文档备份

(仅为个人操作记录使用) 安装zookeeper 这里安装的是单机模式。版本是zookeeper-3.4.9.tar.gz。已装,步骤略。(看我博客-集群安装) 安装Hbase单机模式 配置Hbase 1.下载:https://mirrors.tuna.tsinghua.edu.cn...

2019-02-27 17:11:15 1157 2

原创 解决SSH免密登录配置成功后不生效问题

配置免密登录 很简单,重点就两步,分布式scp~/.ssh/authorized_keys 中内容到所有你想相互免密的机器即可。 1. 执行命令$ ssh-keygen-trsa-P"" 回车后会在 ~/.ssh/ 下生成两个文件:id_rsa 和 id_rsa.pub,这...

2019-02-25 15:18:48 12782 2

原创 Accumulo安装部署

Accumulo依赖Zookeeper:需首先安装Zookeeper Ps:对Accumulo应用开发感兴趣的小伙伴请加wx:lovebyz99 简介 Accumulo是一款开源分布式NoSQL数据库,基于谷歌的BigTable构建而成。其能够非常高效地对超大规模数据集(通常即指大数据)执行...

2019-01-18 18:52:53 2945 4

原创 [Zookeeper] 安装and各 配置参数详解

分布式常见问题 容易出现死锁 容易活锁,处于活锁的线程都是非阻塞的,而且每个线程都抢不到资源,会造成cpu的耗费 集群的管理问题,比如某台的宕机需要能够检测到 集群配置文件的统一管理问题 集群中信息更新通知问题,某一台机器发布一个信息,能够让整个集群的机器都知道 管理集群的选举问题,管...

2019-01-18 18:30:27 364 0

转载 Structured Streaming与Flink比较

flink是标准的实时处理引擎,而且Spark的两个模块Spark Streaming和Structured Streaming都是基于微批处理的,不过现在Spark Streaming已经非常稳定基本都没有更新了,然后重点移到spark sql和structured Streaming了。 ...

2019-01-11 10:43:16 2628 0

提示
确定要删除当前文章?
取消 删除