最新大数据物流项目:Kudu 入门使用(五)_kudu快速入门指南,2024年最新大数据开发面试题

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

​ Kudu和Impala都是使用C++语言编写,使用内存进行数据存储和分析,速度比较快的,很多金融公司、证券公司或游戏公司,都会使用此种大数据技术,进行存储数据和分析数据。

1612404768871

​ Kudu 在一个系统中融合了 OLTP 型随机读写能力与 OLAP 型分析能力,填补了 Hadoop存储层的缺憾,是 Hadoop 生态的一大生力军。

1615862156890

06-[理解]-Kudu 是什么及应用场景

Apache Kudu是由Cloudera开源的存储引擎,可以同时提供低延迟的随机读写高效的数据分析能力。

1615862440217

1、Kudu是一种非洲的大羚羊,中文名叫“捻角羚”;

2、Impala是另一种非洲的羚羊,叫做“黑斑羚”,也叫“高角羚”;

不知道Cloudera公司为什么这么喜欢羚羊,也许是因为羚羊的速度快。

在Kudu之前,大数据主要以两种方式存储:

1615863353106

如果对业务数据既需要随机读写,有需要批量加载快速分析,实现如下架构:

1615863389687

上述架构:数据冗余性比较大、技术框架复杂性比较高、数据实时性降低。

为了解决上述架构的这些问题,Kudu应运而生。Kudu的定位是Fast Analytics on Fast Data,是一个既支持随机读写、又支持 OLAP 分析的大数据存储引擎。

1615863502692

​ 从上图可以看出,KUDU 是一个折中的产品,在 HDFS 和 HBase 这两个偏科生中平衡了随机读写和批量分析的性能。

Kudu相比与以往的系统,CPU使用降低了,I/O的使用提高了,RAM的利用更充分了。

Kudu 应用场景:

1615864007872

07-[掌握]-Kudu 数据存储模型

​ KUDU 的数据模型与传统的关系型数据库类似:一个 KUDU 集群由多个表组成,每个表由多个字段组成,一个表必须指定一个由若干个(>=1)字段组成的主键

1612407445258

​ KUDU 表中的每个字段是强类型的,而不是 HBase 那样所有字段都认为是 bytes。好处是可以对不同类型数据进行不同的编码节省空间。同时,因为 KUDU 的使用场景是 OLAP 分析,有一个数据类型对下游的分析工具也更加友好。

  • 1)、Table表:Schema信息(字段名称和字段类型)、主键约束(PrimaryKey)
  • 2)、Tablet:表的一个数据片段,类似HBase中Region
    • 在Kudu中将表划分为多个Tablet,每个Tablet存储自己数据
    • Tablet 副本机制,1个副本为leader,其他副本为Follower,类似Kafka Topic中分区Partition。
    • 副本之间,基于Raft协议,实现高可用HA,当leader挂掉以后,从Follower中选取leader。
    • 副本数必须为奇数,例如为3个副本等

image-20210521165307253

08-[掌握]-Kudu 分区策略及列式存储

​ 在Kudu存储引擎中,如何将一个表Table数据划分为多个Tablet???有哪些分区策略:

在Kudu中,每个表的分区Tablet需要在创建表的时候指定,表创建以后不能被修改。

1612407869134

  • 1)、范围分区:Range Partitioning,类似HBase表划分
    • 按照字段值范围进行分区,HBase 就采用了这种方式。

1615864764439

  • 2)、Hash Partitioning,按照字段的 Hash 值进行分区,Cassandra 采用了这个方式。

1615864859014

  • 3)、多级分区,可以指定范围,再指定哈希或者指定多个哈希分析

KUDU 支持用户对一个表指定一个范围分区规则和多个 Hash 分区规则,如下图:

1615864927988

多级散列分区组合,如下图所示:

1615865005425

KUDU 是一个列式存储的存储引擎,其数据存储方式如下:

1615817068149

列式存储的数据库很适合于 OLAP 场景,其特点如下:

1615865107429

09-[掌握]-Kudu 框架整体架构设计

KUDU 中存在两个角色:基于Raft协议实现一致性,所以不依赖Zookeeper

  • 1、Master Server:负责集群管理、元数据管理等功能,类似HBase Master
  • 2、Tablet Server:负责数据存储,并提供数据读写服务,类似HBase RegionServer

在 KUDU 中都可以设置特定数量(3 或 5)的副本。各副本间通过 Raft 协议来保证数据一致性。Raft 协议与 ZAB 类似,都是 Paxos 协议的工程简化版本。

1615865360022

  • 1)、Kudu Master通常3个节点,1个是leader,其余2个是Follower
  • 2)、表的每个Tablet副本通常3个副本,1个leader,其余2个时Follower,各个副本存储在不同TabletServer机器。

1612408861444

​ Tablet server 的任务非常繁重, 其负责和数据相关的所有操作, 包括存储, 访问, 压缩, 其还负责将数据复制到其它机器。 因为 Tablet server`特殊的结构, 其任务过于繁重, 所以有如下限制:

1615865598709

10-[掌握]-Kudu 服务启动及相关配置

​ 大数据所有技术框架都是安装在node2.itcastn.cn机器上,基于CM安装CDH组件,所以已经安装完成。

  • 1)、登录CM管理界面,启动Kudu 服务组件即可

    • http://node2.itcast.cn:7180/cmf admin/admin
    • 由于单机版本,伪分布式安装,启动基本上会成功,如果集群的话,Kudu对集群机器时间同步要求很高,使用ntp进行同步时间。最好配置,虚拟机与宿主机时间同步

    image-20210521172551297

    • 记住,设置虚拟机与网络时间同步,虚拟机必须联网。

    [root@node2 ~]# ntpdate ntp1.aliyun.com

1615866705218

  • 2)、Kudu Master提供Web UI界面:http://node2.itcast.cn:8051/

1615867012102

  • 3)、Kudu配置文件:/etc/kudu/conf

1615867072476

  • 4)、Kudu 存储数据目录:/var/lib/kudu/master,/var/lib/kudu/tserver
  • 5)、Kudu 日志存储:/var/log/kudu/
[root@node2 ~]# ps -ef|grep kudu
kudu      2878  2865  1 11:53 ?        00:00:06 /opt/cloudera/parcels/CDH-6.2.1-1.cdh6.2.1.p0.1425774/lib/kudu/sbin/kudu-master --location_mapping_cmd=/var/run/cloudera-scm-agent/process/6-kudu-KUDU_MASTER/topology.py --flagfile=/var/run/cloudera-scm-agent/process/6-kudu-KUDU_MASTER/gflagfile
kudu      2879  2865  0 11:53 ?        00:00:00 /usr/bin/python2 /opt/cloudera/cm-agent/bin/cm redactor --fds 3 5
kudu      2890  2864  6 11:53 ?        00:00:26 /opt/cloudera/parcels/CDH-6.2.1-1.cdh6.2.1.p0.1425774/lib/kudu/sbin/kudu-tserver --tserver_master_addrs=node2.itcast.cn --flagfile=/var/run/cloudera-scm-agent/process/5-kudu-KUDU_TSERVER/gflagfile
kudu      2891  2864  0 11:53 ?        00:00:00 /usr/bin/python2 /opt/cloudera/cm-agent/bin/cm redactor --fds 3 5

Kudu Master还是Kudu TabletServer都有很多配置属性,可以进行配置:https://kudu.apache.org/docs/configuration.html

11-[掌握]-Kudu 使用方式及KuduPlus 工具

Kudu提供三种方式,操作Kudu数据库,进行DDL操作和DML操作:

  • 1)、方式一:可通过Java client、C++ client、Python client操作Kudu表,要构建Client并编写应用程序;
    • https://kudu.apache.org/docs/developing.html#developing-applications-with-apache-kudu
  • 2)、方式二:可通过Impala的shell对Kudu表进行交互式的操作,因为Impala2.8及以上的版本已经集成了对Kudu的操作。
    • 直接定义Impala表数据存储在Kudu中,内部集成
  • 3)、方式三:通过Kudu-Spark包集成Kudu与Spark,并编写Spark应用程序来操作Kudu表
    • KuduContext,类似SparkContext,进行DDL操作和DML操作
    • SparkSession操作Kudu表数据,CRUD操作

无论是Java Client API使用,还是Kudu集成Spark使用,添加Maven 依赖:

<dependency>
  <groupId>org.apache.kudu</groupId>
  <artifactId>kudu-client</artifactId>
  <version>1.9.0-cdh6.2.1</version>
</dependency>

<dependency>
  <groupId>org.apache.kudu</groupId>
  <artifactId>kudu-spark_2.11</artifactId>
  <version>1.9.0-cdh6.2.1</version>
</dependency>

Kudu 框架本身提供命令kudu管理Kudu集群,位于$KUDU_HOME/bin目录

1615867691374

​ KUDU Client 在与服务端交互时,先从 Master Server 获取元数据信息,然后去 Tablet Server读写数据,如下图:

1612410080266

伟大网友提供KuduPlus工具,可视化工具,连接KuduMaster,创建表、删除表查询数据

Kudu-Plus一款针对Kudu可视化工具,GitHub地址:https://github.com/Xchunguang/kudu-plus

1615868019698

img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

68019698](https://i-blog.csdnimg.cn/blog_migrate/ee671d0bdda44f2185728d5a72b9e937.png)

[外链图片转存中…(img-pYJEFCJM-1715820479057)]
[外链图片转存中…(img-JywLu5S3-1715820479058)]
[外链图片转存中…(img-uuVIQ6th-1715820479058)]

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

2401_84164503
关注 关注
  • 26
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
2024大数据高频面试题(下篇)
program哲学
07-17 1万+
本文详细介绍大数据岗位热门高频面试题并附有详细答案说明,下篇包含scala、即席查询、分区、分桶、分片、调度系统、数据倾斜等内容的常见面试题
对于一般大数据物流项目面试题(问题+答案)_物流面试基本问题和答案(1)
2401_84166258的博客
05-04 903
在算子函数中使用到外部变量时,默认情况下,Spark会将该变量复制多个副本,通过网络传输到task中,此时每个task都有一个变量副本。如果变量本身比较大的话(比如100M,甚至1G),那么大量的变量副本在网络中传输的性能开销,以及在各个节点的Executor中占用过多内存导致的频繁GC(垃圾回收),都会极大地影响性能。从Spark-2.X版本后,Spark streaming就进入维护模式,Spark streaming是低阶API,给码农用的,各种坑;使用常见函数有哪些?RDD 特性有哪些?
CDH 之 Kudu
11-12
CDH 大数据平台,Kudu 使用必不可少的工具书籍. .
Kudu
CarloPan的博客
05-22 442
Kudu:构建高性能实时数据分析存储系统 新的应用场景》 kudu:支持逐行插入、低延迟随机读、快速分析和扫描以及更新 流式处理背后的思想是,在数据流中直接处理数据,而不是将数据保存到存储系统,然后再批量处理。 尽管诸如Apache Flume、Storm、Spark Streaming和Flink之类的处理框架提供了实时读取和处理事件的能力,但它们还需要倚赖外部系统来存储和访问外部上下文。例如,使用Spark Streaming可以每隔几秒从Kafka读取微批量事件,但如果你希望能够保存结果.
kudu
m0_52106226的博客
04-25 161
欢迎使用Markdown编辑器 你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。 新的改变 我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客: 全新的界面设计 ,将会带来全新的写作体验; 在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示; 增加了 图片
2024大数据最全大数据物流项目Kudu 入门使用)_kudu快速入门指南(3),分享PDF高清版
最新发布
2401_84166497的博客
05-05 805
主要讲解:存储引擎Kudu,类似HBase数据库,由Cloudera公司开发,目的取代HDFS和HBase框架,
1小时快速入门大数据 ——从面试题还原学习流程
01-20
1小时快速入门大数据——从面试题还原学习流程 【讲师介绍】: 李白 国内独角兽公司在职大数据工程师,负责商业级BI辅助决策项目,对于Hadoop、Hive、Spark、Kylin、Kudu、Flink等大数据组件及框架有深入研究。 ...
由浅入深掌握大数据列式存储NoSQL数据库Kudu视频教程
10-21
手把手视频详细讲解项目开发全过程,需要的小伙伴自行百度网盘下载,... 第章:Kudu原理深入搞定面试题 1.Table与Schema原理分析 2.Kudu数据模型分析 3.Kudu数据存储流程 4.Kudu数据读取流程 5.Kudu数据更新流程
kudu_client
06-27
java连接kudu使用,得到连接池,进行增删改查操做;
Apache Kudu
weixin_30292745的博客
08-18 183
Apache Kudu是由Cloudera开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力。Kudu支持水平扩展,使用Raft协议进行一致性保证,并且与Cloudera Impala和Apache Spark等当前流行的大数据查询和分析工具结 合紧密。本文将为您介绍Kudu的一些基本概念和架构以及在企业中的应用,使您对Kudu有一个较为全面的了解。 比较有意...
Kudu-基本架构、模式设计、Docker部署
迷雾总会解
07-11 1870
Kudu是一个分布式列式存储引擎/系统,由Cloudera开源后捐献给Apache基金会很快成为顶级项目。用于对大规模数据快速读写的同时进行快速分析。官网:https://kudu.apache.org/Kudu运行在一般的商用硬件上,支持水平扩展和高可用,集HDFS的顺序读和HBase的随机读于一身,同时具备高性能的随机写,以及很强大的可用性(单行事务,一致性协议),支持与Impala/spark计算引擎。
Kudu-集群管理、基架感知、透明分层存储管理、性能优化
迷雾总会解
07-11 1590
Kudu在安装时默认就安装了命令行工具,只需要执行Kudu命令就能看到所有的命令分组:一共有14个分组,组下面才是具体的命令,分组如下:执行kudu命令组就可以列出下面的子命令: Kudu提供了丰富的命令行工具方便用户管理集群,这里选择一些常见且命令做一下介绍。(1)kudu cluster举例: (2)kudu master举例: (3)kudu tserver举例: (4)kudu table举例: (5)kudu tablet举例: (6)kudu perf举例: Kudu Web界面 WebUI端口
KUDU 介绍
yang灬仔
09-13 1479
前言 近两KUDU大数据平台的应用越来越广泛。在阿里、小米、网易等公司的大数据架构中,KUDU 都有着不可替代的地位。本文通过分析 KUDU 的设计, 试图解释为什么 KUDU 会被广泛应用于大数据领域,因为还没有研究过 KUDU 的代码,下面的介绍是根据 KUDU 的论文和网上的一些资料学习自己理解所得,如有不实之处,劳请指正。 背景 在 KUDU 之前,大数据主要以两种方式存储: 静态数据:以 HDFS 引擎作为存储引擎,适用于高吞吐量的离线大数据分析场景。这类存储的局限性是数据无法进行
KUDU介绍
likaiasddsa的博客
05-09 636
KUDU介绍 原文网址:https://www.jianshu.com/p/93c602b637a4
Kudu简介
justlpf的专栏
04-28 2405
参考文章:KUDU 介绍 前言 近两KUDU大数据平台的应用越来越广泛。在阿里、小米、网易等公司的大数据架构中,KUDU 都有着不可替代的地位。本文通过分析 KUDU 的设计, 试图解释为什么 KUDU 会被广泛应用于大数据领域,因为还没有研究过 KUDU 的代码,下面的介绍是根据 KUDU 的论文和网上的一些资料学习自己理解所得,如有不实之处,劳请指正。 背景 在 KUDU 之前...
Kudu——Impala集成Kudu
xdx_dili的博客
08-29 644
Kudu——Impala集成Kudu
Kudu——基础知识
xdx_dili的博客
08-25 402
Kudu——基础知识
DMP广告系统大数据实战:Kudu与图计算解析
"大数据进阶实战dmp广告系统视频教程涵盖了Kudu、GraphFrames、Hadoop等核心技术,并通过实例讲解如何构建DMP系统,包括CDH环境安装、系统构建、报表开发、商圈库开发以及用户标签开发等内容。" 在这个大数据进阶...
332
原创
4388
点赞
4558
收藏
3206
粉丝
关注
私信
写文章

热门文章

  • Git切换用户常用命令,绝了 3307
  • 2024年大数据最全低版本Docker升级高版本Docker【详细教程、成功避坑】_docker 1 2330
  • YOLO系列目标检测数据集大全_yolo数据集(1),2024年最新2024年大数据开发面试心得 2044
  • YOLO系列目标检测数据集大全_yolo数据集,月薪30K 1430
  • Flutter:基于video_player实现视频相关手势控制、全屏播放 1386

分类专栏

  • 程序员 186篇
  • 2024年程序员学习 114篇

最新评论

  • 2024(20届)数据科学与大数据专业毕业设计选题合集_数据科学与大数据技术 专业 本科论文选题方向

    Gail204: 大佬还可以拿吗

  • 最新Hadoop 安装(1),美团大数据开发研发岗二面

    普通网友: 文章内容通俗易懂,适合不同层次的读者。【我也写了一些相关领域的文章,希望能够得到博主的指导,共同进步!】

  • 助力工业物联网,工业大数据之服务域:服务器性能监控Prometheus及项目总结【三十五】_prometheus服务器性能监控

    普通网友: 干货满满,细节很到位!【我也写了一些相关领域的文章,希望能够得到博主的指导,共同进步!】

  • 最新Hadoop 安装(1),美团大数据开发研发岗二面

    普通网友: 写的很好,细节很到位!【我也写了一些相关领域的文章,希望能够得到博主的指导,共同进步!】

  • AutoKeras安装教程,趟坑记!!_atokeras需要python和tensorflow版本

    普通网友: 好文,细节很到位!【我也写了一些相关领域的文章,希望能够得到博主的指导,共同进步!】

最新文章

  • 计算机网络:电路、报文与分组交换_电路交换和分组交换 传送长度(3)
  • 计算机网络:电路、报文与分组交换_电路交换和分组交换 传送长度(2)
  • 计算机网络:电路、报文与分组交换_电路交换和分组交换 传送长度(1)
2024
05月 149篇
04月 183篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家深圳玻璃钢花盆厂南宁环保玻璃钢雕塑市场重庆玻璃钢蓝精灵雕塑玻璃钢雕塑工厂价格商场的开业美陈郑州番禺玻璃钢人物雕塑绍兴水果玻璃钢雕塑佛山卡通玻璃钢雕塑定制仙林商场开业美陈商场户外美陈创意彩绘玻璃钢雕塑厂北京商场主题创意商业美陈公司商场美陈风格陈列惠州玉树玻璃钢人物雕塑东莞玻璃钢奶牛雕塑玻璃钢雕塑漆上色方法知名玻璃钢景观雕塑厂家家用玻璃钢花盆采购聊城玻璃钢雕塑厂家供应成都玻璃钢仿真雕塑山东玻璃钢仿铜雕塑价格合肥大手玻璃钢铸铜雕塑厂玻璃钢卡通雕塑展电话云南专业校园玻璃钢景观雕塑厂家特色商场美陈供应商惠安玻璃钢香蕉雕塑珠海公园玻璃钢动物雕塑东莞巨人玻璃钢雕塑绍兴耐高温玻璃钢花盆浙江艺术商场美陈有哪些香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化