侯圣文大数据体验课笔记

一、玩转大数据和互联网大厂大数据解析
大数据职位有广袤的海洋:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-R6aNWQ9r-1652164317262)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508163847484.png?lastModify=1652142610)]请添加图片描述

未来比较吃香的ABC

A:AI人工智能

B:Big Date大数据

C:云计算

逛吃看买肉眼检索数据库查询智能推荐
脑袋海报数据库DB大数据BD

在这里插入图片描述

客户买东西的演进过程:
  1. 超市买物品,寻找商品只能靠人走看买,有哪些商品在大脑里存储
  2. 海报:寻找商品在海报上肉眼检索,物品在海报上记录
  3. 比较先进:自己家附近3公里内,有点像早期的外卖,买什么在在线购物平台上,寻找:直接搜索,数据存储在数据库中
  4. 智能推荐:基于大数据统计,发现人们买东西的时候,出现捆绑消费的习惯,把捆绑消费的东西提前放在一起,有点像现在网购,你买个手机,给你推荐同手机型号的的手机壳。寻找商品智能推荐,数据存储在大数据BD.

智能:对用户来说,体验比较好。对老板来说赚钱比较多。

阶段1:价格

阶段2:价值

阶段3:爽,价值观

分布式

​ 分布式系统,可以类比显示生活中的牛拉物,我们不可能创造出无穷无尽的牛,来拉取比较大的东西。计算机我们不能期望制造一台无穷大的机器,要留多少个卡槽合适呢,插硬盘,显卡,这种怎么设计呢。显然不太现实。牛,我们用多个牛。不能指望一头牛变得无穷大。不能指望一个机器无穷大。

​ 大数据分布式存储,分布式计算的演进过程。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0sUtKWtr-1652164252719)(C:/Users/MSI-NB/AppData/Roaming/Typora/typora-user-images/image-20220508194503356.png?lastModify=1652143741)]

从DB到BD

数据库(DB)技术发展的三个时代
  • 数据库发展的三个时代,成就了三种商业形态

    • 商业数据库时代:成就了商业软件行业;

    • 开源数据库时代:成就了互联网

    • 新(开)数据库时代:是商业和开源、SQL和NewSQL交融的时代,成就了云和数字化时代

      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xZoAKPwi-1652164252719)(C:/Users/MSI-NB/AppData/Roaming/Typora/typora-user-images/image-20220508194841827.png?lastModify=1652143957)]

DatabaseBigData
OLTP交易OLAP分析
ACID事务 TBCAP BASE PB
业务系统洞察
大数据的3v特征–多块好省

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8vTRahic-1652164252719)(C:/Users/MSI-NB/AppData/Roaming/Typora/typora-user-images/image-20220508221514148.png?lastModify=1652144137)]

多:规模大、多样性

快:高速性

腾讯的大数据演进之路

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TRigx0Bx-1652164495137)(C:/Users/MSI-NB/AppData/Roaming/Typora/typora-user-images/image-20220508221627969.png?lastModify=1652144231)]

阿里的数据演进之路

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hNFyVNMH-1652164252720)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508221742939.png)]

Hadoop Core

账本表格云ERP
算盘计算器

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nYUljaFD-1652164252721)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508221851171.png)]

房子丢失,每份数据存三份

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-60H8XmGb-1652164252721)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508222128335.png)]

多副本还有一个好处就是可以分布式计算

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-d0VjFCBB-1652164252722)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508222554176.png)]

副本是怎么放的:

​ 首先,客户端会挑选一个离客户端近的节点,然后再选一个跟第一个节点不同的服务器下的空闲节点(发起挑选第二个节点的是第一个副本的集群),第二个副本为了效率,会找一个同一机架下的另外一个空闲节点。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vhbIIBXl-1652164252722)(C:/Users/MSI-NB/AppData/Roaming/Typora/typora-user-images/image-20220508223259757.png?lastModify=1652154537)]

MapReduce的Map阶段

计算的时候一个数据量过大及会通过map分给不同的节点。并把数据变成(the,1)二元组的格式

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-F9asoBY7-1652164252723)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508223557390.png)]

MapReduce的shuffle&sort

将相同的key分成相同的组,

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IoSAwqRv-1652164252723)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508223627913.png)]

MapReduce的Reduce阶段

相同的key,合并对应的value

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ARZKFORd-1652164252723)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508223657660.png)]

MapReduce 的并行执行,Mappers提速

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-u5nIRhL7-1652164252724)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508223830014.png)]

MapReduce—应用案例:网页访问延迟分析

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uwaRxPX1-1652164252724)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508223926241.png)]

统计网页中部分访问的时长;

大数据的架构模型永远遵循I-P-O模型

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NLcUq5Mq-1652164252725)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508224042872.png)]

输入-计算-输出

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fWSJesed-1652164252725)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508224439630.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0EVRzA6U-1652164252725)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508230534160.png)]

技术:是一个习得的东西,自行车,一样,一旦学会终生受益。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-o5CXrN79-1652164252726)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509080305785.png)]

二、离线数仓搭建哪些你不知道的点

1、数据仓库定义及演进史

2、数据仓库及核心概念

3、数据仓库建模流程讲解

4、走进大厂数据仓库搭建案例

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4iblLuoC-1652164252726)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509080955240.png)]

数据仓库类似于:

淘宝开时尚潮流店,流程:生产工厂、物流公司、商品仓库、时尚潮流店。

数仓的流程:数据库、ETL、数据仓库、可视化看板。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SJaS0MLs-1652164252726)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509081225819.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3c3BK21l-1652164252727)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509081627700.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fFkiBW1p-1652164252727)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509082146106.png)]

模型:E-R、维度

E-R:支持多对多(N:N)关系 相对容易扩展 高度结构化

维度模型:面向主题、适合多维度分析。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ktL8QIoZ-1652164252727)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509082843179.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-g4AcEf66-1652164252728)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509083101302.png)]

概念模型、逻辑模型、物理模型

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-giwOOrTS-1652164252728)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509083238156.png)]

概念模型:可以看到整体规划小区有哪些功能区:商家、商品、买家、订单

逻辑模型:类似于图纸,显示生活中卖房子的户型图,对应中文字段信息

物理模型:煤火电是怎么走的。对应,英文库表

分层

分层:是为了在管理和使用数据时能清洗、有序、高效。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-t4fT0mjf-1652164252728)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509083519616.png)]

事实表:

也叫度量,使用户评价业务的数据值型数据。是原子指标,不能再分的。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HYEGJ80k-1652164252729)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509083626565.png)]

维度:

数据观察的角度,验证指标。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jfexouGI-1652164252729)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509083703643.png)]

事实,我想找个女朋友是一个实时。维度,我想找个什么样的,身高,体重,年龄等

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DGjsGc8a-1652164252729)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509084509247.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kHWPBQq3-1652164252729)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509084742047.png)]

数据调研
需求调研

​ 数据产品经理做的。1、爆款商品的排行数据。2、双11的销售额有哪些。3财务数据:营收额,费用。4有多少商家入驻,总共有多少商品了。5平台上的用户量有多少。

数仓建模:慢就是快。

业务调研:

​ 看数据都有谁看,商家产品部,平台运营部,CEO…。

数据调研:

​ 数据是怎么产生的:1.商品购买流程。2.线上活动流程。3.客服售后流程

​ 数据长什么样?1、有哪些数据库,数据表。2、有哪些字段,字段含义,字段类型。3.数据的更新方式,更新时间。

数仓规划

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7fMkkwrg-1652164252730)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509090255790.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QHUCRpUe-1652164252730)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509090401705.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rYkzI3Hg-1652164252730)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509090419486.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fOOOHahO-1652164252731)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509090505638.png)]

分析主题
数据分层
数据事实
数据维度
第三步:模型设计

星型模型,雪花模型

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6DaztmUF-1652164252732)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509090949912.png)]

第四步:模型开发

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Glss7wUA-1652164252732)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509091042733.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IV05BoBA-1652164252733)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509091155956.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-t6lisgon-1652164252733)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509091456952.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-shV7wenn-1652164252733)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509091543101.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4vbFFb2l-1652164252734)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509093051404.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-i7kXhr5T-1652164252734)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509093158923.png)]

三、带你走出实时数据计算的坑

实时计算:

STORM

SPARK STREAME

FLINK

实时大屏;

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Gh8tAIr6-1652164252735)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508200850773.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mfdSwGrb-1652164252735)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508200943457.png)]

小汽车绿灯状态下,就是流式,源源不断的进去。

直饮机。直接来了过滤,没有等一等。

车流的例子也能

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8KEP1pHD-1652164252735)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508201736141.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xGwIpGuu-1652164252736)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508202042192.png)]

当接到电话的时候同时收到防诈骗的短息。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BmbxzZ6W-1652164252736)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508202314719.png)]

车路协同

机场高速,实时技术,摄像头,实现快速扣费,极大的提升了通信效率,无感通行。提升出行体验。

2、三大实时计算框架比较。

spark streaming :

storm 快、准确不强,吞吐能力有限。Twitter 自研的

flink

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GPpklXEY-1652164252737)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508203507316.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PV08ygQ9-1652164252737)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508203737033.png)]

flink:

快速灵动;

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ik2mH3U5-1652164252737)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508204028795.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-i2ZS8lkM-1652164252738)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508204039140.png)]

4大根技术

容错机制:一个一个栅栏分一段一段的。

状态管理

时间窗口

时间语义

2

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nV2y5gTv-1652164252738)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508204535996.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RWdm5mih-1652164252739)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508204947473.png)]

等等我让我数清楚:

核酸检测:等等我,可能比我早捅,但是检测时间比较晚

“无界数据流”中的“有界数据集”:

数车流:不管是按照时间3秒数、还是三辆数。分段数的对象就是有界数据集

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fGf8yG6A-1652164252739)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508205756815.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xJsSz5Dz-1652164252739)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508210231452.png)]

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐