侯圣文大数据体验课笔记

一、玩转大数据和互联网大厂大数据解析
大数据职位有广袤的海洋:

image-20220510153509178

未来比较吃香的ABC

A:AI人工智能

B:Big Date大数据

C:云计算

逛吃看买肉眼检索数据库查询智能推荐
脑袋海报数据库DB大数据BD

image-20220510153407460

客户买东西的演进过程:
  1. 超市买物品,寻找商品只能靠人走看买,有哪些商品在大脑里存储
  2. 海报:寻找商品在海报上肉眼检索,物品在海报上记录
  3. 比较先进:自己家附近3公里内,有点像早期的外卖,买什么在在线购物平台上,寻找:直接搜索,数据存储在数据库中
  4. 智能推荐:基于大数据统计,发现人们买东西的时候,出现捆绑消费的习惯,把捆绑消费的东西提前放在一起,有点像现在网购,你买个手机,给你推荐同手机型号的的手机壳。寻找商品智能推荐,数据存储在大数据BD.

智能:对用户来说,体验比较好。对老板来说赚钱比较多。

阶段1:价格

阶段2:价值

阶段3:爽,价值观

分布式

​ 分布式系统,可以类比显示生活中的牛拉物,我们不可能创造出无穷无尽的牛,来拉取比较大的东西。计算机我们不能期望制造一台无穷大的机器,要留多少个卡槽合适呢,插硬盘,显卡,这种怎么设计呢。显然不太现实。牛,我们用多个牛。不能指望一头牛变得无穷大。不能指望一个机器无穷大。

​ 大数据分布式存储,分布式计算的演进过程。

image-20220510153301112

从DB到BD

数据库(DB)技术发展的三个时代
  • 数据库发展的三个时代,成就了三种商业形态

    • 商业数据库时代:成就了商业软件行业;

    • 开源数据库时代:成就了互联网

    • 新(开)数据库时代:是商业和开源、SQL和NewSQL交融的时代,成就了云和数字化时代

      image-20220510153246350

DatabaseBigData
OLTP交易OLAP分析
ACID事务 TBCAP BASE PB
业务系统洞察
大数据的3v特征–多块好省

image-20220510153221846

多:规模大、多样性

快:高速性

腾讯的大数据演进之路

image-20220510152843992

阿里的数据演进之路

image-20220508221742939

Hadoop Core

账本表格云ERP
算盘计算器

image-20220508221851171

房子丢失,每份数据存三份

image-20220508222128335

多副本还有一个好处就是可以分布式计算

image-20220508222554176

副本是怎么放的:

​ 首先,客户端会挑选一个离客户端近的节点,然后再选一个跟第一个节点不同的服务器下的空闲节点(发起挑选第二个节点的是第一个副本的集群),第二个副本为了效率,会找一个同一机架下的另外一个空闲节点。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DJ8ettH7-1652168221131)(C:/Users/MSI-NB/AppData/Roaming/Typora/typora-user-images/image-20220508223259757.png?lastModify=1652154537)]

MapReduce的Map阶段

计算的时候一个数据量过大及会通过map分给不同的节点。并把数据变成(the,1)二元组的格式

image-20220508223557390

MapReduce的shuffle&sort

将相同的key分成相同的组,

image-20220508223627913

MapReduce的Reduce阶段

相同的key,合并对应的value

image-20220508223657660

MapReduce 的并行执行,Mappers提速

image-20220508223830014

MapReduce—应用案例:网页访问延迟分析

image-20220508223926241

统计网页中部分访问的时长;

大数据的架构模型永远遵循I-P-O模型

image-20220508224042872

输入-计算-输出

image-20220508224439630

image-20220508230534160

技术:是一个习得的东西,自行车,一样,一旦学会终生受益。

image-20220509080305785

二、离线数仓搭建哪些你不知道的点

1、数据仓库定义及演进史

2、数据仓库及核心概念

3、数据仓库建模流程讲解

4、走进大厂数据仓库搭建案例

image-20220509080955240

数据仓库类似于:

淘宝开时尚潮流店,流程:生产工厂、物流公司、商品仓库、时尚潮流店。

数仓的流程:数据库、ETL、数据仓库、可视化看板。

image-20220509081225819

image-20220509081627700

image-20220509082146106

模型:E-R、维度

E-R:支持多对多(N:N)关系 相对容易扩展 高度结构化

维度模型:面向主题、适合多维度分析。

image-20220509082843179

image-20220509083101302

概念模型、逻辑模型、物理模型

image-20220509083238156

概念模型:可以看到整体规划小区有哪些功能区:商家、商品、买家、订单

逻辑模型:类似于图纸,显示生活中卖房子的户型图,对应中文字段信息

物理模型:煤火电是怎么走的。对应,英文库表

分层

分层:是为了在管理和使用数据时能清洗、有序、高效。

image-20220509083519616

事实表:

也叫度量,使用户评价业务的数据值型数据。是原子指标,不能再分的。

image-20220509083626565

维度:

数据观察的角度,验证指标。

image-20220509083703643

事实,我想找个女朋友是一个实时。维度,我想找个什么样的,身高,体重,年龄等

image-20220509084509247

image-20220509084742047

数据调研
需求调研

​ 数据产品经理做的。1、爆款商品的排行数据。2、双11的销售额有哪些。3财务数据:营收额,费用。4有多少商家入驻,总共有多少商品了。5平台上的用户量有多少。

数仓建模:慢就是快。

业务调研:

​ 看数据都有谁看,商家产品部,平台运营部,CEO…。

数据调研:

​ 数据是怎么产生的:1.商品购买流程。2.线上活动流程。3.客服售后流程

​ 数据长什么样?1、有哪些数据库,数据表。2、有哪些字段,字段含义,字段类型。3.数据的更新方式,更新时间。

数仓规划

image-20220509090255790

image-20220509090401705

image-20220509090419486

image-20220509090505638

分析主题
数据分层
数据事实
数据维度
第三步:模型设计

星型模型,雪花模型

image-20220509090949912

第四步:模型开发

image-20220509091042733

image-20220509091155956

image-20220509091456952

image-20220509091543101

image-20220509093051404

image-20220509093158923

三、带你走出实时数据计算的坑

实时计算:

STORM

SPARK STREAME

FLINK

实时大屏;

image-20220508200850773

image-20220508200943457

小汽车绿灯状态下,就是流式,源源不断的进去。

直饮机。直接来了过滤,没有等一等。

车流的例子也能

image-20220508201736141

image-20220508202042192

当接到电话的时候同时收到防诈骗的短息。

image-20220508202314719

车路协同

机场高速,实时技术,摄像头,实现快速扣费,极大的提升了通信效率,无感通行。提升出行体验。

2、三大实时计算框架比较。

spark streaming :

storm 快、准确不强,吞吐能力有限。Twitter 自研的

flink

image-20220508203507316

image-20220508203737033

flink:

快速灵动;

image-20220508204028795

image-20220508204039140

4大根技术

容错机制:一个一个栅栏分一段一段的。

状态管理

时间窗口

时间语义

2

image-20220508204535996

image-20220508204947473

等等我让我数清楚:

核酸检测:等等我,可能比我早捅,但是检测时间比较晚

“无界数据流”中的“有界数据集”:

数车流:不管是按照时间3秒数、还是三辆数。分段数的对象就是有界数据集

image-20220508205756815

image-20220508210231452

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐