返回 登录
0

51个你需要知道的大数据术语

阅读962

每天数十亿字节的数据收集下,了解大数据的复杂内涵非常重要。为了帮助你了解这一领域,我们从最近的大数据指南中编辑了一个列表,列出了最重要的相关术语和定义。

你认为我们还应该添加哪些术语?请在评论中告诉我们。

A

  • 算法:给予AI、神经网络或其他机器的一组规则,以帮助其自己学习;分类、聚类、推荐和回归是四种最常用的算法类型。

  • Apache Flink:一个开源的流数据处理框架。用Java和Scala编写,用作分布式流数据流引擎。

  • Apache Hadoop:开源工具,使用MapReduce处理和存储跨机器的大型分布式数据集。

  • Apache Kafka:一种分布式流式传输平台,通过提高吞吐量、内置分区、复制、延迟和可靠性来改进传统的消息代理。

  • Apache NiFi:一种开源Java服务器,可以以可扩展、可插拔、开放的方式实现系统间数据流的自动化。NiFi由国家安全局(NSA)开源。

  • Apache Spark:在Apache Hadoop、Mesos或云端运行的开源大数据处理引擎。

  • 人工智能:机器做出决策、执行模拟人类智力和行为任务的能力。

B

  • 大数据:大量数据的通用术语。大数据的数据具有高速、多样化、海量的特征。

  • Blob存储:一种Azure服务,将非结构化数据存储在云中作为blob或对象。

  • 商业智能:可视化和分析商业数据的过程,以便采取可行且明智的决策。

C

  • 集群:共享特定特征的数据子集,也指几台机器共同解决同一问题。

  • 约束应用协议(COAP):有限资源设备的一种互联网应用协议,可以转换成HTTP。

D

  • 数据工程:收集、存储、处理数据,以便数据科学家查询。

  • 数据流管理:采集原始设备数据的专门过程,同时管理成千上万生产者和消费者的流量。然后执行基本数据丰富、流分析、聚合、拆分、模式转换、格式转换等初级步骤,为进一步业务处理做数据准备。

  • 数据治理:管理数据湖中数据的可获得性、可使用性、完整性和安全性的过程。

  • 数据整合:组合不同来源数据并为用户提供统一视图的过程。

  • 数据湖:一种以原始格式保存原始数据的存储库。

  • 数据挖掘:通过检查和分析大型数据库来生成新信息的做法。

  • 数据实现:将变量严格定义为可衡量因素的过程。

  • 数据准备:收集、清理、整合数据到一个文件或数据表中,主要用于分析。

  • 数据处理:机器检索、变换、分析或分类信息的过程。

  • 数据科学:探索可重复的流程和方法,从而从数据中获取知识的领域。

  • 数据沼泽:没有适当治理的数据湖就会变成数据沼泽。

  • 数据验证:检查数据集以确保所有数据在处理之前是整洁、正确和有用的。

  • 数据仓库:各种来源的大量数据,用于帮助公司做出明智的决策。

  • 设备层:依据所处的环境和性能特征,来发送数据流的传感器、执行器、智能手机、网关和工业设备的整个范围。

G

  • GPU加速数据库:摄取流数据所需的数据库。

  • 图形分析:组合和可视化一组数据中不同数据点之间的关系的方法。

H

  • Hadoop:用于处理和存储大数据的编程框架,特别是在分布式计算环境中。

I

  • 摄取:从任意数量不同的来源中摄取流数据。

M

  • MapReduce:一种数据处理模型,在Map阶段过滤和排序数据,然后对该数据执行功能并在Reduce阶段输出。

  • Munging:将数据从原始格式手动转换或映射到便于使用的格式。

N

  • 正态分布:代表大量随机变量概率的常用图,随着数据集变大,这些变量接近正态。也称为高斯分布或钟形曲线。

  • 规范化:将数据组织到表中的过程,使得数据库的使用结果始终是明确且按计划进行的。

P

  • 解析:将数据(如字符串)分割成更小的部分进行分析。

  • 持久存储:创建数据进程结束后,保存数据在一个不变地点(如磁盘)。

  • Python:一种强调代码可读性的通用编程语言,以便程序员使用较少的代码来表达概念。

R

  • R:一种主要用于数据可视化和预测分析的开源语言。

  • 实时流处理:通过并行使用机器分析数据序列的模型,但功能有所减少。

  • 关系数据库管理系统(RDBMS):一种基于共享属性(称为关系)分组的管理、捕获和分析数据的系统。

  • 弹性分布式数据集:Apache Spark提取数据的主要方式,数据以一种可容错方式存储在多台机器上。

S

  • 碎片:数据库的单独分区。

  • 智能数据:一种格式化的数码信息,可以在发送到下游分析平台进行进一步数据整合和分析之前在采集点进行操作。

  • 流处理:数据的实时处理。数据被连续、并发和记录处理。

  • 结构化数据:具有高度组织的信息。

T

  • 分类:根据预先确定的系统对数据进行分类,结果目录用于提供易于访问和检索的概念框架。

  • 遥测:远程采集有关对象的信息(例如从汽车、智能手机、医疗设备或物联网设备)。

  • 转换:将数据从一种格式转换为另一种格式。

U

  • 非结构化数据:不具有预定义数据模型或未以预定义方式组织的数据。

V

  • 可视化:分析数据并以可读、图形格式(如图表)进行表达的过程。

Z

  • 区域:数据湖中的特定区域,服务于特定目的。

原文:51 Big Data Terms You Need to Know
作者:Sarah Davis
译者:牟云飞


数据为上,方得始终。更多精彩,欢迎关注CSDN大数据公众号!

图片描述

评论