人工智能(Artificial Intelligence) – 研制智能机器和智能软件,这些智能设备能够感知周遭的环境,并根据要求作出相应的反响,乃至能自我学习
行为剖析法(Behavioural Analytics) – 这种剖析法是根据用户的行为如“怎么做”,“为什么这么做”,以及“做了什么”来得出结论,而不是只是针对人物和时刻的一门剖析学科,它着眼于数据中的人性化方法
大数据科学家(Big Data Scientist) – 能够规划大数据算法使得大数据变得有用的人
商业智能(Business Intelligence) – 是一系列理论、办法学和进程,使得数据更简略被了解
分类剖析(Classification analysis) – 从数据中取得重要的相关性信息的体系化进程; 这类数据也被称为元数据(meta data),是描绘数据的数据
云核算(Cloud computing) – 构建在网络上的散布式核算体系,数据是存储于机房外的(即云端)
聚类剖析(Clustering analysis) – 它是将类似的目标聚合在一同,每类类似的目标组组成一个聚类(也叫作簇)的进程。这种剖析办法的意图在于剖析数据间的差异和类似性
冷数据存储(Cold data storage) – 在低功耗服务器上存储那些简直不被运用的旧数据。但这些数据检索起来将会很耗时
比照剖析(Comparative analysis) – 在十分大的数据会集进行方法匹配时,进行一步步的比照和核算进程得到剖析成果
杂乱结构的数据(Complex structured data) – 由两个或多个杂乱而彼此相关部分组成的数据,这类数据不能简略地由结构化查询言语或东西(SQL)解析
相关性剖析(Correlation analysis) – 是一种数据剖析办法,用于剖析变量之间是否存在正相关,或许负相关
客户联系办理(CRM: Customer Relationship Management) – 用于办理出售、业务进程的一种技能,大数据将影响公司的客户联系办理的战略
数据聚合东西(Data aggregation tools) – 将涣散于很多数据源的数据转化成一个全新数据源的进程
数据清洗(Data cleansing) – 对数据进行从头检查和校验的进程,意图在于删去重复信息、纠正存在的过错,并供给数据一致性
数据品德原则(Data ethical guidelines) – 这些原则有助于安排机构使其数据通明化,确保数据的简练、安全及隐私
数据建模(Data modelling) – 运用数据建模技能来剖析数据目标,以此观察数据的内涵寓意
数据虚拟化(Data virtualization) – 数据整合的进程,以此取得更多的数据信息,这个进程一般会引进其他技能,例如数据库,应用程序,文件体系,网页技能,大数据技能等等
判别剖析(Discriminant analysis) – 将数据分类;按不同的分类办法,可将数据分配到不同的群组,类别或许目录。是一种核算剖析法,能够对数据中某些群组或集群的已知信息进行剖析,并从中获取分类规矩。
散布式文件体系(Distributed File System) – 供给简化的,高可用的办法来存储、剖析、处理数据的体系
探索性剖析(Exploratory analysis) – 在没有规范的流程或办法的情况下从数据中开掘方法。是一种开掘数据和数据集首要特性的一种办法
提取-转化-加载(ETL: Extract, Transform and Load) – 是一种用于数据库或许数据仓库的处理进程。即从各种不同的数据源提取(E)数据,并转化(T)成能满意业务需求的数据,最终将其加载(L)到数据库
毛病切换(Failover) – 当体系中某个服务器发生毛病时,能自动地将运转使命切换到另一个可用服务器或节点上
容错规划(Fault-tolerant design) – 一个支撑容错规划的体系应该能够做到当某一部分出现毛病也能持续运转
游戏化(Gamification) – 在其他非游戏范畴中运用游戏的思维和机制,这种办法能够以一种十分友爱的办法进行数据的创立和侦测,十分有用。
图形数据库(Graph Databases) – 运用图形结构(例如,一组有限的有序对,或许某种实体)来存储数据,这种图形存储结构包括边际、特色和节点。它供给了相邻节点间的自在索引功用,也便是说,数据库中每个元素间都与其他相邻元素直接相关。
网格核算(Grid computing) – 将许多散布在不同地址的核算机衔接在一同,用以处理某个特定问题,一般是经过云将核算机相连在一同。
Hadoop – 一个开源的散布式体系根底结构,可用于开发散布式程序,进行大数据的运算与存储。
Hadoop数据库(HBase) – 一个开源的、非联系型、散布式数据库,与Hadoop结构一同运用
内存数据库(IMDB: In-memory) – 一种数据库办理体系,与一般数据库办理体系不同之处在于,它用主存来存储数据,而非硬盘。其特色在于能高速地进行数据的处理和存取。
物联网(Internet of Things) – 在一般的设备中装上传感器,使这些设备能够在任何时刻任何地址与网络相连。
法令上的数据一致性(Juridical data compliance) – 当你运用的云核算解决方案,将你的数据存储于不同的国家或不同的大陆时,就会与这个概念扯上联系了。你需求留心这些存储在不同国家的数据是否契合当地的法令。
键值数据库(KeyValue Databases) – 数据的存储办法是运用一个特定的键,指向一个特定的数据记载,这种办法使得数据的查找愈加方便快捷。键值数据库中所存的数据一般为编程言语中根本数据类型的数据。
留传体系(Legacy system) – 是一种旧的应用程序,或是旧的技能,或是旧的核算体系,现在现已不再支撑了。
负载均衡(Load balancing) – 将工作量分配到多台电脑或服务器上,以取得最优成果和最大的体系利用率。
机器学习(Machine learning) – 人工智能的一部分,指的是机器能够从它们所完结的使命中进行自我学习,经过长时刻的累积完结自我改善。
元数据(Metadata) – 被称为描绘数据的数据,即描绘数据数据特色(数据是什么)的信息。
多值数据库(MultiValue Databases) – 是一种非联系型数据库(NoSQL), 一种特别的多维数据库:能处理3个维度的数据。首要针对十分长的字符串,能够完美地处理HTML和XML中的字串。
自然言语处理(Natural Language Processing) – 是核算机科学的一个分支范畴,它研讨怎么完结核算机与人类言语之间的交互。
网络剖析(Network analysis) – 剖析网络或图论中节点间的联系,即剖析网络中节点间的衔接和强度联系。
NewSQL – 一个高雅的、界说杰出的数据库体系,比SQL更易学习和运用,比NoSQL更晚提出的新式数据库
NoSQL – 望文生义,便是“不运用SQL”的数据库。这类数据库泛指传统联系型数据库以外的其他类型的数据库。这类数据库有更强的一致性,能处理超大规模和高并发的数据。
目标数据库(Object Databases) – (也称为面象目标数据库)以目标的方法存储数据,用于面向目标编程。它不同于联系型数据库和图形数据库,大部分目标数据库都供给一种查询言语,答应运用声明式编程(declarative programming)拜访目标.
根据目标图画剖析(Object-based Image Analysis) – 数字图画剖析办法是对每一个像素的数据进行剖析,而根据目标的图画剖析办规则只剖析相关像素的数据,这些相关像素被称为目标或图画目标。
操作型数据库(Operational Databases) – 这类数据库能够完结一个安排机构的惯例操作,对商业运营十分重要,一般运用在线业务处理,答应用户拜访 、搜集、检索公司内部的详细信息。
优化剖析(Optimization analysis) – 在产品规划周期依托算法来完结的优化进程,在这一进程中,公司能够规划各式各样的产品并测验这些产品是否满意预设值。
本体论(Ontology) – 表明常识本体,用于界说一个范畴中的概念集及概念之间的联系的一种哲学思想。(译者注: 数据被进步到哲学的高度,被赋予了国际本体的意义,成为一个独立的客观数据国际)
异常值检测(Outlier detection) – 异常值是指严峻违背一个数据集或一个数据组合总平均值的目标,该目标与数据会集的其他它相去甚远,因而,异常值的出现意味着体系发生问题,需求对此另加剖析。
方法辨认(Pattern Recognition) – 经过算法来辨认数据中的方法,并对同一数据源中的新数据作出猜测
猜测剖析(Predictive analysis) – 大数据剖析办法中最有价值的一种剖析办法,这种办法有助于猜测个人未来(近期)的行为,例如或人很或许会买某些产品,或许会拜访某些网站,做某些工作或许发生某种行为。经过运用各种不同的数据集,例如历史数据,业务数据,交际数据,或许客户的个人信息数据,来辨认危险和机会
数字化自我(Quantified Self) – 运用应用程序盯梢用户一天的一举一动,然后更好地了解其相关的行为
再辨认(Re-identification) – 将多个数据调集并在一同,从匿名化的数据中辨认出个人信息
回归剖析(Regression analysis) – 确认两个变量间的依靠联系。这种办法假定两个变量之间存在单向的因果联系(译者注:自变量,因变量,二者不行交换)
实时数据(Real-time data) – 指在几毫秒内被创立、处理、存储、剖析并显现的数据
引荐引擎(Recommendation engine) – 引荐引擎算法根据用户之前的购买行为或其他购买行为向用户引荐某种产品
途径剖析(Routing analysis) – 针对某种运送办法经过运用多种不同的变量剖析然后找到一条最优途径,以到达下降燃料费用,进步功率的意图
半结构化数据(Semi-structured data) – 半结构化数据并不具有结构化数据严厉的存储结构,但它能够运用标签或其他方法的符号办法以确保数据的层次结构
信号剖析(Signal analysis) – 指经过衡量随时刻或空间改变的物理量来剖析产品的功能。特别是运用传感器数据。
类似性查找(Similarity searches) – 在数据库中查询最类似的目标,这儿所说的数据目标能够是恣意类型的数据
仿真剖析(Simulation analysis) – 仿真是指模仿实在环境中进程或体系的操作。仿真剖析能够在仿真时考虑多种不同的变量,确保产品功能到达最优
智能网格(Smart grid) – 是指在能源网中运用传感器实时监控其运转状况,有助于进步功率
空间剖析(Spatial analysis) – 空间剖析法剖析地舆信息或拓扑信息这类空间数据,从中得出散布在地舆空间中的数据的方法和规则
结构化数据(Structured data) -能够安排成队伍结构,可辨认的数据。这类数据一般是一条记载,或许一个文件,或许是被正确符号过的数据中的某一个字段,而且能够被精确地定位到。
时序剖析(Time series analysis) – 剖析在重复丈量时刻里取得的界说杰出的数据。剖析的数据有必要是杰出界说的,而且要取自相同时刻距离的接连时刻点。
拓扑数据剖析(Topological Data Analysis) – 拓扑数据剖析首要重视三点:复合数据模型、集群的辨认、以及数据的核算学意义。
通明性(Transparency) – 顾客想要知道他们的数据有什么效果、被作何处理,而安排机构则把这些信息都通明化了。
非结构化数据(Un-structured data) – 非结构化数据一般被认为是很多纯文本数据,其间还或许包括日期,数字和实例。
价值(Value) – (译者注:大数据4V特色之一) 一切可用的数据,能为安排机构、社会、顾客创造出巨大的价值。这意味着各大企业及整个工业都将从大数据中获益。
可变性(Variability) – 也便是说,数据的意义总是在(快速)改变的。例如,一个词在相同的推文中能够有彻底不同的意思。
多样(Variety) – (译者注:大数据4V特色之一) 数据总是以各种不同的方法出现,如结构化数据,半结构化数据,非结构化数据,乃至还有杂乱结构化数据
高速(Velocity) – (译者注:大数据4V特色之一) 在大数据年代,数据的创立、存储、剖析、虚拟化都要求被高速处理。
实在性(Veracity) – 安排机构需求确保数据的实在性,才干确保数据剖析的正确性。因而,实在性(Veracity)是指数据的正确性。
可视化(Visualization) – 只要正确的可视化,原始数据才可被投入运用。这儿的“可视化”并非一般的图型或饼图,可视化指是的杂乱的图表,图表中包括很多的数据信息,但能够被很简略地了解和阅览。
气候数据(Weather data) – 是一种重要的敞开公共数据来历,假如与其他数据来历组成在一同,能够为相关安排机构供给深入剖析的根据
XML数据库(XML Databases) – XML数据库是一种以XML格局存储数据的数据库。XML数据库一般与面向文档型数据库相相关,开发人员能够对XML数据库的数据进行查询,导出以及按指定的格局序列化