50例大数据术语英文翻译及详解_hth华体会最新网站

HTH华体会体育
NEWS

公司新闻

首页 > 产品中心 > 微模块系列

50例大数据术语英文翻译及详解
日期：2022-09-01 21:47:51 | 作者：华体会最新地址

　　大数据，或称巨量材料，指的是需求新处理办法才干具有更强的决议计划力、洞悉发现力和流程优化才能的海量、高增长率和多样化的信息财物。

　　用户能够在不了解分布式底层细节的状况下，开发分布式程序。充分运用集群的威力进行高速运算和存储。

　　Hadoop完结了一个分布式文件体系（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特色，并且规划用来布置在低价的（low-cost）硬件上；并且它供给高吞吐量（high throughput）来拜访运用程序的数据，合适那些有着超大数据集（large data set）的运用程序。HDFS放宽了（relax）POSIX的要求，能够以流的办法拜访（streaming access）文件体系中的数据。

　　Hadoop的结构最中心的规划便是：HDFS和MapReduce。HDFS为海量的数据供给了存储，则MapReduce为海量的数据供给了核算。

　　Apache软件基金会（也便是Apache Software Foundation，简称为ASF），是专门为支撑开源软件项目而办的一个非盈利性安排。在它所支撑的Apache项目与子项目中，所发行的软件产品都遵从Apache许可证（Apache License）。

　　MapReduce是一种编程模型，用于大规划数据集（大于1TB）的并行运算。概念”Map（映射）”和”Reduce（归约）”，和它们的首要思维，都是从函数式编程言语里借来的，还有从矢量编程言语里借来的特性。它极大当地便了编程人员在不会分布式并行编程的状况下，将自己的程序运转在分布式体系上。当时的软件完结是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归约）函数，用来确保一切映射的键值对中的每一个同享相同的键组。

　　BI（Business Intelligence）即商务智能，它是一套完好的处理计划，用来将企业中现有的数据进行有用的整合，快速精确的供给报表并提出决议计划依据，协助企业做出正确的事务运营决议计划。

　　CRM即客户联络办理，是指企业用CRM技能来办理与客户之间的联络。在不同场合下，CRM或许是一个办理学术语，或许是一个软件体系。一般所指的CRM，指用核算机主动化剖析出售、商场营销、客户服务以及运用等流程的软件体系。它的方针是经过进步客户的价值、满意度、赢利性和忠实度来减缩出售周期和出售本钱、添加收入、寻觅扩展事务所需的新的商场和途径。CRM是挑选和办理有价值客户及其联络的一种商业战略，CRM要求以客户为中心的企业文化来支撑有用的商场营销、出售与服务流程。

　　云核算（cloud computing）是依据互联网的相关服务的添加、运用和交给办法，一般触及经过互联网来供给动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比方说法。曩昔在图中往往用云来表明电信网，后来也用来表明互联网和底层根底设施的笼统。因而，云核算乃至能够让你体会每秒10万亿次的运算才能，具有这么强壮的核算才能能够仿照核爆炸、猜测气候变化和商场开展趋势。用户经过电脑、笔记本、手机等办法接入数据中心，按自己的需求进行运算。

　　数据库房，英文名称为Data Warehouse，可简写为DW或DWH。数据库房是为企业一切等级的决议计划拟定进程供给支撑的一切类型数据的战略调集。它是单个数据存储，出于剖析性陈述和决议计划支撑的意图而创立。为企业供给需求事务智能来辅导事务流程改进和监督时刻、本钱、质量和操控。

　　NoSQL，泛指非联络型的数据库。跟着互联网web2.0网站的鼓起，传统的联络数据库在敷衍web2.0网站，特别是超大规划和高并发的SNS类型的web2.0纯动态网站现已显得无能为力，暴露了许多难以克服的问题，而非联络型的数据库则因为其本身的特色得到了十分敏捷的开展。NoSQL数据库的发生便是为了处理大规划数据调集多重数据品种带来的应战，尤其是大数据运用难题。

　　结构化数据（即行数据，存储在数据库里，能够用二维表结构来逻辑表达完结的数据）而言，不方便用数据库二维逻辑表来体现的数据即称为非结构化数据，包括一切格局的工作文档、文本、图片、规范通用符号言语下的子集XML、HTML、各类报表、图画和音频/视频信息等等。

　　结构化剖析办法（Structured Method，结构化办法）是着重开发办法的结构合理性以及所开发软件的结构合理性的软件开发办法。结构是指体系内各个组成要素之间的彼此联络、彼此作用的结构。结构化开发办法提出了一组进步软件结构合理性的原则，如分化与笼统、模块独立性、信息隐蔽等。针对软件生计周期各个不同的阶段，它有结构化剖析（SA）和结构化程序规划（SP）等办法。

　　和一般纯文本比较，半结构化数据具有必定的结构性，但和具有严厉理论模型的联络数据库的数据比较。OEM(Object exchange Model)是一种典型的半结构化数据模型。

　　在做一个信息体系规划时肯定会触及到数据的存储，一般咱们都会将体系信息保存在某个指定的联络数据库中。咱们会将数据按事务分类，并规划相应的表，然后将对应的信息保存到相应的表中。比方咱们做一个事务体系，要保存职工基本信息：工号、姓名、性别、出生日期等等；咱们就会树立一个对应的staff表。

　　非结构化数据库是指其字段长度可变，并且每个字段的记载又能够由可重复或不行重复的子字段构成的数据库，用它不只能够处理结构化数据（如数字、符号等信息）并且更合适处理非结构化数据（全文文本、图象、声响、影视、超媒体等信息）。

　　数据库是依照数据结构来安排、存储和办理数据的库房，它发生于距今六十多年前，跟着信息技能和商场的开展，特别是二十世纪九十年代今后，数据办理不再仅仅是存储和办理数据，而转变成用户所需求的各种数据办理的办法。数据库有许多品种型，从最简略的存储有各种数据的表格到能够进行海量数据存储的大型数据库体系都在各个方面得到了广泛的运用。

　　数据剖析是指用恰当的核算剖析办法对搜集来的很多数据进行剖析，提取有用信息和构成定论而对数据加以具体研讨和概括总结的进程。这一进程也是质量办理体系的支撑进程。在有用中，数据剖析可协助人们作出判别，以便采纳恰当举动。

　　数据发掘（英语：Data mining），又译为材料探勘、数据采矿。它是数据库常识发现（英语：Knowledge-Discovery in Databases，简称：KDD)中的一个进程。数据发掘一般是指从很多的数据中经过算法查找躲藏于其间信息的进程。数据发掘一般与核算机科学有关，并经过核算、在线剖析处理、情报检索、机器学习、专家体系（依托曩昔的经历规律）和办法辨认等许多办法来完结上述方针。

　　数据清洗从姓名上也看的出便是把“脏”的“洗掉”，指发现并纠正数据文件中可辨认的过错的终究一道程序，包括检查数据一致性，处理无效值和缺失值等。因为数据库房中的数据是面向某一主题的数据的调集，这些数据从多个事务体系中抽取而来并且包括历史数据，这样就避免不了有的数据是过错数据、有的数据彼此之间有抵触，这些过错的或有抵触的数据显然是咱们不想要的，称为“脏数据”。咱们要依照必定的规矩把“脏数据”“洗掉”，这便是数据清洗。而数据清洗的使命是过滤那些不符合要求的数据，将过滤的成果交给事务主管部门，承认是否过滤掉仍是由事务单位批改之后再进行抽取。不符合要求的数据首要是有不完好的数据、过错的数据、重复的数据三大类。数据清洗是与问卷审阅不同，录入后的数据整理一般是由核算机而不是人工完结。

　　可视化（Visualization）是运用核算机图形学和图画处理技能，将数据转换成图形或图画在屏幕上显示出来，并进行交互处理的理论、办法和技能。它触及到核算机图形学、图画处理、核算机视觉、核算机辅助规划等多个范畴，成为研讨数据表明、数据处理、决议计划剖析等一系列问题的概括技能。现在正在飞速开展的虚拟现实技能也是以图形图画的可视化技能为依托的。

　　数据可视化技能的基本思维是将数据库中每一个数据项作为单个图元元素表明，很多的数据集构成数据图画，一同将数据的各个特点值以多维数据的办法表明，能够从不同的维度调查数据，然后对数据进行更深化的调查和剖析。

　　数据可视化首要旨在借助于图形化手法，明晰有用地传达与交流信息。可是，这并不就意味着，数据可视化就必定因为要完结其功用用处而令人感到枯燥乏味，或许是为了看上去绚丽多彩而显得极点杂乱。为了有用地传达思维概念，美学办法与功用需求齐头并进，经过直观地传达要害的方面与特征，然后完结关于适当稀少而又杂乱的数据集的深化洞悉。可是，规划人员往往并不能很好地掌握规划与功用之间的平衡，然后创造出虚有其表的数据可视化办法，无法抵达其首要意图，也便是传达与交流信息。

　　产品数据办理（Product Data Management）是依据分布式网络、主从结构、图形化用户接口和数据库件办理技能开展起来的一种软件结构（或数据途径），PDM对并行工程中的人职东西、设备资源、产品数据以及数据生成进程进行全面办理。

　　DSP（Demand-Side Platform），便是需求方途径。这一概念起源于网络广告兴旺的欧美，是伴跟着互联网和广告业的飞速开展新鼓起的网络广告范畴。它与Ad Exchange和RTB一同敏捷鼓起于美国，已在全球快速开展，2011年现已掩盖到了欧美、亚太以及澳洲。在国际网络展现广告范畴，DSP方兴未已。DSP传入我国，敏捷成为热潮，成为推进我国网络展现广告RTB商场快速开展的动力之一。

　　DMP(Data-Management Platform)数据办理途径，是把涣散的榜首、第三方数据进行整合归入一致的技能途径，并对这些数据进行规范化和细分，让用户能够把这些细分红果面向现有的互动营销环境里。

　　·自助式的用户界面：依据网页web界面或其他集成计划直接获取数据东西，功用和几种办法报表和剖析。

　　·相关途径环境的衔接：跟相关途径的集成，包括网站端、展现广告、电子邮件以及查找和视频，让营销者能找到、定位和供给细分集体相关高度的营销信息。

　　CPA（每次举动本钱，Cost Per Action）计价办法是指按广告投进实践效果，即按回应的有用问卷或定单来计费，而不限广告投进量。CPA广告是网络中最常见的一种广告办法，当用户点击某个网站上的cpc广告后，这个站的站长就会取得相应的收入。

　　准时长计费是包时段投进广告的一种办法，广告主挑选广告位和投进时刻，费用与广告点击量无关。选用这种办法出售广告，网站主决议每一个广告位的价格，广告主自行挑选购买时刻段，现在可按周或按天购买，成交价便是网站主标定的价格。

　　CTR（Click-Through-Rate）互联网广告常用的术语，指网络广告（图片广告/文字广告/要害词广告/排名广告/视频广告等）的点击抵达率，即该广告的点击量（严厉的来说，能够是抵达方针页面的数量）除以广告的阅读量（PV- Page View）。

　　算法（Algorithm）是指解题计划的精确而完好的描绘，是一系列处理问题的明晰指令，算法代表着用体系的办法描绘处理问题的战略机制。也便是说，能够对必定规范的输入，在有限时刻内取得所要求的输出。假如一个算法有缺点，或不合适于某个问题，履行这个算法将不会处理这个问题。不同的算法或许用不同的时刻、空间或功率来完结相同的使命。一个算法的好坏能够用空间杂乱度与时刻杂乱度来衡量。

　　机器学习(Machine Learning, ML)是一门多范畴交叉学科，触及概率论、核算学、迫临论、凸剖析、算法杂乱度理论等多门学科。专门研讨核算机怎样仿照或完结人类的学习行为，以获取新的常识或技能，重新安排已有的常识结构使之不断改进本身的功能。

　　它是人工智能的中心，是使核算机具有智能的根本途径，其运用广泛人工智能的各个范畴，它首要运用概括、概括而不是演绎。

　　人工智能（Artificial Intelligence），英文缩写为AI。它是研讨、开发用于仿照、延伸和扩展人的智能的理论、办法、技能及运用体系的一门新的技能科学。人工智能是核算机科学的一个分支，它妄图了解智能的本质，并生产出一种新的能以人类智能相似的办法做出反响的智能机器，该范畴的研讨包括机器人、言语辨认、图画辨认、自然言语处理和专家体系等。人工智能从诞生以来，理论和技能日益老练，运用范畴也不断扩大，能够想象，未来人工智能带来的科技产品，将会是人类才智的“容器”。

　　深度学习的概念源于人工神经网络的研讨。含多隐层的多层感知器便是一种深度学习结构。深度学习经过组合低层特征构成愈加笼统的高层表明特点类别或特征，以发现数据的分布式特征表明。

　　深度学习的概念由Hinton等人于2006年提出。依据深信度网(DBN)提出非监督贪心逐层练习算法，为处理深层结构相关的优化难题带来希望，随后提出多层主动编码器深层结构。此外Lecun等人提出的卷积神经网络是榜首个真实多层结构学习算法，它运用空间相对联络削减参数数目以进步练习功能。

　　深度学习是机器学习研讨中的一个新的范畴，其动机在于树立、仿照人脑进行剖析学习的神经网络，它仿照人脑的机制来解说数据，例如图画，声响和文本。

　　人工神经网络（Artificial Neural Networks，简写为ANNs）也简称为神经网络（NNs）或称作衔接模型（Connection Model），它是一种仿照动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依托体系的杂乱程度，经过调整内部很多节点之间彼此衔接的联络，然后抵达处理信息的意图。

　　OpenStack是一个由NASA（美国国家航空航天局）和Rackspace协作研制并建议的，以Apache许可证授权的自在软件和开放源代码项目。

　　OpenStack是一个开源的云核算办理途径项目，由几个首要的组件组合起来完结具体工作。OpenStack支撑简直一切类型的云环境，项目方针是供给施行简略、可大规划扩展、丰厚、规范一致的云核算办理途径。OpenStack经过各种互补的服务供给了根底设施即服务（IaaS）的处理计划，每个服务供给API以进行集成。

　　SaaS是Software-as-a-Service（软件即服务）的简称，跟着互联网技能的开展和运用软件的老练，在21世纪开端鼓起的一种彻底立异的软件运用办法。它与“on-demand software”（按需软件)，the application service provider(ASP，运用服务供给商)，hosted software(保管软件)所具有相似的意义。它是一种经过Internet供给软件的办法，厂商将运用软件一致布置在自己的服务器上，客户能够依据自己实践需求，经过互联网向厂商定购所需的运用软件服务，按定购的服务多少和时刻长短向厂商付出费用，并经过互联网取得厂商供给的服务。

　　PaaS是Platform-as-a-Service的缩写，意思是途径即服务。把服务器途径作为一种服务供给的商业办法。经过网络进行程序供给的服务称之为SaaS(Software as a Service)，而云核算年代相应的服务器途径或许开发环境作为服务进行供给就成为了PaaS(Platform as a Service)。

　　所谓PaaS实践上是指将软件研制的途径（计世资讯界说为事务根底途径）作为一种服务，以SaaS的办法提交给用户。因而，PaaS也是SaaS办法的一种运用。可是，PaaS的呈现能够加速SaaS的开展，尤其是加速SaaS运用的开发速度。在2007年国内外SaaS厂商先后推出自己的PAAS途径。

　　顾客经过Internet 能够从完善的核算机根底设施取得服务。这类服务称为根底设施即服务。依据 Internet 的服务（如存储和数据库）是 IaaS的一部分。Internet上其他类型的服务包括途径即服务（Platform as a Service，PaaS）和软件即服务（Software as a Service，SaaS）。PaaS供给了用户能够拜访的完好或部分的运用程序开发，SaaS则供给了完好的可直接运用的运用程序，比方经过 Internet办理企业资源。

　　HaaS（Hardware-as-a-service）的意思是硬件即服务。HaaS概念的呈现源于云核算，现在被称作根底架构即服务（IaaS）或根底架构云，运用IaaS，各企业可经过Web将更多的根底架构容量作为服务供给。“经过Web”分配更多的存储或处理容量当然要比供货商在根底环境中引进和装置新硬件要快得多。HaaS还具有别的一层意义是针对嵌入式设备而言的，意图在于树立经过互联网（Web）进行嵌入式设备一致办理服务的办法。在这种状况下，HaaS相似于SaaS，关于嵌入式设备运用者来说，无需对所需嵌入式设备进行一次性购买，仅需依照设备运用量或其它规范付出设备的服务费及保护费即可。

　　决议计划树(Decision Tree）是在已知各种状况发生概率的根底上，经过构成决议计划树来求取净现值的希望值大于等于零的概率，点评项目风险，判别其可行性的决议计划剖析办法，是直观运用概率剖析的一种图解法。因为这种决议计划分支画成图形很像一棵树的枝干，故称决议计划树。在机器学习中，决议计划树是一个猜测模型，他代表的是目标特点与目标值之间的一种映射联络。Entropy = 体系的杂乱程度，运用算法ID3, C4.5和C5.0生成树算法运用熵。这一衡量是依据信息学理论中熵的概念。

　　最大希望算法（Expectation Maximization Algorithm，又译希望最大化算法），是一种迭代算法，用于含有隐变量（hidden variable）的概率参数模型的最大似然估量或极大后验概率估量。

　　数据聚类 (英语 : Cluster analysis) 是关于静态数据剖析的一门技能，在许多范畴遭到广泛运用，包括机器学习，数据发掘，办法辨认，图画剖析以及生物信息。聚类是把相似的目标经过静态分类的办法分红不同的组别或许更多的子集（subset），这样让在同一个子会集的成员目标都有相似的一些特点，常见的包括在坐标系中愈加短的空间间隔等。

　　给定一个用户的查询串，相关于该串存在一个包括一切相关文档的调集。咱们把这样的调集看作是一个抱负的成果文档集，在给出抱负成果集后，咱们能很简单得到成果文档。这样咱们能够把查询处理看作是对抱负成果文档集特点的处理。问题是咱们并不能切当地知道这些特点，咱们所知道的是存在索引术语来表明这些特点。因为在查询期间这些特点都是不行见的，这就需求在初始阶段来估量这些特点。这种初始阶段的估量答应咱们对初次检索的文档调集回来抱负的成果集，并发生一个开始的概率描绘。

　　回归剖析（regression analysis)是确认两种或两种以上变量间彼此依赖的定量联络的一种核算剖析办法。运用十分广泛，回归剖析依照触及的自变量的多少，可分为一元回归剖析和多元回归剖析；依照自变量和因变量之间的联络类型，可分为线性回归剖析和非线性回归剖析。假如在回归剖析中，只包括一个自变量和一个因变量，且二者的联络可用一条直线近似表明，这种回归剖析称为一元线性回归剖析。假如回归剖析中包括两个或两个以上的自变量，且因变量和自变量之间是线性联络，则称为多元线性回归剖析。

　　依据内容的信息引荐办法的理论依据首要来自于信息检索和信息过滤，所谓的依据内容的引荐办法便是依据用户曩昔的阅读记载来向用户引荐用户没有触摸过的引荐项。首要是从两个办法来描绘依据内容的引荐办法：启发式的办法和依据模型的办法。启发式的办法便是用户凭仗经历来界说相关的核算公式，然后再依据公式的核算成果和实践的成果进行验证，然后再不断修正公式以抵达终究意图。而关于模型的办法便是依据以往的数据作为数据集，然后依据这个数据集来学习出一个模型。

　　八叉树是一种用于描绘三维空间的树状数据结构。八叉树的每个节点表明一个正方体的体积元素，每个节点有八个子节点，将八个子节点所表明的体积元素加在一同就等于父节点的体积。

　　红黑树（Red Black Tree）是一种自平衡二叉查找树，是在核算机科学中用到的一种数据结构，典型的用处是完结相关数组。

　　红黑树和AVL树相似，都是在进行刺进和删去操作时经过特定操作坚持二叉查找树的平衡，然后取得较高的查找功能。

　　它虽然是杂乱的，但它的最坏状况运转时刻也是十分杰出的，并且在实践中是高效的：它能够在O(log n)时刻内做查找，刺进和删去，这儿的n 是树中元素的数目。

　　散列表（Hash table，也叫哈希表），是依据要害码值(Key value)而直接进行拜访的数据结构。也便是说，它经过把要害码值映射到表中一个方位来拜访记载，以加速查找的速度。这个映射函数叫做散列函数，寄存记载的数组叫做散列表。

　　给定表M，存在函数f(key)，对恣意给定的要害字值key，代入函数后若能得到包括该要害字的记载在表中的地址，则称表M为哈希(Hash）表，函数f(key)为哈希(Hash) 函数。

　　想学习口译同传的小伙伴能够就近挑选咱们本年暑假安排的口译同传夏令营哦，现在有北京（已开营）、上海（已开营）、广州（已开营）、温哥华西雅图（已开营）以及多伦多纽约联合国总部（已成团，需美加签证）国内外多地，感兴趣的小伙伴能够加微信 yixiaojiang1咨询并获取具体介绍（还有分范畴的口译网课）。想做翻译兼职的小伙伴能够参加自在舌人致富信息同享社群（夏令营学员免费参加）回来搜狐，检查更多

上一篇：2021年温州气候公报发布大数据告知你有啥改变！还有这些便民实事要做下一篇：大数据英文介绍

在线留言

在线客服