咨询热线:4008-6044-55 | OA | E-mail
大数据术语英文翻译及详解
日期:2022-09-01 21:48:11 | 作者:华体会最新地址

  一、大数据 英文:big data,mega data 大数据,或称巨量材料,指的是需求新处理办法才干具有更强的决议计划力、洞悉发现力和流程优化才能的海量、高增长率和多样化的信息资 产。 二、大数据的4V: Volume(许多)、Velocity(高速)、Variety(多样)、Value(价值) 三、当时用于剖析大数据的东西首要有开源与商用两个生态圈 开源大数据生态圈: 1、Hadoop HDFS、HadoopMapReduce, HBase、Hive 逐步诞生,前期Hadoop生态圈逐步构成。 2、. Hypertable是特殊。它存在于Hadoop生态圈之外,但也曾经有一些用户。 3、NoSQL,membase、MongoDb 商用大数据生态圈: 1、一体机数据库/数据库房:IBM PureData(Netezza), OracleExadata, SAP Hana等等。 2、数据库房:TeradataAsterData, EMC GreenPlum, HPVertica 等等。 3、数据集市:QlikView、 Tableau 、 以及国内的Yonghong Data Mart 。 四、Hadoop Hadoop是一个由Apache基金会所开发的分布式系统根底架构。 用户能够在不了解分布式底层细节的情况下,开发分布式程序。充分运用集群的威力进行高速运算和存储。 Hadoop完结了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特色,并且规划用来布置在 低价的(low-cost)硬件上;并且它供给高吞吐量(high throughput)来拜访运用程序的数据,合适那些有着超大数据集(large data set)的运用程序。HDFS放宽了(relax)POSIX的要求,能够以流的办法拜访(streaming access)文件系统中的数据。 Hadoop的结构最中心的规划便是:HDFS和MapReduce。HDFS为海量的数据供给了存储,则MapReduce为海量的数据供给了核算。 五、MapReduce

  MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念”Map(映射)”和”Reduce(归约)”,和它们的主 要思维,都是从函数式编程言语里借来的,还有从矢量编程言语里借来的特性。它极大当地便了编程人员在不会分布式并行编程的情况下, 将自己的程序运行在分布式系统上。 当时的软件完结是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发 的Reduce(归约)函数,用来确保一切映射的键值对中的每一个同享相同的键组。

  云核算(cloud computing)是根据互联网的相关服务的添加、运用和交给办法,一般触及经过互联网来供给动态易扩展且经常是虚拟化的 资源。云是网络、互联网的一种比方说法。曩昔在图中往往用云来表明电信网,后来也用来表明互联网和底层根底设施的笼统。因而,云计 算乃至能够让你体会每秒10万亿次的运算才能,具有这么强壮的核算才能能够仿照核爆炸、猜测气候变化和商场开展趋势。用户经过电 脑、笔记本、手机等办法接入数据中心,按自己的需求进行运算。

  数据库房,英文名称为Data Warehouse,可简写为DW或DWH。数据库房是为企业一切等级的决议计划拟定进程供给支撑的一切类型数据的 战略调集。它是单个数据存储,出于剖析性陈述和决议计划支撑的意图而创立。 为企业供给需求事务智能来辅导事务流程改进和监督时刻、成 本、质量和操控。

  NoSQL,泛指非联络型的数据库。跟着互联网web2.0网站的鼓起,传统的联络数据库在敷衍web2.0网站,特别是超大规模和高并发的 SNS类型的web2.0纯动态网站现已显得无能为力,暴露了许多难以克服的问题,而非联络型的数据库则由于其本身的特色得到了十分敏捷 的开展。NoSQL数据库的发生便是为了处理大规模数据调集多重数据品种带来的应战,尤其是大数据运用难题。

  结构化数据(即行数据,存储在数据库里,能够用二维表结构来逻辑表达完结的数据)而言,不方便用数据库二维逻辑表来体现的数据即称 为非结构化数据,包含一切格局的工作文档、文本、图片、规范通用符号言语下的子集XML、HTML、各类报表、图画和音频/视频信息等 等。

  结构化剖析办法(Structured Method,结构化办法)是着重开发办法的结构合理性以及所开发软件的结构合理性的软件开发办法。结构 是指系统内各个组成要素之间的彼此联络、彼此作用的结构。结构化开发办法提出了一组进步软件结构合理性的原则,如分化与笼统、模块 独立性、信息隐蔽等。针对软件生计周期各个不同的阶段,它有结构化剖析(SA)和结构化程序规划(SP)等办法。

  和一般纯文本比较,半结构化数据具有必定的结构性,但和具有严厉理论模型的联络数据库的数据比较。OEM(Object exchange Model) 是一种典型的半结构化数据模型。

  在做一个信息系统规划时肯定会触及到数据的存储,一般咱们都会将系统信息保存在某个指定的联络数据库中。咱们会将数据按事务分类, 并规划相应的表,然后将对应的信息保存到相应的表中。比方咱们做一个事务系统,要保存职工基本信息:工号、姓名、性别、出生日期等 等;咱们就会树立一个对应的staff表。

  非结构化数据库是指其字段长度可变,并且每个字段的记载又能够由可重复或不行重复的子字段构成的数据库,用它不只能够处理结构化数 据(如数字、符号等信息)并且更合适处理非结构化数据(全文文本、图象、声响、影视、超媒体等信息)。

  数据库是依照数据结构来安排、存储和办理数据的库房,它发生于距今六十多年前,跟着信息技能和商场的开展,特别是二十世纪九十年代 今后,数据办理不再仅仅是存储和办理数据,而转变成用户所需求的各种数据办理的办法。数据库有许多品种型,从最简略的存储有各种数 据的表格到能够进行海量数据存储的大型数据库系统都在各个方面得到了广泛的运用。

  数据剖析是指用恰当的核算剖析办法对搜集来的许多数据进行剖析,提取有用信息和构成定论而对数据加以具体研讨和概括总结的进程。这 一进程也是质量办理系统的支撑进程。在有用中,数据剖析可协助人们作出判别,以便采纳恰当举动。

  数据发掘(英语:Data mining),又译为材料探勘、数据采矿。它是数据库常识发现(英语:Knowledge-Discovery in Databases,简 称:KDD)中的一个进程。数据发掘一般是指从许多的数据中经过算法查找躲藏于其间信息的进程。数据发掘一般与核算机科学有关,并通 过核算、在线剖析处理、情报检索、机器学习、专家系统(依托曩昔的经历规律)和办法辨认等许多办法来完结上述方针。

  数据清洗从姓名上也看的出便是把“脏”的“洗掉”,指发现并纠正数据文件中可辨认的过错的最终一道程序,包含查看数据一致性,处理 无效值和缺失值等。由于数据库房中的数据是面向某一主题的数据的调集,这些数据从多个事务系统中抽取而来并且包含历史数据,这样就 避免不了有的数据是过错数据、有的数据彼此之间有抵触,这些过错的或有抵触的数据显然是咱们不想要的,称为“脏数据”。咱们要依照 必定的规矩把“脏数据”“洗掉”,这便是数据清洗。而数据清洗的使命是过滤那些不契合要求的数据,将过滤的成果交给事务主管部门, 承认是否过滤掉仍是由事务单位批改之后再进行抽取。不契合要求的数据首要是有不完好的数据、过错的数据、重复的数据三大类。数据清 洗是与问卷审阅不同,录入后的数据整理一般是由核算机而不是人工完结。

  可视化(Visualization)是运用核算机图形学和图画处理技能,将数据转换成图形或图画在屏幕上显示出来,并进行交互处理的理论、办法 和技能。它触及到核算机图形学、图画处理、核算机视觉、核算机辅助规划等多个范畴,成为研讨数据表明、数据处理、决议计划剖析等一系列 问题的概括技能。现在正在飞速开展的虚拟现实技能也是以图形图画的可视化技能为依托的。

  数据可视化技能的基本思维是将数据库中每一个数据项作为单个图元元素表明,许多的数据集构成数据图画,一起将数据的各个特点值以多 维数据的办法表明,能够从不同的维度调查数据,然后对数据进行更深化的调查和剖析。

  数据可视化首要旨在借助于图形化手法,明晰有用地传达与交流信息。可是,这并不就意味着,数据可视化就必定由于要完结其功用用处而 令人感到枯燥乏味,或许是为了看上去绚丽多彩而显得极点杂乱。为了有用地传达思维概念,美学办法与功用需求齐头并进,经过直观地传 达要害的方面与特征,然后完结关于适当稀少而又杂乱的数据集的深化洞悉。可是,规划人员往往并不能很好地掌握规划与功用之间的平 衡,然后创造出虚有其表的数据可视化办法,无法到达其首要意图,也便是传达与交流信息。

  算法(Algorithm)是指解题计划的精确而完好的描绘,是一系列处理问题的明晰指令,算法代表着用系统的办法描绘处理问题的战略机 制。也便是说,能够对必定规范的输入,在有限时刻内取得所要求的输出。假如一个算法有缺点,或不合适于某个问题,履行这个算法将不 会处理这个问题。不同的算法或许用不同的时刻、空间或功率来完结相同的使命。一个算法的好坏能够用空间杂乱度与时刻杂乱度来衡量。

  机器学习(Machine Learning, ML)是一门多范畴交叉学科,触及概率论、核算学、迫临论、凸剖析、算法杂乱度理论等多门学科。专门研 究核算机怎样仿照或完结人类的学习行为,以获取新的常识或技能,重新安排已有的常识结构使之不断改进本身的功能。

  它是人工智能的中心,是使核算机具有智能的根本途径,其运用广泛人工智能的各个范畴,它首要运用概括、概括而不是演绎。

  人工智能(Artificial Intelligence) ,英文缩写为AI。它是研讨、开发用于仿照、延伸和扩展人的智能的理论、办法、技能及运用系统的一 门新的技能科学。 人工智能是核算机科学的一个分支,它妄图了解智能的本质,并生产出一种新的能以人类智能类似的办法做出反响的智 能机器,该范畴的研讨包含机器人、言语辨认、图画辨认、自然言语处理和专家系统等。人工智能从诞生以来,理论和技能日益老练,运用 范畴也不断扩大,能够想象,未来人工智能带来的科技产品,将会是人类才智的“容器”。

  深度学习的概念源于人工神经网络的研讨。含多隐层的多层感知器便是一种深度学习结构。深度学习经过组合低层特征构成愈加笼统的高层 表明特点类别或特征,以发现数据的分布式特征表明。

  深度学习的概念由Hinton等人于2006年提出。根据深信度网(DBN)提出非监督贪心逐层练习算法,为处理深层结构相关的优化难题带来希 望,随后提出多层主动编码器深层结构。此外Lecun等人提出的卷积神经网络是第一个真实多层结构学习算法,它运用空间相对联络削减参 数数目以进步练习功能。

  深度学习是机器学习研讨中的一个新的范畴,其动机在于树立、仿照人脑进行剖析学习的神经网络,它仿照人脑的机制来解说数据,例如图 像,声响和文本。

  人工神经网络(Artificial Neural Networks,简写为ANNs)也简称为神经网络(NNs)或称作衔接模型(Connection Model),它是 一种仿照动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依托系统的杂乱程度,经过调整内部许多节点之间相 互衔接的联络,然后到达处理信息的意图。

  SaaS是Software-as-a-Service(软件即服务)的简称,跟着互联网技能的开展和运用软件的老练, 在21世纪开端鼓起的一种彻底立异的 软件运用办法。它与“on-demand software”(按需软件),the application service provider(ASP,运用服务供给商),hosted software(保管软件)所具有类似的意义。它是一种经过Internet供给软件的办法,厂商将运用软件一致布置在自己的服务器上,客户能够根 据自己实践需求,经过互联网向厂商定购所需的运用软件服务,按定购的服务多少和时刻长短向厂商付出费用,并经过互联网取得厂商供给 的服务。

  PaaS是Platform-as-a-Service的缩写,意思是渠道即服务。 把服务器渠道作为一种服务供给的商业办法。经过网络进行程序供给的服务 称之为SaaS(Software as a Service),而云核算年代相应的服务器渠道或许开发环境作为服务进行供给就成为了PaaS(Platform as a Service)。

  所谓PaaS实践上是指将软件研制的渠道(计世资讯界说为事务根底渠道)作为一种服务,以SaaS的办法提交给用户。因而,PaaS也是 SaaS办法的一种运用。可是,PaaS的呈现能够加速SaaS的开展,尤其是加速SaaS运用的开发速度。在2007年国内外SaaS厂商先后推出 自己的PAAS渠道。

  顾客经过Internet 能够从完善的核算机根底设施取得服务。这类服务称为根底设施即服务。根据 Internet 的服务(如存储和数据库)是 IaaS的一部分。Internet上其他类型的服务包含渠道即服务(Platform as a Service,PaaS)和软件即服务(Software as a Service,SaaS)。PaaS供给了用户能够拜访的完好或部分的运用程序开发,SaaS则供给了完好的可直接运用的运用程序,比方经过 Internet办理企业资源。

  DaaS是SaaS的孪生兄弟 ,作为“as a service”宗族成员之一,它将数据作为一种产品供给给任何有需求的安排或个人 。SOA(service oriented architecture,面向服务的系统架构)是一种事务驱动的、粗粒度、松耦合的服务架构,支撑对事务进行整合,使其成为一种彼此 联络、可重用的事务使命或服务,是完结DaaS最有用的办法。根据SOA的DaaS系统架构如图1所示。根底异构数据资源经过数据整合后生 成契合公共言语办法的视图,最终运用Web service技能将视图封装成具有公共接口的服务供用户调用,然后完结数据资源的按需获取。

  HaaS(Hardware-as-a-service)的意思是硬件即服务。HaaS概念的呈现源于云核算,现在被称作根底架构即服务(IaaS)或根底架构 云,运用IaaS,各企业可经过Web将更多的根底架构容量作为服务供给。“经过Web”分配更多的存储或处理容量当然要比供货商在根底 环境中引进和装置新硬件要快得多。HaaS还具有别的一层意义是针对嵌入式设备而言的,意图在于树立经过互联网(Web)进行嵌入式设 备一致办理服务的办法。在这种情况下,HaaS类似于SaaS,关于嵌入式设备运用者来说,无需对所需嵌入式设备进行一次性购买,仅需按 照设备运用量或其它规范付出设备的服务费及保护费即可。


在线留言

在线客服