咨询热线:4008-6044-55 | OA | E-mail
快速云:依据云核算的信息检索定位研讨
日期:2022-08-30 17:36:04 | 作者:华体会最新地址

  摘要:跟着云核算技能的飞速开展,海量信息涣散存储在“云存储”结构中,因为数据源异构,在对其进行信息检索时易呈现数据丢掉或走失现象。本文经过对异构数据进行剖析,构建了一种云核算环境下的异构数据集成模型,共包含五个功用模块:云结构下的数据搜集与剖析接口、数据安排使命调度引擎、异构数据集成接口、云存储和资源办理和安全办理模块。本文还介绍了异构数据资源一致检索定位的常用技能,如并行检索技能、服务器集群检索技能、网页的深层发掘技能和检索数据库同享技能。

  云核算是近年来提出的一种核算模型,到现在为止,业界对云核算还没有一致的界说,常见的界说首要包含以下几种:

  (1)维基百科的界说:云核算以服务的方法供给给用户IT相关的才能,答运用户在不了解服务所需的技能、无需常识布景和设备操作才能的根底上,经过互联网获取所需的服务。

  (2)我国云核算网的界说:云核算是散布式核算、并行核算和网格核算的开展,换句话说,云核算是这些科学概念的商业化完结。

  (3)文献经过归纳剖析,提出如下界说:云是一个资源池,包含了许多可用的虚拟资源,如硬件、I/O服务、开发渠道等。这些虚拟资源可依据不同的负载进行动态重新装备,以到达更高的资源运用率。

  (1)云核算体系供给服务:服务机制对用户是通明的,用户不需求了解云核算的详细机制,就能够取得所需的服务。

  (2)经过冗余方法完结可靠性:云核算体系经过数据冗余和散布式存储方法保证数据的可靠性,而不需求特定的硬件组件的支撑。

  (3)高可用性:云核算能够供给高质量的服务,具有集成的海量存储和高性能的核算才能。云核算体系能够在不影响体系运转的情况下,自动检测毛病节点并将其删去。

  (4)高层次编程模型:云核算体系供给高层次的编程模型,用户仅经过简略的学习即可编写云核算程序,并在“云”体系上运转,以满意他们的需求,现在的云核算体系首要运用Map-Reduce模型。

  传统的搜索引擎存在着存储容量缺乏、核算才能有限、硬盘损坏或老化、服务器贵重、保护本钱高、毛病检测速度慢等问题,“云核算”的呈现改变了互联网的服务形式,也给信息检索技能带来了巨大的改变。云核算渠道将单个服务器连接成一个“云”,每个服务器成为云中的一个节点,然后形成了检索本钱低、检索速度快、信息资源运用率高的信息检索体系。

  传统的信息检索首要选用会集式串行检索形式,检索体系掩盖规模有限,检索功率较低,且一旦在某些环节呈现过失就会影响整个检索进程和成果。云核算技能运用了散布式并行核算形式,连接了地舆涣散、完结特定功用的子体系,体系中的每个节点都可所以并行核算机。信息检索由多台服务器并行履行,大大进步了运算速度,能够处理海量数据。

  云核算运用“云存储”形式,搜集网络中的存储设备并经过运用软件协同作业,供给了数据存储和事务拜访功用。云存储由存储层、办理层、运用接口层和拜访层构成,将以往孤立的存储方法转变为会集办理。曾经的数据首要存储在信息供给者的服务器上,而云存储供给商则向会集数据中心的用户供给数据存储服务,用户能够经过终端软件拜访存储数据。因为数据源异构,在对其进行信息检索时易呈现数据丢掉或走失现象。针对这一问题,本文构建了云核算环境下异构数据集成模型,提出了异构数据资源一致检索常用技能。

  本文提出的异构数据集成模型能够智能地集成各种联系型和非联系型异构数据,满意海量数据并发性高、作业量大、速度快等查询要求。该系統模型共包含五个功用模块,逻辑结构如图1所示。

  云结构下的数据搜集和剖析接口是该模型一致的内部调用接口,完结用户查询恳求剖析和成果显现。关于散布式数据库、传统的联系数据库和NoSQL数据库体系,该模型支撑一致定制查询恳求以满意不同类型的数据查询需求。用户能够经过自界说shell接口和规范SQL接口提交用户数据来拜访并剖析恳求。经过一致接口调用恳求描绘、解说指令、重写查询恳求、调用基层异构数据集成接口,终究回来用户所需的数据并得到剖析成果。这一模块的关键技能是云核算环境下的自界说数据搜集与剖析指令解说模块。

  该模块完结上层数据获取与用户查询使命相关的逻辑操作,分为查询使命办理和查询用户办理两个模块,该引擎调用基层异构数据集成接口,对子使命集进行数据查询和处理,经过数据搜集、剖析操控用户办理模块、剖析使命办理模块监控用户的运转和状况办理模块。

  该模块用于异构数据集成,是整个模型的中心,它将上层散布式数据搜集和剖析履行引擎的原子操作(包含数据源、操作和拜访数据)履行到存储引擎服务接口,并整合各种异构数据语义映射到异构数据,将成果回来上层。该模块的关键技能是异构数据的语义映射集成、异构数据格式的集成和异构数据的成果集成。

  该模块是整个模型的根底,为云核算环境下的数据和资源办理技能供给灵敏的数据存储、办理和体系资源装备技能,具有高并发性、高作业负载、海量数据存储和查询功用。它为散布式数据库、传统的联系数据库和NoSQL数据库体系供给了一致的服务办理和数据拜访功用,完结对其他层的调用。这模块的关键技能是云核算的元数据和服务办理技能。

  异构数据资源经过整合数据库通用进程供给用户检索成果,下降检索时刻,进步检索精度。常用的一致检索定位技能包含:

  并行检索应考虑多用户检索和用户一起检索几个数据库的场景,一般运用多线)关于多用户检索场景,依据恳求的使命分配机制,将每个用户的检索使命分配给一个线程,该使命分配机制需考虑服务器的负载平衡,操控线)关于用户检索多个数据库场景,依据检索数据库分配机制,为用户每次检索恳求创立一个数据库检索线程,进步检索速度。

  因为网络带宽所限,某些用户拜访Web的检索恳求或许失利,会给服务器带来很大压力。因而,运用多服务器同享服务器的压力,可进步检索并发性。在服务器集群检索技能的规划中需求考虑两点:

  (1)检索服务器的散布:检索服务器能够散布在任何连接到互联网的服务器上,并发布装备参数和数据库装备文件。考虑到数据一致性和保护方便性,一切检索服务器的暂时数据库终究指向同一数据库服务器。

  (2)提交Web服务器的用户检索恳求:体系中有许多服务器,为了更好地运用体系资源,Web将检索恳求提交给占用最少的服务器,以完结作业负载平衡。

  依据这些考虑规划的服务器集群检索技能能够极大地进步体系稳定性,特别是跟着检索服务器的增加,并发性大大增加,服务器集群检索优势更为明显。

  网页的深层发掘技能是从海量数据中发掘躲藏的规矩内容,处理数据运用中的质量问题。异构数据资源一致检索体系是从不同的Web服务器获取相应的数据,首要经过模仿操作完结日志检索和数据提取。该体系首要经过微软IE内核库文件完结,包含WebBrowser目标、MSHTML目标和装备文件。

  资源同享能够最大极限地削减办理员的重复性和难度。一方面,因为不同的安排或许具有相同的资源,在界说数据库模板之后,其他用户能够运用此模板增加相同的数据库,这样办理员只需導人一个SDA文件,不需求太多的重复作业。另一方面,数据库装备的装备是专业的,体系办理员很难装备数据库。因而简化办理员的作业成为一项急迫的使命。一般来说,装备手动界说一个数据库,生成为SDA文件URS办理渠道,发布在公共网站上下载或直接发送给用户,让用户增加数据操作愈加精确、简略。

  (1)本钱低:依据云核算的信息检索将数据办理使命分配给特定的数据办理中心,削减了硬件和软件的输入,然后下降了本钱。

  (2)可用资源多:不同的检索供给者将其数据源放入一致的云数据中心,经过协作和资源同享,使可用资源成倍增加。

  (3)检索速度快:云核算运用散布并行技能,处理了CPU速度受限问题,明显进步了信息检索速度。


在线留言

在线客服