咨询热线:4008-6044-55 | OA | E-mail
明略科学院院长、IEEE Fellow吴信东:大数据常识工程根底理论 直播课笔记
日期:2022-09-22 13:55:20 | 作者:华体会最新地址

  不久前,明略数据树立明略科学院,并由明略科学院院长吴信东教授带来榜首讲:《大数据常识工程根底理论及其使用》相关共享。

  吴信东教授是国家“千人方案”特聘专家,长江学者,IEEE & AAAS Fellow,数据发掘研讨与使用范畴的尖端科学家。

  在共享中吴信东教授讲解了新环境下大数据技能使用研讨成果,与咱们一同探讨了大数据的科学难题及解决办法,共享了科技部大常识的研讨方案。

  从大数据来凝练大常识,是华人学者发动的一个台阶,2016年我牵头,联合国内15家单位在科技部开端做一个要点研制方案的专项项目,叫大数据常识工程。我是这个项意图首席科学家,包括合肥工业大学、中科院与体系科学研讨院,西安交通大学、中国科技大学、华东师范大学,还有百度和杭州的丁香园等。

  我自己曾经是做专家体系的,学过人工智能的人或许都知道,专家体系是人工智能的一个使用分支,是常识工程的一个使用实践。我的前期学术进程包括:

  • 1988年,北京的电子工业出书社《专家体系技能》;• 1990年,中国科技大学出书社,《专家体系规划》;• 1991年,到了英国爱丁堡大学人工智能系读博士;• 博士读完后,在美国出了榜首本英文专著,叫《Knowledge Acquisition from Databases》,1995年出书。

  互联网到物联网年代的中心是物物相连,从本来单纯的World Wide Web,到把Web上面的一切或许的信息都收集起来,包括传感器,相关的人、物所供给的一相关信息资源等。互联网年代的物物相连正在悄悄地走向人工智能和机器人的年代,也便是智能信息处理,被称之为人类第四次工业革命。

  1956年的达特茅斯会议标志着“人工智能”这个概念的构成。在1956年曾经,在世界各地,包括美国、英国,咱们都做一些测验,机器翻译、智能言语处理、图灵机的规划、前期的神经网络的规划。1956年标志“人工智能”的诞生,其间的中心问题,是制作更聪明的核算机。跟着人工智能概念构成今后,涉及到不同的旁边面的探究,前期以查找式推理、符号逻辑为驱动的。

  我个人的研讨布景涉及到专家体系和常识工程。这今后咱们又认识到光靠专家体系和符号推理,人工智能使用仍是有显着限制。

  90年代今后,摩尔定律和核算学习推动了人工智能的广泛使用,近期的深度学习也挺炽热。深度学习给人工智能掀起了一个高潮,当然也涉及到机器学习的其他办法。到了当今年代,大数据以及核算的需求揉和到人工智能体系开发里了。

  我现在的研讨主题是常识工程。在国际上,专家体系和常识工程的一个代表性人物,是斯坦福大学的Edward Feigenbaum。Feigenbaum教授1994年拿到了核算机学科的最高奖图灵奖,在许多的文献里边Feigenbaum教授就被称为专家体系之父,也便是常识工程之父。

  Feigenbaum把专家体系和常识工程界说为对使用问题求解所进行的常识的获取、表达和推理。专家体系这门课包括三项中心技能:

  榜首、常识获取,便是怎样去跟专家打交道,把专家的常识获取来放到核算机程序里边去,常识获取就涉及到主动的、半主动的,还有人工的。

  第二、获取了常识今后,首先要进行形式化,也便是逻辑表明、语义网络表明,还有状况空间图表明和发生式体系,这是四种典型的常识表明办法。

  第三、常识表明成形式化的描绘,进到专家体系后,就要进行问题求解,涉及到常识推理,包括正向推理、反向推理、双向推理。常识工程指的便是常识的获取、表明和推理,这是在国外。

  在国内,咱们中国科学院数学与体系科学研讨院的陆汝钤院士,是国内做专家体系、常识工程的先行者。陆院士在最近《大数据在各范畴的使用及开展战略》陈述里边,把专家体系和常识工程分成了四代。这儿暂不赘述,假如有爱好能够自行查找学习。陆院士亲身领导国内常识工程开发作业。

  榜首、常识的获取。假如专家供给的常识不可靠,或许咱们没有办法把专家常识获取后形式化地放到核算机程序里边去,那么体系就不或许成为专家体系。

  第二、常识再工程。开发一个专家体系的时分,或许要从0开端学,常识的获取进程、形式化的手法,还有建核算机程序常识库的进程,再工程指的是常识构建进程的工程话重复使用。

  大数据的一些典型特征,咱们或许听到的最多的都是五V模型,叫Volume、Variety 、Velocity、Veracity、Value,便是从数据的规划、多样性、改变标准、数据质量的可靠性,界说大数据。

  我自己还有合肥工业大学团队也凝练了一套大数据的特征,称为HACE定理。HACE定理的文章现在现已被引证1600屡次了。HACE定理是四个字母:

  榜首个特色叫群智性。便是指依托User Generated Conent,所以叫UGC。可依托人人参加所供给的海量的、低质的碎片化的常识来进行问题建筑,没有一个完好的结构,或许说没有一个完好的本体,因而咱们要学。

  在学的进程中心就遇到了第二个特色,常识库要具有自齐备和增殖才能。要用到常识的相关、常识的推理,需求推导一些暂时在常识库里边还找不到的常识。

  大数据环境下,异构、自治、杂乱、演化,问题求解就需求对用户来进行充分地交给,来学习用户的问题以及用户的痛点究竟在什么地方。

  大数据的常识工程或许说大常识是树立在大数据根底上的层次进步。大数据常识工程是在问题求解的根底上,把常识进行凝练、抽取,做进一步的交融。意图是在大数据求解进程中,常识能够协助其他问题求解,或协助其他范畴人员完成常识加宽。咱们要在大数据环境下,构成大数据常识工程的先发优势,这契合国家战略方针。

  从这个角度上来讲,常识作业的主动化对未来的经济社会能起到一种颠覆性效果,曾经咱们都做数据剖析,咱们现在做常识凝练、常识处理。使用规划比较多,普适医疗、远程教育、安全预警、旅行、商业智能,咱们这15家单位现在都涉及到这几个方面。

  大数据常识工程是国家科技部的项目,方针是要树立国家的常识渠道,来供给精准的高水平的常识服务。咱们要面向不同的用户来做精准服务,所以研讨技能专家要面对不同的使用范畴,面对不同的服务方法。

  明略公司是一个职业人工智能公司。咱们现在做的三个首要职业,安防、金融、工业轨交, 一同,三个职业里边咱们现在做的规划最大、影响最大的,仍是公安数据。公安数据和其它职业使用相同,底层仍是做常识图谱,开发了一套体系,也积累了许多数据和常识体系,不管哪个职业的基本原理是共同的,都是从许多的根底数据里边找相关,找主题信息,再去凝练特征,经过建模型来进一步凝练特征,终究建成一个人工大脑,或许叫智能体系。

  有了智能体系,便是完成认知智能的根底,最前面有许多独自的数据源,后边做相关,然后凝炼成特征,在建模之前咱们能够看到,用一个形象化描绘常识图谱,正如火眼金睛能够辨认相相关系。常识图谱是明略数据做职业人工智能的一个抓手,从许多的信息来历抽取所需求的信息。举例,公安大数据体系里边有标签体系,如,行为人、自然人的一些身份信息、布景信息,然后再把这些自然人的轨道信息、人跟人之间的联系信息等收集、凝练、交融,就构成了一个公安数据的情报图谱。

  公安数据的情报图谱咱们现已做到什么程度了?体系现在现已布置到30多个地市级公安局。其间有一个公安体系中就有约16亿个实体、40亿个衔接、140亿个事情,这个数据现在是非常大的。在明略数据,运用常识图谱、认知人工智能等手法,构建人员、安排、事情、轨道根底库,完善集体监测、事情研判两大使用,充分利用各项动态数据,进步集体轨道监测动态预警才能,以集体的轨道数据结合文本情报头绪为根底,完成人事时空的相关,进一步进步预警研判的准度、精度。

  情报研判根据不同的信息来历,不同的人物、安排、地名、事情信息来历,终究构成一个公安职业大脑。其间,咱们也要做一些量化模型剖析,还涉及到许多的根底规划。归纳起来,明略数据的“公安大脑”用常识图谱数据库协助差人破案能够做到事半功倍。

  1、从大数据到大常识: HACE + BigKE,吴信东, 何 进, 陆汝钤, 郑南宁 ,其间第4节展望了6个挑战和6个使用场景。

  2、数据发掘的10大算法(英文)这篇文章 Google Scholar的引证次数今日是3941。

  3、大数据的HACE定理和三层处理模型:这篇文章自2014年1月宣布,到2015年6月,接连18个月在IEEE(1884年开端)的一切会议和期刊论文中每月下载量全球榜首,2015月7月全球第二,2015年8月全球第三,创始了一个IEEE记载。Google Scholar的2018/08/02引证次数是1613。

  4、大数据常识工程:这篇论文对大数据年代的常识工程及其间心问题进行了界说,提出了一个BigKE模型,是同郑南宁院士、陆汝钤院士等一同做的。以这篇论文的纲领性规划为驱动,2016年咱们成功获批了一个4千5百万的科技部要点研制方案项目(.

  6、特征流环境下的在线特征挑选:这篇文章Google Scholar的今日引证次数是116。

  量子位AI社群19群开端招募啦,欢迎对AI感爱好的同学,在量子位大众号(QbitAI)对话界面回复关键字“沟通群”,获取入群方法;

  此外,量子位专业细分群(主动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关范畴的工程师及研讨人员。

  进专业群请在量子位大众号(QbitAI)对话界面回复关键字“专业群”,获取入群方法。(专业群审阅较严,敬请体谅)

  量子位正在招募修改/记者,作业地点在北京中关村。等待有才华、有热心的同学参加咱们!相关细节,请在量子位大众号(QbitAI)对话界面,回复“招聘”两个字。


在线留言

在线客服