摘要

     虚拟社区又称为在线社区(ONLINE COMMUNITY)或电子社区(ELECTRONIC COMMUNITY),作为社区在虚拟世界的对应物,虚拟社区为有着相同爱好、经历或专业相近业务相关的网络用户提供了一个聚会的场所,方便他们相互交流和分享经验。虚拟社区的类型根据沟通的实时性,可以分为同步和异步两类:同步虚拟社区如网络联机游戏,异步社区如BBS等。虚拟社区最重要的几种形式有BBS、USENET、MUD,在国内逐渐形成以BBS为主要表现形式,结合其他同步异步信息交互技术形成的网络化数字化的社区形式。本文主要讨论异步虚拟社区。

     在虚拟社区,一方面人们会偏向浏览自己感兴趣的或者是擅长的内容,另一方面人们会倾向于与自己志向相投,三观相合或者是有共同爱好的人进行交谈,从这两方面来说,会初步形成一个用户的客户画像,其在网络上的各种浏览信息都彰显着一个人的个性与爱好,本文就是基于这些用户在网络上留下的痕迹,运用DIKW图谱(数据信息知识及智慧DATA INFORMATION KNOWLEDGE WISDOM),再结合自我构建理论和自我决定理论等对用户的性格爱好进行划分,针对其不同的需求推送其感兴趣的内容,并通过推送内容潜移默化转换用户性格

研究背景

      在国内研究中,本人在万方等中文数据库中以“虚拟社区用户分类”进行检索,共得到相关文献有136篇,其中学位论文104篇,占76%,期刊论文占17篇,占12%,而科技成果、会议论文、专利等总共占比10%,对虚拟社区用户分类的研究,高峰期主要在2010年和2015年,自2016年至今,对此项目的研究逐年下降。根据检索到的文献内容分析,研究主题主要有以下几个方面:一是专业虚拟社区,二是用户分类的模型,三是虚拟品牌,四是分析用户对于某一问题的看法。我国对于虚拟社区的研究涉及到了不同的科学领域,包括社会学,教育学和信息组织等,对社区成员行为方面讨论过多,多采用的是定性的研究。

数据元模型

       数据是DIKW层次结构的最低层级,它是最基础的也是最重要的,而且数据还是通向智慧的源头。数据有着元数据和数据元之分。元数据在元模型中被定义为关于数据的数据。元数据对于用户而言,提供发现数据、访问数据、转换数据等作用(吴轩, 2018)。例如Duan等人(Duan et al., 2017a)所定义的图的元数据由数据图谱中的概念组成。数据元则是描述属性的数据单元。在知识图谱中数据元与实体关系模型有着紧密联系(段玉聪等, 2018c)。在计算机系统中数据是编码的不变性(Zins., 2007)。Buckland(Buckland., 1991)指出数据是通过观察获得的数字或其他信息的基本单个项,但就其本身而言,没有上下文,他们就没有信息。文献(Zins., 2007)也指出数据是由科学家和其他人收集的关于世界的原始观测数据,只有最低限度的上下文解释。Wang(Wang., 2015)定义了数据是现实世界中所有可描述或不可描述对象的抽象表示。本文结合本体论和概念模型,从事物本身的存在特性出发,建议将数据定义为世界可观察属性的象征性表示。我们认为数据作为世界中存在事物的基本单元,能够通过观察数字或者其他信息获得,作为数据本身,仅有存在与否,没有其他任何意义。数据有着多种表达形式,例如数组、队列等(Duan et al., 2017a)。数据在5W+H中能够回答“Who/When/Where”指导下的问题(Shao et al., 2017b)。

信息元模型

       信息有着多态和多义的特点。例如当信息作为一种解释时,它可以与很多种不同的解释关联起来,所采用的的抽象级别不同则解释也不相同(Floridi., 2008)。在信息元模型中,元信息被定义为关于信息的信息,可以被用来实现有条件的请求。Shannon的工作(Shannon., 1948)导致许多人从物理学的角度来对信息进行定义。但是,这种方法并没有深入人心,因为人们普遍喜欢思考信息的社会和心理意义(Bates., 2005)。信息代表依赖于数据的存在而标记的关联的多于一个的数据(段玉聪等, 2018c)。信息与意义或人类意图有关,在计算系统中信息是数据库、网络等的内容(Zins., 2007)。Buckland(Buckland., 1991)指出信息是指通过数据和组合数据的上下文传达的信息,并可能适合进行分析和解释。文献(Zins., 2007)也指出信息是数据的集合,用来对世界进行连贯的观察。Wang(Wang., 2015)定义了信息是人类大脑感知到的抽象物体的一般形式,由符号、数学、通信、计算和认知系统表示。本文从本体论的角度解释信息,基于实体关系模型,信息被定义为有着上下文含义的数据。信息在5W+H中能够回答“What”指导下的问题(Shao et al., 2017b)。

知识元模型

       知识在日常生活中经常被人们所使用。关于知识的定义的讨论一直都是哲学家和社会科学家所感兴趣的话题。为了了解知识,哲学还产生了一个重要的分支-知识论。在知识元模型中,知识有着知识元和元知识的区分。元知识是关于描述和使用一般知识的知识,而知识元是指不可再分割的具备完备知识表达的知识单位。从本体论的角度看,元知识是可被清晰表述和有效转移的最小可控单位,即显性知识的最小可控单位。知识的重要性使得研究者们从各个方面获取知识,例如数据挖掘、文本挖掘和Web挖掘(Jifa., 2013)。Hey(Hey., 2004)认为知识是与信息或数据完全不同的“实体”,是由知识者现有的观念和经验“塑造”的,它不同于数据和信息一样可以在现实世界中直接观察得到(Duan et al., 2017a)。根据Gamble(Gamble et al., 2001)的描述,知识是关于经验,价值,背景信息,专家见解和扎实直觉的处理信息,这些知识可以导致出新的信息和做法。知识还分为显性知识和隐性知识(Cleveland., 1982、Cooley., 1980、Eliot., 1934)。能够被记录下来的知识被称为显性知识(Yusof et al., 2018),有着能捕获、获取、创建和转让等特点(Polanyi., 1962)。而不能被记录的经验教训,经验和培训技能的知识称为隐性知识(Yusof et al., 2018),有着难以编码和交流的特点(Polanyi., 1962)。区分显性知识和隐性知识在评估知识管理的范围至关重要(Broadbent., 1998)。进一步的,Duan等人(Duan et al., 2019)根据显式和隐式划分提出了对目标资源隐私保护的解决方案。本文从认知论的角度出发,将知识定义为抽象信息和转换信息的有效结合。将信息进行认知处理和验证得到的结构化和组织化的信息就是知识。不管是显式知识还是隐式知识都可以通过学习获得,仅仅是难易程度的区别。当我们传递知识时,首先需要将知识编码为信息,以事物存在的形式、内容等传递给对方,然后在将信息解码为知识(Duan et al., 2017a)。知识在5W+H中能够回答“How”指导下的问题(Shao et al., 2017b)。

智慧元模型

       智慧是最高的抽象层次,是我们辨别对与错,善与恶的过程(Duan et al., 2017a、Yusof et al., 2018、Cooper., 2014),它具有远见卓识和超越视野的能力(Baskarada et al., 2013、Awad et al., 2004)。尽管在过去的几个世纪中人们对智慧概念进行了深入的哲学研究,并且尽管智慧在当代商业世界中有着重要作用,但很少对智慧进行实证研究。众所周知的是虽然DIKW模型包含了智慧这一层级,但是大多数学者在对DIKW的讨论中很少提及智慧。智慧的定义比知识的定义更加抽象,即使他们都是从主观逻辑上进行定义的。例如当知识被定义为人们的经验是,智慧则被定义为人们能根据经验而做出决定的能力。尽管DIKW金字塔在数据,信息,知识和智慧之间提供了层次结构的关系,但是很少有关于如何将数据、信息和知识实际上转换为智慧的讨论(Intezari et al., 2016)。例如Wognin(Wognin et al., 2012)认为DIKW层次结构无法解释知识转化为智慧的过程。甚至于,有学者认为,智慧不能被存储,也不能从一个人转移到另一个,它不应存在于DIKW模型中(Hoppe et al., 2011),缺少智慧这一层时也不会影响知识服务于人类(Jifa et al., 2014)。然而,随着许多智慧城市的出现,关于智慧的讨论以及如何生成并使用智慧势在必行。Jashapara(Jashapara., 2004)指出智慧是在任何给定情况下都能够采取批判性或实际行动的能力。Jessup和Valacich(Jessup et al., 2008)认为智慧是知识的集合,通过积累实现从量变到质变的转化,最终形成经验和能力。它能帮助我们如何将概念从一个领域应用于另一个领域。在DIKW模型中,通过知识和道德判断抽象出原理和价值能够促使知识向智慧的转化(Zhang., 2016)。Wognin(Wognin et al., 2012)提出在知识层和智慧层之间添加复杂的思维过程以促进知识向智慧的转换。本文采用叔本华的直觉(Schopenhauer., 2012),取智慧作为推理和意志之间的平衡,以优化人类的长期目标。智慧在5W+H中能够回答“Why”指导下的问题(Shao et al., 2017b)。

 

DIKW元模型

       知识图谱是指将存在事物以节点的形式进行表达,然后把存在相互关系的存在事物以线的形式链接起来,而形成的图形。由于知识图谱对于知识服务的重要支撑作用,知识图谱被作为新一代人工智能的基础设施。从语义网的角度看,知识图谱是数据知识化的过程。从人工智能的角度看,知识图谱的发展历程又是知识数据化的过程。2017年,Shao等人(Shao et al., 2017c)首次从数据、信息、知识的角度描述了知识图谱架构,并从数据图谱(Data Graph)、信息图谱(Information Graph)、知识图谱(Knowledge Graph)、智慧图谱(Wisdom Graph)等四个基本形式细分了知识图谱。细分后形成了知识图谱的四层架构-DIKW架构(Duan et al., 2017a)。DIKW图谱的每一层分别对应数据(Data)-信息(Information)-知识(Knowledge)-智慧(Wisdom)的知识金字塔结构的每一层(Rowley., 2007)。并且规定了数据、信息、知识等类型化资源之间以及数据图谱、信息图谱、知识图谱等图谱资源之间的类型转换(Duan et al., 2017b)。知识图谱提供了网络化的知识组织方案。然而,递进式的数据、信息、知识等三个层次的结构需要更加细化的知识图谱架构方法来更好的解决。一套用于解决对数据、信息、知识的组织问题的更加细化的知识图谱架构方案迫在眉睫。

多模态语义搜索

       基于DIKW的发明专利智能申请与答复系统还将涉及到语义搜索问题,并且因为申请人和审查人的领域知识、自身性格等因素的差异,将导致混合形态的语义搜索受到极大的挑战。因而对于语义搜索的相关技术有必要在此进行陈述。虽然早在1980年,国际上就已经对语义搜索进行了讨论,但是限于当时技术发展水平的局限,语义搜索研究一直没有取得突出的成果。近年来,随着人们对自然语言处理的研究愈发成熟,语义处理终于得到了迅速发展。然而对于多模态语义搜索问题,却一直都是搜索引擎中拉低搜索精度的一大痛点,而多模态语义搜索引擎的效率又取决于大量标记数据。Fader等人(Fader et al., 2014)使用共指分解技术提取的知识库,并从未标记的问题语料库和多个知识库中提取了数百万条规则,以寻找问题分析和查询重构的解决方案。Wang等人(Wang et al., 2013)将概率计算引入到语义处理问题中,通过注释的方式使不同语言知识库之间关联起来,该方法促进了不同语言之间的知识共享。建立区域合作医疗数据中心以实现医院信息之间的整合。Shao等人(Shao et al., 2017d)通过DIKW图谱自动提取和调整资源,该体系结构通过对数据图进行频率集中的概要分析以及对信息图和知识图的抽象优化搜索,从而递归地支持经验知识的集成以及对资源元素的高效自动语义分析(段玉聪等, 2018a)。Sen(Sen., 2012)将主题模型作为相似度计算的基础,并从维基百科获得了实体目录。大量的基于特征向量的监督学习方法,半监督学习方法(Carlson et al., 2010)应运而生。Baoko等人(Baoko et al., 2007)提出了一种用于开放域的信息提取框架,并发布了一个基于自我监督学习的开放信息提取原型系统。借助5W(Who,When,Where,What和How)问题(Chatti et al., 2012)的分类,可以很容易地获得用户学习需求的描述,5W是在信息收集或解决问题中被认为是基本答案的问题。

TRIZ理论

       TRIZ理论在发明创造领域具有非常突出的特点和强大的理论指导意义。本系统结合TRIZ理论中的冲突矩阵工具,通过DIKW图谱对技术方案进行分析,依据40项发明创造原理,得出可供申请专利或有应用前景的技术发明点,并以数据图谱可视化的形式展示。

       TRIZ理论(Tan et al., 2014)也叫基于专利知识的系统化方法学(Kim et al., 2000)。是阿奇舒勒在对专利进行分析时,利用不同的方法从多维层面对其进行归纳,并得出了大量的可行性规律,最终进行一套发明问题解决理论。此后,随着TRIZ理论的不断扩充和完善,增加了大量研究人员发现的方法和工具。

       其中本文主要运用的是TRIZ理论中的矛盾冲突矩阵工具,依据40项发明创造原理和48个通用工程参数(旧版为39个通用工程参数)。

       目前,TRIZ理论在国内多应用于专利研究,并取得了一些应用成果。如杨鑫超等人(杨鑫超等, 2020)提出TRIZ在高价值专利培育中的应用,许崇春(许崇春, 2012)在TRIZ的基础上融合集成了专利技术路线图、专利地图,并将其应用到技术创新的新路径中;王克奇等人(王克奇等, 2011)以TRIZ理论中的冲突矩阵工具,开发了一种专利检索系统,该系统能有效帮助专利检索技术人员获得对专利创新有启发的参考方案。在专利检索方向,李更等人(李更等, 2013)利用TRIZ理论,来规避专利侵权问题,从而提高科研人员的创新效率。在知识产权预警方向,祁明等人(祁明等, 2012)从政府视角、企业视角和国际视角三个视角出发提出一个知识产权综合预警框架;江屏、李鹏等人(江屏等, 2015、李鹏等, 2013)基于TRIZ理论对产品进行专利规避创新设计。在专利分类方向,TRIZ理论被用于用于协同过滤(胡学钢等, 2018)、专利竞争(燕慧泉等, 2018)、和专利信息组织(李睿等, 2017)。胡正银(胡正银等, 2017)、彭茂祥(彭茂祥等, 2016)和鲁麒等人(鲁麒等, 2014)基于大数据技术、数据挖掘技术,结合TRIZ理论在从深层次对专利技术进行挖掘。基于上述研究,本文结合TRIZ理论中的冲突矩阵工具,结合DIKW图谱技术,对发明专利的技术方案进行分析,得出可供申请专利或有应用前景的技术发明点,并以数据图谱的方式可视化展示。

专利申请流程

构建发明专利申请文档数据图谱

申请书数据图谱构建

       在申请一项新的发明专利时,一般都仅需要提交说明书、权利要求书、说明书摘要、说明书附图、发明专利请求书。

补正书数据图谱构建

       在专利申请流程中的初审阶段,申请人可以主动提交补正书对专利进行修改以完善专利。其次,审查员也将会对专利是否存在明显缺陷进行审查,若存在则申请人需要针对补正通知书内容进行答复,并提交补正书和修改后的申请书。

意见陈述书数据图谱构建

       在专利申请流程中的实质审查阶段,审查员会对专利文件是否符合授权条件进行审查。在没有达到授权条件时,审查员会下发通知书。申请人可以根据通知书进行意见陈述或对专利文件进行修改,直至该专利授权或被驳回。

实质审查请求书数据图谱构建

       在专利申请流程中,当发明专利公布后,申请人需要办理专利的实质审查手续,使专利进入实质审查阶段。在这一流程中,申请人需提交实质审查请求书。对于一些需要加速审查的专利,如计算机类的专利,还可以申请优先审查,使专利更快的得到审查。

意图驱动的竞争及合作的智能填充算法

       在国内外研究中,对于智能填表方面的研究有很多。曹东(曹东, 2012)设计开发了面向人事管理的智能填表系统,并实现了利用基于最大熵的隐马尔可夫模型自动填充表格的方法。姜涛等人(姜涛等, 2012)通过规则分析并结合智能化信息获取技术设计了一种基于excel模板的在线填表系统,王亚非(王亚非, 2014)结合人际交互等技术,设计了离线表格建模工具和在线填表提示系统,两者都能有效实现智能填表。此外,Wang等人(Wang et al., 2017)设计了一个用于在不同的web应用程序自动填充web表单的智能框架。王玉秋(王玉秋, 2018)设计了一个基于VS中“WebBrowser控件”的自动填表程序。虽然在智能填表领域研究众多,但现有设计几乎都是从数据迁移过程出发的,本系统在专利申请自动化中,充分考虑申请人的意图,通过判断表项的重要程度和填充难易程度,减少专利申请文件提交过程的无效时间损耗。

       在意图识别领域,唐静笑等人(唐静笑等, 2014)针对用户在使用搜索引擎时的查询意图设计了一种意图识别的方法。该方法能够对无明显意图的行为进行识别。杨春妮等人(杨春妮等, 2018)结合句法特征和CNN进行结合,提出了一种多意图识别模型。王海旺等人(王海旺等, 2019)提出一种基于直觉模糊集合的新型意图识别方法,Firdaus等人(Firdaus et al., 2019)提出了一个用于意图检测和槽填充的多任务分层方法,该方法使用CNN和RNN捕获上下文信息,利用CRF进行建模,最后得出的模型可以联合执行针对不同域的数据集的意图检测和槽填充任务。

       本系统参考以上研究与应用,构建基于图数据库的意图模型,然后通过信息抽取技术对表项进行匹配,得到它的重要程度和填充难易程度,图15是专利申请书数据图谱可视化效果,圆圈的大小代表该项的重要程度,线段的长短代表该项的填充难易程度。

基于DIKW图谱的多模态语义建模

       基于DIKW图谱的多模态语义建模,主要用于从效率提升和战略投资实践中获得最大的效益提升和战略投资实践的价值。

       在DIKW图谱中,离散事物一般记录在数据图谱上,通常表示为时间、空间和结构三个频度。在发明专利申请文件中,数据图谱可以记录各个步骤的操作顺序,产品内各组件的间距、尺寸大小和组合方式等。信息图谱记录每个实体的交互关系,在信息图谱上可以通过计算交互频度推理出新节点,并重新计入数据图谱中。例如当某一产品的n-1个配件的尺寸大小已知时,可以对最后一个配件的尺寸大小进行推理判断,若符合则记录成新的节点;在知识图谱上对类之间的关系运用关系抽取规则进一步抽象,并对技术方案表达的完整性进行补充,提升沟通的效率。

基于DIKW图谱的内容传输及优化

基于DIKW图谱的交互区域划分及传输优化

       专利的准确性和传输速度是衡量图谱优劣的重要标准,为了消除相关人员对专利内容的理解偏差,本文提出的基于DIKW的图谱依托于传统的专利申请方案,引入了一系列的优化对策,例如对专利内容进行归类、整合以增强内容的可参阅性,在保证专业性的基础上增加个性化、交互性强的语义,减少理解误区等。

       通过构建DIKW内容库实现传递的专利申请方案内容的重构,解决申请人、代理人等技术人员和审查员之间对专利内容理解存在差异的问题,且重构的专利内容在保留了原内容的关键语义的基础上实现个性化的表述。同时系统还对传递的专利内容进行整合优化,提高内容传递的准确性和传递效率。

       在申请人等技术人员和代理人之间可能存在,某一方的内容库中不存在某一概念,或在双方的内容库中,同一概念可能对应不同的理解。为了实现双方对同一概念理解的一致性,本文通过对传递的概念进行重构,使双方实现差异化理解,其中重构可在三方中的任意一方进行。

基于DIKW图谱的内容重构

       本节就传输内容重构问题提出了解决对策,基于DIKW图谱的内容重构算法流程图如下,发送方向接收方发送数据,接收方提取关键信息后将该信息封装成包,并确认该包是否能被接收方的DIKW图集库校验,是则直接转发,否则获取接收方的DIKW图谱内容库和第三方DIKW图谱内容库等详细信息,并采取重建算法,对无法识别的内容进行重构后将重建内容转发至接收方。

多模态内容语义价值计算

       为保证图谱迁移后的一致性,需要对多模态的内容语义进行价值计算。本文仿造区块链技术,提出一种针对节点和节点网络的内容语义价值计算算法,以处理多模态的内容语义。

基于DIKW图谱的专利内容检索

       在发明专利申请及答复过程中,对专利进行检索是一项必须要进行的工作。例如当专利申请优先审查时,需要对现有技术进行检索;当专利处于答复过程中,审查员对专利是否具有创造性进行审查时,也需要对现有技术进行检索。因此专利检索在专利申请到授权整个周期内都是及其重要的。本文提出一种正负双向索引算法以得到更加精确的搜索结果,配合专利申请和答复。其中搜索结果的形式除了匹配查询关键字的链接,还能够基于专利技术内容的实体关系搜索答案。

基于DIKW图谱的搜索载体优化

       本文提供一种基于DIKW图谱的正负双向搜索策略。在搜索之前,首先计算资源在DIKW图谱各层上的搜索代价,然后通过比较排序,选择代价最低的图谱进行遍历,最终实现搜索载体的优化。

       根据搜索效率确定在三层图谱上搜索的优先顺序,使用户花费最少代价而能获得相对有效和准确的资源。

基于DIKW图谱的正负双向搜索策略

       本文针对具有正向和负向趋势的问题提供渐进式搜索方法,通过多次渐进式搜索来提高资源的可信度。同时,引入DIKW图谱作为资源处理架构,以组织网络上的资源,并通过语义分析来分析搜索者检索信息的趋势。根据搜索时间和每次搜索的项数来计算资源的熵,以表示具有正负趋势的资源的可靠性。在渐进式搜索过程中,将消除具有歧义倾向和虚假信息的资源,并提高搜索结果的质量,同时避免针对无限和复杂问题的死循环。根据用户搜索到的实际问题的描述,获取满足用户信息需求的相关资源,这些资源可以分别分为具有正向和负向倾向的资源。例如当申请人搜索“申请发明专利时,摘要附图是必需的吗?”时,正趋势是必需而负趋势则是非必须。

       本文通过对用户的需求进行建模,并分别对具有正向和负向的搜索资源的权重进行计算。

系统目的

       该系统的主要功能是针对传统专利申请、审核、答复、授权等环节的效率低下以及高校专利质量普遍较低的问题,设计一种基于DIKW的发明专利智能申请与答复系统。旨在优化知识产权管理过程以及提高我国发明专利尤其是高价值发明专利的质量,为海南加快培育现代产业体系,实现跨域式发展提供信息化保障。本系统实现了对申请人和代理人双方的DIKW图谱画像,可以根据双方数据库设计可供多方交流的交互机制;系统实现了对发明专利申请书中内容的重构算法,可以根据专利法、专利实施细则等相关专利法规和审查员的答复意见,对发明专利申请文档进行修正,使其符合申请和答复标准;系统实现了基于DIKW的专利文件检索系统,可以根据专利内容匹配DIKW图谱,以满足更加精确的信息搜索需求;系统还实现了对可供申请专利的技术方案的预测,结合TRIZ理论中的冲突矩阵工具,通过DIKW图谱对技术方案进行分析,依据40项发明创造原理,得出可供申请专利或有应用前景的技术发明点,并以数据图谱可视化的形式展示。系统面向分布式处理,在双方相互答复的交互过程中考虑系统的负载均衡,实现资源处理效率的最优。

需求分析

功能性需求

非功能性需求

       安全性,可靠性,可维护性,可用性,可伸缩性,性能

用例分析

       用户可以在首页进行登录、注册、专利检索等操作,当用户为申请人或代理人时,可以接入申请人界面;当用户为审查员时,可以接入审查员界面。

总体结构及功能设计

系统总体结构设计

       系统总体上分为三层,分别是需求采集层、处理层和传输层。需求采集层:需求采集层包括申请人、代理人和审查员需求的采集。其中申请人和代理人包括专利申请及下载需求、专利检索需求、专利修改及答复通知书需求、专利发明点预测需求;审查员包括专利检索需求、专利审查和答复陈述意见需求、专利提交及下载需求。处理层:处理层为本系统的核心部分,包括竞争及合作智能填充模块、多模态内容语义建模、传输及计算一体化模块、正负双向搜索模块、个性化展示模块。其中竞争及合作智能填充模块主要服务于专利申请及提交需求、多模态内容语义建模、传输及计算一体化模块主要服务于专利修改及答复需求和专利发明点预测需求、正负双向搜索模块主要服务于专利检索需求、个性化展示模块主要服务于申请人代理人和审查员沟通时的用户画像构建和本系统的界面展示。传输层:传输层为申请人和审查员双方进行交互时作用的层级,其中包括边缘计算、云计算和雾计算。双方在沟通时,根据传输数据的大小、传输的速率等参数进行DIKW图谱转化,以负载平衡。

系统总体功能设计

       系统包括注册、登录、专利检索、申请人接入和审查员接入五大功能。其中申请人接入包括专利申请功能、专利通知书下载功能、专利修改功能、专利答复功能和专利发明点预测功能五个功能,审查员接入包括专利及答复下载功能、专利审查功能、通知书提交功能三个功能,其中专利审查功能包括初步审查功能和实质审查功能两个功能。

系统的详细设计

专利文件提交及下载功能的实现

       用户登录本系统后,点击申请人接入,进入到申请人接入界面。用户可以选择专利申请、专利通知书下载、专利修改、专利答复、发明点预测五个按钮进行操作。

专利修改及答复功能的实现

       本系统采用Neo4j作为DIKW图谱存储的图数据库(Li et al., 2019)。根据关系型数据库的结构和Neo4j提供的接口,设计了一个基于Binlog的导入架构模型来搭建DIKW图谱。

专利检索功能的实现

       在首页功能被激活后,用户可以直接使用专利检索功能。专利检索功能可选择常规搜索和精确搜索,其中常规搜索为模糊搜索,通过匹配关键字和DIKW图谱匹配内容库进行搜索;精确搜索通过用户输入专利申请号、公开号、申请人、专利名称其中一个或多个信息进行精确搜索,用户输入信息越多,其等待时间和搜索精度越高。

专利技术发明点预测功能的实现

       本系统结合TRIZ理论体系,依据DIKW图谱化技术对发明专利的技术发明点进行预测,得到具有专利前景的技术发明点。

总结

     发明专利作为知识产权的核心组成部分,在国际经济竞争中发挥着不可替代的作用。专利战略已经成为企业经营战略与防御国外企业专利战攻击的核心,增强自主知识产权成为重要的国家战略措施。然而,我国绝大部分企业在知识产权保护方面并不重视,许多原创技术得不到保护。目前海南围绕海洋科技和农业科技发展、科技服务精准脱贫和民生改善,深入实施专利倍增计划,建设知识产权强省。

     在当前海南创建自贸港的大背景下,本文针对传统的发明专利申请、审核、答复、授权等环节的从人才到管理的持续快速质量改进和效率提升困难痛点上,设计与实现一种基于DIKW的发明专利智能申请与答复系统。从信息技术角度,借助所在课题组丰富的发明专利申请和答复的数据和经验积累,研究依托DIKW架构的发明专利内容全生命周期内的智能申请与答复系统,为海南加快培育现代产业体系,实现跨域式发展提供信息化保障。

     第一:基于DIKW图谱架构的交互机制设计与实现发明专利申请自动完成与智能辅助答复系统,依托和结合开发生命期软件工程全过程建模管理,面向发明专利申请到授权全过程处理,针对生命期内的发明专利,结合专利法、专利实施细则等相关专利法规,对申请人或代理人撰写的发明专利申请文档进行修正,使其符合相应的规则,并利用竞争及合作的智能填充机制实现专利的自动化申请。在答复过程中,根据答复意见并结合用户画像内容数据库,提供具有针对性的修改意见及方案,实现发明专利的智能辅助答复。

     第二:在申请与答复过程中,从DIKW概念架构角度进行相关内容资源建模与转换映射。依据多方交流的交互机制从DIKW的角度对内容进行重构,以达到不同领域人员相互理解的目的。并在一定条件下,重构内容能够满足更加精确的信息搜索需求,提出的正负双向索引算法使搜索结果的形式除了匹配查询关键字的链接,还能够基于专利技术内容的实体关系搜索答案。

     第三:结合TRIZ理论中的冲突矩阵工具,通过DIKW图谱对技术方案进行分析,依据40项发明创造原理,得出可供申请专利或有应用前景的技术发明点,并以数据图谱可视化的形式展示。

展望

     人工智能革命将极大地改变人,机器与社会之间的关系。随着人工智能技术自身融入我们的世界,现有的法律理论和结构变得越来越过时。从历史上看,知识产权法在广泛传播发明和思想给社会带来的好处与通过在有限时间内为发明人提供专有权而进行创新的动机之间取得了平衡。当“个人”的定义扩展到包括自动机器时,我们将需要重新检查社会的功利性需求和个人权利之间的平衡。在美国,专利所有权最初归属于历史上一直被认为是人类的发明人。但是,“强”人工智能可能很快就能构思出发明并将其付诸实践,而无需人类参与。如何处理记入AI的发明人所有权可能是未来的研究重点。鉴于此,下一步本研究拟从AI治理方向切入,继续探索AI与技术发明创新结合实践中去。

实验步骤

本文总体实验步骤如下: 步骤一:利用爬虫技术获取相关情感数据,对数据进行人工标注和数据清洗等。 步骤二:下载中文版维基百科,对维基百科数据进行格式转换、繁简转换等预处理。 步骤三:将情感数据和维基百科数据相结合,进行中文分词,然后训练word2vec词向量模型。 步骤四:将预处理后的情感数据分为训练集和测试集。 步骤五:将词向量融合情感词典构造情感词向量模型。 步骤六:将中文训练集根据情感词向量转换为词向量矩阵输入LSTM长短时记忆神经网络进行训练。 步骤七:将测试集输入训练好的模型,评估模型的效果。 总体实验流程如图所示。

first service

 

社交文本获取

由于微信、QQ上的数据隐私性较强、获取难度大,所以采用三名志愿者提供的聊天数据,使用最基本的复制粘贴的方法。数据部分展示如表。

本文也搜集了微博上来自工作、学习、生活、影视、游戏等多个方面的评论数据,这些评论数据表达了自己的感受、情绪以及针对某一话题自己的经历。对于微博上的数据采取爬虫技术,主要分为“数据获取”、“数据解析”、“数据存储”三个部分。

first service

 

数据获取

对于微博中的评论,每条微博所含的评论数不一样,且每一页的评论是通过Ajax技术动态加载在页面上的。通过火狐浏览器的开发者工具,如图所示。

找到请求获取评论的URL和相关的规律,使用头信息验证和传入每一页相应的参数,并限制请求频率,每爬取一页,设置time.sleep(3),停顿三秒,使之爬取的速度尽可能接近人们使用的速度。

first service

 

数据解析

获取到的响应数据是JSON格式,如图所示

first service

 

使用lxml库的XPath解析出相应的评论数据,首先打开网页HTML,在HTML中,所有的内容都可以看作节点,整个HTML文档是一个文档节点,每个HTML元素是元素节点,此次获取评论数据的HTML DOM节点树如图所示

first service

 

XPath解析评论数据代码如图所示

first service

 

由于获取每一页所要提交的参数不一样,于是利用正则表达式获取下一页相关的参数,整个解析过程函数parse_res(self,response)如图所示

图中阴影地方pat2即为正则表达式解析数据的模式字符串。在这里,先把每个评论数据结点用XPath解析出来,然后去掉冒号、换行和空格等,把评论数据转换为DataFrame格式,每一条数据附在上一条数据后面。DataFrame两个列属性“content”和“type”,“content”表示评论,“type”是情感(首先设置为0,方便后面进行标注)。

first service

 

数据存储

将数据以CSV格式存储在本地文件中。部分数据展示如图所示

first service

 

文本预处理

数据的预处理包括文本的情感倾向标注(分为高兴、愤怒、悲伤、恐惧)、文本清洗、中文分词。文本预处理是在集成开发环境Anaconda Jupyter notebook 上运行。

由于原始的文本中存在一些特殊字符和很多不规范的表达,且含有和评论无关的信息,因此需要对文本进行预处理,从而得到规范化的文本数据。主要流程如图所示。

first service

 

情感倾向标注

将人们在社交网络上表达的情感分为4类——高兴、愤怒、悲伤、恐惧,采用细致的人工标注法对这些获取的数据进行筛选和标注,如图所示。

first service

 

文本清洗

使用正则表达式将文本中的空格、特殊字符等去掉,还有微博评论数据中,“#...#”表示某一主题、“@...”表示指定某人等等,将这些都利用正则表达式去掉,将有的错别字进行改正,如果出现空行,则直接清除掉,部分代码和清洗好的数据如图所示。

first service

 

first service

 

文本分词

使用的分词器为jieba分词器,选择jieba分词器是因为要分析的句子是中文的,同时jieba是一款免费的分词器工具包,对不是过于复杂的句子和特定领域的句子都具有很好的分词效果,适合对日常人们社交所表达的内容进行分词,同时也可以再自己加入特定的词汇,而NLTK工具包也有分词器,但是更适用于英文分词。分词效果如下:

'全国', '首趟', '春运', '高铁', '务工', '专列', '发车', '广大', '务工者', '登上', '幸福', '回家', '路'

本文没有去除停用词,因为有些停用词含有情感信息,比如“难道你这样做没错”和“你这样做没错”表达的情感是不同。

构造情感词向量

Word2vec词向量构造主要的数据来源于中文维基百科,同时再附加爬取所得的中文情感数据。首先将官网上下载的维基百科数据包(.bz2格式),在PyCharm集成开发环境上利用Python代码将其转换为.txt格式,用记事本展示如图所示。

first service

 

利用OpenCC软件将繁体转换为简体,然后结合经过预处理后的情感文本,利用jieba分词器对其进行分词,分词后的结果用记事本展示如图所示。

first service

 

将分词好的数据进行训练得word2vec词向量模型。词向量训练使用gensim.models.word2vec来实现,Gensim是Python第三方工具包。使用Gensim的word2vec工具包训练词向量的主要参数设置如表所示。

first service

 

由此可训练出语料库中词语的词向量,如果两个单词具有语义上的相似性,则它们的词向量在空间上的距离相近。训练后得到的词语对应的词向量如表所示。

first service

 

简单地测试词向量模型如图所示。

图中测试了4个词语——“喜爱”、“讨厌”、“学生”、“生气”,列表表示与这4个词语距离最近的10个词语。从图中可以看出,一个词语和空间上与之距离相近的词语也存在语义上的联系,但是有些词语的情感倾向却相反,比如“讨厌”和“喜欢”,“生气”和“高兴”。

first service

 

然后结合情感词典,将所有词划分为6类,正向情感词、正向评价词、负向情感词、负向评价词、否定词、非上诉三类词。扩展word2vec词向量维度,将60维扩展为65维,分别将60维向量与,, ,,,中的一种沿词向量方向进行叠加,得到的词语对应的词向量如图所示。

first service

 

构造LSTM模型及结果分析

经过一定的筛选,使高兴、愤怒、悲伤、恐惧四类情感文本各含有3200条数据,使数据分配均衡。句子长度及频数如图所示。

first service

 

由图像可得,句子的最大长度设定为100。LSTM的输入层是文本经过向量化后生成的矩阵,词向量维度是65,所以每个句子的输入是一个100*65的矩阵。隐藏层神经元个数设置为100,输出层选择softmax分类器,结果为一个4维向量(高兴、愤怒、悲伤、恐惧四类情感概率)。所用的编程语言为python3.7,使用的深度学习框架为TensorFlow,设置batch大小为64,优化器采用Adam,设置dropout参数保留0.75,迭代次数为20000次。训练过程如图所示。

first service

 

将4类数据4:1分为训练集和测试集,对测试集评判的结果如表所示。为了使展示更加直观,采用混淆矩阵对测试集评判的结果进行可视化展示,如图所示。

训练总准确率是0.73,“悲伤”的划分效果不及“高兴”、“愤怒”和“恐惧”的划分效果。中文句子比较复杂,有各种转折,网络上人们的说话方式也各不一样,会存在一些不常见的用法和生僻的词语,并且数据集涉及到学习、工作、影视、游戏等方面,还需要更大的数据集来训练。同时还需要对词向量转换为情感词向量的情感把握进行提升,使得到的情感词向量能够更好地表示情感相似性和语义相似性。

由混淆矩阵可以看出,在“悲伤”数据集中,有79条错误地识别成“高兴”,有113条错误地识别成了“愤怒”,有53条错误地识别成“恐惧”,可见错误识别成“愤怒”的占比较高。在人工标注数据集的过程可知,有很多句子的情感较为模糊,一些句子的情感是“悲愤”的,既在表达悲伤的同时,又表达了愤怒,比如“那些小动物真的好可怜,它们实在是太惨了,都怪那些不爱惜环境的人们,他们实在是太可恶了”。

所以以后在进行改进时,可以将情感划分得更加丰富和细致,因为有的句子涵盖的情感其实是多样化的,可以将情感进行“二元化”展示,比如当句子的情感识别成“高兴”和“悲伤”的概率较高时(悲喜交加的语句),识别结果则为“高兴”和“悲伤”两种。

first service

 

first service

 

系统实现

基于颜色和形状的情感通讯系统是,观察者可以设置自己的颜色-形状基准表来表示不同的情感,发送者发出一段文本,则该文本的情感将映射为相应的颜色-形状组合显示在观察者界面上。比如用户(观察者)可以进行如此基准表设置。

first service

 

则当发送者对用户(观察者)发出一段“高兴”的言论,则用户的界面就会显示如图。

first service

 

如果发送者对用户(观察者)发出一段“恐惧”的言论,则用户的界面就会显示如图。

first service

 

如果发送者对用户(观察者)发出一段“悲伤”的言论,则用户的界面就会显示如图。

这样用户可以避免看到大量文字而直接识别出对方所要表达的情感。同时图形的表达使用户的映像更深刻,带给用户感官上的不同体验。

first service

 

系统流程

本文将该展示系统进行简化,直接在单个界面上进行操作,系统整体流程如图。

步骤一:用户(观察者)设置颜色和形状的基准表,每一种情感用什么颜色和什么形状进行组合,用户可以选择自己最喜欢的方式。 步骤二:将选择结果(基准表)进行提交。 步骤三:输入一段文本,用上文所建立的模型对文本进行情感识别。 步骤四:以颜色和形状的组合显示在界面上。

first service

 

界面制作及展示

由于情感识别是采用Python 3.7编写,为了更方便地编写展示系统,所以界面也是采用Python编写,并导入特定的Python界面工具。目前Python界面工具有Tkinter、wxPython、PyGTK等等,本文采用的是PyQt5,PyQt5是Python对跨平台工具集Qt的包装,它既融合了Python简洁的编程语法,又融合了QT强有力的功能,可以开发出漂亮的界面。本文在PyCharm集成开发环境上运行PyQt5。

运行主函数,打开操作界面,如图所示,在界面左边设置个人的颜色-形状基准表。

first service

 

展示系统是采用面向对象编程,封装在自定义类ColorShapeDemo中,该类包含以下函数:

def __init__(self,wordslist,wordsvector)

该函数是构造函数,用来初始化一些变量和调用父类的构造函数,wordslist是词语列表,wordsvector是词语所对应的词向量。

def initUI(self)

该函数用来设计最初始的界面,包含QFrame 控件基类、QLable标签、QPushButton按钮、QComboBox下拉文本框、QTextEdit多行输入文本框以及绘画区域等的放置,以及各个控件的色彩、大小、字体等的风格设置。

def slotBrushColor1(self)

def slotBrushColor4(self)

该函数是用来设置颜色框(QFrame 控件实现)的颜色,当用户点击“颜色”按钮时,会弹出颜色选择界面,用户可以进行颜色设置,如图所示。

first service

 

def slotShape1(self, value)

def slotShape4(self, value)

该函数是用来设置形状,当用户点击下拉文本框(QComboBox控件实现)时,则可以进行相应情感的形状设置,如图所示。

first service

 

def sendbtn(self)

该函数是当用户点击“提交”按钮时,右边会显示相应的控件,一开始右边的控件设置成了隐藏。点击提交后,界面如图所示。

first service

 

右边下方的面板则是绘图区域,在进行情感识别之前首先默认设置成一张图片。绘画区域是用一个自定义类PaintArea来实现,该类传入ColorShapeDemo类中设置的Qpen画笔、QBrush画刷以及形状的值,然后绘画出相应的图形。该PaintArea类构造函数代码如图所示。

first service

 

绘出图形是采用Qt自带的QPainter类,调用该类的drawPixmap()、drawRect()、drawEllipse()、drawPath()等方法来绘制不同的图形。绘画部分代码如图所示,其中“心形”是采用贝塞尔曲线(设定控制顶点坐标)绘制而成。

first service

 

def Emotionbtn_clicked(self)

该函数是当用户在多行文本框输入句子后,点击“进行识别”按钮后,则开始进行情感识别,首先将句子进行jieba分词,然后找到在词向量中的索引,再调用getEmotion()函数将训练好的情感分析模型导入,最后将识别出来的情感以用户自定义的形状和颜色表示在下方。

def getEmotion()

该函数是将之前训练好的模型导入,设置参数、打开会话、调入模型,对句子进行情感识别,将识别出来的情感保存在变量(self.emotion)中。

在输入文本框输入语句进行情感识别,展示如右图所示。

可见模型的效果还是不错的,对情感的分析把握到位,通过界面的可视化,使情感更清晰直观。

first service

 

first service

 

first service

 

first service

 

场景分析

基于颜色和形状的通讯系统可以应用于两种情况,一是双人聊天界面,二是多人聊天界面。对于双人聊天界面,当发送者发送的文字具有情感性,则观察者的聊天背景会显示相应情感的形状(带有颜色);对于多人聊天界面,当发送者发送的文字具有情感性,则在每个发送者的聊天语句后面会附带相应情感的形状(带有颜色)。对于这两种情况,本文分别给出一个特定场景。

特定场景1

一天,小静约小雯去看电影,但小雯因为某种原因爽约了,针对这件事,两人在网上聊天,小静的颜色-形状基准表的设定如表5.1所示,小静和小雯的聊天记录如下所示: 小静:你知道吗?昨天的电影那么好看,你居然爽约,害得我一个人在电影院看 小雯:对不起对不起,都是我不好,居然没想到昨天还有事,破坏了你的好心情,都是我的错 小静:算了,算了,看你那么忙,原谅你了,下次可不要再这样了 小雯:哈哈哈,谢谢呀,爱死你了,下次不会啦 聊天过程如图所示。

first service

 

特定场景2

一天,公司管理员在多人聊天群里发布了一则消息,管理员的颜色-形状基准表的设定如表5.1所示,然后很多公司职员在聊天群里发表了自己的看法,通过颜色-形状表示,管理员可以快速了解到公司职员针对这则消息的情感以及各种情感的占比,聊天界面如图所示。

由于颜色和简单几何形状是更通用和更基层的展示形式,它比复杂图案的运用更广泛,每个学习认知经历不同的人对复杂图案的理解存在一定的偏差,而这里通过设定个人的颜色-形状基准表,每个人可以更容易更清晰地理解对方所表达的情感。

first service

 

Quisque commodo quam

Vestibulum augue ex, finibus sit amet nisi id, maximus ultrices ipsum. Maecenas rhoncus nibh in mauris lobortis, a maximus diam faucibus. In et eros urna. Suspendisse potenti. Pellentesque commodo, neque nec molestie tempus, purus ante feugiat augue.

first service
second service

Maecenas eu purus eu sapien

Sed vitae felis in lorem mollis mollis eget in leo. Donec commodo, ex nec rutrum venenatis, nisi nisl malesuada magna, sed semper ipsum enim a ipsum. Aenean in ante vel mi molestie bibendum. Quisque sit amet lacus in diam pretium faucibus. Cras vel justo lorem.