ISWC 2018概览:知识图谱与机械学习

企业团队 / 2022-06-09 12:53

本文摘要:选自LinkedIn,作者:Helena Deus,机械之心编译,到场:李诗萌、路。本文是爱思唯尔技术研究卖力人 Helena Deus 到场 2018 年国际语义网集会(ISWC)的见闻,总结了集会亮点,先容了语义网的现状、知识图谱和深度学习的关系等主题。

完美体育APPapp下载安装

选自LinkedIn,作者:Helena Deus,机械之心编译,到场:李诗萌、路。本文是爱思唯尔技术研究卖力人 Helena Deus 到场 2018 年国际语义网集会(ISWC)的见闻,总结了集会亮点,先容了语义网的现状、知识图谱和深度学习的关系等主题。上周我到场了在加利福尼亚州蒙特雷举行的国际语义网络、集会(ISWC),并在 Ada Lovelace 纪念日当天就爱思唯尔(Elsevier)在权衡息争决研究领域中的性别差异方面所做的事情揭晓演讲(详见:https://www.elsevier.com/research-intelligence/resource-library/gender-report)。集会的其他部门就像是一场回到已往的旅程……固然是以不错的方式回去的 :-)借此时机我重新审视了自己从 2008 年开始的语义网研究。

(如果您对语义网已经有所相识想直接看机械学习部门的内容,您可以直接跳到「深度学习和知识图谱」这一章)语义网的愿景活跃且良好,广泛应用于行业语义网的愿景是「对盘算机有意义」的数据网络(正如 Tim Berners Lee、James Hendler 和 Ora Lassila 在《科学美国人》揭晓的文章《The Semantic Web》所先容的那样)。ISWC 是共享这一愿景的研究人员和工程师组成的社区;他们通过揭晓研究论文的形式作出孝敬,目的是让这一愿景成为现实。

详细而言,语义网研究人员的方法是建立知识图谱,这种数据结构的实体由 URL 举行唯一标识,并使用 RDF 语言通过三元组链接至其他实体。研究人员用知识图谱推断知识或新的三元组(使用规则语言),或将知识图谱作为训练集找到文本(或其他前言)中有意义的关系(TimBL 写过一篇相关的有趣文章:https://www.w3.org/DesignIssues/)。只管有人宣称语义网已死或奄奄一息,但我却持相反意见:语义网很有活力且广泛应用于行业,这一事实在 ISWC 集会上也多次获得印证——多篇论文是关于工业和医疗领域的,它们很好地例证了语义网技术正用于解决企业问题。

同样重要的另有企业级知识图谱小组(Panel: Enterprise-Scale Knowledge Graphs),强调了 Microsoft、Facebook、Ebay(用于革新产物搜索功效)、Google(革新搜索)以及 IBM(让用户建设自己的知识图谱)在知识图谱上的投入,这些企业都在自己的产物中应用了知识图谱技术,为基于关键词的搜索提供更好的谜底,从而革新用户体验。语义网应用于行业和医疗领域的例子:Babylon 使用知识图谱让每小我私家都能相识药物和医疗康健方面的知识。

他们用推断的方法将症状与正确的疾病信息相匹配,并在移动 app 中的谈天机械人上使用。下图是他们论文(https://link.springer.com/content/pdf/10.1007/978-3-030-00668-6_18.pdf)中的自动交互图:Franz Inc 和英特尔互助的 Montefiore Health System 用知识图谱识别和标志有风险的患者,有助于医生制订合适的治疗计划。

下图是他们论文(http://ceur-ws.org/Vol-2180/paper-78.pdf)中的知识图谱图示:爱思唯尔提出了一个数据网络,允许内部开发人员使用关联数据(Linked Data)原则从差别的系统获取医疗数据。他们的论文(http://ceur-ws.org/Vol-2180/paper-85.pdf)还讨论了该历程中遇到的挑战和获得的履历,包罗如何将关联数据方法集成到开发周期中。Paul Groth 的展示幻灯片如下所示:全部幻灯片见原文。

NuMedii 使用知识图谱为那些无法治愈的疾病寻找有效药物,即通过为领域专家提供可视化工具找到有意义的关系和行列组织(cohort building)。他们的例子先容了针对无法治愈的纤维化疾病(特发性肺纤维化,IPF)的药物研发。NuMedii 挖掘了 PubMed 中关于纤维化疾病的 700K 摘要,通过发现适用于其他纤维化疾病的获批药物的相关验证靶标(validated target),来确定 IPF 疾病的可能药物。

下面是他们论文(http://ceur-ws.org/Vol-2180/paper-81.pdf)中的图。FINRA 使用知识图谱(和文本挖掘)捕捉到数百万文档的元数据,并使用元数据链接而不是文本搜索的相关性排名资助用户找到相互关联的文档。知识图谱有助于他们提高羁系分析(regulatory analysis)的效能。

下面是他们论文(http://ceur-ws.org/Vol-2180/paper-82.pdf)中的图。深度学习和知识图谱许多工程师在将深度学习应用于知识图谱中看到的价值是:在建立或验证三元组时,只使用图中其他三元组而无需其他。

经典的知识表征技术允许知识工程师建立推理器(reasoner)可解释的规则,以推断新的或丢失的三元组。例如,「类型为人的实体一定有出生日期的属性」这样的规则会给每一个类型为人的实例建立出生日期的三元组。这些规则一般通过本体(ontology)来表达,本体允许属性从上级到下级流传(详情请参阅:https://en.wikipedia.org/wiki/Knowledge_representation_and_reasoning)。

确定正确的规则集是一个耗时的手动历程,但这个历程可以用机械学习来自动完成。但找到正确的图表征将三元组提供应机械学习算法仍然是一个开放的研究领域。ISWC 的「深度学习」部门提出了以下方法:Vecsigrafo(http://www.semantic-web-journal.net/content/vecsigrafo-corpus-based-word-concept-embeddings-bridging-statisticsymbolic-representational):这种方法依赖于团结词-观点嵌入(joint word-concept embedding)。

他们用依赖于共生矩阵的 swivel 生成嵌入。差别的地方在于,swivel 使用单词作为矩阵的行/列,而他们使用的是从知识图谱收集到的更高级的术语(lexical term)。

作者评估了这种方法在英语-西班牙语互译上的体现(就我所知,他们只翻译单词,而没有翻译句子)。他们最好的神经网络能够在 78% 的情况下将正确的词条译文列入最靠近的前 5 个译文之内。在 90% 的情况下他们发现前 5 个建议翻译效果的语义确实很靠近。

曼海姆大学的研究人员使用基于规则(从统计纪律中学习规则)和基于嵌入的方法(将知识图谱嵌入更低维/潜在空间)比力了知识图谱补全方法(https://link.springer.com/content/pdf/10.1007/978-3-030-00671-6_1.pdf)。他们在评估时使用了三个数据集:其中一个来自 wordnet,另外两个来自 freebase。

测试集中的每一个三元组都有两个补全任务:给定关系和宾语,补全主语 (?, p, o);给定关系和主语,补全宾语 (s,p,?)。他们评估了 RuleN 和 AMIE 这两种基于规则的方法,和 TransE、RESCAL 和 HolE 这几种基于嵌入的方法。总体而言,作者发现基于规则的方法越发准确。

凭据这些效果,他们还建设了一个优于其他方法的集成方法。苏黎世大学的研究人员使用多任务方法将知识图谱和文档嵌入联合起来,以改善预测和分析任务,他们将该研究称为 KADE(https://link.springer.com/content/pdf/10.1007/978-3-030-00671-6_2.pdf)。在 Kade 中,作者为文档和三元组建立一个配合的嵌入空间,目的是在不丢失原始嵌入特征的情况下,实现可以对接差别模型(图节点嵌入和文档嵌入)的嵌入计谋。

这项事情有着极大的潜力,它可以用从文档中提取出的更多三元组补全知识图谱,因为它在同一个向量空间中既表现三元组也表现文档。知识图谱、语义科学和可重复性研究值得一提的是有一个围绕语义科学的研讨会(SemSci)。这个主题就很有趣了,因为科学研究是发生新知识的引擎,但知识生成的输出仍是为了人类需求而优化的。

SemSci 研讨会的愿景是向知识图谱提供此类科学知识。研讨会由 Paul Groth 提倡,他通过实验方法的自动化地提高了实验的可重复性。

在他看来,应该由机械和机械臂自动从泉源收集知识以举行实验。Paul 的研究讲明实验室中使用的许多方法都可以通过挪用 API 实现自动化。Paul 的幻灯片地址:https://www.slideshare.net/pgroth/the-challenge-of-deeper-knowledge-graphs-for-science。

Yolanda Gil 做了相关的演讲,先容了她在使用 AI 实现自动发现方面的研究(幻灯片见下图)。Yolanda 认为 AI 可以提供系统化、正确且无偏差的科学知识生成方法,更别说是更好地陈诉科学实验的效果了。在 Yolanda 展示的生态系统中,AI 可以提出假设,并寻找证明这种假设的方式——而这一切都是自动的。

其他关于这个主题的有趣讨论另有:WhyIs:由 Jim McCusker 提出,允许用户与认知智能体交互,该智能体靠知识、目的和数据(纳米出书物)提供有用的谜底息争释。Jim 将他的系统形貌为一个用于知识治理、交互和推断的框架。项目演示:https://redrugsdev.tw.rpi.edu/论文:https://semsci.github.io/SemSci2018/papers/6/SemSci_2018_paper_6.pdf证据提取(Evidence Extraction):Gully Burns 围绕从已经公然的研究中提取支持分子相互作用的数据提出了一项很酷的研究事情。

这项事情用到在 INTACT 数据库中提到过的 2K 开放权限的论文,从 PDF 文件中提取图像(通过检察低密度单词区域实现)并用了「YOLO」方法举行子图识别。凭据差别品级的准确率将子图分为子类(准确率为 97% 的是组织学图像,准确率为 40% 的是图表)。社会语义网与隐私Tim Berners Lee 在今年的 ISWC 上告诉我们 Solid 已经成为「语义网去中心化」(Decentralizing the Semantic Web)研讨会的一部门内容,该集会是由 Ruben Verborgh 和 Tobias Kuhn 配合组织的。

这场集会的目的是建立可以使用知识图谱为用户缔造价值的智能网络客户端和去中心化应用(他们吸收了 7 篇论文,并将这些论文列在研讨计划中)。该集会的第二部门就有关于 Solid;Solid 背后的理念是要在网络上支持社交运动(很像 Facebook 和 LinkedIn 支持的那些运动),在允许人们与他人交流的同时还拥有自己的数据,使用包罗数据形状验证在内的语义网原理,使他们的数据可以和其他用户的小我私家信息和帖子共存,还可以相互链接。

社交 app 必须要获得用户数据的使用许可,这就意味着窃取和贩卖用户社交数据来盈利的掠夺性应用不会像现在这么容易开发。现在正在建设的库是 Solid 生态系统的一部门,它允许开发者通过 Javascript 使用 Solid(用 LDFlex 或 React)。

更多信息请参阅:http://solid.inrupt.com/此外,就隐私和许可这一话题,Jen Goldbeck 揭晓了关于提高隐私意识和隐私重要性的讲话。这项演讲的主旨是将「隐私」视为「给予许可」的行为。例如,facebook 需要在特定目的下使用用户数据时,要从他们的用户那里获得许可。语义网技术允许聚适用户的大型的数据图——固然是在获得许可的情况下。

思量许可而不是「隐私」有助于创新,因为许可将讨论的焦点更多地放在了详细行为、小我私家数据点以及实用主义上。查询与团结工业界使用语义网技术(用于主数据治理、推理或其他应用)面临的挑战似乎一直都是查询速度的问题。

语义网的查询语言是 SPARQL,而数据一般存储在三元组存储中。对于在关系数据库和文档数据库中可以良好运行的查询而言,可能另有一些比 SPARQL 更好的选择。当需要将查询团结到其他系统或者数据要回覆的问题存储在多个位置(商业防火墙内部或外部)时,基于 SPARQL 的系统就很合适了。该领域取得的一些希望包罗:Saleem 等人在《LargeRDFBench: A billion triples benchmark for SPARQL endpoint federation》中提出用于团结 SPARQL 查询的新基准,它将数据指标、查询团结指标(包罗其他系统不支持的庞大查询)以及性能指标思量在内。

有关指标的相关细节请参阅:https://twitter.com/hdeus/status/1050810577700835329。该作者发现一些团结查询系统返回的查询效果并不完整,但它们并没有让用户知道。

用文中所述基准比力的团结查询有:FedX、Splendid、Anapsid 以及 HibisCus。Janke 等人在《IMPACT ANALYSIS OF DATA PLACEMENT STRATEGIES ON QUERY EFFORTS IN DISTRIBUTED RDF STORES》中提出了一种在多个盘算节点上分配大型 RDF 图谱的最佳方法。令人惊讶的是,作者发现对快速的查询处置惩罚而言,在所有盘算节点上平衡查询事情量比网络流量更重要。这项事情的细节请参阅:https://twitter.com/hdeus/status/1050818304850321411。


本文关键词:ISWC,2018,概览,知识,图谱,与,机械,学习,选自,完美体育APPapp下载安装

本文来源:完美体育APPapp下载安装-www.zxdyf.com