和医药有关的词的上位词是什么?

参阅图1所示在知识图谱中,一個节点称为一个实体所谓实体即是知识图谱的介绍对象。如假设一个节点为“刘某某”,即代表一个实体其属性集包含的属性有职業、出生日期和爱好,等等

上位词:上位词指概念上外延更广的主题词。

例如:“食肉动物”是“老虎”的上位词“猫科动物”也可鉯是“老虎”的上位词,因此上位词可以理解为实体依照属性特征得到的聚类类别。

如将“老虎”按照属性“食肉性”聚类可以得到“食肉性动物”这一上位词。又如将“老虎”按照属性“动物科”聚类可以得到“猫科动物”这一上位词。

实体类型:知识图谱中的实體都对应着一个实体类型实体类型可以看作是实体的概括性归类。一个实体类型可以包括多个实体如:实体“玫瑰花”的实体类型为“植物类”;又如,电影《战狼2》的实体类型为“电影类”

例如,参阅图2所示实体“虎”、“龟”和“蝴蝶”具有一个相同的实体类型“动物类”。

词向量:是词语的一种分布式表达其基本思想是指将词语映射为一个固定维度的向量(维度远小于词典大小),这些词语的姠量构成了词向量语义空间语义相似的词语通常在空间中的距离较近。

字向量:是“字”层面的一种分布式表达将“字”映射到语义涳间中,得到字的一个语义向量相似语义的字向量通常在语义空间中距离较近。

密度插值向量化方法(Dense Interpolated EmbeddingDIE),是一种基于字向量合成词向量嘚一种方法经验证明它可以有效地表示相似描述的字符串。

本实施例中在预处理阶段,终端设备会基于百科语料利用word2vec工具训练字向量,训练字向量时使用的纯文本语料和上位词的来源语料保持一致这样,可以保证上位词包含的每一个字向量都能够准确表征上位词茬文本层面的特征,进而能够为后续生成词向量奠定了良好基础

具体的,可以先对纯文本进行分字处理:连续的英文字母作为一个字數字作为一个字,中文字为一个字;然后针对分字处理后的纯文本语料,利用Word2vec模型训练字向量供DIE算法使用由于DIE是一种拼接字向量的算法,所以字向量的维度一般设置较小可选的,本发明实施例中一个字向量的维度设置为25,即一个字向量具有25个维度上的特征

参阅图3所示,本发明实施例中终端设备对上位词进行聚合的详细流程如下:

步骤300:终端设备获取多个待处理上位词,并分别确定各个待处理上位词包含的每一个字的字向量以及基于获得的各个字向量,根据特定算法计算各个待处理上位词的词向量

可选的,终端设备采用的特萣算法可以是DIE算法

具体的,以任意一个待处理上位词(以下简称为上位词x)为例介绍步骤300的执行方式如下:

本发明实施例中,为了同时刻畫上位词x的字符串信息以及上位词x的文本语义信息可选的,采用DIE算法合成上位词x的词向量

DIE算法的基本思想即是:上位词x词向量由上位詞x的字向量构成,不同位置的字向量组成词向量的不同部分这样可以保证字符串顺序信息,此外字向量是基于大规模非结构化文本训練得到,字向量包含了一定的语义相似性所以基于字向量合成的上位词x的词向量具有一定语义特征。具体执行过程如下:

首先确定对應上位词x预设的至少两个子区域,其中一个子区域对应上位词x的词向量的部分维度;

其次,基于所述待处理上位词对应的各个字向量計算各个子区域的区域特征;

具体的,可以分别针对每一个子区域执行以下操作:

基于预设的子区域数目和上位词x包含的字向量数目分別确定上位词x包含的每一个字向量在一个子区域中的权重;

根据每一个字向量及每一个字向量在所述一个子区域中的权重,计算上位词x在所述一个子区域中的区域特征

最后,基于获得的上位词x的各个区域特征计算获得上位词x的词向量。

例如DIE算法可以采用以下公式进行描述:

其中,i表征字向量的序号I表示字向量数目,m表示子区域的序号M表示子区域数目,即表示合成的词向量的维度是字向量的M倍v表礻子区域的区域特征,V表示上位词的词向量chari表示上位词中第i个字符对应的字向量。本发明实施例中所谓区域特征即是指:子区域所对應的词向量的部分维度所体现的文本层面的特征。

如假设上位词x为“哺乳动物”,而词向量的维度为100划分了四个子区域,分别为[125],[2650],[5175],[76100],则

v[0]=字向量“哺”×f(0,0)+字向量“乳”×f(10)+字向量“动”×f(2,0)+字向量“物”×f(30)

v[1]=字向量“哺”×f(0,1)+字向量“乳”×f(11)+字向量“动”×f(2,1)+字向量“物”×f(31)

v[2]=字向量“哺”×f(0,2)+字向量“乳”×f(12)+字向量“动”×f(2,2)+字向量“物”×f(32)

v[3]=字向量“哺”×f(0,3)+字向量“乳”×f(13)+字向量“动”×f(2,3)+字向量“物”×f(33)

其中,f(im)表示字向量在某一子区域中的权重,其中x表示字向量的序号,y表示子区域的序号例如,f(00)表示,第0个字向量“哺”在第0个子区域[125]中的权重。

终端设备针对待处理上位词的词向量进行了区域划分每个子区域分别对應待处理上位词的部分维度,即每一个子区域均具备自身的区域特征而待处理上位词中包含了多个字向量,不同的字向量在不同的子区域中对相应子区域的区域特征的贡献度不同因此,针对待处理上位词包含的每一个字向量分别设置了在不同子区域中的权重,可以令烸一个子区域的区域特征均由权重较大的字向量对应的维度来体现这样,每一个区域特征只着重体现部分字向量的文本特点从而能够囿效地提升各个区域特征的文本针对性和特征准确度,进而提高了最终计算得到的词向量的准确性

步骤310:终端设备分别确定各个待处理仩位词在知识图谱中关联的实体类型。

本发明实施例中一个待处理上位词知识图谱中均会对应若干实体,而这些实体往往会对应至少一種实体类型实体类型是实体的概括性归类,可以体现出实体某一方面的特征

例如,参阅图4A和图4B所示假设待处理上位词为:“90年代的奣星”,而其在知识图谱中对应了若干实体如,“刘某某”、“张某某”、“黎某某”、“郭某某”等等其中

“刘某某”和“黎某某”共同对应了“影视明星类”,而“刘某某”和“郭某某”共同对应了“歌手类”显然,“刘某某”对应了两个不同的实体类型以及“黎某某”和“郭某某”分别对应了不同的实体类型。

针对这种情况在执行步骤310时,以任意一个待处理上位词为例(以下称为上位词x)终端设备会确定出上位词x在知识图谱中对应的所有实体,以及确定所述所有实体各自关联的实体类型并筛选出关联的实体数目最多的N个实體类型,作为上位词x关联的实体类型其中,N为预设自然数N≥1。

例如假设上位词x为“XX年人气最高男性”,而在知识图谱中上位词x关聯的实体有“孙扬”、“吴x凡”、“刘x梁”、“袁x平”、“王x聪”、“小马甲”等等。

我要回帖

更多关于 和医药有关的词 的文章

 

随机推荐