专利 文本扩写方法、装置、电子设备和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210190634.2 (22)申请日 2022.02.28 (71)申请人北京京东尚科信息技术有限公司地址 100086 北京市海淀区知春路76号8层 (72)发明人李浩然　 (74)专利代理机构北京路浩知识产权代理有限公司 11002 专利代理师陈新生 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/295(2020.01) G06F 40/126(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称文本扩写方法、装置、电子设备和存储介质 (57)摘要本公开提供一种文本扩写方法、装置、电子设备和存储介质，所述方法包括：根据获取的共指实体集合获取第一实体对应的第一共指实体组，其中，所述第一实体为待扩写文本中的实体，所述第一共指实体组包括第一实体以及所述第一实体的共指实体；根据所述待扩写文本和所述第一共指实体组获取待扩写修改文本；根据所述待扩写修改文本和文本扩写模型的模型参数获取生成概率、复制概率和生成权重；根据所述生成概率、所述复制概率和所述生成权重获取解码概率，以得到所述待扩写文本的扩写结果，其中，所述第一实体对应的生成概率被设置为0。本公开的技术方案可以提高文本扩写的忠实度。权利要求书2页说明书11页附图3页 CN 114611525 A 2022.06.10 CN 114611525 A 1.一种文本扩写方法，其特征在于，所述方法包括：根据获取的共指实体集合获取第一实体对应的第一共指实体组，其中，所述第一实体为待扩写文本中的实体，所述第一共指实体组包括第一实体以及所述第一实体的共指实体；根据所述待扩写文本和所述第一共指实体组获取待扩写修改文本；根据所述待扩写修改文本和文本扩写模型的模型参数获取生成概率、复制概率和生成权重，其中，所述生成权重为获取解码概率时所述生成概率对应的权重，获取所述解码概率时所述复制概率对应的权重与所述生成权重的和为1；根据所述生成概率、所述复制概率和所述生成权重获取所述解码概率，以得到所述待扩写文本的扩写结果，其中，所述第一实体对应的生成概率被设置为0 。 2.根据权利要求1所述的方法，其特征在于，所述文本扩写模型的训练方法包括：获取第一样本扩写文本数据集，所述第一样本扩写文本数据集中的第一样本扩写文本数据包括作为输入文本的样本修改文本和对应的输出文本，所述样本修改文本根据历史扩写文本及其实体对应的共指实体组得到；采用所述第一样本扩写文本数据集对所述文本扩写模型进行训练，直到所述文本扩写模型收敛，得到所述文本扩写模型的模型参数，其中，所述文本扩写模型的模型参数包括生成概率参数和激活函数参数组。 3.根据权利要求1所述的方法，其特征在于，所述文本扩写模型包括以下任一种模型：卷积神经网络 CNN，循环神经网络RN N和Transformer。 4.根据权利要求1所述的方法，其特征在于，所述根据获取的共指实体集合获取第一实体对应的第一共指实体组之前，所述方法还包括：获取所述共指实体集合；对所述待扩写文本进行实体识别，得到所述第一实体；根据所述第一实体在所述共指实体集合中匹配得到所述第一共指实体组。 5.根据权利要求4所述的方法，其特征在于，所述获取所述共指实体集合之前，所述方法还包括：获取第二样本扩写文本数据集，所述第二样本扩写文本数据集中的第二样本扩写文本数据包括历史扩写文本中的输入文本和对应的输出文本；获取各个第二样本扩写文本数据中的实体的共现频率；根据所述共现频率和频率阈值获取共指实体组，组成所述共指实体集合。 6.根据权利要求1所述的方法，其特征在于，所述根据所述待扩写文本和所述第一共指实体组获取待扩写修改文本，包括：将所述第一共指实体组中的全部实体插入到所述待扩写文本中替换所述第一实体，形成所述待扩写修改文本。 7.根据权利要求2所述的方法，其特征在于，所述根据所述待扩写修改文本和文本扩写模型的模型参数获取生成概率、复制概率和生成权重，包括；采用所述文本扩写模型对所述待扩写修改文本进行编码并基于编码结果得到解码数据，所述解码数据包括解码器隐藏序列、上下文向量和注意力向量；根据注意力向量获取所述复制概率；根据所述解码器隐藏序列、所述上下文向量和所述生成概率参数获取所述生成概率；权　利　要　求　书 1/2 页 2 CN 114611525 A 2根据所述解码器隐藏序列、所述上下文向量、所述待扩写修改文本的词向量和所述激活函数参数组获取所述生成权重。 8.根据权利要求7 所述的方法，其特征在于，根据以下公式获取所述解码概率： P(w)＝pgen*Pvocab(w)+(1‑pgen)*Pcopy(w) 其中， P(w)为解码概率， Pvocab(w)为生成概率， Pcopy(w)为复制概率， pgen为生成权重，生成概率的计算公式为Pvocab(w)＝softmax(Wbst+Vbct)，复制概率的计算公式为：生成权重的计算公式为其中， Wb和Vb是生成概率参数，激活函数参数组包括向量wc,ws,wx和标量bc， ct为解码器隐藏序列， st为上下文向量， xt为词向量，为注意力向量。 9.一种文本扩写装置，其特征在于，所述装置包括：第一获取单元，用于根据获取的共指实体集合获取第一实体对应的第一共指实体组，其中，所述第一实体为待扩写文本中的实体，所述第一共指实体组包括第一实体以及所述第一实体的共指实体；第二获取单元，用于根据所述待扩写文本和所述第一共指实体组获取待扩写修改文本；第三获取单元，用于根据所述待扩写修改文本和文本扩写模型的模型参数获取生成概率、复制概率和生成权重，其中，所述生成权重为获取解码概率时所述生成概率对应的权重，获取所述解码概率时所述复制概率对应的权重与所述生成权重的和为1；解码单元，用于根据所述生成概率、所述复制概率和所述生成权重获取所述解码概率，以得到所述待扩写文本的扩写结果，其中，所述第一实体对应的生成概率被设置为0 。 10.根据权利要求9所述的装置，其特征在于，所述装置还包括训练单元，用于训练所述文本扩写模型，所述训练单元包括：获取子单元，用于获取第一样本扩写文本数据集，所述第一样本扩写文本数据集中的第一样本扩写文本数据包括作为输入文本的样本修改文本和对应的输出文本，所述样本修改文本根据历史扩写文本及其实体对应的共指实体组得到；训练子单元，用于采用所述第一样本扩写文本数据集对所述文本扩写模型进行训练，直到所述文本扩写模型收敛，得到所述文本扩写模型的模型参数，其中，所述文本扩写模型的模型参数包括生成概率参数和激活函数参数组。 11.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述的方法的步骤。 12.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的方法的步骤。权　利　要　求　书 2/2 页 3 CN 114611525 A 3

专利 文本扩写方法、装置、电子设备和存储介质

专利文本扩写方法、装置、电子设备和存储介质