专利 一种适应低算力的大规模相似语句自动抽取方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210423090.X (22)申请日 2022.04.21 (71)申请人北京易聊科技有限公司地址 100024 北京市朝阳区三间房乡新房路1号院1号楼七层70 3 (72)发明人邴立新　王函石　 (74)专利代理机构北京市盛峰律师事务所 11337 专利代理师于国强 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 16/31(2019.01) G06F 40/242(2020.01) G06F 40/216(2020.01)G06F 40/30(2020.01) G06F 40/284(2020.01) (54)发明名称一种适应低算力的大规模相似语句自动抽取方法 (57)摘要本发明公开了一种适应低算力的大规模相似语句自动抽取方法，包括S1、对语句进行向量化以将语句转换为特征向量A；基于特征向量A对语句进行近义词增广，以获取语句的增广特征向量A+；基于语义角色获取局部否定向量B； S2、利用局部否定向量B分离语句样本的增广特征向量 A+，基于分离结果计算两个语句样本之间的综合相似度；或者，根据分离结果直接判断两个语句是否相似； S3、基于聚类算法获取最优相似度阈值下限，根据综合相似度与最优相似度阈值下限之间的大小关系判定两个语句是否相似，实现相似语句的抽取。优点是：不需要标注语料，不需要给定相似语句类别数量，也不需要给定相似度阈值，避免人工给定这些超参数以实现最大程度的自动化。权利要求书3页说明书8页附图1页 CN 114722154 A 2022.07.08 CN 114722154 A 1.一种适应低算力的大规模相似语句自动抽取方法，其特征在于：包括如下步骤， S1、对语句进行向量化以将语句转换为特征向量A；基于特征向量A对语句进行近义词增广，以获取语句的增广特征向量A+；基于语义角色获取局部否定向量B； S2、利用局部否定向量B分离语句样本的增广特征向量A+，基于分离结果计算两个语句样本之间的综合相似度；或者，根据分离结果直接判断两个语句是否相似； S3、基于聚类算法获取最优相似度阈值下限，根据综合相似度与最优相似度阈值下限之间的大小关系判定两个语句是否相似，实现相似语句的抽取。 2.根据权利要求1所述的适应低算力的大规模相似语句自动抽取方法，其特征在于：步骤S1中，对语句进行向量化以将语句转换为特征向量A的具体过程为，根据业务需求过滤掉语句样本中与业务无关的符号串；将过滤后的语句分割为基本的语言单位；根据业务特点利用符号对语言单位中的数字进行替换；将语句视为文档，计算各语言单位在文档中出现的频次作为各语言单位的权重，并结合各语言单位在语句中的索引，以将该语句转换为特征向量A。 3.根据权利要求2所述的适应低算力的大规模相似语句自动抽取方法，其特征在于：步骤S1中，对语句进行近义词增广以获取语句样本的增广向量A+的具体过程为，基于词的语义向量，将近义词编组为词典，生成近义词词典，近义词词典中的词条包含语义距离；根据近义词词典将语句中的语言单位的近义词作为拓展特征，加入语句的特征向量A，并在近义词的特征位写入对应的语义距离，获取语句的增广特征向量A+。 4.根据权利要求3所述的适应低算力的大规模相似语句自动抽取方法，其特征在于：步骤S1中，基于语义角色获取局部否定向量B的具体过程为，根据语义角色将否定语言单位与其中心语关联，形成局部否定向量B；所述局部否定向量B用于遮蔽语句的增广特征向量A+中不属于否定范围的特征向量，语句中的否定词本身属于被遮蔽的特征向量，未遮蔽的部分为否定后的局部特征向量。 5.根据权利要求4所述的适应低算力的大规模相似语句自动抽取方法，其特征在于：步骤S2具体包括如下内容， S21、利用局部否定向量B分离语句的增广特征向量A+，即可得到该语句的否定含义向量C和普通含义向量D； S22、利用两个语句的否定含义向量C计算获取两个语句的第一余弦相似度E，利用两个语句的普通含义向量计算两个语句的第二余弦相似度F；将第二余弦相似度F与第一余弦相似度E之间的差值作为两个语句的综合相似度；或者，根据第一余弦相似度E和第二余弦相似度F之间的大小关系直接确定两个语句是否相似。 6.根据权利要求5所述的适应低算力的大规模相似语句自动抽取方法，其特征在于：步骤S3具体包括如下内容， S31、对大量语句样本进行增量层次化聚类； S32、基于增量层次化聚类结果，利用相似度阈值下限启发算法获取最优相似度阈值下限； S33、结合综合相似度与最优相似度阈值下限之间的大小关系判定两个语句是否相似。 7.根据权利要求6所述的适应低算力的大规模相似语句自动抽取方法，其特征在于：步骤S31具体包括如下内容，权　利　要　求　书 1/3 页 2 CN 114722154 A 2S311、将大量语句样本两两分为一组，分别计算各组的两个语句样本间的相似度； S312、在1.0 ‑0.5中随机选择一个数作为相似度阈值下限，将相似度阈值从1.0以0.05 的步长逐步递减到相似度阈值下限，每次递减表示一轮聚类，每轮聚类过程中将高于或等于相似度阈值的相似度所对应的两个语句样本聚为一类，并选取该类别中信息量最大的语句样本作为该类别的类别样品语句，进入下一轮聚类；直到所有语句样本全部完成聚类，将所有样本全部归入对应的类别中； S313、不同组间存在相同语句时，将相同语句所属的类别进行合并；当语句样本规模大时，不同组间存在相同语句的情况常见，随机选择一部分语句，散布于不同分组作为标记物，即可用少量数据冗余为代价，增大相同语句跨组的几率。 8.根据权利要求7所述的适应低算力的大规模相似语句自动抽取方法，其特征在于：步骤S312中，选取该类别中信息量最大的语句样本作为该类别的类别样品语句的具体过程为，将该类别中的语句样本根据语句样本的长度进行排序，采用信息熵算法计算长度大于长度阈值的语句样本的信息量，并对比长度相近的语句样本的信息量，选择信息熵最大的语句样本作为类别样品语句；信息熵算法的计算公式为，其中， s为语句样本； s*为选择的类别样品语句；选择类别样品语句是一个在s上的优化过程，优化目标为最大化s 的熵H， s的取值范围为一个语句集合； c为聚类， m为聚类数量，不同的聚类有不同的语句集合{s1， ...， sc}； H为s的熵，即s所含有语言符号w的概率分布的负对数期望，一个语句si包含Ni个w，具体的符号集合{w1， …， wNi}由si通过符号化过程生成，符号化过程基于n元文法， n为一个参数； i为语句样本在语句集合中的索引，即语句集合中的第i个语句样本； j为词语在语句中的索引，即语句中的第j 个词语； p(w)表示语言符号w在样本中的概率分布， j为索引， wj为符号集合中第j个语言符号，即p(wj)表示wj在样本中的出现概率。 9.根据权利要求8所述的适应低算力的大规模相似语句自动抽取方法，其特征在于：步骤S32具体为，利用原语句样本进行多次增量层次化聚类，计算聚类的数量和最大聚类中的语句样本数之和T，将其作为相似度阈值的目标值；选择最小目标值对应的相似度阈值作为最优相似度阈值下限；计算公式为， T(l)＝Csup(l)+Csub(l) Csup(l)＝|Gsup(l)|， Gsup(l)＝{g1， l， g2， l， ...} Csub(l)＝maxφ(l)， φ(l)＝{|g1， l|， |g2， l|， ...}权　利　要　求　书 2/3 页 3 CN 114722154 A 3

专利 一种适应低算力的大规模相似语句自动抽取方法

专利一种适应低算力的大规模相似语句自动抽取方法