(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210423090.X
(22)申请日 2022.04.21
(71)申请人 北京易聊科技有限公司
地址 100024 北京市朝阳区三间房乡新房
路1号院1号楼七层70 3
(72)发明人 邴立新 王函石
(74)专利代理 机构 北京市盛峰律师事务所
11337
专利代理师 于国强
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/35(2019.01)
G06F 16/31(2019.01)
G06F 40/242(2020.01)
G06F 40/216(2020.01)G06F 40/30(2020.01)
G06F 40/284(2020.01)
(54)发明名称
一种适应低算力的大规模相似语句自动抽
取方法
(57)摘要
本发明公开了一种适应低算力的大规模相
似语句自动抽取方法, 包括S1、 对语句进行向量
化以将语句转换为特征向量A; 基于特征向量A对
语句进行近义词增广, 以获取语句的增广特征向
量A+; 基于语义角色获取局部否定向量B; S2、 利
用局部否定向量B分离语句样 本的增广特征向量
A+, 基于分离结果计算两个语句样本之间的综合
相似度; 或者, 根据分离结果直接判断两个语句
是否相似; S3、 基于聚类算法获取最优相似度阈
值下限, 根据综合相似度与最优相似度阈值下限
之间的大小关系判定两个语句是否相似, 实现相
似语句的抽取。 优点是: 不需要标注语料, 不需要
给定相似语句类别数量, 也不需要给定相似度阈
值, 避免人工给定这些超参数以实现最大程度的
自动化。
权利要求书3页 说明书8页 附图1页
CN 114722154 A
2022.07.08
CN 114722154 A
1.一种适应低算力的大规模相似语句自动抽取 方法, 其特 征在于: 包括如下步骤,
S1、 对语句进行向量化以将语句转换为特征向量A; 基于特征向量A对语句进行近义词
增广, 以获取语句的增广特 征向量A+; 基于语义角色获取局部 否定向量B;
S2、 利用局部否定向量B分离语句样本的增广特征向量A+, 基于分离结果计算两个语句
样本之间的综合相似度; 或者, 根据分离结果 直接判断两个 语句是否相似;
S3、 基于聚类算法获取最优相似度阈值下限, 根据综合相似度与最优相似度阈值下限
之间的大小关系 判定两个语句是否相似, 实现相似语句的抽取。
2.根据权利要求1所述的适应低 算力的大规模相似语句自动抽取方法, 其特征在于: 步
骤S1中, 对语句进行向量 化以将语句转换为特 征向量A的具体过程 为,
根据业务需求过滤掉语句 样本中与业务无关的符号串; 将过滤后的语句分割为基本的
语言单位; 根据业务特点利用符号对语言单位中的数字进行替换; 将 语句视为文档, 计算各
语言单位在文档中出现的频次作为各语言单位的权重, 并结合各语言单位在语句 中的索
引, 以将该语句转换为特 征向量A。
3.根据权利要求2所述的适应低 算力的大规模相似语句自动抽取方法, 其特征在于: 步
骤S1中, 对语句进行近义词增广以获取语句样本的增广向量A+的具体过程 为,
基于词的语义向量, 将近义词编组为词典, 生成近义词词典, 近义词词典中的词条包含
语义距离; 根据近义词词典将语句中的语言单位的近义词作为拓展特征, 加入语句的特征
向量A, 并在近义词的特 征位写入 对应的语义距离, 获取语句的增广特 征向量A+。
4.根据权利要求3所述的适应低 算力的大规模相似语句自动抽取方法, 其特征在于: 步
骤S1中, 基于语义角色获取局部 否定向量B的具体过程 为,
根据语义角色将否定语言单位与其中心语关联, 形成局部否定向量B; 所述局部否定向
量B用于遮蔽语句的增广特征向量A+中不属于否定范围的特征向量, 语句中的否定词本身
属于被遮蔽的特 征向量, 未遮蔽的部分为否 定后的局部特 征向量。
5.根据权利要求4所述的适应低 算力的大规模相似语句自动抽取方法, 其特征在于: 步
骤S2具体包括如下内容,
S21、 利用局部否定向量B分离语句的增广特征向量A+, 即可得到该语句的否定含义向
量C和普通含义向量D;
S22、 利用两个语句的否定含义向量C计算获取两个语句的第一余弦相似度E, 利用两个
语句的普通含义向量计算两个语句的第二余弦相似度F; 将第二余弦相似度F与第一余弦相
似度E之间的差值作为两个语句的综合相似度; 或者, 根据第一余弦相似度E和第二余弦相
似度F之间的大小关系直接确定 两个语句是否相似。
6.根据权利要求5所述的适应低 算力的大规模相似语句自动抽取方法, 其特征在于: 步
骤S3具体包括如下内容,
S31、 对大量语句样本进行增量层次化聚类;
S32、 基于增量层次化聚类结果, 利用相似度阈值下限启发算法获取最优相似度阈值下
限;
S33、 结合综合相似度与最优相似度阈值下限之间的大小关系 判定两个语句是否相似。
7.根据权利要求6所述的适应低 算力的大规模相似语句自动抽取方法, 其特征在于: 步
骤S31具体包括如下内容,权 利 要 求 书 1/3 页
2
CN 114722154 A
2S311、 将大量语句样本 两两分为一组, 分别计算各组的两个 语句样本间的相似度;
S312、 在1.0 ‑0.5中随机选择一个数作为相似度阈值下限, 将相似度阈值从1.0以0.05
的步长逐步递减到相似度阈值下限, 每次递减表示一轮聚类, 每轮聚类过程中将 高于或等
于相似度阈值的相似度所对应的两个语句样本聚为一类, 并选取该类别中信息量最大的语
句样本作为该类别的类别样品语句, 进入下一轮聚类; 直到所有语句样本全部完成聚类, 将
所有样本全部归 入对应的类别中;
S313、 不同组间存在相同语句时, 将相同语句所属的类别 进行合并; 当语句样本规模大
时, 不同组间存在相同语句的情况常见, 随机选择一部分语句, 散布于不同分组作为标记
物, 即可用少量数据冗余 为代价, 增大相同语句跨组的几率。
8.根据权利要求7所述的适应低 算力的大规模相似语句自动抽取方法, 其特征在于: 步
骤S312中, 选取该类别中信息量最大的语句样本作为该类别的类别样品语句的具体过程
为,
将该类别中的语句 样本根据语句 样本的长度进行排序, 采用信 息熵算法计算长度 大于
长度阈值的语句样本的信息量, 并对比长度相 近的语句样本的信息量, 选择信息熵最大 的
语句样本作为类别样品语句; 信息熵算法的计算公式为,
其中, s为语句样本; s*为选择的类别样品语句; 选择类别样品语句是一个在s上的优化
过程, 优化目标为最大化s 的熵H, s的取值范围为一个语句集合; c为聚类, m为聚类数量, 不
同的聚类有不同的语句集合{s1, ..., sc}; H为s的熵, 即s所含有语 言符号w的概率分布的负
对数期望, 一个语句si包含Ni个w, 具体的符号集合{w1, …, wNi}由si通过符号化过程生 成,
符号化过程基于n元文法, n为一个参数; i为语句样本在语句集合中的索引, 即语句集合中
的第i个语句样本; j为词语在语句中的索引, 即语句中的第j 个词语; p(w)表 示语言符号w在
样本中的概率分布, j为索引, wj为符号集合中第j个语言符号, 即p(wj)表示wj在样本中的
出现概率。
9.根据权利要求8所述的适应低 算力的大规模相似语句自动抽取方法, 其特征在于: 步
骤S32具体为, 利用原语句样本进 行多次增量层次化聚类, 计算聚类的数量和最大聚类中的
语句样本数之和T, 将其作为相似度阈值的目标值; 选择最小目标值对应的相似度阈值作为
最优相似度阈值下限; 计算公式为,
T(l)=Csup(l)+Csub(l)
Csup(l)=|Gsup(l)|, Gsup(l)={g1, l, g2, l, ...}
Csub(l)=maxφ(l), φ(l)={|g1, l|, |g2, l|, ...}权 利 要 求 书 2/3 页
3
CN 114722154 A
3
专利 一种适应低算力的大规模相似语句自动抽取方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:47:37上传分享