(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210339805.3
(22)申请日 2022.04.01
(71)申请人 江苏至信 信用评估咨询有限公司
地址 221000 江苏省徐州市铜山区马坡镇
后八段村
(72)发明人 季航 赵加坤
(74)专利代理 机构 西安通大专利代理有限责任
公司 6120 0
专利代理师 张宇鸽
(51)Int.Cl.
G06F 16/9535(2019.01)
G06F 16/35(2019.01)
G06F 40/216(2020.01)
G06F 40/295(2020.01)
G06F 40/30(2020.01)
(54)发明名称
基于时间序列的动态自适应话题跟踪 方法、
系统及装置
(57)摘要
本发明公开了一种基于时间序列的动态自
适应话题跟踪方法、 系统及装置, 包括: 对初始时
刻的新闻文本进行话题检测, 构建话题模型; 对
当前时刻输入的新闻文本进行文本预处理, 构建
文本的特征向量; 对初始时刻到当前时刻所有的
新闻文本进行划分, 获取当前时刻新闻文本的相
关阈值和更新阈值; 计算话题模 型的特征向量与
输入文本 特征向量的文本相似度, 并与当前时刻
新闻文本的相关阈值和更新阈值进行比较, 判断
话题模型是否进行更新; 基于时序权重的自适应
话题更新法对话题模型进行更新, 并基于可视化
工具, 实时反馈话题更新结果。 本发明引入更新
阈值和相关阈值对话题进行聚类和话题中心更
新, 结合时序权重对话题模型文本赋予不同的权
值, 实现话题追 踪。
权利要求书3页 说明书9页 附图3页
CN 114691993 A
2022.07.01
CN 114691993 A
1.基于时间序列的动态自适应话题 跟踪方法, 其特 征在于, 包括:
对初始时刻的新闻文本进行话题检测, 构建话题模型;
对当前时刻输入的新闻文本进行文本预处 理, 构建文本的特 征向量;
对初始时刻到当前时刻所有的新闻文本进行划分处理, 获取当前时刻新闻文本的相关
阈值和更新阈值;
对话题模型的特征向量与输入文本特征向量的文本相似度进行计算, 并与当前时刻新
闻文本的相关阈值和更新阈值进行比较, 判断话题模型 是否进行 更新;
基于时序权重的自适应话题更新法对话题模型进行更新, 并基于可视化工具, 实时反
馈话题更新结果。
2.根据权利要求1所述的基于时间序列的动态自适应话题跟踪方法, 其特征在于, 所述
对当前时刻输入的新闻文本进行文本预处 理, 具体为:
将新闻文本内容中的句子、 段落和文章分割为以词为单位的文本结构, 并对分割的词
进行筛选去除无意 义的停顿词;
所述构建文本的特征向量, 具体为: 通过TF ‑IDF算法、 LDA算法和 Bert‑BiLSTM‑CRF模型
获取文本的关键词特征、 主题词特征和命名实体特征, 分别计算特征相似度进 行加权融合,
获得文本的特 征向量。
3.根据权利要求1所述的基于时间序列的动态自适应话题跟踪方法, 其特征在于, 所述
对初始时刻到 当前时刻所有的新闻文本进 行划分处理, 获取当前时刻新闻文本的相关阈值
和更新阈值, 具体为:
将话题开始时刻到当前时刻的所有文本分成s个时间间隔, 文本输入时刻t的相关阈值
εt通过之前每个时间间隔内的话题模型与反馈文本平均相似度与时间衰减因子相乘求和
所得; 相关阈值 εt与更新阈值 δt的计算公式如公式(1)和公式(2)所示:
δt= εt+C (2)
其中C表示 话题的容忍度, 代 表了更新阈值 δt与相关阈值 εt之间的差值。
4.根据权利要求1所述的基于时间序列的动态自适应话题跟踪方法, 其特征在于, 所述
对话题模型的特 征向量与输入文本特 征向量的文本相似度进行计算, 具体为:
输入文本特征向量X=(x1,x2,…,xn), 文本相似度为Sim; 话题模型中包含若干个话题
簇; 针对话题模型中话题簇, 首先计算输入文本特征向量与话题模型中的每一个话题簇中
每个文本特征向量Y=(y1,y2,…,yn)之间的相似度并累计求和取平均数, 文本特征向量之
间相似度计算方法采取余弦相似度, 即:
获得每个话题簇与输入文本之间的相似度; 从所有话题簇与输入文本的相似度中选取
最大值Simmax, 作为话题模型与输入文本之间的相似度Sim。
5.根据权利要求3所述的基于时间序列的动态自适应话题跟踪方法, 其特征在于, 所述权 利 要 求 书 1/3 页
2
CN 114691993 A
2与当前时刻新闻文本的相关阈值和更新阈值进行比较, 判断话题模型是否进行更新, 具体
为: 若文本相似度Sim小于相关阈值εt, 则输入报道与话题模型不相关, 生成新的话题簇; 若
高于相关阈值 εt但是低于更新阈值δt, 则将其归入 到相关话题 模型中, 但不对话题 模型进行
更新; 若高于更新阈值 δt, 则将文本归 入话题模型并对话题模型进行 更新。
6.根据权利要求1所述的基于时间序列的动态自适应话题跟踪方法, 其特征在于, 所述
采用基于时序权 重的自适应话题更新方法对话题模型进行 更新, 具体为:
(1)遍历新报道的文本特征kp, 并初始化时间跨度阈值α 以及权重阈值β; 定义初始话题
模型为ti;
(2)如果
直接将该特征加入话题模型中, 根据权重值进行排序, 去除排序后权
重值最低的特征; 特征kp的开始时间Tb和最近发生时间Te均设为输入文本所发布的时间, 并
继续更新下一个文本特 征;
(3)如果kp∈ti, 则将该文本特征的最近发生时间Te更改为输入文本的发布时间; 时间
跨度值为ΔT=Te‑Tb; 将时间跨度值与时间跨度阈值α 进行比较, 如果ΔT小 于阈值α, 则将文
本特征权值按照公式(6)进行 更新;
如果ΔT小于阈值α, 按照公式(4)提升该话题特 征的权重;
其中 μ是权 重调节因子, 通过调整 μ值使得 特征在文本中的权 重始终在0 到1之间;
将公式(4)规范化得到公式(5)
其中max(w(k) )i为在话题i中权 重最大的文本特 征权值;
(4)当输入文本的所有特征均处理完成之后, 计算话题i剩余未被更新的文本特征的时
间跨度; 未处理特征kr的时间跨度ΔTr为新输入文本的发布时间与 特征的话题开始时间的
差值; 如果时间跨度大于α 时, 将该特征利用时间衰减因子进行衰减, 得到文本特征kr更新
后的权值:
其中, (w(kr))i为话题i的权值, λ为时间跨度的调整因子, λ ≥0;
(5)将更新后的文本特征权值与β 进行比较, 将所有权值小于β 的文本特征进行剔除, 最
终完成话题的动态更新。
7.根据权利要求1所述的基于时间序列的动态自适应话题跟踪方法, 其特征在于, 所述
基于可视化工具, 实时反馈话题更新结果, 具体为: 基于vu e的前端可视化技术, 将更新数据
结果进行展示。
8.基于时间序列的动态自适应话题 跟踪系统, 其特 征在于, 包括:
检测模块, 所述检测模块用于对初始时刻的新闻文本进行话题检测, 构建话题模型;
预处理模块, 所述预处理模块用于对当前时刻输入的新闻文本进行文本预处理, 构建
文本的特 征向量;权 利 要 求 书 2/3 页
3
CN 114691993 A
3
专利 基于时间序列的动态自适应话题跟踪方法、系统及装置
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:49:30上传分享