安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210319081.6 (22)申请日 2022.03.29 (71)申请人 阿里巴巴 (中国) 有限公司 地址 310052 浙江省杭州市滨江区长河街 道网商路69 9号4号楼5楼5 08室 (72)发明人 刘新宇  (74)专利代理 机构 北京智信禾专利代理有限公 司 11637 专利代理师 刘晓楠 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 文本处理方法以及装置 (57)摘要 本说明书实施例提供文本处理方法以及装 置, 其中所述文本处理方法包括: 获取目标业务 关联的多个待处理文本; 构建各个待处理文本对 应的特征向量, 并根据所述特征向量计算各个待 处理文本间的特征相似度; 根据所述特征相似度 和所述多个待处理文本, 构建所述目标业务对应 的业务预警图; 按照预设的业务预 警算法在所述 业务预警图中确定目标业务图, 并基于所述目标 业务图生成所述目标业 务对应的预警信息 。 权利要求书2页 说明书14页 附图5页 CN 114676223 A 2022.06.28 CN 114676223 A 1.一种文本处 理方法, 包括: 获取目标业 务关联的多个待处 理文本; 构建各个待处理文本对应的特征向量, 并根据所述特征向量计算各个待处理文本间的 特征相似度; 根据所述特 征相似度和所述多个待处 理文本, 构建所述目标业 务对应的业 务预警图; 按照预设的业务预警算法在所述业务预警图中确定目标业务图, 并基于所述目标业务 图生成所述目标业 务对应的预警信息 。 2.根据权利要求1所述的方法, 所述根据所述特征相似度和所述多个待处理文本, 构建 所述目标业 务对应的业 务预警图, 包括: 针对各个待处 理文本创建文本标识, 并根据所述文本标识构建预警图节点; 根据各个待处 理文本间的特 征相似度构建预警图边; 基于所述预警图节点和所述预警图边构建所述目标业 务对应的业 务预警图。 3.根据权利要求2所述的方法, 所述根据各个待处理文本间的特征相似度构建预警图 边, 包括: 将各个待处 理文本间的特 征相似度与相似度阈值进行比较; 根据比较结果选择 大于所述相似度阈值的特 征相似度构建所述预警图边; 相应的, 所述基于所述预警图节点和所述预警图边构建所述目标业务对应的业务预警 图, 包括: 通过建立所述预警图节点和所述预警图边之间的连通关系, 获得所述目标业务对应的 所述业务预警图。 4.根据权利要求1所述的方法, 所述按照预设的业务预警算法在所述业务预警图中确 定目标业 务图, 包括: 根据所述 业务预警算法确定深度搜索算法和预警算法; 按照所述深度搜索算法对所述 业务预警图进行遍历, 获得业 务连通子图; 按照所述预警算法对所述业务连通子图进行处理, 根据处理结果在所述业务连通子图 中确定所述目标业 务图。 5.根据权利要求1所述的方法, 所述多个待处理文本中的任意一个待处理文本对应的 特征向量的构建, 包括: 对待处理文本进行分词处 理, 获得多个词单 元; 计算每个词单元对应的词单元分值, 并根据每个词单元对应的词单元分值构建待处理 文本对应的特 征向量。 6.根据权利要求5所述的方法, 所述计算每个词单元对应的词单元分值, 并根据每个词 单元对应的词单 元分值构建待处 理文本对应的特 征向量, 包括: 确定每个词单元相对于所述待处 理文本的词频以及频率; 根据所述词频和所述频率计算每 个词单元对应的词单 元分值; 将每个词单元对应的词单 元分值进行整合, 获得 所述待处 理文本对应的特 征向量。 7.根据权利要求1所述的方法, 所述基于所述目标业务图生成所述目标业务对应的预 警信息, 包括: 根据所述目标业 务图中包 含的图节点, 在所述多个待处 理文本中筛 选目标文本;权 利 要 求 书 1/2 页 2 CN 114676223 A 2根据所述目标文本生成所述目标业 务对应的所述预警信息 。 8.根据权利要求1 ‑7任一项所述的方法, 所述根据所述特征相似度和所述多个待处理 文本, 构建所述目标业 务对应的业 务预警图步骤执 行之后, 还 包括: 获取所述目标业 务关联的待更新文本, 并针对所述待更新文本创建更新文本标识; 构建所述待更新文本对应的更新特征向量, 并计算所述更新向量与 所述特征向量间的 更新特征相似度; 基于所述更新特征相似度构建更新预警图边, 以及根据 所述更新文本标识构建更新预 警图节点; 根据所述更新预警图边和所述更新预警图节点对所述业务预警图进行更新, 获得目标 业务预警图。 9.根据权利要求1所述的方法, 所述构建各个待处理文本对应的特征向量步骤执行之 前, 还包括: 对各个待处 理文本进行 标准化处理, 获得多个标准文本; 相应的, 所述构建各个待处 理文本对应的特 征向量, 包括: 构建各个标准文本对应的特 征向量。 10.一种文本处 理装置, 包括: 获取模块, 被 配置为获取目标业 务关联的多个待处 理文本; 计算模块, 被配置为构建各个待处理文本对应的特征向量, 并根据所述特征向量计算 各个待处 理文本间的特 征相似度; 构建模块, 被配置为根据所述特征相似度和所述多个待处理文本, 构建所述目标业务 对应的业 务预警图; 生成模块, 被配置为按照预设的业务预警算法在所述业务预警图中确定目标业务图, 并基于所述目标业 务图生成所述目标业 务对应的预警信息 。 11.一种计算设备, 包括: 存储器和处 理器; 所述存储器用于存储计算机可执行指令, 所述处理器用于执行所述计算机可执行指 令, 该计算机可 执行指令被处 理器执行时实现权利要求1至9任意 一项所述方法的步骤。 12.一种计算机可读存储介质, 其存储有计算机可执行指令, 该计算机可执行指令被处 理器执行时实现权利要求1至9任意 一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114676223 A 3

.PDF文档 专利 文本处理方法以及装置

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本处理方法以及装置 第 1 页 专利 文本处理方法以及装置 第 2 页 专利 文本处理方法以及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:51:05上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。