安全公司报告
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111407783.1 (22)申请日 2021.11.24 (71)申请人 支付宝 (杭州) 信息技 术有限公司 地址 310000 浙江省杭州市西湖区西溪路 556号8层B段801-1 1 (72)发明人 李一鸣 张子琪 邱伟峰 江勇  夏树涛  (74)专利代理 机构 北京亿腾知识产权代理事务 所(普通合伙) 11309 代理人 陈霁 周良玉 (51)Int.Cl. G06F 21/16(2013.01) G06N 20/00(2019.01) (54)发明名称 用于数据集的所有权验证方法和装置 (57)摘要 本说明书实施例提供了一种用 于数据集的 所有权验证方法和装置。 该方法的一具体实施方 式包括: 从初始样本集中选取部分初始样本构成 选中样本集; 对于上述选中样 本集中的各选中样 本, 使用预设的模板样本对其样 本数据进行水印 嵌入, 并调整该选中样本的标签, 得到对应的水 印样本; 各水印样本构成水印样本集; 使用上述 水印样本集和上述初始样本集中除上述选中样 本集之外的剩余样本集构成目标样 本集; 基于初 始样本和水印样本, 使用目标假 设检验方法对可 疑模型进行验证, 确定上述可疑模 型是否为基于 上述目标样本集训练得到的模型。 权利要求书2页 说明书9页 附图2页 CN 114090968 A 2022.02.25 CN 114090968 A 1.一种用于数据集的所有权验证方法, 包括: 从初始样本集中选取部分初始样本构成选中样本集; 对于所述选 中样本集中的各选 中样本, 使用预设的模板样本对其样本数据进行水印嵌 入, 并调整该选中样本的标签, 得到对应的水印样本; 各 水印样本构成水印样本集; 使用所述水印样本集和所述初始样本集中除所述选中样本集之外的剩余样本集构成 目标样本集; 基于初始样本和水印样本, 使用目标假设检验方法对可疑模型进行验证, 确定所述可 疑模型是否为基于所述目标样本集训练得到的模型。 2.根据权利要求1所述的方法, 其中, 所述可疑模型的输出结果为分别针对多个类别标 签的多个预测概 率, 所述目标假设检验方法为T检验。 3.根据权利要求2所述的方法, 其中, 所述并调整该选中样本的标签, 包括: 将该选中样本的标签调整为目标 标签。 4.根据权利要求3所述的方法, 其中, 所述基于初始样本和水印样本, 使用目标假设检 验方法对可疑模型进 行验证, 确定所述可疑模型是否为基于所述目标样本集训练得到的模 型, 包括: 构建第一概率值与第一预设值之和大于第二概率的第一原假设, 其中, 第一概率值表 示所述可疑模型针对初始样本的输出结果中所述目标标签的预测概率值, 第二概率值表示 所述可疑模型针对水印样本的输出 结果中所述目标 标签的预测概 率值; 基于所述第一原假设、 初始样本的样本数据和水印样本的样本数据, 计算P值; 响应于确定所述P值小于 显著性水平, 确定所述第一原假设被拒绝; 响应于确定所述第 一原假设被拒 绝, 确定所述可疑模型为基于所述目标样本集训练得 到的模型。 5.根据权利要求2所述的方法, 其中, 所述并调整该选中样本的标签, 包括: 将该选中样本的标签调整为与原 始标签不同的标签。 6.根据权利要求5所述的方法, 其中, 所述基于初始样本和水印样本, 使用目标假设检 验方法对可疑模型进 行验证, 确定所述可疑模型是否为基于所述目标样本集训练得到的模 型, 包括: 构建第三概率值小于第 四概率值与第二预设值之和的第二原假设, 其中, 第三概率值 表示所述可疑模型针对初始样本的输出结果中原始标签的预测概率值, 第四概率值表示所 述可疑模型针对水印样本的输出 结果中原 始标签的预测概 率值; 基于所述第二原假设、 初始样本和水印样本, 计算P值; 响应于确定所述P值小于 显著性水平, 确定所述第二原假设被拒绝; 响应于确定所述第 二原假设被拒 绝, 确定所述可疑模型为基于所述目标样本集训练得 到的模型。 7.根据权利要求1所述的方法, 其中, 所述可疑模型的输出结果为类别, 所述目标假设 检验方法为单样本W ilcoxon检验。 8.根据权利要求1所述的方法, 其中, 所述初始样本集中初始样本的样本数据为样本图 像, 所述模板样本为模板图像; 以及 所述使用预设的模板样本对其样本数据进行 水印嵌入, 包括:权 利 要 求 书 1/2 页 2 CN 114090968 A 2根据预设的权重因子, 将所述选中样本对应的图像和所述模板 图像, 进行对应像素的 像素值加权组合。 9.根据权利要求1所述的方法, 其中, 所述初始样本集中的初始样本的样本数据为文本 信息, 所述模板样本为预定文本; 以及 所述使用预设的模板样本对其样本数据进行 水印嵌入, 包括: 将所述预定文本插 入所述选中样本的文本信息中, 得到嵌入水印的样本数据。 10.一种用于数据集的所有权验证装置, 包括: 选取单元, 配置为从初始样本集中选取部分初始样本构成选中样本集; 嵌入单元, 配置为对于所述选中样本集中的各选中样本, 使用预设的模板样本对其样 本数据进 行水印嵌入, 并调整 该选中样本的标签, 得到对应的水印样本; 各水印样本构成水 印样本集; 构成单元, 配置为使用所述水印样本集和所述初始样本集中除所述选中样本集之外的 剩余样本集构成目标样本集; 验证单元, 配置为基于初始样本和水印样本, 使用目标假设检验方法对可疑模型进行 验证, 确定所述可疑模型 是否为基于所述目标样本集训练得到的模型。 11.一种计算机可读存储介质, 其上存储有计算机程序, 当所述计算机程序在计算机中 执行时, 令计算机执 行权利要求1 ‑9中任一项所述的方法。 12.一种计算设备, 包括存储器和 处理器, 其特征在于, 所述存储器中存储有可执行代 码, 所述处 理器执行所述可执行代码时, 实现权利要求1 ‑9中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114090968 A 3

.PDF文档 专利 用于数据集的所有权验证方法和装置

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 用于数据集的所有权验证方法和装置 第 1 页 专利 用于数据集的所有权验证方法和装置 第 2 页 专利 用于数据集的所有权验证方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:22:29上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。