安全公司报告
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111404758.8 (22)申请日 2021.11.24 (71)申请人 杭州电子科技大 学 地址 310018 浙江省杭州市钱塘区白杨街 道2号大街 (72)发明人 彭占魁 李玉 殷昱煜  (74)专利代理 机构 浙江千克知识产权代理有限 公司 33246 代理人 周雷雷 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) G06Q 10/10(2012.01) (54)发明名称 一种基于DQN的时空众包 任务分配方法 (57)摘要 本发明公开了一种基于DQN的时空众包任务 分配方法。 本发 明旨在为时空众包任务提供分配 策略。 根据众包发起者和工作者的历史记录, 提 取出特征向量, 然后在基于DQN设计的神经网络 结构中不断训练, 从而能够更好地识别出众包发 起者和工作者的特点和偏好, 以完成时空众包任 务的分配 。 权利要求书1页 说明书6页 附图7页 CN 114282645 A 2022.04.05 CN 114282645 A 1.一种基于DQ N的时空众包 任务分配方法, 其特 征在于该 方法包括以下步骤: 步骤1、 从环境获取到 工作者Wi和其可选择的任务列表Ti; 步骤2、 提取工作者Wi的特征向量和可选任 务列表Ti的特征向量, 连接成特征向量fsi, 具 体步骤如下: 步骤2.1、 提取 可选任务列表Ti的特征向量fti; 对于回报, 表示 为该任务的收益在所有可用任务中的排名; 对于成本, 考虑为两部分, 一部分是拾取成本, 即获取任务在所有的任务中的排名; 另 一部分是交付成本, 即完成任务在所有的任务中的排名; 对于任务类型, 考虑任务发起在一天的不同阶段; 对于位置, 通过geohash方法对它 们进行编码; 步骤2.2、 提取工作者 Wi的特征向量; 将工作者 Wi的特征向量fwi表示为其最近完成任务的特 征的加权均值; 步骤2.3、 将工作者Wi和可选任务列表Ti的特征向量组合成完整的特征 向量fsi; 通过联 合fti和fwi, 获得了fsi; 将fsi作为DQN的输入; 步骤3、 通过神经网络预测出推荐给Wi的可能性, 具体步骤如下: 步骤3.1、 将特征向量fsi分别放入代表工作者的Q网络和代表请求者的Q网络中, 预测出 推荐行为(ai)在两个网络的分数; 步骤3.2、 将两个分数加权平均后, 排序成一个 推荐列表; 步骤4、 当工作者 Wi获得推荐列表后, 认为 Wi按照顺序依次浏览后, 选取其中一个完成; 步骤5、 根据工作者 Wi完成任务的情况, 量 化推荐列表作为评价(ri); 步骤6、 统计成功的转移过程(Si, ai, ri, Si+1)和失败的转移过程(Si, ai, 0, Si+1), 将其放 入训练池(memory  pool)中; 步骤7、 使用训练池中的数据, 训练代 表工作者的Q网络; 步骤8、 使用训练池中的数据, 训练代 表请求者的Q网络 。 2.根据权利要求1所述的一种基于DQN的时空众包任务分配方法, 其特征在于, 步骤1具 体包括: 步骤1.1、 在时刻i, 请求 者发布时空众包 任务到众包平台 中; 步骤1.2、 在某一工作者 Wi到来后, 获取到一系列的众包 任务; 步骤1.3、 根据约束, 筛 选为一个可选任务列表Ti。 3.根据权利要求2所述的一种基于DQN的时空众包任务分配方法, 其特征在于, 在步骤 2.2中: 在已完成的任务中, 工作者 Wi完成的时间离时刻i越近, 特 征向量的占比越高。 4.根据权利要求1所述的一种基于DQN的时空众包任务分配方法, 其特征在于, 在步骤 2.2中: 在不同的时刻, 可选任务的数量是不同的, 限制任务的最大 数量, 设定为maxT; 当可选任务的数量 不够时, 使用0进行填充, 以固定fsi的数量。权 利 要 求 书 1/1 页 2 CN 114282645 A 2一种基于DQN的时空众包任务分配方 法 技术领域 [0001]本发明涉及时空任务众包分配领域, 特别是一种基于DQN(Deep  Q Network)对时 空众包任务进行分配的方法。 背景技术 [0002]众包是指“一个公司或机构把过去由员工执行的工作任务, 以自由自愿的形式外 包给非特定的(而且通常是大型的)大众网络的做法; 众包的任务通常由个人来承担, 但如 果涉及到需要 多人协作完成的任务, 也有可能以依靠开源的个 体生产的形式出现 ”。 [0003]空间众包是将一组空间任务众包给一组工作人员的过程, 这要求工作人员实际位 于该位置以执行相应的任务。 空间众包任务的流程是: 1、 请求者(Requ ester)将自己的任务 及其任务附带的信息提交到众包平 台(agent)。 2、 平 台将一组与位置相关 的任务以众包的 形式发布给一些众包从业者(Worker)。 3、 众包从业者接受了平 台派送的任务, 就需要前往 那些指定的位置执 行众包任务。 因此很多实际问题建模成众包 任务问题进行解决。 [0004]DQN是一种深度强化学习, 是将深度学习与强化学习相结合 的一种算法, DQN是Q ‑ learning算法的一种变体。 Q ‑Learning是强化学习算法中value ‑based的算法, Q即为Q(s, a)就是在某一时刻的s状态下(s∈S), 采取动作a(a∈A)动作能够获得收益的期望, 环境会 根据agent的动作反馈相应的回报reward。 Q ‑learning的迭代公式如下: [0005]Q(si,ai)←(si,ai)+α [ri+1+γmaxQ(si+1ai+1,)‑Q(si,ai)] [0006]Q(si,ai)是i时刻的状态和动作, r是当前行为实际获取的收益, γ为衰减度, maxQ (si+1ai+1,)是根据Q表选择s ′时, 能获取的Q表中的最大值, α 是 学习程度。 [0007]DQN在Q‑learning的基础上加入了神经网络, DQN和其他的机器学习算法不同, DQN 可以处理随机转换和奖励的问题, 而无需进 行调整。 DQN将卷积神经网络与Q ‑learning相结 合,并引入经验回放机制,使得计算机能够直接根据高维感知输入来学习控制策略。 发明内容 [0008]本发明针对现有技 术的不足, 提供了一种基于DQ N的时空众包 任务分配方法。 [0009]本发明包括以下步骤: [0010]步骤1、 首先从环境获取到工作者(Wi)和其可选择的任务列表(Ti)。 具体包括以下 子步骤: [0011]步骤1.1、 在时刻i, 请求 者发布时空众包 任务到众包平台 中。 [0012]步骤1.2、 在某一工作者 Wi到来后, 获取到一系列的众包 任务。 [0013]步骤1.3、 根据一系列的简单约束(去除距离过远、 已完成的任务等), 筛选为一个 可选任务列表Ti。 [0014]步骤2、 提取工作者Wi的特征向量和可选任务列表Ti的特征向量, 连接成特征向量 fsi。 具体包括以下子步骤: [0015]步骤2.1、 提取可选任务列表Ti的特征向量。 当前研究一般认为, 时空众包任务的说 明 书 1/6 页 3 CN 114282645 A 3

.PDF文档 专利 一种基于DQN的时空众包任务分配方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于DQN的时空众包任务分配方法 第 1 页 专利 一种基于DQN的时空众包任务分配方法 第 2 页 专利 一种基于DQN的时空众包任务分配方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:19:07上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。