(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111404758.8
(22)申请日 2021.11.24
(71)申请人 杭州电子科技大 学
地址 310018 浙江省杭州市钱塘区白杨街
道2号大街
(72)发明人 彭占魁 李玉 殷昱煜
(74)专利代理 机构 浙江千克知识产权代理有限
公司 33246
代理人 周雷雷
(51)Int.Cl.
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06N 20/00(2019.01)
G06Q 10/10(2012.01)
(54)发明名称
一种基于DQN的时空众包 任务分配方法
(57)摘要
本发明公开了一种基于DQN的时空众包任务
分配方法。 本发 明旨在为时空众包任务提供分配
策略。 根据众包发起者和工作者的历史记录, 提
取出特征向量, 然后在基于DQN设计的神经网络
结构中不断训练, 从而能够更好地识别出众包发
起者和工作者的特点和偏好, 以完成时空众包任
务的分配 。
权利要求书1页 说明书6页 附图7页
CN 114282645 A
2022.04.05
CN 114282645 A
1.一种基于DQ N的时空众包 任务分配方法, 其特 征在于该 方法包括以下步骤:
步骤1、 从环境获取到 工作者Wi和其可选择的任务列表Ti;
步骤2、 提取工作者Wi的特征向量和可选任 务列表Ti的特征向量, 连接成特征向量fsi, 具
体步骤如下:
步骤2.1、 提取 可选任务列表Ti的特征向量fti;
对于回报, 表示 为该任务的收益在所有可用任务中的排名;
对于成本, 考虑为两部分, 一部分是拾取成本, 即获取任务在所有的任务中的排名; 另
一部分是交付成本, 即完成任务在所有的任务中的排名;
对于任务类型, 考虑任务发起在一天的不同阶段;
对于位置, 通过geohash方法对它 们进行编码;
步骤2.2、 提取工作者 Wi的特征向量;
将工作者 Wi的特征向量fwi表示为其最近完成任务的特 征的加权均值;
步骤2.3、 将工作者Wi和可选任务列表Ti的特征向量组合成完整的特征 向量fsi; 通过联
合fti和fwi, 获得了fsi; 将fsi作为DQN的输入;
步骤3、 通过神经网络预测出推荐给Wi的可能性, 具体步骤如下:
步骤3.1、 将特征向量fsi分别放入代表工作者的Q网络和代表请求者的Q网络中, 预测出
推荐行为(ai)在两个网络的分数;
步骤3.2、 将两个分数加权平均后, 排序成一个 推荐列表;
步骤4、 当工作者 Wi获得推荐列表后, 认为 Wi按照顺序依次浏览后, 选取其中一个完成;
步骤5、 根据工作者 Wi完成任务的情况, 量 化推荐列表作为评价(ri);
步骤6、 统计成功的转移过程(Si, ai, ri, Si+1)和失败的转移过程(Si, ai, 0, Si+1), 将其放
入训练池(memory pool)中;
步骤7、 使用训练池中的数据, 训练代 表工作者的Q网络;
步骤8、 使用训练池中的数据, 训练代 表请求者的Q网络 。
2.根据权利要求1所述的一种基于DQN的时空众包任务分配方法, 其特征在于, 步骤1具
体包括:
步骤1.1、 在时刻i, 请求 者发布时空众包 任务到众包平台 中;
步骤1.2、 在某一工作者 Wi到来后, 获取到一系列的众包 任务;
步骤1.3、 根据约束, 筛 选为一个可选任务列表Ti。
3.根据权利要求2所述的一种基于DQN的时空众包任务分配方法, 其特征在于, 在步骤
2.2中: 在已完成的任务中, 工作者 Wi完成的时间离时刻i越近, 特 征向量的占比越高。
4.根据权利要求1所述的一种基于DQN的时空众包任务分配方法, 其特征在于, 在步骤
2.2中:
在不同的时刻, 可选任务的数量是不同的, 限制任务的最大 数量, 设定为maxT;
当可选任务的数量 不够时, 使用0进行填充, 以固定fsi的数量。权 利 要 求 书 1/1 页
2
CN 114282645 A
2一种基于DQN的时空众包任务分配方 法
技术领域
[0001]本发明涉及时空任务众包分配领域, 特别是一种基于DQN(Deep Q Network)对时
空众包任务进行分配的方法。
背景技术
[0002]众包是指“一个公司或机构把过去由员工执行的工作任务, 以自由自愿的形式外
包给非特定的(而且通常是大型的)大众网络的做法; 众包的任务通常由个人来承担, 但如
果涉及到需要 多人协作完成的任务, 也有可能以依靠开源的个 体生产的形式出现 ”。
[0003]空间众包是将一组空间任务众包给一组工作人员的过程, 这要求工作人员实际位
于该位置以执行相应的任务。 空间众包任务的流程是: 1、 请求者(Requ ester)将自己的任务
及其任务附带的信息提交到众包平 台(agent)。 2、 平 台将一组与位置相关 的任务以众包的
形式发布给一些众包从业者(Worker)。 3、 众包从业者接受了平 台派送的任务, 就需要前往
那些指定的位置执 行众包任务。 因此很多实际问题建模成众包 任务问题进行解决。
[0004]DQN是一种深度强化学习, 是将深度学习与强化学习相结合 的一种算法, DQN是Q ‑
learning算法的一种变体。 Q ‑Learning是强化学习算法中value ‑based的算法, Q即为Q(s,
a)就是在某一时刻的s状态下(s∈S), 采取动作a(a∈A)动作能够获得收益的期望, 环境会
根据agent的动作反馈相应的回报reward。 Q ‑learning的迭代公式如下:
[0005]Q(si,ai)←(si,ai)+α [ri+1+γmaxQ(si+1ai+1,)‑Q(si,ai)]
[0006]Q(si,ai)是i时刻的状态和动作, r是当前行为实际获取的收益, γ为衰减度, maxQ
(si+1ai+1,)是根据Q表选择s ′时, 能获取的Q表中的最大值, α 是 学习程度。
[0007]DQN在Q‑learning的基础上加入了神经网络, DQN和其他的机器学习算法不同, DQN
可以处理随机转换和奖励的问题, 而无需进 行调整。 DQN将卷积神经网络与Q ‑learning相结
合,并引入经验回放机制,使得计算机能够直接根据高维感知输入来学习控制策略。
发明内容
[0008]本发明针对现有技 术的不足, 提供了一种基于DQ N的时空众包 任务分配方法。
[0009]本发明包括以下步骤:
[0010]步骤1、 首先从环境获取到工作者(Wi)和其可选择的任务列表(Ti)。 具体包括以下
子步骤:
[0011]步骤1.1、 在时刻i, 请求 者发布时空众包 任务到众包平台 中。
[0012]步骤1.2、 在某一工作者 Wi到来后, 获取到一系列的众包 任务。
[0013]步骤1.3、 根据一系列的简单约束(去除距离过远、 已完成的任务等), 筛选为一个
可选任务列表Ti。
[0014]步骤2、 提取工作者Wi的特征向量和可选任务列表Ti的特征向量, 连接成特征向量
fsi。 具体包括以下子步骤:
[0015]步骤2.1、 提取可选任务列表Ti的特征向量。 当前研究一般认为, 时空众包任务的说 明 书 1/6 页
3
CN 114282645 A
3
专利 一种基于DQN的时空众包任务分配方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 01:19:07上传分享