专利 一种基于DQN的时空众包任务分配方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111404758.8 (22)申请日 2021.11.24 (71)申请人杭州电子科技大学地址 310018 浙江省杭州市钱塘区白杨街道2号大街 (72)发明人彭占魁　李玉　殷昱煜　 (74)专利代理机构浙江千克知识产权代理有限公司 33246 代理人周雷雷 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) G06Q 10/10(2012.01) (54)发明名称一种基于DQN的时空众包任务分配方法 (57)摘要本发明公开了一种基于DQN的时空众包任务分配方法。本发明旨在为时空众包任务提供分配策略。根据众包发起者和工作者的历史记录，提取出特征向量，然后在基于DQN设计的神经网络结构中不断训练，从而能够更好地识别出众包发起者和工作者的特点和偏好，以完成时空众包任务的分配。权利要求书1页说明书6页附图7页 CN 114282645 A 2022.04.05 CN 114282645 A 1.一种基于DQ N的时空众包任务分配方法，其特征在于该方法包括以下步骤：步骤1、从环境获取到工作者Wi和其可选择的任务列表Ti；步骤2、提取工作者Wi的特征向量和可选任务列表Ti的特征向量，连接成特征向量fsi，具体步骤如下：步骤2.1、提取可选任务列表Ti的特征向量fti；对于回报，表示为该任务的收益在所有可用任务中的排名；对于成本，考虑为两部分，一部分是拾取成本，即获取任务在所有的任务中的排名；另一部分是交付成本，即完成任务在所有的任务中的排名；对于任务类型，考虑任务发起在一天的不同阶段；对于位置，通过geohash方法对它们进行编码；步骤2.2、提取工作者 Wi的特征向量；将工作者 Wi的特征向量fwi表示为其最近完成任务的特征的加权均值；步骤2.3、将工作者Wi和可选任务列表Ti的特征向量组合成完整的特征向量fsi；通过联合fti和fwi，获得了fsi；将fsi作为DQN的输入；步骤3、通过神经网络预测出推荐给Wi的可能性，具体步骤如下：步骤3.1、将特征向量fsi分别放入代表工作者的Q网络和代表请求者的Q网络中，预测出推荐行为(ai)在两个网络的分数；步骤3.2、将两个分数加权平均后，排序成一个推荐列表；步骤4、当工作者 Wi获得推荐列表后，认为 Wi按照顺序依次浏览后，选取其中一个完成；步骤5、根据工作者 Wi完成任务的情况，量化推荐列表作为评价(ri)；步骤6、统计成功的转移过程(Si， ai， ri， Si+1)和失败的转移过程(Si， ai， 0， Si+1)，将其放入训练池(memory pool)中；步骤7、使用训练池中的数据，训练代表工作者的Q网络；步骤8、使用训练池中的数据，训练代表请求者的Q网络。 2.根据权利要求1所述的一种基于DQN的时空众包任务分配方法，其特征在于，步骤1具体包括：步骤1.1、在时刻i，请求者发布时空众包任务到众包平台中；步骤1.2、在某一工作者 Wi到来后，获取到一系列的众包任务；步骤1.3、根据约束，筛选为一个可选任务列表Ti。 3.根据权利要求2所述的一种基于DQN的时空众包任务分配方法，其特征在于，在步骤 2.2中：在已完成的任务中，工作者 Wi完成的时间离时刻i越近，特征向量的占比越高。 4.根据权利要求1所述的一种基于DQN的时空众包任务分配方法，其特征在于，在步骤 2.2中：在不同的时刻，可选任务的数量是不同的，限制任务的最大数量，设定为maxT；当可选任务的数量不够时，使用0进行填充，以固定fsi的数量。权　利　要　求　书 1/1 页 2 CN 114282645 A 2一种基于DQN的时空众包任务分配方法技术领域 [0001]本发明涉及时空任务众包分配领域，特别是一种基于DQN(Deep Q Network)对时空众包任务进行分配的方法。背景技术 [0002]众包是指“一个公司或机构把过去由员工执行的工作任务，以自由自愿的形式外包给非特定的(而且通常是大型的)大众网络的做法；众包的任务通常由个人来承担，但如果涉及到需要多人协作完成的任务，也有可能以依靠开源的个体生产的形式出现 ”。 [0003]空间众包是将一组空间任务众包给一组工作人员的过程，这要求工作人员实际位于该位置以执行相应的任务。空间众包任务的流程是： 1、请求者(Requ ester)将自己的任务及其任务附带的信息提交到众包平台(agent)。 2、平台将一组与位置相关的任务以众包的形式发布给一些众包从业者(Worker)。 3、众包从业者接受了平台派送的任务，就需要前往那些指定的位置执行众包任务。因此很多实际问题建模成众包任务问题进行解决。 [0004]DQN是一种深度强化学习，是将深度学习与强化学习相结合的一种算法， DQN是Q ‑ learning算法的一种变体。 Q ‑Learning是强化学习算法中value ‑based的算法， Q即为Q(s, a)就是在某一时刻的s状态下(s∈S)，采取动作a(a∈A)动作能够获得收益的期望，环境会根据agent的动作反馈相应的回报reward。 Q ‑learning的迭代公式如下： [0005]Q(si,ai)←(si,ai)+α [ri+1+γmaxQ(si+1ai+1,)‑Q(si,ai)] [0006]Q(si,ai)是i时刻的状态和动作， r是当前行为实际获取的收益， γ为衰减度， maxQ (si+1ai+1,)是根据Q表选择s ′时，能获取的Q表中的最大值， α 是学习程度。 [0007]DQN在Q‑learning的基础上加入了神经网络， DQN和其他的机器学习算法不同， DQN 可以处理随机转换和奖励的问题，而无需进行调整。 DQN将卷积神经网络与Q ‑learning相结合,并引入经验回放机制,使得计算机能够直接根据高维感知输入来学习控制策略。发明内容 [0008]本发明针对现有技术的不足，提供了一种基于DQ N的时空众包任务分配方法。 [0009]本发明包括以下步骤： [0010]步骤1、首先从环境获取到工作者(Wi)和其可选择的任务列表(Ti)。具体包括以下子步骤： [0011]步骤1.1、在时刻i，请求者发布时空众包任务到众包平台中。 [0012]步骤1.2、在某一工作者 Wi到来后，获取到一系列的众包任务。 [0013]步骤1.3、根据一系列的简单约束(去除距离过远、已完成的任务等)，筛选为一个可选任务列表Ti。 [0014]步骤2、提取工作者Wi的特征向量和可选任务列表Ti的特征向量，连接成特征向量 fsi。具体包括以下子步骤： [0015]步骤2.1、提取可选任务列表Ti的特征向量。当前研究一般认为，时空众包任务的说　明　书 1/6 页 3 CN 114282645 A 3

专利 一种基于DQN的时空众包任务分配方法

专利一种基于DQN的时空众包任务分配方法