今天是
期刊信息

刊名:电脑与电信
曾用名:广东电脑与电讯
主办:广东省科技合作研究促进中心
主管:广东省科学技术厅
ISSN:1008-6609
CN:44-1606/TN
语言:中文
周期:月刊
影响因子:0.0948000028729439
被引频次:10013
期刊分类:电子信息
期刊热词:
笔记本电脑,投稿须知,计算机,网络,投稿,手机,网络安全,数据库,互联网,云计算,

现在的位置:主页 > 期刊导读 >

自动化技术论文_基于强化学习的电脑鼠优化方法

来源:电脑与电信 【在线投稿】 栏目:期刊导读 时间:2022-01-30 15:39

【作者】网站采编
【关键词】
【摘要】文章目录 致谢 摘要 ABSTRACT 1 引言 1.1 研究背景及意义 1.2 国内外研究综述 1.2.1 电脑鼠迷宫探索方法 1.2.2 基于强化学习的智能决策技术 1.2.3 研究现状总结 1.3 论文内容和结构安排 2 电脑

文章目录

致谢

摘要

ABSTRACT

1 引言

1.1 研究背景及意义

1.2 国内外研究综述

    1.2.1 电脑鼠迷宫探索方法

    1.2.2 基于强化学习的智能决策技术

    1.2.3 研究现状总结

1.3 论文内容和结构安排

2 电脑鼠迷宫探索决策理论

2.1 电脑鼠控制系统及关键技术

    2.1.1 电脑鼠控制系统结构

    2.1.2 关键技术分析

2.2 迷宫探索决策任务分析

    2.2.1 决策目标

    2.2.2 传统决策方法

    2.2.3 性能评价指标

2.3 基于强化学习的智能决策理论

    2.3.1 强化学习理论

    2.3.2 基于深度神经网络的强化学习方法

2.4 本章小结

3 基于强化学习的电脑鼠智能决策研究

3.1 基于随机迷宫的环境模型

    3.1.1 随机迷宫生成方法

    3.1.2 基于部分可观测马尔可夫决策过程的环境模型

    3.1.3 环境奖励设置

3.2 基于双重深度Q网络的电脑鼠决策模型

    3.2.1 基于视野重建的观测信息预处理

    3.2.2 基于卷积神经网络的环境特征提取方法

    3.2.3 基于双重深度Q网络的策略学习方法

3.3 决策模型的训练管理

    3.3.1 基于ε贪心算法的策略探索方法

    3.3.2 基于优先级经验回放的离线训练方法

3.4 仿真实验和结果分析

    3.4.1 仿真流程及平台

    3.4.2 训练超参数初始化

    3.4.3 确定环境奖励方式

    3.4.4 模型训练参数调优

    3.4.5 决策模型性能测试

3.5 本章小结

4 面向电脑鼠智能决策方法的优化研究

4.1 基于长短期记忆网络的模型结构优化

    4.1.1 长短期记忆网络

    4.1.2 基于长短期记忆网络的策略学习方法

    4.1.3 模型训练过程分析

4.2 基于并行策略探索的训练过程优化

    4.2.1 并行在线训练方法

    4.2.2 基于并行离线训练的策略探索方法

    4.2.3 模型训练过程分析

4.3 基于人工经验的策略融合优化

    4.3.1 基于洪水预推演方法的人工经验模型

    4.3.2 基于人工经验的电脑鼠决策模型

    4.3.3 模型训练过程分析

4.4 决策优化效果分析

    4.4.1 独立优化效果分析

    4.4.2 组合优化效果分析

4.5 本章小结

5 智能电脑鼠开发平台的设计与实现

5.1 平台功能及总体结构

    5.1.1 平台功能需求分析

    5.1.2 平台结构框架

5.2 决策模型训练子系统

    5.2.1 模型训练服务器

    5.2.2 模型训练管理软件

5.3 硬件在环验证子系统

    5.3.1 硬件在环仿真平台

    5.3.2 模型性能验证软件

    5.3.3 智能决策效率分析

5.4 嵌入式智能决策电脑鼠

    5.4.1 硬件结构

    5.4.2 决策控制流程

5.5 本章小结

6 结论与展望

6.1 研究内容总结

6.2 主要创新点

6.3 论文展望

参考文献

图索引

表索引

作者简历及攻读硕士学位期间取得的研究成果

学位论文数据集

文章摘要:近年来,智能决策与控制技术得到了突飞猛进的发展,极大的提升了机器人应对复杂实际问题的能力,并逐渐发展为国家层面的战略。电脑鼠是一种嵌入式移动机器人,能够自主探索未知迷宫,并实现最短路径冲刺。为了在狭小复杂的迷宫中高速运行,电脑鼠对控制与决策的性能要求较高,长期处于机器人领域的研究热点。强化学习技术能够让智能体从环境中总结规律,以“试错”的方式提升决策性能,是一种重要的机器学习方法。本文针对迷宫探索阶段的决策过程,提出了一种新颖的电脑鼠优化方法,研究了强化学习技术应用于电脑鼠行为决策的可行性和有效性,并对决策性能进行仿真分析和实际验证。本文的主要研究内容如下:(1)针对电脑鼠迷宫探索决策问题,总结了国内外研究现状,详细介绍了电脑鼠控制系统结构和关键技术;在分析决策目标的基础上,阐述了传统方法的决策流程,提出了电脑鼠行为决策的性能评价指标;通过介绍深度强化学习决策技术,明确了本文的研究内容,奠定了本文的理论基础。(2)在分析电脑鼠迷宫结构的基础上,提出了随机迷宫生成方法,根据部分可观测的马尔可夫决策过程,搭建了迷宫探索环境模型,设计了形式化环境奖励方式;通过视野重建技术,采用卷积神经网络提取环境特征,使用双重深度Q网络构建了强化学习决策模型,详细阐述了决策模型的训练管理方法;通过仿真实验测试模型效果,结果表明其与传统方法的平均胜率约为55%,表明标准决策模型具备有效性和提升空间。(3)根据电脑鼠行为决策特点,通过分析标准模型存在的问题,从多角度对决策模型进行优化研究。利用长短期记忆网络对历史信息的整合能力,优化了决策模型结构;提出了并行探索训练方法,改进了决策模型的训练管理方法;基于洪水预推演方法,提出了电脑鼠行为效果的预测模型,实现了人工经验和强化学习的决策融合。通过仿真实验,证明了各改进方法的有效性,以及组合优化效果。实验结果表明,当三种优化方法组合应用时,决策模型与传统方法的平均胜率约为96%,具有最好的性能表现。(4)根据电脑鼠开发流程,使用云服务器、My SQL数据库、硬件在环仿真技术、C#和Python程序设计语言,设计并实现了智能电脑鼠开发平台,将强化学习决策方法应用于嵌入式设备。实际应用效果表明,智能决策方法能够达到嵌入式电脑鼠对实时性的要求,证明了研究的实用性。本文共有图45幅,表15个,参考文献55篇。

文章来源:《电脑与电信》 网址: http://www.dnydxzz.cn/qikandaodu/2022/0130/1503.html

上一篇:教育理论与教育管理论文_平板电脑支持课堂教学
下一篇:学前教育论文_电脑动画在幼儿园教育中的运用