第623章(4/5)
落寒一看,既然评委们都这么说了,他索性就放弃了之前准备的演讲稿,直接回答起问题来。
“我设计的这款系统是基于神经网络原理,与目前世面上机器人系统最大的区别就是,它不再需要人类数据。
也就是说,它一开始就没有接触过人类棋谱。它使用新的强化学习方法,让自己变成了老师。”
看着台下的评委都露出一股思索的表情,落寒继续补充道:
“这个系统一开始甚至并不知道什么是围棋,只是从单一神经网络开始,通过神经网络强大的搜索算法,进行了自我对弈。
随着自我博弈的增加,神经网络逐渐调整,提升预测下一步的能力,最终赢得比赛。”
落寒慢慢讲诉着自己的设计理念,评委则是越听越吃惊,心里都泛起惊涛骇浪,就算是不是研究智能系统这一方向的老师,都开始感兴趣起来。
“理论上来说,它不光可以成为围棋机器人,他甚至可以通过自我博弈学习任何一种棋类。”
落寒发现刚才那位评委又开始兴奋起来,他赶忙说道:
“不过,我也不知道什么地方出来问题,导致这个系统在提升到职业五段的水平后,就停止不前了,目前我还没找到解决办法。”
张卫国一听又重新平静下来,继续问着关键问题:
“那你落子时如何选择的?选择方案是什么?”
“根据我了解的相关论文文献,到现在为止所有研究所设计的相关系统,落子时的选择都是基于两方面的考虑。”
“一是通过训练形成一个‘策略网络’,主要是将棋盘上的局势作为输入信息,并对所有可行的落子位置生成一个概率分布。
然后,训练出一个‘价值网络’对自我对弈进行预测,以-1(对手的绝对胜利)到1的标准,预测所有可行落子位置的结果。
这两个网络自身都十分强大,而目前国际上所有的相关文献描述的都是,将这两种网络整合进基于概率的蒙特卡罗树搜索中,实现了它真正的优势。”
张卫国推了推眼镜,额头微点,这个落寒肚子里倒是有不少货啊,他说的正是他们的设计思路。
“而我的系统在设计如何落子时是将上述两个神经是网络合二为一,摒弃了棋谱,通过它自己产生大量自我对弈棋局,为下一代版本提供了训练数据,此过程循环往复。
让它从低级的对战慢慢成长,从而让它能得到更高效的训练和评估”
本章未完,下一页继续