Reward is Enough

Reward is Enough

Desc: RL
Finished?: Yes
Tags: Paper

通用人工智能,是否能通过强化学习的奖励机制就实现

实现AGI,强化学习就够了?Sutton、Silver师徒联手:奖励机制足够实现各种目标

对reward构建AGI的可行性的分析和探讨

这篇文章实际上没有给出一个很好的方案通过reward来实现各种AGI的设计,但是给出了在每一种场景下的AGI的reward设计的设想把。和对用reward进行设计的可行性分析。
同时分析了:感知、社交、语言、泛化、模仿,这几个方面

类似地,如果人工智能体的经验流足够丰富,那么单一目标(例如电池寿命或生存)可能隐含地需要实现同样广泛的子目标的能力,因此奖励最大化应该足以产生一种通用人工智能。

这不久回到了最基础的问题,没有这种长线以及大量数据交互以及全面场景的经验流,来支撑这样一个AGI的学习,所以这不也是在现阶段上纸上谈兵嘛?

对这篇论文我的总结是,我不推荐详细阅读,我觉得收益有限,太理想化,其实和强化学习本身的假设也没有太多新东西,我们可以假设强化学习能带来一个AGI,但是对应的约束和限制确实是有点多了。


RL-MobaAI

RL-MobaAI

Created by: Aiken H
Desc: GAME, RL
Finished?: Yes
Tags: Paper

《Master Complex Control in MOBA Games with Deep Reinforcement Learning》 论文阅读笔记

@Aiken H 2021.06

MOBA游戏的复杂度和状态空间都远比以前的围棋之类的运动更大,所以难度会更大一些

早一些的游戏ai使用的是(2015) Deep Q-Network 通过 supervised learning and self-play 结合的训练策略在围棋上击败了专业人类,而最近更多的使用了DRL(Deep Reinforcement Learning)的方法在近几年被进一步的应用。

Neural Network Architecture Include

Contributions

  • the encoding of Multi-modal inputs 多模态输入
  • the decoupling of inter-correlations in controls 控制内关联解码
  • exploration pruning mechanism 剪枝设置
  • Action mask for efficient exploration ❓效率
  • attack attention(for target selection) Attention机制做目标选择
  • LSTM for learning skill combos LSTM 机制做技能释放和链接
  • Optimize by multi-label proximal policy algorithm(improved PPO)
    • dual-clip PPO 帮助训练的收敛


RL Notebook 01

RL Notebook 01

Created by: Aiken H
Detail: survey
Finished?: No
Tags: Paper
URL1: https://www.cnblogs.com/pinard/category/1254674.html
URL2: https://github.com/ljpzzz/machinelearning
URL3: https://datawhalechina.github.io/easy-rl/#/

Chapter1 模型基础

强化学习(一)模型基础

强化学习是介于监督和无监督学习之间的,强化学习没有输出值,但是有reward: 同时这个reward是事后给出的,而不是及时回馈的。而无监督学习是只有数据特征,同时数据之间是独立的,没有前后依赖的关系。

https://images2018.cnblogs.com/blog/1042406/201807/1042406-20180729163058011-290427357.png

Theory理论基础


经典深度学习与机器学习算法
Involution

Involution

@Aiken 2021-4-8

Ariticle Paper:star:Code; ZHIHU

Intro 引子

提出了一种新的神经网络算子(operator或op)称为involution,它比convolution更轻量更高效,形式上比self-attention更加简洁,可以用在各种视觉任务的模型上取得精度和效率的双重提升。

通过involution的结构设计,我们能够以统一的视角来理解经典的卷积操作和近来流行的自注意力操作。

基本思想

将传统Convolution Kernel 的两个基本特性:

  • 空间不变性:在同个通道的HW上共享3*3的卷积系数,参数共享;
  • 通道特异性:在每个通道上有特异的卷积核,最终使用1*1 like的方式来进行通道间的整合

反对称的修改成:

  • 空间特异性: 对每个Feature有对应size $H·W·K·K·G | G<<C$ 的kernel,特异性的对不同图像的不同部分进行处理
    • G表示Involution操作的分组数,如果需要下采样,就需要接步长为2的平均池化层,最终可以得到,实际上是一个分组卷积的方式,也就是说,我们K个一组的共享一个Kernel。用G去切分C,最终组合起来
  • 通道不变性:对每个通道之间共享这样的kernel,然后做简单的线性整合,对每个不同的channel有相同的处理方式。

传统的卷积基于邻域相关性的思想,同时旨在同一个channel中用单一的角度去分析特征,所以有空间不变性核通道特异性的这两个特征。

而Involution实际上更像是Self-Attention这种思路,通过Whole-Size的Kernel,执行一个特异性处理?

要点分析


Knowledge Evolution

Knowledge Evolution

Knowledge Evolution in Neural Networks

@Aiken 2021.4.7

Article:只能当成OverView,技术细节写的很差;Mendeley;

Code_PyTorch

Intro引子

Problem:如何在较小的数据集上训练神经网络,这到底是个小样本的方法还是个类别增量的方法?

Motivation: 考虑生物“基因”进化的方式,有一部分是“祖传”,另一部分是“适应”,通过对“祖传”的假设的不断学习进化,得到一个新的模型。

基因编码了从祖先到后代的遗传信息(知识),而基因传递将遗传信息从父母传递至其后代。虽然祖先并不一定具有更好的知识,但是遗传信息(知识)在几代人之间的发展将会促进后代更好的学习曲线。

Hypothesis:

  • 拟合假设$H^{origin}$:
  • 重置假设:$H^{later}$

TOBEUPDATE:将神经网络拆分成两个假设(子网络):通过重新训练多代网络来进化$H^{origin}$ 中的知识,每一代都会扰乱$H^{later}$的内部权重来鼓励$H^{origin}$ 学习独立的表达形式。

将深度神经网络的知识封装在一个名为拟合假设的子网络H中,将拟合假设的知识从父母网络传递至其后代,即下一代神经网络。并反复重复此过程,在后代网络中证明了其性能的显著提升:

图片

Contribution

提出了KELS(内核级卷积感知拆分),为CNN量身定做。虽然增加了训练时间,但是大大降低了推理成本,也减轻了较小数据集中的过拟合问题。


GANs 01

GANs 01

fGAN 对GAN理论的深度理解

@Aiken 2021 onenote部分的拓展编写,到时候拷过去,整合在一起。

fGAN: 不只是JS-Div散度,我们可以将所有的散度都应用到GANs的框架中。该部分的阅读是对GAN的基本理论最重要的文章之一。

基本理论体系和推演

首先给出fGAN中提出的基本理论:可以将所有的Div放入GANs的框架中,来做那个核心的关键演化判别指标:

上述公式将衡量P和Q两个分布之间的差距,公式中的$f$可以是很多不同的版本,但是要求满足如下的两个条件:

  1. 是一个凸函数;$f(\frac{(x1+x2)}{2})\leq \frac{[f(x1)+f(x2)]}{2}$,需要注意国内外的凹凸相反
  2. $f(1)=0$。

而我们知道$q(x)$是概率密度分布函数,实际上可以看成凸函数性质的推广,所以我们可以证得:

显然当我们取得合适的f,KL($f(x) = xlog(x)$); ReverseKL($-log(x)$);chi square ($f(x) = (x-1)^2$);

Fenchel Conjugate共轭

补充Fenchel共轭的知识来对后续的fGAN推导进行补充,定理内容如下: