经典深度学习与机器学习算法
Involution

Involution

@Aiken 2021-4-8

Ariticle Paper:star:Code; ZHIHU

Intro 引子

提出了一种新的神经网络算子(operator或op)称为involution,它比convolution更轻量更高效,形式上比self-attention更加简洁,可以用在各种视觉任务的模型上取得精度和效率的双重提升。

通过involution的结构设计,我们能够以统一的视角来理解经典的卷积操作和近来流行的自注意力操作。

基本思想

将传统Convolution Kernel 的两个基本特性:

  • 空间不变性:在同个通道的HW上共享3*3的卷积系数,参数共享;
  • 通道特异性:在每个通道上有特异的卷积核,最终使用1*1 like的方式来进行通道间的整合

反对称的修改成:

  • 空间特异性: 对每个Feature有对应size $H·W·K·K·G | G<<C$ 的kernel,特异性的对不同图像的不同部分进行处理
    • G表示Involution操作的分组数,如果需要下采样,就需要接步长为2的平均池化层,最终可以得到,实际上是一个分组卷积的方式,也就是说,我们K个一组的共享一个Kernel。用G去切分C,最终组合起来
  • 通道不变性:对每个通道之间共享这样的kernel,然后做简单的线性整合,对每个不同的channel有相同的处理方式。

传统的卷积基于邻域相关性的思想,同时旨在同一个channel中用单一的角度去分析特征,所以有空间不变性核通道特异性的这两个特征。

而Involution实际上更像是Self-Attention这种思路,通过Whole-Size的Kernel,执行一个特异性处理?

要点分析


Knowledge Evolution

Knowledge Evolution

Knowledge Evolution in Neural Networks

@Aiken 2021.4.7

Article:只能当成OverView,技术细节写的很差;Mendeley;

Code_PyTorch

Intro引子

Problem:如何在较小的数据集上训练神经网络,这到底是个小样本的方法还是个类别增量的方法?

Motivation: 考虑生物“基因”进化的方式,有一部分是“祖传”,另一部分是“适应”,通过对“祖传”的假设的不断学习进化,得到一个新的模型。

基因编码了从祖先到后代的遗传信息(知识),而基因传递将遗传信息从父母传递至其后代。虽然祖先并不一定具有更好的知识,但是遗传信息(知识)在几代人之间的发展将会促进后代更好的学习曲线。

Hypothesis:

  • 拟合假设$H^{origin}$:
  • 重置假设:$H^{later}$

TOBEUPDATE:将神经网络拆分成两个假设(子网络):通过重新训练多代网络来进化$H^{origin}$ 中的知识,每一代都会扰乱$H^{later}$的内部权重来鼓励$H^{origin}$ 学习独立的表达形式。

将深度神经网络的知识封装在一个名为拟合假设的子网络H中,将拟合假设的知识从父母网络传递至其后代,即下一代神经网络。并反复重复此过程,在后代网络中证明了其性能的显著提升:

图片

Contribution

提出了KELS(内核级卷积感知拆分),为CNN量身定做。虽然增加了训练时间,但是大大降低了推理成本,也减轻了较小数据集中的过拟合问题。


Leetcode 刷题笔记
SSH 常用场景和操作

SSH 常用场景和操作

主要介绍ssh服务在以下的几个方面(windows,linux)的使用情况:远程服务器连接(22),git&github(gitee),vscode免密登录。

ssh-key

GITHUB关于SSH的教程 👈可以直接切换成中文模式的

查看是否已存在

1
ls -al ~/.ssh

初始化 / 生成 ssh key

1
2
3
4
5
6
7
# github 推荐,优先度从上到下递减
ssh-keygen -t ed25519 -C "your_email@example.com"
# if not support
ssh-keygen -t rsa -b 4096 -C "your_email@example.com"
# tradition
ssh-keygen -t rsa -C "chenlangl@outlook.com"

将ssh添加到github的个人权限界面中

免密登录

在github的教程中也有另一种方式来实现免密登录,好像是ssh-agent的方式安全的保存密码。


Related Word of Emotion

Related Word of Emotion

疑似

  1. M. Suwa, N. Sugie and K. Fujimora, “A Preliminary Note on Pattern Recognition of Human Emotional Expression”, Proc. Int’l Joint Conf. Pattern Recognition, pp. 408-410, 1978.

  2. K. Scherer and P. Ekman, Handbook of Methods in Nonverbal Behavior Research., 1982.

  3. J.M. Carroll and J. Russell, “Facial Expression in Hollywood’s Portrayal of Emotion”, J. Personality and Social Psychology, vol. 72, pp. 164-176, 1997.

  4. Standardization and Assessment of College Students’ Facial Expression of Emotion.

    好像是评估表情标注的,

  5. Universals and cultural differences in the judgments of facial expressions of emotion
    不同文化下的表情对应情感的认知

  6. Classifying Emotion based on Facial Expression Analysis using Gabor Filter: A Basis for Adaptive Effective Teaching Strategy

确信

  1. Facial Expression Analysis
    这篇的introduction里面有好几篇

  2. Ekman P. Facial expression and emotion[J]. American psychologist, 1993, 48(4): 384.

  3. Keltner D, Ekman P, Gonzaga G C, et al. Facial expression of emotion[J]. 2003.

    上面这两篇的引用里应该能找到特别多

  4. Xu R, Chen J, Han J, et al. Towards emotion-sensitive learning cognitive state analysis of big data in education: deep learning-based facial expression analysis using ordinal information[J]. Computing, 2019: 1-16.


GANs 01

GANs 01

fGAN 对GAN理论的深度理解

@Aiken 2021 onenote部分的拓展编写,到时候拷过去,整合在一起。

fGAN: 不只是JS-Div散度,我们可以将所有的散度都应用到GANs的框架中。该部分的阅读是对GAN的基本理论最重要的文章之一。

基本理论体系和推演

首先给出fGAN中提出的基本理论:可以将所有的Div放入GANs的框架中,来做那个核心的关键演化判别指标:

上述公式将衡量P和Q两个分布之间的差距,公式中的$f$可以是很多不同的版本,但是要求满足如下的两个条件:

  1. 是一个凸函数;$f(\frac{(x1+x2)}{2})\leq \frac{[f(x1)+f(x2)]}{2}$,需要注意国内外的凹凸相反
  2. $f(1)=0$。

而我们知道$q(x)$是概率密度分布函数,实际上可以看成凸函数性质的推广,所以我们可以证得:

显然当我们取得合适的f,KL($f(x) = xlog(x)$); ReverseKL($-log(x)$);chi square ($f(x) = (x-1)^2$);

Fenchel Conjugate共轭

补充Fenchel共轭的知识来对后续的fGAN推导进行补充,定理内容如下:


Markdown Handbook

Markdown Handbook

参考资料

一些关于markdown语法的参考资料,但是实际上如果用Typora的话,有很多的语法是不需要记忆的,只需要稍微了解就可以了,更需要学习的其实是Latex的公式编写。

  1. 基本语法:https://www.jianshu.com/p/191d1e21f7ed
  2. 进阶语法:https://blog.csdn.net/m0_37925202/article/details/80461714
  3. 其他语法:https://blog.csdn.net/cuishizun/article/details/80311673

目录:

Editor:

  • Obsidian、Nvim、Typora:Notes的主力编写工具
  • VsCode:Readme文档
  • Jupyter:代码笔记编写的时候

Some daily usage:

操作名称 Typora VsCode
跳转 [button] (#name)-># [button] (#name)-> \
复选框 - [ ] - [ ]

Hyper-Resolution

Hyper-Resolution

说明:重点针对超分辨率技术

备注:
超分辨率在人脸识别上的多,但是表情识别上的确实不多,不过很多都会引用一波

超分辨率在表情识别中的应用

1
2
3
4
KEY WORDs :

1. ("super resolution" OR "image restore") AND ("facial expression recognition" OR "emotion recognition")
2. ("super resolution") AND ("expression recognition")
  1. < Robust Emotion Recognition from Low Quality and Low Bit Rate Video: A Deep Learning Approach >

    • 针对于低带宽传输的分辨率不足和比率低的应用场景
    • 基于facial expression recognition 的 emotion recognition
    • 在解码器进行视频下采样的时候,联合SR和识别
  2. < Effective image super resolution via hierarchical convolutional neural network >

    • 通过层次卷积神经网络(HCNN)来实现有校的SR
    • 在facial expression recognition 中案例研究发现增强后的图像有助于提高识别性能
  3. < Spatio-temporal Pain Recognition in CNN-Based Super-Resolved Facial Images >

    • 有点擦边吧,就是基于超分辨率算法的多分辨率图像,对面部进行识别从而判断疼痛程度
    • 也可能妹啥用,你可以考虑一下
  4. < Low-resolution facial expression recognition: A filter learning perspective >

    • 摘要中没有明确的提到Super-Resolution,
    • 但是感觉低分辨率这个问题前缀,可能和SR有关系来着
  5. < PKU_ICST at TRECVID 2019: Instance Search Task >

    • 好像是什么比赛,过程中有一部分是面部表情检测
    • 在识别之前采取了超分辨率的查询增强
  6. < Facial Expression Restoration Based on Improved Graph Convolutional Networks >

    • 针对分辨率低和部分遮挡的面部表情识别
    • GAN IGCN RRMB 修复和超分辨率面部表情

Image Caption Dataset

Image Caption Dataset

Goals:

1.数据量要求
2.标注的标准
3.标注的手段

Microsoft COCO Captions:

使用Amazon的Mechanical Turk(AMT)收集数据,再对数据进行标注。
“Each of our captions are also generated using human subjects on AMT.”

一些其他信息:(Caption Evaluation Server):

好像是可以评价caption的生成质量,但是应该是仅仅针对于使用COCO数据进行的,所以这一部分就不分析了。
文中(section 3)包含了几种不同评价方法的介绍:

BLEU
ROUGE
METEOR
CIDEr

在进行Evaluation之前的 Tokenization and preprocessing中:
使用了工具来添加caption标记:

  • Stanford PTBTokenizer in Stanford CoreNLP tools (version 3.4.1)

这个工具是模仿的是peen treebank3. 其参考文献和相关链接如下:

“The Stanford CoreNLP natural language processing toolkit,” in Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, 2014, pp. 55–60. related-link

数据规模: