[Paper Review] PCN(Predictive Coding Network) - Introduction

2023. 4. 4. 10:57

https://arxiv.org/abs/1802.04762

 

Deep Predictive Coding Network for Object Recognition

Based on the predictive coding theory in neuroscience, we designed a bi-directional and recurrent neural net, namely deep predictive coding networks (PCN). It has feedforward, feedback, and recurrent connections. Feedback connections from a higher layer ca

arxiv.org

 

Deep Predictive Coding Network for Object Recognition

Haiguang Wen, Kuan Han, Junxing Shi, Yizhen Zhang, Eugenio Culurciello, Zhongming Liu

 

해당 논문 리뷰는 위 링크의 논문을 리뷰한 것입니다.

 

오류나 내용 정정 요청에 대한 문의는 언제나 환영입니다.

 

 

 

Introduction to Predictive Coding

 

CNNs(Convolutional neural networks) model은 image recognition 분야에서 많은 성취를 이루어냈습니다.

 

Classical CNN model은 다음과 같은 것들이 있습니다.

 

  • AlexNet
  • VGG
  • GoogLeNet
  • ResNet
  • ...

 

위와 같은 model 들은 CV (Computer Vision) 분야에서 많은 성과를 이루어냈죠.

 

이러한 것들은 오로지, 더 많은 layers를 쌓는다거나 더 많은 filters들을 사용하여 기술이 발달했습니다.

 

다양한 구조적 재구성에도 불구하고, 이 models들은 계속해서 같은 계산 원리로 모델들은 scale-up 해왔습니다.

 

여기서 말하는 같은 계산 원리란 다음과 같은 것입니다.

 

Extracting image features by a feddforward pass through stacks of convoltuional layers.

 

이러한 hierarchical processing은 모두 bilolgical visual systems(Hubel & Wiesel, 1968) 에 의해서 생겨났지만,

 

CNNs은 brain과 비교하여 많은 측면에서 차이를 보입니다.

 

CNN과 다르게 brain은 "feedforward, feddback, recurrent connections"을 통해서 robust visual perception을 합니다(Felleman & Van, 1991).

 

출처 : https://www.researchgate.net/figure/A-The-feedforward-and-feedback-interactions-in-the-brain-The-massive-feedback_fig1_346843267

 

 

다시 말하면,

 

정보가 처리되는 방식은 다음과 같습니다.

 

  • bottom-up pathway
    • running from lower to higher visual areas.
  • top-down pathway
    • running in the opposite direction

 

이러한 구조를 논문에선 다음과 같이 밝힙니다.

 

 

Such bi-directional processes enable humans to perform a wide range of visual tasks, including object recognition.

 

우리 뇌의 이러한 구조 덕에 우리는 다양한 visual task가 가능해지는 것입니다.

 

조금 더 biological 하게 들어가봅시다.

 

 

출처 : https://www.sciencedirect.com/science/article/pii/S0001691819303725

 

 

인간의 vision으로, input이 아주 짧은 순간 지나간다면, feedforward 와 recurrent processing이 불가하여 아주 빠른 물체를 인식하기 위해서는 feedforward processing이 필수적입니다.(Serre et al., 2007)

 

그럼에도,

 

feedback processing은 물체 인식을 향상시켜주고, 인식에 영향을 주는 cognitive prcessing을 가능하게 합니다.(Wyatte et al., 2014)

 

NeuroScience에서, feedforward와 feedback processes의 상호작용은 hierachical predictive coding에 의해 묘사됩니다.

(Rao & Ballard, 1999; Friston & Kiebel, 2009; Bastos et al., 2012; Clark, 2013)

 

이 Predictive coding의 내용은 다음과 같습니다.

 

feedback connections from a higher visual area to a lower visual area carry predictions of lower-level neural activities,

feedforward connections carry the errors between the predictions and the actual lower-level activities.

 

결과적으로, brain은 동적으로 그것의 representations을 update하며, 계속해서 그것의 인식과 행동적 결정을 정제하는 작업을 거칩니다.

 

이러한 brain theory에 기반하여 a bi-directional and recurrent neural network가 바로 이 논문에서 설정한 PCN입니다.

 

PCN (Predictive Coding Network)

 

input image가 주어지면, 이 PCN model은 bottom-up 과 top-down 방식을 반복적인 cycles을 돌며 수행하며, 모든 network의 layer에 걸쳐서 bottom-up input과 top-down prediction사이의 redisual error를 최소화하며  그 것의 내부 representations을 update합니다.

 

이러한 predictive coding을 이용한 계산적 메커니즘에 있어, PCN은 기존 feedforward-only CNNs 모델과 다릅니다.

 

이것은 내부 representation에 의해, 예측 가능한 input의 더 나은 representation 을 추출하기 위해 반복적으로 bi-directional계산을 수행합니다.

 

그리고 다음과 같이 정리할 수 있습니다.

 

When it is unfoled in time, PCN runs a longer cascade of nonlinear transformations by running more cycles of bottom-up and top-down computation through the same architecture without adding more layers, unts, or connections.

 

 

결국, layer, unit, connection의 추가 없이 진행한다는 것이 기존 모델들과의 많은 차이를 두며 좀 더 biological한 특징을 포함한 것이 되겠습니다.

 

이러한 구조로 우리는 neuroscientific insight를 얻을 수 있습니다.

 

 

 

그리고 논문에서는, benchmark dataset을 활용해 PCN와 기존의 feedforward-only CNNs model을 평가했습니다.

 

CNN 보다 나은 PCN의 본질적인 이점을 찾아내는 것이 이 논문의 핵심입니다.

 

그리고 PCN은 항상 CNN 보다 outperform 했습니다. 

 

여기서 중요한 것은 less layers 임에도 불구하고 사람의 인지 processing과 비슷한 구조만으로 이루어냈다는 것에 의미가 있습니다.