강화학습(reinforcement learning)의 목적은, 에이전트(agent)로 하여금 보상을 최대화하고 처벌을 최소화하는 것이다. 이러한 두 가지는 전통적으로, 서로 같은 것으로서 결국 하나라고 인식되어져 왔고, 따라서 강화학습 모델에서의 학습은, '가치(value)'의 단일 척도에 의해 보상과 처벌을 표현하는(represent) 단일 강화 신호에 의해 구동되어져 왔다. 본 발명은 보상과 처벌을 두 개의 분리된 카테고리로 표현하고, 각각에 대해 두 개의 대립되는 표현을 갖도록 하는 것이 유리하다는 것을 제안한다. 따라서 보상 증거(evidence for reward), 반 보상 증거(evidence against reward), 처벌 증거(evidence for punishment) 및 반 처벌 증거(evidence against punishment)의 4개의 '기본 가치 신호(elementary value signal)'를 제안한다. 본 발명은 이러한 네 개의 기본 가치 신호가 다양한 유효 강화 신호(effective reinforcement signal)를 만드는 다양한 조합으로 어떻게 합해질 수 있는지를 설명한다. 뇌는 수치 표현의 총 8가지 타입을 학습하는 방법을 사용한다는 것을 제안한다.