샘플 효율적인 탐색을 위한 샘플-인지 엔트로피 정규화 기법에 관한 것으로, 업데이트된 정책(policy)을 이용하여 생성된 경험을 경험 리플레이 메모리(experience replay memory)에 저장하는 단계; 상기 경험 리플레이 메모리로부터 상기 경험의 랜덤 미니-배치(mini-batch)를 샘플링(sampling)하는 단계; 상기 샘플링한 미니-배치 내의 경험에 대하여 비율 함수를 계산하는 단계; 상기 샘플링한 미니-배치를 대상으로, 상기 비율 함수를 이용하여 가치 함수(value function)의 매개변수 및 정책의 매개변수를 업데이트하는 단계; 상기 샘플링한 미니-배치를 대상으로, 상기 비율 함수의 매개변수를 업데이트하는 단계; 및 상기 샘플링한 미니-배치를 대상으로, 상기 경험 리플레이 메모리 내 상기 경험의 확률 분포와 정책의 확률 분포의 비중을 조정하는 단계를 포함할 수 있다.