강화 학습 기반 다중 안테나 송수신단의 I/Q 불균형 파라미터 추정 방법 및 시스템이 제시된다. 일 실시예에 따른 강화 학습 기반 다중 안테나 송수신단의 I/Q 불균형 파라미터 추정 방법은, 송신단 및 수신단 중 적어도 어느 하나 이상의 I/Q 불균형이 발생하는 다중 안테나 채널에서, 각 파라미터의 초기값을 임의로 설정하는 단계; I/Q 불균형 값이 포함된 유효 채널을 측정하는 단계; 이전 단계(step)에서 추정한 상기 송신단 또는 상기 수신단 I/Q 불균형 값을 증가 또는 감소시켜 I/Q 불균형 값의 추정 값을 계산하는 단계; 계산된 상기 I/Q 불균형 값의 추정 값을 이용하여 I/Q 불균형이 보상된 유효 채널을 계산하는 단계; 상기 I/Q 불균형이 보상된 유효 채널을 이용하여 I/Q 불균형이 보상된 정도를 나타내는 코스트(cost)를 측정하는 단계; 상기 코스트(cost)에 비례하여 보상(reward)을 계산하는 단계; 및 상기 보상을 기반으로 다음 단계 크기(step size)를 설정하는 단계를 포함하여 이루어질 수 있다.