본문 바로가기

Information Theory

2-2. Jensen's 와 Fano's inequality 및 충분 통계량

Elements of Information Theory - Second Edition, Thomas M. Cover & Joy A. Thomas

 

2.1 Jensen's inequality와 이에 대한 결과

두 파트로 나누어진 2장에서 후반부에 해당하는 2-2는

옌센의 부등식 (Jensen's inequality)을 다루면서 시작할 것이다.

 

그 전에, convex function이란 개념에 대해 다룬다.

다음과 같이 (a, b) 사이에서 아래로 볼록한 성질 (convex)을 갖는 함수 (function) f(x) 에 대해서 다음 수식을 만족한다.

이때, x_1x_2 (a, b) 범위안에 있으며 람다의 값은 0과 1사이에 있다 (0 <= λ <= 1).

이때, function f(x) 가 strictly convex 라면, λ = 0 혹은 λ = 1일때 등호 (equality)가 성립한다.

strictly convex의 의미는 위의 식에서 등호만 제외하고 부등호만 존재하는 수식인 경우를 말한다.

자세한 내용을 <convex optimization>에 다룬다.

또한, 만약 -f 가 convex라면, function f 는 위로 볼록(concave)이다.

 


대표적인 convex function으로 다음과 같은 function이 있다 (x >= 0).

또한, 대표적인 concave function으로 다음과 같은 function이 있다 (x >= 0).

이러한 대표 function들의 그림을 그리면 아래와 같다.

그럼, 다음과 같은 질문을 할 수 있다.

해당 function들은 가장 기본적인 function인데, 만약 더욱 복잡한 function f 가 존재한다고 하자.
이때, f 가 convex인지 혹은 concave인지 어떻게 알 수 있을까?

 

이는 다음과 같은 정리 (theorem)으로 정의할 수 있다.

만약 function f 가 어떤 구간(interval) 내에서 "음이 아닌 이차 도함수(non-negative second derivative)"를 갖는다면,

그 function f 는 해당 구간에서 "convex (혹은 strictly convex)"이다.

이에 대한 증명은 다음과 같다.

 

먼저, 어떤 function f 가 미분가능하다고 하자.

또한, function f 의 어떤 구간 내에 점 (point) x_0 가 존재한다고 하자.

이때, 우리는 x_0 라는 점을 이용하여

function f 를 다음과 같이 "테일러 급수 전개 (Taylor series expansion)"를 사용한다.

 여기서 x*x_0x 사이에 있는 점을 말한다.

만약, f''(x*) >= 0이라면, 전체 수식에서의 마지막 항 (term)은 모든 x 에 대해서 non-negative이다. 

여기서 아래와 같이 x_0 를 정의해보자.

이때 x = x_1 이라 한다면, 우리는 아래의 수식을 얻을 수 있다.

1번

이와 유사하게 x = x_2 라 한다면, 아래의 수식을 얻을 수 있다.

2번

1번 수식에 λ를, 2번 수식에 1-λ 를 곱하여 두 수식을 더하면, 가장 맨위에 있는 수식을 만족한다. ∎

 

이렇게 정의한 convex function을 이용하여 Jensen's inequality에 대해 정의하자.

만약 function f 가 convex function이고 확률변수 X 가 있다고 하자.

이때, 다음 수식을 만족하는데, 이를 "Jensen's inequality"라고 한다.

여기서 E 는 expectation을 의미한다.

'Information Theory' 카테고리의 다른 글

2-1. 엔트로피, 상관 엔트로피 및 상호 정보  (0) 2023.07.12
1. 정보이론의 기초  (0) 2023.07.07