본문 바로가기

ChatGPT/인공지능

[ML] 정규 분포(Normal distribution)란?

반응형

1. 정규 분포란?

정규 분포(Normal Distribution)는 통계학에서 가장 중요하고 널리 사용되는 확률 분포입니다. 정규 분포는 평균을 중심으로 하며, 종모양의 대칭적인 형태를 가지고 있습니다. 또한, 중심극한정리(Central Limit Theorem)에 의해 많은 독립적인 확률 변수들의 합으로 표현될 수 있는 분포로서, 다양한 자연 현상을 표현하는 데 사용됩니다.

정규 분포는 다음과 같은 특성을 가지고 있습니다.

  • 평균과 분산에 의해 전체적인 분포의 모양이 결정됩니다.
  • 평균을 중심으로 하며, 좌우대칭인 형태를 가집니다.
  • 표준 편차가 작을수록 분포가 좁고, 표준 편차가 클수록 분포가 넓어집니다.
  • 평균에서 대부분의 값들이 몰려 있으며, 멀리 떨어진 값들은 매우 적은 빈도를 가집니다.
  • 분포의 총 면적은 항상 1입니다.

정규 분포의 중요성은 다양한 분야에서 활용될 수 있습니다. 예를 들어, 통계적 가설 검정, 차원 축소, 모델링과 예측 등에 사용됩니다. 앞으로 본 블로그에서는 정규 분포의 특성과 확률 밀도 함수, 파라미터 설정 방법, 예제와 시각화를 통해 정규 분포의 이해를 더욱 심화시켜 보겠습니다.

2. 정규 분포의 특성

정규 분포는 다음과 같은 특성을 가지고 있습니다.

2.1. 평균과 분산

정규 분포는 평균과 분산에 의해 전체적인 분포의 모양이 결정됩니다. 평균은 분포의 중심을 나타내며, 분산은 분포의 폭을 결정합니다.

평균은 대상 모집단의 모든 값들을 합한 후 개수로 나누어 계산됩니다. 분산은 각 값과 평균값의 차의 제곱을 합한 후 개수로 나눈 것으로 계산됩니다.

2.2. 대칭성

정규 분포는 평균을 중심으로 하며, 좌우대칭인 형태를 가집니다. 이는 분포의 좌측과 우측에 대칭적인 형태를 갖는다는 것을 의미합니다. 따라서, 평균을 기준으로 좌우로 동일한 확률을 가지고 있습니다.

2.3. 첨도와 왜도

정규 분포는 상대적으로 첨도(Kurtosis)와 왜도(Skewness)가 작은 분포입니다. 첨도는 분포의 뾰족함 정도를 나타내며, 정규 분포는 첨도가 0인 특징을 갖습니다. 왜도는 분포의 비대칭 정도를 나타내며, 정규 분포는 왜도가 0인 특징을 갖습니다.

2.4. 중심극한정리

중심극한정리(Central Limit Theorem)에 따르면, 많은 독립적인 확률 변수들의 합으로 표현되는 분포는 근사적으로 정규 분포에 가까워집니다. 이는 정규 분포가 다양한 자연 현상을 표현하기 위해 많이 사용되는 이유 중 하나입니다.

정규 분포의 이러한 특성은 다양한 분야에서 활용됩니다. 통계적 가설 검정, 차원 축소, 모델링과 예측 등에서 정규 분포를 가정하는 것은 매우 흔한 일입니다. 앞으로 다음 장에서는 정규 분포의 확률 밀도 함수를 살펴보겠습니다.

3. 정규 분포의 확률 밀도 함수

정규 분포는 연속 확률 분포로, 연속적인 변수의 값을 나타내는 확률 밀도 함수로 정의됩니다.

정규 분포의 확률 밀도 함수는 다음과 같은 수학적인 형태를 갖습니다:

normal-density-function

여기서,

  • x는 변수의 값,
  • μ는 평균,
  • σ는 표준편차를 나타냅니다.
  • e는 자연 로그를 나타냅니다.

정규 분포의 확률 밀도 함수는 평균 μ를 중심으로 좌우 대칭인 형태를 갖습니다. 표준편차 σ는 분포의 폭을 결정하는 요소로, 값이 크면 평균 값을 중심으로 넓은 분포를 갖습니다.

정규 분포의 확률 밀도 함수를 이용하여 특정 구간에서 확률을 계산할 수 있습니다. 예를 들어, 확률 변수 X가 정규 분포를 따른다고 할 때, X의 값이 a보다 크고 b보다 작은 확률은 다음과 같이 계산할 수 있습니다:

normal-probability

정규 분포의 확률 밀도 함수는 파이썬의 scipy.stats 모듈을 이용하여 계산할 수 있습니다. 이를 활용하여 정규 분포의 예제와 시각화를 다음 장에서 살펴보겠습니다.

4. 정규 분포의 파라미터

정규 분포는 두 개의 파라미터를 갖고 있습니다: 평균 (μ)과 표준편차 (σ).

  • 평균 (μ): 정규 분포의 중심을 나타내는 값입니다. 평균 값은 분포의 위치를 결정하는 역할을 합니다. μ 값이 어떤 값으로 설정되면 분포의 그래프는 해당 값을 중심으로 좌우 대칭이 됩니다.
  • 표준편차 (σ): 정규 분포의 폭을 결정하는 값입니다. 표준편차가 작으면 분포가 좁아지고, 표준편차가 크면 분포가 넓어집니다. 표준편차는 분포의 변동성을 나타내며, 값이 작을수록 데이터가 평균 근처에 집중되어 있음을 의미합니다.

정규 분포의 평균과 표준편차는 데이터의 통계적 특성을 나타내는 중요한 지표로 사용됩니다. 이러한 파라미터를 조정하면 정규 분포의 모양이 변하므로 데이터 분포에 대한 이해와 분석에 큰 도움을 줄 수 있습니다.

다음 장에서는 파이썬을 이용하여 정규 분포의 예제와 시각화를 직접 확인해보겠습니다.

5. 정규 분포의 예제와 시각화

Python을 이용한 정규 분포 예제

파이썬의 numpymatplotlib 라이브러리를 활용하여 정규 분포를 생성하고 시각화해보겠습니다. 먼저 필요한 라이브러리를 import 해줍니다.

import numpy as np
import matplotlib.pyplot as plt

다음으로, np.random.normal() 함수를 사용하여 평균μ와 표준편차σ를 갖는 정규 분포를 생성합니다. 예를 들어, 평균이 0이고 표준편차가 1인 정규 분포를 생성해보겠습니다. 생성된 데이터는 data 변수에 저장됩니다.

mu = 0  # 평균
sigma = 1  # 표준편차
data = np.random.normal(mu, sigma, 1000)

이제 생성된 데이터를 히스토그램으로 시각화해보겠습니다. plt.hist() 함수를 사용하여 히스토그램을 그립니다. 히스토그램은 데이터의 분포를 막대 그래프 형태로 나타내어 주로 데이터의 빈도를 확인하는데 사용됩니다.

plt.hist(data, bins=30, density=True, alpha=0.5)
plt.xlabel('Value')
plt.ylabel('Density')
plt.title('Histogram of Normal Distribution')
plt.show()

위 예제 코드를 실행하면 평균이 0이고 표준편차가 1인 정규 분포의 히스토그램이 나타납니다.

정규 분포 시각화 예제

정규 분포를 시각화하는 다른 방법으로는 확률 밀도 함수를 사용하는 것이 있습니다. 확률 밀도 함수는 정규 분포의 모양을 곡선으로 나타냅니다.

파이썬에서는 scipy 라이브러리의 stats 모듈을 사용하여 정규 분포의 확률 밀도 함수를 계산할 수 있습니다. 다음은 평균이 0이고 표준편차가 1인 정규 분포의 확률 밀도 함수를 계산하는 예제 코드입니다.

from scipy import stats

x = np.linspace(-4, 4, 100)  # x 값 범위 설정
pdf = stats.norm.pdf(x, 0, 1)  # 평균 0, 표준편차 1인 정규 분포의 확률 밀도 함수 계산

plt.plot(x, pdf)
plt.xlabel('Value')
plt.ylabel('Probability Density')
plt.title('Probability Density Function of Normal Distribution')
plt.show()

위 코드를 실행하면 평균이 0이고 표준편차가 1인 정규 분포의 확률 밀도 함수가 그려집니다.

이처럼 파이썬을 활용하여 정규 분포를 생성하고 시각화할 수 있으며, 이를 통해 데이터의 분포를 파악하고 분석에 활용할 수 있습니다. 다음 장에서는 정규 분포의 활용에 대해 알아보겠습니다.

6. 정규 분포의 활용

통계적 가설 검정

정규 분포는 통계적 가설 검정에 널리 활용됩니다. 가설 검정은 주어진 데이터로부터 모집단에 대한 특정 가설을 검정하는 과정을 의미합니다. 정규 분포는 중심 극한 정리에 따라 다른 분포를 따르는 데이터의 분포를 정규 분포로 근사하는데 사용됩니다. 따라서 가설 검정을 위해 데이터가 정규 분포를 따른다는 가정을 할 수 있습니다.

차원 축소

데이터 분석에서는 종종 고차원 데이터를 다루게 됩니다. 고차원 데이터는 많은 변수를 가지고 있어 데이터의 구조를 파악하는데 어려움을 겪을 수 있습니다. 이때 차원 축소 기법 중 하나인 주성분 분석(PCA)에서는 데이터의 주요한 정보를 보존하기 위해 변수들을 선형 결합하여 원래의 변수보다 훨씬 적은 개수의 변수로 변환하는데, 이때 변환된 변수들이 정규 분포를 따르는 것이 가정됩니다.

모델링과 예측

데이터 분석에서는 다양한 모델링 알고리즘을 사용하여 데이터의 패턴을 찾고 예측을 수행합니다. 일부 모델링 알고리즘은 입력 데이터가 정규 분포를 따른다는 가정을 전제로 하고 있습니다. 따라서 입력 데이터가 정규 분포에 가까울수록 모델의 성능이 향상될 수 있습니다. 따라서 데이터의 정규성을 검사하고 데이터를 정규 분포에 가깝게 변환하는 전처리 과정은 모델링 및 예측 성능을 향상시키는데 도움을 줄 수 있습니다.

정규 분포는 이외에도 다양한 분야에서 활용될 수 있으며, 데이터의 특성에 따라 다른 확률 분포도 사용될 수 있습니다. 따라서 데이터 분석 및 통계에 이해야 하는 여러 가지 분포 중 하나인 정규 분포의 이해와 활용은 매우 중요합니다.

7. 결론

이 블로그 포스트에서 정규 분포에 대해 알아보았습니다. 정규 분포는 자연 현상이나 통계적인 데이터 분포를 나타내는데 널리 사용되며, 이해해야 할 필수적인 개념입니다. 정규 분포의 특성과 확률 밀도 함수, 파라미터, 예제 및 시각화, 그리고 활용 방법 등에 대해 알아보았습니다. 이를 통해 데이터의 분포, 가설 검정, 차원 축소, 모델링 및 예측 등 다양한 분야에서 정규 분포의 중요성과 활용성을 이해할 수 있습니다.

본 블로그 글은 G-ChatBot 서비스를 이용하여 AI(ChatGPT) 도움을 받아 작성하였습니다.

https://gboysking.net

 

G-ChatBot

Our service is an AI chatbot service developed using OpenAI API. Our service features a user-friendly interface, efficient management of token usage, the ability to edit conversation content, and management capabilities.

gboysking.net

 

반응형