기록 블로그

프로그래머스 데브코스-데이터 엔지니어/TIL(Today I Learned)

07/19 73일차 확률 기초 | 분포

usiohc 2023. 7. 19. 16:59

확률


주요 메모 사항


강의 난이도 급상승으로 어지러워져서 이제 강의보다 이력서에 집중하고자 한다...

 

 

확률

머신 러닝(Machine Learning)에서 확률(probability)은 불확실성을 모델링하는 데 사용되는 중요한 개념

 확률은 어떤 사건이 발생할 가능성을 수치화하는데 사용되며, 머신 러닝에서는 데이터를 확률적으로 모델링하여 패턴을 학습하고 예측하는 데 사용

 

 

확률 기초

확률은 어떤 사건이 일어날 가능성을 숫자로 나타내는 개념

- 사건이 발생할 확률은 0부터 1까지의 값을 가지며, 0은 사건이 절대로 일어나지 않을 확률을 의미하고, 1은 사건이 반드시 발생할 확률을 의미

 

- 0 1 사이의 값은 사건이 발생할 가능성의 정도를 나타냄

ㄴ 예를 들어, 0.5는 사건이 발생할 가능성이 50%라는 의미

 

 

확률은 주로 빈도주의적 관점과 베이지안 관점으로 해석

 

빈도주의적 관점

- 데이터에서 관측된 빈도를 기반으로 확률을 계산

- 예를 들어, 동전을 던져 앞면이 나올 확률을 계산할 때, 앞면이 나온 횟수를 전체 던진 횟수로 나누어 계산

ㄴ 이 방법은 많은 데이터가 필요하며, 빈도에 따라 확률이 수렴해야 정확한 확률을 추정할 수 있음

 

베이지안 관점

- 사전 정보와 새로운 관측 데이터를 결합하여 사건의 확률을 계산

- 베이지안 관점에서는 사건이 발생할 확률을 사전 분포와 우도(likelihood)를 이용해 갱신하는 방식으로 확률을 추정

ㄴ 이 방법은 초기 정보의 영향을 크게 받으며, 더 적은 데이터로도 더 정확한 확률을 추정할 수 있음

 

 

 

확률 분포

확률 분포는 확률 변수가 가질 수 있는 모든 값과 해당 값이 나타날 확률을 정의하는 함수

- 머신 러닝에서 데이터는 확률 변수의 형태로 표현되고, 이러한 확률 변수의 분포를 통해 데이터의 특성을 모델링하고 예측을 수행

 

이산 확률 분포

- 확률 변수가 이산적인 값을 가질 때 사용되는 확률 분포를 의미

- 이산 확률 분포는 각각의 이산적인 값을 나타내는 확률 질량 함수(probability mass function)로 표현

- 대표적인 이산 확률 분포로는 베르누이 분포, 이항 분포, 포아송 분포 등이 있음

 

연속 확률 분포

- 확률 변수가 연속적인 값을 가질 때 사용되는 확률 분포를 의미

- 연속 확률 분포는 확률 밀도 함수(probability density function)를 사용하여 표현

- 대표적인 연속 확률 분포로는 정규 분포, 균등 분포, 지수 분포, 감마 분포 등이 있음

 

 

 

머신 러닝에서는 데이터 분포를 알아내기 위해 주어진 데이터를 통해 확률 분포의 파라미터를 추정하는 과정이 중요

ㄴ 이러한 확률 분포를 이용하여 새로운 데이터의 발생 가능성을 평가하거나 예측을 수행

ㄴ 또한, 불확실성을 다루기 위해 확률적인 방법을 사용하는 것이 머신 러닝의 핵심적인 접근 방법 중 하나