확률
주요 메모 사항
강의 난이도 급상승으로 어지러워져서 이제 강의보다 이력서에 집중하고자 한다...
확률
머신 러닝(Machine Learning)에서 확률(probability)은 불확실성을 모델링하는 데 사용되는 중요한 개념
확률은 어떤 사건이 발생할 가능성을 수치화하는데 사용되며, 머신 러닝에서는 데이터를 확률적으로 모델링하여 패턴을 학습하고 예측하는 데 사용
확률 기초
확률은 어떤 사건이 일어날 가능성을 숫자로 나타내는 개념
- 사건이 발생할 확률은 0부터 1까지의 값을 가지며, 0은 사건이 절대로 일어나지 않을 확률을 의미하고, 1은 사건이 반드시 발생할 확률을 의미
- 0과 1 사이의 값은 사건이 발생할 가능성의 정도를 나타냄
ㄴ 예를 들어, 0.5는 사건이 발생할 가능성이 50%라는 의미
확률은 주로 빈도주의적 관점과 베이지안 관점으로 해석
빈도주의적 관점
- 데이터에서 관측된 빈도를 기반으로 확률을 계산
- 예를 들어, 동전을 던져 앞면이 나올 확률을 계산할 때, 앞면이 나온 횟수를 전체 던진 횟수로 나누어 계산
ㄴ 이 방법은 많은 데이터가 필요하며, 빈도에 따라 확률이 수렴해야 정확한 확률을 추정할 수 있음
베이지안 관점
- 사전 정보와 새로운 관측 데이터를 결합하여 사건의 확률을 계산
- 베이지안 관점에서는 사건이 발생할 확률을 사전 분포와 우도(likelihood)를 이용해 갱신하는 방식으로 확률을 추정
ㄴ 이 방법은 초기 정보의 영향을 크게 받으며, 더 적은 데이터로도 더 정확한 확률을 추정할 수 있음
확률 분포
확률 분포는 확률 변수가 가질 수 있는 모든 값과 해당 값이 나타날 확률을 정의하는 함수
- 머신 러닝에서 데이터는 확률 변수의 형태로 표현되고, 이러한 확률 변수의 분포를 통해 데이터의 특성을 모델링하고 예측을 수행
이산 확률 분포
- 확률 변수가 이산적인 값을 가질 때 사용되는 확률 분포를 의미
- 이산 확률 분포는 각각의 이산적인 값을 나타내는 확률 질량 함수(probability mass function)로 표현
- 대표적인 이산 확률 분포로는 베르누이 분포, 이항 분포, 포아송 분포 등이 있음
연속 확률 분포
- 확률 변수가 연속적인 값을 가질 때 사용되는 확률 분포를 의미
- 연속 확률 분포는 확률 밀도 함수(probability density function)를 사용하여 표현
- 대표적인 연속 확률 분포로는 정규 분포, 균등 분포, 지수 분포, 감마 분포 등이 있음
머신 러닝에서는 데이터 분포를 알아내기 위해 주어진 데이터를 통해 확률 분포의 파라미터를 추정하는 과정이 중요
ㄴ 이러한 확률 분포를 이용하여 새로운 데이터의 발생 가능성을 평가하거나 예측을 수행
ㄴ 또한, 불확실성을 다루기 위해 확률적인 방법을 사용하는 것이 머신 러닝의 핵심적인 접근 방법 중 하나
'프로그래머스 데브코스-데이터 엔지니어 > TIL(Today I Learned)' 카테고리의 다른 글
07/18 72일차 머신러닝을 위한 기초 선형대수 (0) | 2023.07.18 |
---|---|
07/17 71일차 머신러닝 기초 (0) | 2023.07.17 |
07/14 70일차 Spark Streaming (0) | 2023.07.14 |
07/13 69일차 Kafka CLI, Topic, Consumer, ksqlDB (0) | 2023.07.13 |
07/12 68일차 Kafka (0) | 2023.07.12 |