본문 바로가기

반응형

분류 전체보기

(127)
[Python][Pandas] 판다스 데이터 프레임 기본 통계 ( describe...) 1. 데이터 확인하기 판다스는 파이썬에서 데이터를 다루는 가장 효과적인 도구 중 하나입니다. 데이터를 분석하기 전에 먼저 데이터의 구조와 기본 통계량을 확인해야 합니다. 이를 통해 데이터의 형태를 파악하고, 이상치 또는 결측치를 확인할 수 있습니다. 1-1. 데이터 구조 파악하기 판다스의 DataFrame은 표 형태로 데이터를 다룰 수 있는 자료구조입니다. 데이터의 구조를 파악하기 위해 다음의 함수를 활용할 수 있습니다. 1) head() 함수 head() 함수는 데이터의 처음 5개 행을 출력해줍니다. 기본값은 5이지만, 괄호 안에 다른 숫자를 넣어 데이터를 원하는 만큼 출력할 수도 있습니다. import pandas as pd # 데이터프레임 생성 df = pd.DataFrame({'A': [1, 2,..
[Python][Pandas] 판다스 데이터 프레임 결합/합치기 ( concat, merge, join ) 1. 데이터 프레임 결합의 기본 개념 판다스(Pandas)는 데이터 분석에 매우 유용한 라이브러리로, 데이터 프레임을 다루는데 용이한 기능을 제공합니다. 데이터 프레임은 표 형태로 구성된 데이터를 다룰 때 사용되며, 여러 개의 열(Column)과 행(Row)으로 구성되어 있습니다. 데이터 프레임은 여러 개의 데이터를 하나로 합치는데 사용될 수 있습니다. 데이터를 합치는 방법은 크게 concat() 함수와 merge() 함수, 그리고 join() 함수를 이용하는 방법이 있습니다. concat() 함수는 데이터 프레임을 행 방향 또는 열 방향으로 결합할 때 사용되며, merge() 함수는 두 개 이상의 데이터 프레임을 공통된 열을 기준으로 결합할 때 사용됩니다. join() 함수는 인덱스를 기준으로 데이터 ..
[Python][Pandas] 판다스 소개 1. Pandas란? Pandas는 파이썬 데이터 분석 라이브러리로, 테이블 형태의 데이터를 다루는데 특화되어 있습니다. 주로 구조화된 데이터를 처리하기 위해 사용되며, 시계열 데이터나 통계적 데이터 등 다양한 종류의 데이터를 다룰 수 있습니다. Pandas는 효율적인 데이터 조작 기능을 제공하여 데이터 전처리부터 분석, 시각화까지 다양한 작업을 쉽게 처리할 수 있습니다. 특히, 대용량의 데이터도 처리할 수 있으며 직관적인 인터페이스를 제공하여 사용자 편의성을 높였습니다. Pandas의 가장 기본적인 자료구조는 Series와 DataFrame입니다. Series는 1차원 배열 형태의 데이터를 다루는데 사용되며, DataFrame은 2차원의 테이블 형태의 데이터를 다루는데 주로 사용됩니다. Pandas는 ..
[ML] 포아송 분포 (Poisson Distribution)란? 1. 포아송 분포란? 포아송 분포는 불연속 확률 분포로서, 사건이 발생하는 횟수가 주어진 시간이나 공간에서 독립적으로 발생할 때 사용되는 확률 분포입니다. 예를 들어, 단위 시간당 도착하는 고객 수, 단위 면적당 결함 발생 횟수 등의 경우에 포아송 분포가 적용될 수 있습니다. 포아송 분포는 주로 이산 확률 분포로 고객 서비스, 품질 관리, 통신 등 다양한 분야에서 활용됩니다. 이러한 분야에서 사건 발생의 비율 또는 평균 발생 횟수를 예측하는 데 사용할 수 있습니다. 포아송 분포는 비유하자면, 동전 던지기에서 앞면이 나오는 확률이 항상 0.5인 것처럼, 일정한 평균 발생 횟수를 가진 사건들이 독립적으로 발생하는 상황을 모델링하는 분포라고 할 수 있습니다. 포아송 분포의 특징은 다음과 같습니다: 평균 발생 ..
[ML] 로그-정규 분포 (Log-Normal Distribution)란? 1. 소개 데이터 분석이나 통계 분야에서 자주 등장하는 분포 중 하나가 로그-정규 분포(Log-Normal Distribution)입니다. 로그-정규 분포는 정규 분포의 로그 값이 정규 분포를 따르는 분포로, 자연계와 사회적 현상, 경제학 등 다양한 분야에서 많이 사용됩니다. 이 분포는 대부분의 값이 양수인 경우에 유용하게 적용될 수 있으며, 특히 금융 데이터, 자연 자원의 분포, 대기 오염 농도 등 다양한 현상을 설명하는데 활용됩니다. 로그-정규 분포를 이해하고 분석하기 위해서는 먼저 정규 분포에 대한 이해가 필요합니다. 따라서 이 블로그에서는 먼저 정규 분포에 대해 소개한 후에 로그-정규 분포에 대해 자세히 설명하고, 파이썬을 활용하여 로그-정규 분포를 시각화하는 예제도 함께 제공하겠습니다. 로그-정..
[ML] 소프트맥스 함수 (Softmax Function)란? 1. 소프트맥스 함수란? 소프트맥스 함수(Softmax function)는 주어진 벡터를 입력으로 받아 각 원소가 0과 1 사이의 값을 가지며, 모든 원소의 합이 1이 되도록 변환해주는 함수입니다. 이 함수는 분류 문제에서 다중 클래스의 확률을 예측하는 데 주로 사용됩니다. 소프트맥스 함수는 입력 벡터의 각 원소가 어떤 클래스에 속할 확률을 나타내도록 변환해줍니다. 예를 들어, 다음과 같은 입력 벡터를 가정해보겠습니다: [1, 2, 3]. 소프트맥스 함수를 적용하면 각 원소를 0과 1 사이의 값으로 변환하고 모든 원소의 합이 1이 되도록 만들어줍니다. 따라서 이 입력 벡터에 소프트맥스 함수를 적용하면 다음과 같은 출력 벡터를 얻을 수 있습니다: [0.090, 0.244, 0.665]. 소프트맥스 함수는 ..
[ML] 로지스틱 함수 (Logistic Function)란? 1. 로지스틱 함수 개요 로지스틱 함수는 딥러닝과 머신러닝에서 자주 사용되는 함수 중 하나입니다. 주로 이진 분류 문제에서 사용되며, 입력 변수의 값을 0과 1 사이로 제한하는 역할을 합니다. 로지스틱 함수는 이름 그대로 "로지스틱 (logistic)" 모양의 S자 형태를 가지고 있어서 시그모이드 함수(sigmoid function)라고도 불리기도 합니다. 로지스틱 함수는 실수 범위의 입력을 확률로 매핑하는 함수로 사용되기 때문에, 일반적으로 0과 1 사이의 값으로 출력됩니다. 이는 이진 분류 문제에서 어떠한 데이터가 어느 클래스에 속할 확률이 더 높은지를 예측하기 위해 사용됩니다. 로지스틱 함수는 다음과 같이 표현됩니다. 여기서 x는 입력 변수를 나타내며, 로지스틱 함수의 출력은 0과 1 사이의 값입니..
[ML] 지수 분포 (Exponential Distribution)란? 1. 소개 지수 분포는 확률 분포 중에서도 많이 사용되는 분포 중 하나입니다. 이 분포는 한 가지 이벤트가 발생한 후 다음 이벤트가 발생하기까지 걸리는 시간을 모델링하는데 사용됩니다. 예를 들어, 어떤 공정에서 제품의 고장 시간, 서버의 서비스 시간, 대기열 처리 시간 등 다양한 경우에 지수 분포가 적용될 수 있습니다. 지수 분포는 연속 확률 분포로서, 시간의 단위에 따라 표현됩니다. 이 분포의 특징은 양수 값만을 가지며, 오른쪽으로 꼬리가 길게 늘어진 형태를 보입니다. 이러한 특성으로 인해, 지수 분포는 사건이 발생하는 빈도나 간격에 관심이 있는 경우에 많이 사용됩니다. 이번 글에서는 지수 분포의 개념과 수학적 특징에 대해 알아보겠습니다. 또한, 파이썬을 사용하여 지수 분포를 실험하는 예제도 함께 다룰..

반응형