본문 바로가기

반응형

Dev Language/Python

(6)
[Python][Matplotlib] 히스토그램(hist) 사용법 히스토그램의 개념과 용도 히스토그램이란? 히스토그램은 데이터의 분포를 시각화하는데 사용되는 차트입니다. 데이터의 빈도를 막대 형태로 표현하며, 가로 축에는 데이터의 구간, 세로 축에는 해당 구간에 속하는 데이터의 빈도 수를 나타냅니다. 각 막대의 높이는 해당 구간에 속하는 데이터의 개수를 나타내며, 전체 막대의 너비는 데이터의 전체 개수가 됩니다. 히스토그램을 통해 데이터의 분포, 중심 경향성, 이상치 등을 파악할 수 있습니다. 데이터의 분포가 어떠한 모양을 가지고 있는지, 데이터가 어느 범위에 몰려 있는지, 극단적인 값(이상치)이 있는지 등 시각적으로 파악할 수 있습니다. 히스토그램의 용도 히스토그램은 데이터 분석에서 다양한 용도로 사용됩니다. 주요 용도는 다음과 같습니다. 데이터 분포 확인: 데이터가..
[Python][Matplotlib] 바(bar) 차트 사용법 1. 바 차트 개요 바 차트는 데이터의 범주를 나타내는 그래프 중 하나로, 세로 축에 막대 형태로 표시되는 데이터를 이용하여 각 범주별 값을 비교하는데 사용됩니다. 주로 범주형 데이터를 시각화하거나, 카테고리 간의 상대적인 크기를 비교하는데 유용합니다. 바 차트의 기본 개념 바 차트는 주로 수직으로 표현되는데, 각 막대의 높이는 해당 범주의 값을 나타냅니다. X축은 범주를, Y축은 값의 크기를 나타냅니다. 막대는 독립적으로 그려지며, 각각의 막대는 서로 다른 범주를 대표합니다. 바 차트는 주로 다음과 같은 정보를 시각화하는데 사용됩니다: 범주형 데이터의 분포를 보여줄 때 범주간의 비교를 위해 값의 크기를 시각화할 때 바 차트 사용 사례 소개 바 차트는 다양한 분야에서 사용되는 통계 그래프 중 하나로 유용..
[Python][Matplotlib] 선(Line) 차트 사용법 1. 소개 선 차트(Line Chart)는 데이터의 변화를 추적하거나 비교하기 위해 많이 사용되는 시각화 방법입니다. 선 차트는 시간, 연령, 온도 등 연속적인 값들의 변화를 보여줄 때 효과적으로 사용됩니다. 또한, 여러 개의 데이터 시리즈를 한 번에 비교할 수 있는 다중 라인 차트를 만들어 정보를 비교하고 해석하는 데에도 유용합니다. 선 차트의 역할과 중요성 선 차트는 데이터의 변화를 직관적으로 이해할 수 있도록 도와주며, 주요한 경향성과 패턴을 시각적으로 파악할 수 있게 해줍니다. 선 차트를 통해 일련의 데이터를 시각적으로 표현하면, 데이터의 숫자나 수치에 비해 더욱 쉽고 빠르게 추세를 파악할 수 있습니다. 또한, 다양한 변수 간의 관계를 시각적으로 확인할 수 있어 비교 분석에 효과적입니다. 선 차트..
[Python][Pandas] 판다스 데이터 프레임 기본 통계 ( describe...) 1. 데이터 확인하기 판다스는 파이썬에서 데이터를 다루는 가장 효과적인 도구 중 하나입니다. 데이터를 분석하기 전에 먼저 데이터의 구조와 기본 통계량을 확인해야 합니다. 이를 통해 데이터의 형태를 파악하고, 이상치 또는 결측치를 확인할 수 있습니다. 1-1. 데이터 구조 파악하기 판다스의 DataFrame은 표 형태로 데이터를 다룰 수 있는 자료구조입니다. 데이터의 구조를 파악하기 위해 다음의 함수를 활용할 수 있습니다. 1) head() 함수 head() 함수는 데이터의 처음 5개 행을 출력해줍니다. 기본값은 5이지만, 괄호 안에 다른 숫자를 넣어 데이터를 원하는 만큼 출력할 수도 있습니다. import pandas as pd # 데이터프레임 생성 df = pd.DataFrame({'A': [1, 2,..
[Python][Pandas] 판다스 데이터 프레임 결합/합치기 ( concat, merge, join ) 1. 데이터 프레임 결합의 기본 개념 판다스(Pandas)는 데이터 분석에 매우 유용한 라이브러리로, 데이터 프레임을 다루는데 용이한 기능을 제공합니다. 데이터 프레임은 표 형태로 구성된 데이터를 다룰 때 사용되며, 여러 개의 열(Column)과 행(Row)으로 구성되어 있습니다. 데이터 프레임은 여러 개의 데이터를 하나로 합치는데 사용될 수 있습니다. 데이터를 합치는 방법은 크게 concat() 함수와 merge() 함수, 그리고 join() 함수를 이용하는 방법이 있습니다. concat() 함수는 데이터 프레임을 행 방향 또는 열 방향으로 결합할 때 사용되며, merge() 함수는 두 개 이상의 데이터 프레임을 공통된 열을 기준으로 결합할 때 사용됩니다. join() 함수는 인덱스를 기준으로 데이터 ..
[Python][Pandas] 판다스 소개 1. Pandas란? Pandas는 파이썬 데이터 분석 라이브러리로, 테이블 형태의 데이터를 다루는데 특화되어 있습니다. 주로 구조화된 데이터를 처리하기 위해 사용되며, 시계열 데이터나 통계적 데이터 등 다양한 종류의 데이터를 다룰 수 있습니다. Pandas는 효율적인 데이터 조작 기능을 제공하여 데이터 전처리부터 분석, 시각화까지 다양한 작업을 쉽게 처리할 수 있습니다. 특히, 대용량의 데이터도 처리할 수 있으며 직관적인 인터페이스를 제공하여 사용자 편의성을 높였습니다. Pandas의 가장 기본적인 자료구조는 Series와 DataFrame입니다. Series는 1차원 배열 형태의 데이터를 다루는데 사용되며, DataFrame은 2차원의 테이블 형태의 데이터를 다루는데 주로 사용됩니다. Pandas는 ..

반응형