본문 바로가기

반응형

전체 글

(128)
[Python][Matplotlib] 히스토그램(hist) 사용법 히스토그램의 개념과 용도 히스토그램이란? 히스토그램은 데이터의 분포를 시각화하는데 사용되는 차트입니다. 데이터의 빈도를 막대 형태로 표현하며, 가로 축에는 데이터의 구간, 세로 축에는 해당 구간에 속하는 데이터의 빈도 수를 나타냅니다. 각 막대의 높이는 해당 구간에 속하는 데이터의 개수를 나타내며, 전체 막대의 너비는 데이터의 전체 개수가 됩니다. 히스토그램을 통해 데이터의 분포, 중심 경향성, 이상치 등을 파악할 수 있습니다. 데이터의 분포가 어떠한 모양을 가지고 있는지, 데이터가 어느 범위에 몰려 있는지, 극단적인 값(이상치)이 있는지 등 시각적으로 파악할 수 있습니다. 히스토그램의 용도 히스토그램은 데이터 분석에서 다양한 용도로 사용됩니다. 주요 용도는 다음과 같습니다. 데이터 분포 확인: 데이터가..
[Python][Matplotlib] 바(bar) 차트 사용법 1. 바 차트 개요 바 차트는 데이터의 범주를 나타내는 그래프 중 하나로, 세로 축에 막대 형태로 표시되는 데이터를 이용하여 각 범주별 값을 비교하는데 사용됩니다. 주로 범주형 데이터를 시각화하거나, 카테고리 간의 상대적인 크기를 비교하는데 유용합니다. 바 차트의 기본 개념 바 차트는 주로 수직으로 표현되는데, 각 막대의 높이는 해당 범주의 값을 나타냅니다. X축은 범주를, Y축은 값의 크기를 나타냅니다. 막대는 독립적으로 그려지며, 각각의 막대는 서로 다른 범주를 대표합니다. 바 차트는 주로 다음과 같은 정보를 시각화하는데 사용됩니다: 범주형 데이터의 분포를 보여줄 때 범주간의 비교를 위해 값의 크기를 시각화할 때 바 차트 사용 사례 소개 바 차트는 다양한 분야에서 사용되는 통계 그래프 중 하나로 유용..
[Python][Matplotlib] 선(Line) 차트 사용법 1. 소개 선 차트(Line Chart)는 데이터의 변화를 추적하거나 비교하기 위해 많이 사용되는 시각화 방법입니다. 선 차트는 시간, 연령, 온도 등 연속적인 값들의 변화를 보여줄 때 효과적으로 사용됩니다. 또한, 여러 개의 데이터 시리즈를 한 번에 비교할 수 있는 다중 라인 차트를 만들어 정보를 비교하고 해석하는 데에도 유용합니다. 선 차트의 역할과 중요성 선 차트는 데이터의 변화를 직관적으로 이해할 수 있도록 도와주며, 주요한 경향성과 패턴을 시각적으로 파악할 수 있게 해줍니다. 선 차트를 통해 일련의 데이터를 시각적으로 표현하면, 데이터의 숫자나 수치에 비해 더욱 쉽고 빠르게 추세를 파악할 수 있습니다. 또한, 다양한 변수 간의 관계를 시각적으로 확인할 수 있어 비교 분석에 효과적입니다. 선 차트..
[Linux] Pyspark, Jupyter(쥬피터) 쉽게 연동하기 Pyspark은 파이썬으로 작성된 Apache Spark의 파이썬 API입니다. 쥬피터 노트북(Jupyter Notebook)은 데이터 분석 및 시각화를 위한 인터랙티브한 환경을 제공하는 툴입니다. Pyspark과 쥬피터를 함께 사용하면 데이터 처리 및 분석 작업을 보다 편리하게 수행할 수 있습니다. 이번 글에서는 Pyspark와 쥬피터를 연동하는 방법에 대해 알아보겠습니다. https://tobelinuxer.tistory.com/135 [Linux] 우분투에 Spark 설치하기 우분투에서 Spark 설치하기 Apache Spark는 대량의 데이터를 처리하고 분석하는 빅데이터 처리를 위한 오픈 소스 분산 컴퓨팅 시스템입니다. 이번 글에서는 Ubuntu 운영체제에 Spark를 설치하는 방법에 tobeli..
[Linux] 우분투에 Spark 설치하기 우분투에서 Spark 설치하기 Apache Spark는 대량의 데이터를 처리하고 분석하는 빅데이터 처리를 위한 오픈 소스 분산 컴퓨팅 시스템입니다. 이번 글에서는 Ubuntu 운영체제에 Spark를 설치하는 방법에 대해 알아보겠습니다. 1. Java 설치 Spark는 Java로 작성되었기 때문에, 우선적으로 Java를 설치해야 합니다. 아래 명령어를 사용하여 OpenJDK 8을 설치합니다. 시스템 환경에 따라 환경변수(JAVA_HOME, PATH)를 수동으로 설정해야할 경우도 있습니다. sudo apt-get update sudo apt-get install default-jdk or sudo apt-get install openjdk-11-jdk 2. Spark 다운로드 Spark는 공식 웹사이트에서 ..
[Linux] 우분투 Jupyter notebook 설치하기 Jupyter Notebook 설치하기 Jupyter Notebook은 데이터 과학과 기계 학습 등 다양한 작업에 널리 사용되는 대화식 개발 환경입니다. 이 글에서는 Ubuntu 리눅스에서 Jupyter Notebook을 설치하는 방법을 안내합니다. 1. 패키지 업데이트하기 먼저 패키지 관리자를 업데이트하여 최신 패키지 정보를 가져옵니다. sudo apt update 2. 파이썬과 필수 패키지 설치하기 Jupyter Notebook은 파이썬으로 작성되었으므로 원활하게 작동하려면 파이썬과 관련 라이브러리를 설치해야 합니다. sudo apt install python3-pip python3-dev 3. 가상 환경 설정하기 (선택사항) 가상 환경을 사용하면 프로젝트별로 독립된 Python 환경을 구성할 수 있..
[Linux] 리눅스 모니터링 프로그램 ( htop ) 소개 1. htop란? htop(HTML TOP)은 리눅스에서 실행되는 인터랙티브한 프로세스 모니터링 도구입니다. 기본적으로 top 명령어와 비슷한 기능을 제공하지만, 사용자 친화적인 인터페이스와 다양한 편의 기능을 갖추고 있습니다. htop은 프로세스의 CPU, 메모리, 디스크, 네트워크 등 다양한 시스템 상태 정보를 실시간으로 모니터링할 수 있어 시스템 관리자 및 개발자들에게 많은 도움을 줍니다. htop은 커맨드 라인 기반의 프로세스 모니터링 도구인 top과 달리, 그래픽 사용자 인터페이스(GUI)를 제공하므로 사용자가 프로세스 상태를 쉽게 파악할 수 있습니다. 표 형식으로 표시되는 프로세스 리스트는 현재 실행 중인 프로세스들을 사용자가 요약 정보를 볼 수 있도록 정렬하고 색상으로 구분하여 표현합니다. ..
[Python][Pandas] 판다스 데이터 프레임 그룹별(groupby) 통계 1. 그룹별 통계 내기 판다스(pandas)는 데이터를 다루는 데 유용한 파이썬 라이브러리입니다. 데이터프레임(DataFrame)을 이용하여 데이터를 구조화하고, 다양한 연산을 수행할 수 있습니다. 그룹별 통계를 내는 것도 판다스에서 간단하게 할 수 있습니다. 1-1. 그룹별로 데이터 구분하기 - groupby() 메소드 사용하기 데이터를 그룹별로 구분해야 한다면, groupby() 메소드를 사용하면 됩니다. groupby() 메소드는 특정 열을 기준으로 데이터를 그룹화하여 연산을 수행할 수 있습니다. 예를 들어, 다음과 같은 데이터프레임이 있다고 해봅시다. import pandas as pd data = {'Group': ['A', 'B', 'A', 'B', 'A'], 'Value': [1, 2, 3,..

반응형