본문 바로가기

반응형

전체 글

(125)
[Linux] Pyspark, Jupyter(쥬피터) 쉽게 연동하기 Pyspark은 파이썬으로 작성된 Apache Spark의 파이썬 API입니다. 쥬피터 노트북(Jupyter Notebook)은 데이터 분석 및 시각화를 위한 인터랙티브한 환경을 제공하는 툴입니다. Pyspark과 쥬피터를 함께 사용하면 데이터 처리 및 분석 작업을 보다 편리하게 수행할 수 있습니다. 이번 글에서는 Pyspark와 쥬피터를 연동하는 방법에 대해 알아보겠습니다. https://tobelinuxer.tistory.com/135 [Linux] 우분투에 Spark 설치하기 우분투에서 Spark 설치하기 Apache Spark는 대량의 데이터를 처리하고 분석하는 빅데이터 처리를 위한 오픈 소스 분산 컴퓨팅 시스템입니다. 이번 글에서는 Ubuntu 운영체제에 Spark를 설치하는 방법에 tobeli..
[Linux] 우분투에 Spark 설치하기 우분투에서 Spark 설치하기 Apache Spark는 대량의 데이터를 처리하고 분석하는 빅데이터 처리를 위한 오픈 소스 분산 컴퓨팅 시스템입니다. 이번 글에서는 Ubuntu 운영체제에 Spark를 설치하는 방법에 대해 알아보겠습니다. 1. Java 설치 Spark는 Java로 작성되었기 때문에, 우선적으로 Java를 설치해야 합니다. 아래 명령어를 사용하여 OpenJDK 8을 설치합니다. 시스템 환경에 따라 환경변수(JAVA_HOME, PATH)를 수동으로 설정해야할 경우도 있습니다. sudo apt-get update sudo apt-get install default-jdk or sudo apt-get install openjdk-11-jdk 2. Spark 다운로드 Spark는 공식 웹사이트에서 ..
[Linux] 우분투 Jupyter notebook 설치하기 Jupyter Notebook 설치하기 Jupyter Notebook은 데이터 과학과 기계 학습 등 다양한 작업에 널리 사용되는 대화식 개발 환경입니다. 이 글에서는 Ubuntu 리눅스에서 Jupyter Notebook을 설치하는 방법을 안내합니다. 1. 패키지 업데이트하기 먼저 패키지 관리자를 업데이트하여 최신 패키지 정보를 가져옵니다. sudo apt update 2. 파이썬과 필수 패키지 설치하기 Jupyter Notebook은 파이썬으로 작성되었으므로 원활하게 작동하려면 파이썬과 관련 라이브러리를 설치해야 합니다. sudo apt install python3-pip python3-dev 3. 가상 환경 설정하기 (선택사항) 가상 환경을 사용하면 프로젝트별로 독립된 Python 환경을 구성할 수 있..
[Linux] 리눅스 모니터링 프로그램 ( htop ) 소개 1. htop란? htop(HTML TOP)은 리눅스에서 실행되는 인터랙티브한 프로세스 모니터링 도구입니다. 기본적으로 top 명령어와 비슷한 기능을 제공하지만, 사용자 친화적인 인터페이스와 다양한 편의 기능을 갖추고 있습니다. htop은 프로세스의 CPU, 메모리, 디스크, 네트워크 등 다양한 시스템 상태 정보를 실시간으로 모니터링할 수 있어 시스템 관리자 및 개발자들에게 많은 도움을 줍니다. htop은 커맨드 라인 기반의 프로세스 모니터링 도구인 top과 달리, 그래픽 사용자 인터페이스(GUI)를 제공하므로 사용자가 프로세스 상태를 쉽게 파악할 수 있습니다. 표 형식으로 표시되는 프로세스 리스트는 현재 실행 중인 프로세스들을 사용자가 요약 정보를 볼 수 있도록 정렬하고 색상으로 구분하여 표현합니다. ..
[Python][Pandas] 판다스 데이터 프레임 그룹별(groupby) 통계 1. 그룹별 통계 내기 판다스(pandas)는 데이터를 다루는 데 유용한 파이썬 라이브러리입니다. 데이터프레임(DataFrame)을 이용하여 데이터를 구조화하고, 다양한 연산을 수행할 수 있습니다. 그룹별 통계를 내는 것도 판다스에서 간단하게 할 수 있습니다. 1-1. 그룹별로 데이터 구분하기 - groupby() 메소드 사용하기 데이터를 그룹별로 구분해야 한다면, groupby() 메소드를 사용하면 됩니다. groupby() 메소드는 특정 열을 기준으로 데이터를 그룹화하여 연산을 수행할 수 있습니다. 예를 들어, 다음과 같은 데이터프레임이 있다고 해봅시다. import pandas as pd data = {'Group': ['A', 'B', 'A', 'B', 'A'], 'Value': [1, 2, 3,..
[Python][Pandas] 판다스 데이터 프레임 열(raw) 통계 1. 특정 열에 대한 통계 계산하기 판다스(pandas)는 파이썬 데이터 분석 라이브러리로, 데이터 프레임(DataFrame)이라는 자료구조를 제공합니다. 데이터프레임은 행과 열로 이루어진 테이블 형태의 데이터를 다루는 데에 효과적이며, 데이터의 통계 정보를 쉽게 계산할 수 있습니다. 1-1. 특정 열의 평균 계산하기 특정 열의 평균은 mean() 함수를 사용하여 계산할 수 있습니다. 다음은 데이터프레임에서 '열 이름'이라는 열의 평균을 계산하는 예제입니다. import pandas as pd # 데이터프레임 생성 df = pd.DataFrame({'열 이름': [1, 2, 3, 4, 5]}) # 특정 열의 평균 계산 mean_value = df['열 이름'].mean() print(f"평균: {mean..
[Python][Pandas] 판다스 데이터 프레임 기본 통계 ( describe...) 1. 데이터 확인하기 판다스는 파이썬에서 데이터를 다루는 가장 효과적인 도구 중 하나입니다. 데이터를 분석하기 전에 먼저 데이터의 구조와 기본 통계량을 확인해야 합니다. 이를 통해 데이터의 형태를 파악하고, 이상치 또는 결측치를 확인할 수 있습니다. 1-1. 데이터 구조 파악하기 판다스의 DataFrame은 표 형태로 데이터를 다룰 수 있는 자료구조입니다. 데이터의 구조를 파악하기 위해 다음의 함수를 활용할 수 있습니다. 1) head() 함수 head() 함수는 데이터의 처음 5개 행을 출력해줍니다. 기본값은 5이지만, 괄호 안에 다른 숫자를 넣어 데이터를 원하는 만큼 출력할 수도 있습니다. import pandas as pd # 데이터프레임 생성 df = pd.DataFrame({'A': [1, 2,..
[Python][Pandas] 판다스 데이터 프레임 결합/합치기 ( concat, merge, join ) 1. 데이터 프레임 결합의 기본 개념 판다스(Pandas)는 데이터 분석에 매우 유용한 라이브러리로, 데이터 프레임을 다루는데 용이한 기능을 제공합니다. 데이터 프레임은 표 형태로 구성된 데이터를 다룰 때 사용되며, 여러 개의 열(Column)과 행(Row)으로 구성되어 있습니다. 데이터 프레임은 여러 개의 데이터를 하나로 합치는데 사용될 수 있습니다. 데이터를 합치는 방법은 크게 concat() 함수와 merge() 함수, 그리고 join() 함수를 이용하는 방법이 있습니다. concat() 함수는 데이터 프레임을 행 방향 또는 열 방향으로 결합할 때 사용되며, merge() 함수는 두 개 이상의 데이터 프레임을 공통된 열을 기준으로 결합할 때 사용됩니다. join() 함수는 인덱스를 기준으로 데이터 ..

반응형