[Pandas] 🐼판다스 기초 공부

개발자노트/네이버 부스트캠프 AI 2023. 11. 10. 15:29

Pandas는 판다와는 관련없고,

Panel data 라는 뜻을 가지고 있다.

(머신러닝 라이브러리들이 동물이름을 주로 사용하는데 판다스도 참 귀여운 이름같다.)

Pandas

- 구조화 된 데이터의 처리를 지원하는 Python 라이브러리

- 데이터 처리, 통계 분석에 사용

- 테이블 용 데이터에 최적화

✏용어

attribute = field = feature = column

instance, tuple, row

feature vector

기본 사용법

import pandas as pd
df = pd.read_csv('url')
perch_full = df.to_numpy()
print(perch_full)

csv 파일 → pd.read_csv() → to_numpy()

Pandas의 구성

series

column vector를 표현하는 object

Pandas 주요 사용법

import pandas as pd

df = pd.read_csv('data.csv')

#데이터 확인
print(df.head()) # 처음 5개 행 출력
print(df.info()) # 데이터프레임 정보 출력
print(df.dsecribe()) #기술통계량 요약 출력

#데이터 선택, 필터링
selected_column = df['column_name']  # 열 선택
filtered_data = df[df['column_name'] > 50]  # 조건에 맞는 행 필터링

#데이터 정렬
df.sort_values(by='column_name', ascending=False, inplace=True)  # 특정 열 기준으로 정렬

#데이터 그룹화와 집계
grouped_data = df.groupby('column_name') # 열을 기준으로 그룹화
mean_value = grouped_data['another_column'].mean()  # 집계 함수를 사용하여 통계 정보 계산

#데이터 변경
df['new_column'] = df['column1'] + df['column2']  # 새로운 열 추가
df['column_name'] = df['column_name'] *2  # 열 수정
df.drop('column_name', axis=1, inplace=True)  # 열 삭제

#데이터 저장
df.to_csv('new_data.csv', index = False)
df.to_sql('table_name', con=database_connection, if_exists='replace')

#누락된 데이터 처리
df.fillna(df.mean(), inplace=True)  # 누락된 값을 평균값으로 대체

#시각화
import matplotlib.pyplot as plt

df['column_name'].plot(kind='hist')
plt.show()

#인덱싱과 슬라이싱
selected_columns = df[['column1', column2']]  # 열 선택
selected_rows = df[:5]  # 행 선택

Groupby

- transformation

그룹별로 데이터를 변환, 새로운 데이터프레임 생성

- aggregation 집계

그룹별로 데이터를 요약하거나 집계

key별로 요약된 통계량을 추출하는 것이기에 개별 데이터를 얻을 수 없음.

- filteration 필터링

조건을 적용하여 특정 그룹을 선택하거나 제외

저작자표시 비영리 변경금지

'개발자노트 > 네이버 부스트캠프 AI' 카테고리의 다른 글

[네부캠 AI tech] 2주차 주간회고 (11/13~11/17) (2)	2023.11.17
[네부캠 AI tech] 1주차 주간회고 (11/06~11/10) (0)	2023.11.10
[AI 프리코스] 07 Numpy 정리 (0)	2023.10.25
네이버 부스트캠프 AI Tech 6기 추가합격! (1)	2023.10.21
네이버 부스트캠프 AI tech 6기 1,2차 코딩테스트 회고 (0)	2023.10.10

ABOUT ME

_heyna의 작업실_ _heyna의 작업실_

Pandas

✏용어

기본 사용법

Pandas의 구성

Pandas 주요 사용법

Groupby

'개발자노트 > 네이버 부스트캠프 AI' 카테고리의 다른 글

티스토리툴바

ABOUT ME

Pandas

✏용어

기본 사용법

Pandas의 구성

Pandas 주요 사용법

Groupby

'개발자노트 > 네이버 부스트캠프 AI' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바