-
[Pandas] 🐼판다스 기초 공부개발자노트/네이버 부스트캠프 AI 2023. 11. 10. 15:29
Pandas는 판다와는 관련없고,
Panel data 라는 뜻을 가지고 있다.
(머신러닝 라이브러리들이 동물이름을 주로 사용하는데 판다스도 참 귀여운 이름같다.)
Pandas
- 구조화 된 데이터의 처리를 지원하는 Python 라이브러리
- 데이터 처리, 통계 분석에 사용
- 테이블 용 데이터에 최적화
✏용어
attribute = field = feature = column
instance, tuple, row
feature vector
기본 사용법
import pandas as pd df = pd.read_csv('url') perch_full = df.to_numpy() print(perch_full)
csv 파일 → pd.read_csv() → to_numpy()
Pandas의 구성
series
column vector를 표현하는 object
Pandas 주요 사용법
import pandas as pd df = pd.read_csv('data.csv') #데이터 확인 print(df.head()) # 처음 5개 행 출력 print(df.info()) # 데이터프레임 정보 출력 print(df.dsecribe()) #기술통계량 요약 출력 #데이터 선택, 필터링 selected_column = df['column_name'] # 열 선택 filtered_data = df[df['column_name'] > 50] # 조건에 맞는 행 필터링 #데이터 정렬 df.sort_values(by='column_name', ascending=False, inplace=True) # 특정 열 기준으로 정렬 #데이터 그룹화와 집계 grouped_data = df.groupby('column_name') # 열을 기준으로 그룹화 mean_value = grouped_data['another_column'].mean() # 집계 함수를 사용하여 통계 정보 계산 #데이터 변경 df['new_column'] = df['column1'] + df['column2'] # 새로운 열 추가 df['column_name'] = df['column_name'] *2 # 열 수정 df.drop('column_name', axis=1, inplace=True) # 열 삭제 #데이터 저장 df.to_csv('new_data.csv', index = False) df.to_sql('table_name', con=database_connection, if_exists='replace') #누락된 데이터 처리 df.fillna(df.mean(), inplace=True) # 누락된 값을 평균값으로 대체 #시각화 import matplotlib.pyplot as plt df['column_name'].plot(kind='hist') plt.show() #인덱싱과 슬라이싱 selected_columns = df[['column1', column2']] # 열 선택 selected_rows = df[:5] # 행 선택
Groupby
- transformation
그룹별로 데이터를 변환, 새로운 데이터프레임 생성
- aggregation 집계
그룹별로 데이터를 요약하거나 집계
key별로 요약된 통계량을 추출하는 것이기에 개별 데이터를 얻을 수 없음.
- filteration 필터링
조건을 적용하여 특정 그룹을 선택하거나 제외
'개발자노트 > 네이버 부스트캠프 AI' 카테고리의 다른 글
[네부캠 AI tech] 2주차 주간회고 (11/13~11/17) (2) 2023.11.17 [네부캠 AI tech] 1주차 주간회고 (11/06~11/10) (0) 2023.11.10 [AI 프리코스] 07 Numpy 정리 (0) 2023.10.25 네이버 부스트캠프 AI Tech 6기 추가합격! (1) 2023.10.21 네이버 부스트캠프 AI tech 6기 1,2차 코딩테스트 회고 (0) 2023.10.10