ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [Pandas] 🐼판다스 기초 공부
    개발자노트/네이버 부스트캠프 AI 2023. 11. 10. 15:29

    Pandas는 판다와는 관련없고, 

    Panel data 라는 뜻을 가지고 있다. 

    (머신러닝 라이브러리들이 동물이름을 주로 사용하는데 판다스도 참 귀여운 이름같다.)

     

     

    Pandas

    - 구조화 된 데이터의 처리를 지원하는 Python 라이브러리

    - 데이터 처리, 통계 분석에 사용

    - 테이블 용 데이터에 최적화

     

     

    ✏용어

    attribute = field = feature = column

    instance, tuple, row

    feature vector

     

     

     

    기본 사용법

    import pandas as pd
    df = pd.read_csv('url')
    perch_full = df.to_numpy()
    print(perch_full)

    csv 파일 → pd.read_csv() → to_numpy()

     

     

     

    Pandas의 구성

    series

    column vector를 표현하는 object

     

     

     

     

    Pandas 주요 사용법

    import pandas as pd
    
    df = pd.read_csv('data.csv')
    
    #데이터 확인
    print(df.head()) # 처음 5개 행 출력
    print(df.info()) # 데이터프레임 정보 출력
    print(df.dsecribe()) #기술통계량 요약 출력
    
    #데이터 선택, 필터링
    selected_column = df['column_name']  # 열 선택
    filtered_data = df[df['column_name'] > 50]  # 조건에 맞는 행 필터링
    
    #데이터 정렬
    df.sort_values(by='column_name', ascending=False, inplace=True)  # 특정 열 기준으로 정렬
    
    #데이터 그룹화와 집계
    grouped_data = df.groupby('column_name') # 열을 기준으로 그룹화
    mean_value = grouped_data['another_column'].mean()  # 집계 함수를 사용하여 통계 정보 계산
    
    #데이터 변경
    df['new_column'] = df['column1'] + df['column2']  # 새로운 열 추가
    df['column_name'] = df['column_name'] *2  # 열 수정
    df.drop('column_name', axis=1, inplace=True)  # 열 삭제
    
    #데이터 저장
    df.to_csv('new_data.csv', index = False)
    df.to_sql('table_name', con=database_connection, if_exists='replace')
    
    #누락된 데이터 처리
    df.fillna(df.mean(), inplace=True)  # 누락된 값을 평균값으로 대체
    
    #시각화
    import matplotlib.pyplot as plt
    
    df['column_name'].plot(kind='hist')
    plt.show()
    
    #인덱싱과 슬라이싱
    selected_columns = df[['column1', column2']]  # 열 선택
    selected_rows = df[:5]  # 행 선택

     

     

     

    Groupby

    - transformation

    그룹별로 데이터를 변환, 새로운 데이터프레임 생성

     

    - aggregation 집계

    그룹별로 데이터를 요약하거나 집계

    key별로 요약된 통계량을 추출하는 것이기에 개별 데이터를 얻을 수 없음.

     

    - filteration 필터링

    조건을 적용하여 특정 그룹을 선택하거나 제외

     

     

     

     

     

     

     

     

    댓글

Designed by Tistory.