-
[python / pandas] 데이터 분석 기초 - DataFrame 생성, csv 파일 불러오기python 데이터 분석 2024. 3. 20. 10:38
Pandas
파이썬에서 데이터 처리와 분석을 위한 오프 소스 라이브러리이다.
데이터 구조로 Series, DataFrame (df) 객체를 제공한다.
DataFrame 은 간단히 말하자면 엑셀과 같은 행과 열을 가진 표를 말한다.
좀더 구체적으로 말하면, Series 들을 하나의 열로 취급한 집합으로, 데이터를 표의 형태로 처리하는 자료구조이다.
DataFrame 생성 방법
List 이용하는 방법
import pandas as pd df = pd.DataFrame([[1, 2, 3], [4, 5, 6], [a, b, c]]) df
1 2 3 4 5 6 7 8 9 결과가 이와 같이 나온다.
list 안의 리스트가 각 행을 구성하고, 이러한 방식으로 df, DataFrame 을 구성한다.
Dictionary 이용 방법
import pandas as pd data = { 'age' : [20, 27, 29], 'height' : [183, 172, 177], 'weight' : [89, 80, 70] } indexName = ['A', 'B', 'C'] df = pd.DataFrame(data, index = indexName) df
이렇게 Dictionary 를 사용할 수도 있다.
아래는 결과값이다.
Dictionary 를 사용할 때는 '같은 정보가 왜 한 행을 구성하지 않지?' 라는 의문이 생길 수도 있다.
이는 데이터 분석에서 보통 같은 카데고리에 있는 것들을 한 열에 두고, 각 사용자나 각 대상의 정보를 한 행에 두기 때문에 그렇다.
csv 파일을 DataFrame 로 불러오기 pd.read_csv (csv to df)
import pandas as pd toyota = pd.read_csv('./상위 파일명/ToyotaCorolla.csv')
위의 예제 코드는 상위 파일명 아래에 있는 ToyotaCorolla.csv 를 파일을 불러오는 코드이다.
read_csv 를 통해 toyota 에는 DataFrame 으로 저장이 된다.
excel 및 xlsx 파일을 DataFrame 로 불러오기 pd.read_excel (excel to df)
df_from_excel = pd.read_excel(excel_dir, sheet_name = 'Sheet1', header = 0, #names = ['region', 'sales_representative', 'sales_amount'], dtype = {'region': str, 'sales_representative': np.int64, 'sales_amount': float}, # dictionary type index_col = 'id', na_values = 'NaN', thousands = ',', nrows = 10)
sheet_name 옵션
엑셀 파일에 여러 시트가 있을 경우, 자신이 원하는 시트의 이름을 string 으로 틀리지 않게 입력하면, 해당 시트의 데이터를 골라올 수 있음
header 옵션
행 제목이 실행되는 위치를 지정 가능하다.
(이때, 주의해야할 것은 파이썬에서는 첫 행을 0 으로 간주한다. 따라서, 세번째 행부터 불러오고 싶다면 2라고 입력)
dtype 옵션
열의 데이터 타입을 각각 지정해준다.
index_col 옵션
열을 제외하고 싶은 경우 설정한다.
숫자 입력 : 해당 순서의 열을 제외하고 df 를 불러오겠다는 뜻.
'열 이름' 을 입력 : 해당 이름의 열을 제외하고 df 를 불러오겠다는 뜻.
nrow 옵션
hearder 부터 몇 개의 행을 불러올지 선택하는 옵션
위의 경우에는 10개를 불러와서 0~9까지 불러온다.
excel 안 열릴 때, XLRDError : Excel xlsx file: not supported 에러 해결
!pip install openpxl
을 통해서 openpxl 설치
그리고 read_excel 사용 시
import pandas as pd df = pd.read_excel('./excelfile.xlsx',engine='openpyxl') df
이런 식으로 사용하면 해결 가능하다.
[Python] 파이썬 판다스(pandas)를 사용하여 엑셀(xlsx, csv)파일로 저장하는 방법 : numpy, openpyxl, to_excel(
판다스(pandas)는 데이터 분석을 위해 많이 사용되는 모듈입니다. xlsx, csv파일을 읽어와서 DataFrame으로 가져올 수 있습니다. 또다른 방법은 웹 크롤링을 하여 가져올 수 있습니다. 판다스(pandas)를
playground.naragara.com
'python 데이터 분석' 카테고리의 다른 글
[python / pandas] 변수별 상관계수 구하기 및 내림차순 정렬 (1) 2024.04.15 [sklearn / python / pandas] 선형, 이차, 삼차, 로그 모델 RMSE, R2 비교 (0) 2024.04.08 [python / scikitlearn] 다중회귀분석 예제 코드 및 설명 (0) 2024.03.19 [python / 회귀] scikit-learn 설치 및 다중회귀분석 방법 예제 (0) 2024.03.18 [python / selenium (셀레니움)] 설치 방법 (0) 2024.03.16