파이썬을 통해 데이터 분석을 할 때, Pandas를 빼 놓고 이야기 할 수 없습니다. 데이터 분석을 할 때 여러 라이브러리를 사용하는데요. 그 패키지 들 중 R의 Dataframe 데이터 타입을 참고하여 만든 것이 바로 Pandas의 Dataframe입니다. Pandas는 Dataframe을 주로 다루기 위한 라이브러리입니다.

데이터 분석을 위한 첫번째 단계인 파일 읽어오는 것을 해보도록 하겠습니다.

가장 기본이 되는 CSV파일을 불러오는 방법을 알아보도록 하겠습니다.

CSV파일은 comma separeted values의 줄임말로 몇 가지 필드를 쉼표(,)로 구분한 텍스트 데이터 및 텍스트 파일입니다.

CSV파일이라고 모두 쉼표(,)로 구분되는 것은 아닙니다.

아래 보이는 파일은 콜론(;)을 이용하여 구분을 하였네요.

각 데이터를 구분하는 쉼표(,), 콜론(;) 등을 구분자라고 합니다.

import pandas as pd df = pd.read_csv('파일 경로', sep='\,', header=0 engine='python')

sep는 구분자를 표시하는 파라미터입니다. 기본값은 쉼표(,)이구요. 만약 데이터가 콜론(;)을 구분자로 사용하였으면 sep='\;' 이라고 작성하면 됩니다.

간혹 메모장에서 tap을 구분자로 하여 만든 TSV파일이 데이터 파일인 경우 read_csv를 이용하여 파일을 읽고 구분자를 sep='\t'로 지정하시면 됩니다.

header는 열 이름으로 사용할 행의 번호를 입력합니다. 기본값은 0이구요. 즉, 기본값은 데이터프레임의 맨 윗줄에 각각의 열에 대한 이름이 적혀있는 파일을 읽어온다는 뜻입니다. 만약 10행에 각 열의 이름이 적혀있으면 header='10'으로 작성하시면 됩니다.

본인이 읽고자 하는 데이터에서 맨 윗 줄에 각각의 열에 대한 이름이 적혀있으면 입력하지 않아도 괜찮습니다.

engine은 데이터 파일을 읽어올 언어가 어떤 것인가를 기록하는 것인데요. 일반적으로는 잘 입력하지 않습니다.

하지만 웹 주소를 이용하여 파일 경로를 지정하는 경우에는 다음과 같은 메시지가 나오는데요. 그때는 engine를 이용하여 입력을 해주는 것이 좋습니다.

# 서버에서 직접 파일 가져오기
red_df2 = pd.read_csv('http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv', sep='\;')
/usr/local/lib/python3.7/dist-packages/ipykernel_launcher.py:3: ParserWarning: Falling back to the 'python' engine because the 'c' engine does not support regex separators (separators > 1 char and different from '\s+' are interpreted as regex); you can avoid this warning by specifying engine='python'. This is separate from the ipykernel package so we can avoid doing imports until

일반적인 파라미터는 이정도 입니다.

read_csv에 대한 더 많은 파라미터를 자세하게 확인하고 싶으면 아래 링크를 확인하세요~

 

pandas.read_csv — pandas 1.3.2 documentation

Delimiter to use. If sep is None, the C engine cannot automatically detect the separator, but the Python parsing engine can, meaning the latter will be used and automatically detect the separator by Python’s builtin sniffer tool, csv.Sniffer. In addition

pandas.pydata.org

 

이제 엑셀파일을 불러오는 방법을 알아보도록 하겠습니다.

Pandas에서는 xls, xlsx, xlsm의 파일을 읽어올 수 있습니다.

import pandas as pd df = pd.read_excel('파일경로', sheet_name='0', header=0)

sheet_name은 데이터 프레임인 엑셀 파일에서 몇 번째에 있는 sheet를 불러올지를 선택하는 것 입니다. 기본값은 sheet_name='0' 이구요. 이는 첫번째 sheet를 불러온다는 의미입니다. 만약 두번째 sheet를 불러온다면 sheet_nama='1'이 되겠지요.

header는 read_csv의 header와 동일합니다.

일반적인 파라미터는 이정도 입니다.

read_excel에 대한 더 많은 파라미터를 자세하게 확인하고 싶으면 아래 링크를 확인하세요~

 

 

pandas.read_excel — pandas 1.3.2 documentation

Additional strings to recognize as NA/NaN. If dict passed, specific per-column NA values. By default the following values are interpreted as NaN: ‘’, ‘#N/A’, ‘#N/A N/A’, ‘#NA’, ‘-1.#IND’, ‘-1.#QNAN’, ‘-NaN’, ‘-nan’, ‘1.#IN

pandas.pydata.org

 

+ Recent posts