scikit-learn을 사용하여 부동산 가격 예측하기 : 2) 실험 데이터 설정하기

scikit-learn을 사용하여 부동산 가격 예측하기

2) 실험 데이터 설정하기

실험 데이터는 pandas dataframe을 사용하여 설정하였습니다.

pandas는 데이터 처리와 분석을 위한 파이썬 라이브러리로

pandas의 dataframe은 엑셀의 스프레드시트와 비슷한 테이블 형태를 지원합니다.

전체 배열의 원소가 동일해야 하는 numpy와는 달리

pandas는 각 열의 타입이 달라도  사용이 가능합니다.

SQL, 엑셀 파일, csv 파일 등 다양한 파일과 데이터베이스에서 데이터를 읽어와서

dataframe으로 간단히 사용을 할 수 있어

python을 사용하는 기계 학습에서 자주 사용되고 있습니다.

이번 실험에 사용할 데이터를 pandas의 read_csv 함수를 사용하여

아래와 같이 pandas 데이터프레임으로 저장 하였습니다.

read_csv 함수에서 parse_dates 인자로날짜 타입인 열 이름( date)을 전달하고

index_col 인자로 date 열을 인덱스로 설정했습니다.

날짜 타입을 인덱스로 설정한 이유는 나중에 시계열 그래프를 그리기 위해서입니다.

dropna 함수를 사용하여 하나의 속성이라도 비어있는 열들은

실험에서 제외 하였습니다.

head 함수를 사용하여 상단의 데이터 값을 확인해 보겠습니다.

각 필드의 간략 설명은 다음과 같습니다.

경제 지표 관련 속성들이 부동산지수에 어떻게 영향을 미치는지 테스트 하기 위해서

금리, 환율 등의 경제지표 속성들을 실험에 포함했습니다.

예측 타겟은 한달 후의 한국감정원의 주택가격지수 중  주택매매지수 (‘tradeprice_sido_n1)입니다.

내가 이번달의 주택매매지수와 다른 경제 지표들을 알고 있을때

다음달의 주택매매지수를 예측할 수 있는지가 이번 실험의 타겟입니다.

시도단위의 매매지수이며 속성에서도 시도값이 따로 있을경우

속성 설명에 (시도)를 따로 적어두었습니다.

속성에 대한 개별적인 포스팅이 추가되면

해당 포스팅의 속성 설명로 링크로 계속 업데이트 하겠습니다.

전반적인 실험 과정을 전달하기 위해서 최대한 기본적인 내용만 실험에 포함해서 진행해보겠습니다.

여기서 더 다양한 속성들과 다른 실험 방식을 사용하는 예시는

추후 다른 포스팅에서 이어서 전달하려고 합니다.

‘region_cd’: ‘지역코드(시도)’,

‘year’: ‘연도’,

‘month’:’월’,

‘building_type’: ‘부동산타입’,
‘tradeprice_sido’ : ‘매매가격지수(시도)’,

‘construction_realized_amount’ : ‘건설기성액(백만원)’,

“cd”: “cd(91일물)“,
‘spirit_deposit_rate’: ‘정기예금금리’,

‘exchange_rate’: ‘환율’,

‘composite_stock_price_index’: ‘종합주가지수’,
‘economy_growth’: ‘경제성장률’,

‘exchequer_bond_three’ : ‘국고채3년‘,

‘household_loan_all’: ‘가계대출액(전국)’,
‘mortgage_all’ : ‘주택대출액(전국)’,

‘numberofnosells’:’미분양 가구수(시도)’,

‘unsalenum_c’:’공사완료후 미분양(민간,시도)’

데이터프레임의 info 함수를 사용해서 index 정보와 컬럼수, 전체 데이터 개수, 각 열의 타입을 확인합니다.

describe 함수를 사용하면 각 필드별로 평균값, 분포, 최소값 등을 간단히 확인할 수 있습니다.

범주형 속성도 있긴 하지만 일단은 별도 처리 없이 진행합니다.

 다음 포스팅에서는 본격적으로 실험을 시작하기 전에 matplotlib 을 사용하여

각 데이터의 분포를 확인해보겠습니다.

 이전 부동산 가격 실험 관련 포스팅

scikit-learn을 사용하여 부동산 가격 예측하기 : 1) target 설정 : 전국주택가격 지수

cd 금리와 부동산 가격 상관 관계 알아보기 (1)

참조: https://www.geeksforgeeks.org/python-pandas-dataframe-resample/

댓글 (1)

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다