기존 소상공인 상권분석 서비스

기존의 상권분석 서비스를 소개하는 포스팅입니다. 이번 포스팅에는 정부 기관에서 제공하는 서비스들을 소개하겠습니다. 예비 창업자들이 가장 궁금해 하는 것들이 ‘근처에 경쟁점은 몇 개나 있을까?’ ‘창업하면 얼마나 벌 수 있을까’ ‘이 자리는 과거에 어떤 업종이, 얼마동안, 얼마의 매출을 올리며 영업해 왔을까’ 하는 질문들이 라고 합니다. 이 중 몇가지는 아래 기존 서비스에서 대답을 얻을 수 있고 또 몇가지는 로보리포트에서 준비하는 서비스에게 대답을 하려고 합니다 : )

우리마을 가게

사이트 주소 : https://golmok.seoul.go.kr

서울시에서 제공하는 상권분석 서비스입니다. 최근 3년 시계열을 관측하여 폐업 유사패턴 공간에서 개별기업의 생존확률을 추정하여 만든 창업위험도 지수를 제공하고 있습니다. 그 외 서울 상권 분석 서비스도 제공하고 있습니다. 다양한 데이터를 제공하는 좋은 서비스이나 서울시에서 만들어서 서울시 외의 정보는 제공하지 않습니다.

창업신호등 서비스

상권정보 서비스 (소상공인시장진흥공단)

웹사이트주소 : http://sg.sbiz.or.kr/main.sg#/main

소상공인시장 진흥공단에서 제공하는 상권정보 서비스는 창업기상도, 상권평가 등급, 점포이력 분석 등 다양한 정보를 제공하고 있습니다. 예비 창업자 중에서 이 자리는 과거에 어떤 업종이, 얼마동안 있었는지 궁금해하는 사람들은 점포이력분석에서 과거 점포 내역을 확인할 수 있습니다.

상권분석 서비스 메인 화면

창업기상도는 NICE지니데이타에서 분석한 결과를 그대로 가져와서 보여주고 있습니다. 7개의 광역시에서 커피, 치킨, 한식 세 업종의 창업기상도를 제공하고 있습니다.

 창업기상도에 영향을 끼치는 요소들이 %로 나오는 것이 흥미롭습니다. 아마 통계 모델을 사용해서 분석 한 것 같습니다.


*  지역/업종 매출 영향변수는 해당 지역/업종 내에서 매출이 높은 지역에서 나타나는 공통특성을 뽑아 변수별로 중요도를 산정한 자료입니다.
* 순위가 높은 변수일수록 매출에 미치는 영향력이 큰 것으로 이해할 수 있으므로 상권조사 항목으로 활용할 수 있고, 집중 마케팅 대상으로 선정할 수 있습니다.

그 외 창업에 들어가는 점포의 비용 및 투자비용을 입력하면 3년이내 초기 투자금을 회수하려면 얼마를 벌어야 하는지에 대한 세부 정보도 제공하고 있습니다.

3년 내 초기 투자금을 회수하려면 월평균 목표 매출이 얼마나 나와야 하며 목표 고객 수는 어느정도 되는지 확인을 할 수 있습니다.

서울 내에서 창업을 한다면 위 두 사이트는 필수라는 생각이 들정도로 좋은 정보들을 제공을 하고 있습니다. 다만 상권 예측에 있어서는 아쉬운 점이 조금은 보였는데요. 이부분은 로보리포트 서비스의 차기 업데이트에 포함해서 진행을 해볼까 합니다. 그리고 정부에서 제공하는 분석 사이트외에 유료로 제공하는 상권 분석 서비스도 시간이 되면 한번 정리해보도록 하겠습니다.

관련 포스팅

소상공인-폐업에-따른-총-사회적-비용

평균 창업 비용과 창업 기간

부동산 인공지능 분석 서비스, 로보리포트

2019년 8월 20일 – 실거래가 및 경매 알림 서비스 오픈

안녕하세요. 로보리포트입니다.

로보리포트 어플리케이션 및 웹서비스에  실거래가 및 경매 알림 서비스가 오픈되었습니다.

관심있는 매물(아파트, 연립다세대, 오피스텔) 및 지역의 실거래가 받기 버튼을 클릭을 하면

회원 정보에 있는 이메일로 하루에 한번 (저녁 8시) 실거래가 알림을 받을 수 있습니다.

지도에서 지역 아이콘을 클릭하면 지역 상세 보기로 들어갑니다.

실거래가 탭에서 지역신규 실거래가 알림받기를 하면 선택한 지역의 실거래가가 업데이트되면 다음날 이메일로 알려드려요.

지역 실거래가뿐만 아니라 지역내의 새로운 경매 알림 받기도 설정할 수 있습니다.

알림을 받고 싶은 지역 상세 페이지의 경매 탭으로 들어가서 아래의 지역 신규 경매 버튼을 눌러주세요.

지역 뿐만이 아니라 개별 아파트, 연립다세대, 오피스텔에 대한 실거래가 알림도 가능합니다.

아파트 세부 정보 페이지로 들어가서 실거래가 알림버튼을 눌러주세요.

이렇게 설정한 알림 설정을 보고 싶다면 메인화면의 알림아이콘을 클릭하면 아래와 같이 설정된 알림 아이콘을 확인할 수 있습니다.

실거래가 알림을 삭제하고 싶으면 옆의 종 아이콘을 누르면 리스트에서 삭제되면서 해당 매물 실거래가 알림이 해제됩니다.

알림을 받을 이메일 설정은 맨오른쪽 위의 설정 버튼을 눌러주세요.

개인 설정 페이지 -> 내 정보 보기에서 회원 가입시 입력한 이메일 확인 및 수정이 가능합니다.

그럼 로보리포트의 새로운 실거래가/경매 알림 서비스를 사용해보시고 많은 피드백도 부탁드립니다!

이어서 매물/경매 조건별 알람 설정등의 업데이트가 예정되어 있습니다.

감사합니다.

로보리포트 사이트 바로가기

딥러닝(LSTM)으로 아파트 지수 예측하기 – 1) 훈련 데이터 생성

이번 포스팅에서는 LSTM으로 아파트 지수 예측하기 실험을 하겠습니다.

LSTM은 RNN(Recurrent Neural Network) 알고리즘의 특별한 한 종류입니다. RNN은 글, 유전자, 손글씨, 음성 신호, 주가 등 배열(sequence 또는 시계열 데이터)의 형태를 갖는 데이터에서 패턴을 인식하는 인공 신경망입니다. LSTM은 기존 RNN을 개선한 모델로 긴 의존 기간(long-term dependency)을 필요로 하는 데이터를 학습하는데 효과적인 모델입니다. RNN과 LSTM에 대한 알고리즘에 대한 설명은 개별 포스팅을 작성해서 추후에 링크 걸어놓도록 하겠습니다.

이번 포스팅에서는 실험을 먼저 진행해 보겠습니다. LSTM 실험에는 시계열 데이터가 필요하기 때문에 연속된 부동산 매매 데이터가 필요합니다. 부동산 개별 실거래가는 매달에 맞춰 거래가 일어나지 않기 때문에 일단 한국감정원에서 배포하는 전국주택가격지수 중에서 강남구의 아파트 거래가격 지수를 사용하겠습니다. 부동산 개별 실거래가를 사용한 실험이나 다른 경제 지표와 같이 수행하는 실험은 이어서 포스팅하겠습니다.

실험에 사용한 전체 코드와 데이터는 여기서 다운로드 받을 수 있습니다. 실험은 google colab (설명)에서 진행했습니다.

실험 데이터 업로드 하기

패키지 import & 실험 데이터 파일 올리기

실험에 사용할 패키지들을 import합니다. 구글 colab에서 데이터 업로드를 하기 위해 google.colab 패키지의 upload 함수를 사용합니다. 아래와 같이 데이터 업로드가 정상적으로 완료되었습니다.

데이터 파일은 아래와 같이 날짜와 그 달의 강남구 아파트 매매 지수가 있는 간단한 형식으로 되어있습니다.

date,trade_price_idx_value
2006-01-01,74.200000000000003
2006-02-01,75.799999999999997
2006-03-01,78.099999999999994
2006-04-01,81.400000000000006
2006-05-01,83.599999999999994
2006-06-01,83.799999999999997
2006-07-01,83.599999999999994
2006-08-01,83.5

데이터 기본 format

df.info()로 데이터를 살펴봅니다. 기간은 2006년도에서 2019년도로 되어있지만 매달 한 건의 강남구 아파트 매매지수만 있다보니 데이터 개수는 생각보다 적습니다. 총 165개의 데이터가 있습니다.

훈련 데이터와 테스트 데이터 분리하기

plot으로 데이터 흐름을 살펴봅니다. 2014년도가 강남구 아파트 매매지수의 저점이였고 그 후 가파르게 상승하고 있습니다. 이제 데이터를 훈련 데이터, 테스트 데이터로 분리합니다. 2017년 1월 1일까지의 데이터를 훈련 데이터, 그 이후의 데이터를 테스트 데이터로 분리합니다.

그래프에서 train set과 test set을 색으로 표시하면 아래와 같습니다.


plot으로 표시된 train, test 데이터 셋

데이터 스케일링(Scaling)

마지막으로 MinMaxScaler 클래스를 사용하여 데이터를 스케일링 합니다. MinMaxScalar(X)는 데이터의 최대값이 1, 최소값이 0이 되도록 변환합니다. 이렇게 데이터의 scale을 맞추면 weight의 scale도 일관성 있게 나올 수 있습니다.

사용방법은 다음과 같습니다.

(1) 훈련 데이터의 분포 추정 : 훈련 데이터를 입력으로 하여 fit 메서드를 실행하여 분포 모수를 객체내에 저장
(2) 훈련 데이터의 변환 : 훈련 데이터를 입력으로 하여 transform 메서드를 실행하면 훈련 데이터를 변환
(3) 테스트 데이터의 변환: 테스트 데이터를 입력으로 하여 transform 메서드를 실행하여 테스트 데이터를 변환.

훈련 데이터는 (1)번과 (2)번 과정을 합쳐서 fit_transform 메서드를 사용하고 테스트 데이터는 transform 메서드를 사용하여 스케일링을 진행합니다.

정규화가 완료된 데이터들은 다시 pandas dataframe 데이터 타입으로 변환합니다. dataframe으로 타입을 변경하는 이유는 pandas는 시계열 자료에 대한 다양한 기능을 제공하여 LSTM에서 사용하는 window를 만들기 유용하기 때문입니다.

sliding window 구성하기

window는 LSTM을 훈련하기 위한 단위로 고정된 사이즈를 가집니다. window가 12개라면 과거 시간 데이터 12개를 사용해서 다음 시간 단위의 값을 예측하게 됩니다. 현재 실험 데이터의 경우 과거의 시간 단위 12개 부동산 지수들이 훈련 속성들이 되고 현재 시간의 부동산 지수가 target이 됩니다.

dataframe의 shift 연산을 사용하면 인덱스는 그대로 두고 데이터만 시간 단위로 이동할 수 있어 sliding window 타입의 데이터를 구성하기에 용이합니다. 예를 들어 shift(1)을 하면 바로 다음 시간 인덱스로 데이터가 이동하며 shift(-1)을 하면 바로 이전 시간 인덱스로 데이터가 이동합니다. 아래 예시를 보면서 자세히 설명해보겠습니다.

shift 사용하여 window 구성

shift(1)을 사용한 칼럼은 데이터 값이 다음 시간 인덱스로 한칸씩 이동한 것을 확인할 수 있습니다. 이렇게 구성된 데이터에서 dropna로 NaN값을 포함한 데이터를 제거하고 드디어 본격적인 실험에 들어갑니다. 생각보다 포스팅이 길어져서 여기서 한번 자르고 다음 포스팅으로 이어 쓰겠습니다.

참고:

LSTM 실험 (Keras) :
https://3months.tistory.com/168

minmax:
https://datascienceschool.net/view-notebook/f43be7d6515b48c0beb909826993c856/