[데이터 분석] First Exploratory Analysis (2)

첫번째 first exploratory anlaysis에 이어서 시작하자.


Treemap으로 시각화

Departments와 Aisles의 관계

먼저, R의 treemap 패키지를 이용하여 departments와 aisles에 대하여 자세히 살펴보자.

[treemap]departments_by_aisles

위 treemap은 departments를 이루는 aisle들을 보여준다.
aisle들의 크기는 다 같고, departments는 포함된 asisle의 수에 따라 크기가 달라진다.

Departments를 Aisles의 상품 종류에 따라 표현하기

[treemap]departments_and_aisles_by_products

위 treemap은 이전 treemap에서 aisles의 크기를 상품의 종류의 개수에 따라 표현하였다.
크기가 크게 나타날 수록 상품의 종류가 많다는 것이다.
snacks와 personal care의 department가 많은 종류의 상품을 가졌다는 것을 알 수 있다.

Departments를 Aisles의 구매도에 따라 표현하기

[treemap]departments_and_aisles_by_order

위 treemap은 이전 treemap에서 aisles의 크기를 구매된 수량에 따라 표현하였다.
크기가 클 수록 구매도가 높은 분야라는 것이다.
상품의 종류와 상품의 구매율은 크게 관련이 있지않음을 알 수 있다.
이전 treemap에서 큰 블록이였던 personal care가 굉장히 작아지고 크지 않았던 produce가 가장 큼을 보아 확실히 알 수 있다.

Datatable로 알아보기

완전 재구매 고객 확인하기

이제 R의 DT 패키지로 ‘order_product__prior‘와 ‘orders‘를 이용하여 구매성향을 알아보자.

상품 전체를 재구매 한다면 다음번에도 재구매할 확률이 높다는 것이다.
그렇다면 고객들 중에는 상품 전체가 재구매인 사람이 얼마나 될까?
이 궁금증을 해결해보자.

그렇다면 구매한 전체 수량(n_equal)을 재구매한 수량으로 나눈 수(percent_equal)가 1인 고객들을 알아보자.

[datatable]customers_reordering_only

First Datatable

첫번째 Datatable를 보면 총 3487명의 고객이 전체 재구매하였음을 알 수 있다.

특정 고객의 이전 구매 목록 확인

그럼 위에서 나온 user_id가 99753인 고객이 구매한 목록을 확인하여 정말 전체 재구매하였는지 무엇을 재구매하였는지 확인해보자.
단, eval_set이 prior인 구매목록만 확인한다.
그 이유는 이전 구매 목록과 새로운 구매 목록을 비교하기 위해서이다.

[datatable]user_99753_with_habit

Second Datatable

보면 Organic Whole Milk와 Oragnic Reduced Fat Milk가 계속 반복됨을 볼 수 있다.

특정 고객의 새로운 구매 목록 확인

마지막으로 eval_set이 train인 것을 보고 한번더 구매경향을 확인해보자.
그 이유는 이전과 다르게 새로운 구매 목록을 확인하기 위해서이다.

[datatable]user_99753_would_buy

Third Datatable

결과적으로 user_id가 99753인 고객은 매번 Organic Whole Milk와 Oragnic Reduced Fat Milk를 구매함을 알 수 있다.
이 고객에게는 매번 이 두 상품을 추천해주면 될 것이다.
정말 그럴까?

다음에는…

알고리즘으로 위와 같이 생각하고 판단한 것들을 정말 맞는지 아니면 아닌지 확인할 것이다.

그전에 어떤 알고리즘이 있고, 어떤 알고리즘이 적절하고 어떻게 사용할 것인지 알아보자!

ex) Apriori, Apriori-DHP, FP-Growth 등등


출처 : https://www.kaggle.com/philippsp/first-exploratory-analysis

Advertisements

[데이터 분석] First Exploratory Analysis (2)”에 대한 1개의 생각

  1. 핑백: [데이터분석] First Exploratory Analysis | hjpco

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중