Kaggle의 Instacart Market Bascket Analysis라는 대회(?)를 신청하였고, 이 곳에서 주는 데이터를 토대로 고객들의 다음 재구매 상품을 추정하고 추천해주는 시스템을 개발할 것이다.
~~(무려 1등시 12,000$…)~~

데이터를 토대로 알고리즘을 찾아보고 적절한 알고리즘을 적용하기 위해선 데이터를 알 필요가 있다. 그러기 위해 데이터 분석의 초기단계를 하는 것이다.
데이터 분석을 통해 어떤 데이터가 들어있으며 어떤 경향을 나타내는지 알아보자.

그런데 처음하는 데이터 분석이라 다른 사람이 해둔 것을 보기로 했다.

Kernel에 Philipp Spachtholz라는 분이 작성한 report를 참고하였다.

일단, 사용할 R 패키지들을 소개하겠다. 아래의 내용을 따라하려면 필요한 패키지이다.
* instal.packages(“name”)으로 설치 가능

data.table
dplyr
ggplot2
knitr
stringr
DT

위 패키지들로 부터 적절한 함수를 사용하여 아래의 그래프와 데이터들을 얻어내었다.

먼저, 주어진 csv 파일 데이터는 ‘aisles‘, ‘departments‘, ‘order_products__prior‘, ‘order_products__train‘, ‘orders‘, ‘products‘, ‘sample_submission‘ 로 7개가 주어진다.

‘sample_submission‘에서는 유효한 데이터를 얻을 수 없음으로 여기서는 사용하지 않는다.

그러면 나머지 데이터들의 형태를 보자.

데이터파악

계속 읽기 →

hjpco

analysis

[데이터분석] First Exploratory Analysis

데이터파악