20210907 해야할 일
- 카테고리 오탈자 수정 (준영)
- 겹치거나 잘못 표기된 데이터 수정
- 상품명 : 분류명 매핑
- 상품명의 분류명과 일치하는 케이스에 "전체분류", "현재분류" 컬럼 붙여서 새로운 파일 (정훈)
- 상품예시 in 상품명 --> "전체분류", "현재분류" 컬럼 붙여서 새로운 파일 (윤호)
- 결제데이터 파악
- 상품 필터링 : 데이터 축소
- 후보 컬럼들 고르고 한 번 더 골라내기 (준영) --> 피드백
- global한 패턴 : emart24 전체에 대한 시간, 요일 패턴, 상품 패턴 (분류에 따라)
- local한 패턴 : 장바구니, 비슷한 시간대 상품들
20210914 해야할 일
- 상품마스터 재구성
- PLU_CD 중심
- 상품마스터에서 분류체계 중심으로 필터링 할 때 PLU_CD 살리기 (정훈, 윤호)
- 상품마스터 원래 col 버리지 않고, row는 있는것만 살리기
- 거래데이터 패턴 분석
- 거래데이터를 상품마스터의 PLU_CD로 필터링 후 저장 (준영)
- 같이 결제되는 카테고리, 수량
- 시간대별 구매패턴 (아이템 단위)
- 분류체계 임베딩 테스트 (2번까지 하고 나서 진행해보기)
- 논문들 중에서 github 있는거 찾기
- 기본데이터로 학습 돌려보기
- 시각화 해보기
- 깃허브 목록 (4 중 택3 해서 돌려보기)
[순서] 1 -> 3(1 끝나고 이어서), 2(따로 돌려놓기)
20210926 해야할 일
- CS 데이터 학습
- 모델 재현 (됨)
- TMN 돌려보기 (썽공)
- 예측값에 필요한 형태로 input taxo list 만들기 (됨)
- 예측값 뽑아보기 (학습 다 돌면 돌리기)
- 예측 나온거에서 봐야할 케이스 (상위 랭크)
- 잘 예측한 케이스
- 잘못 예측한 케이스
- 카테고리 기준으로 세부적으로 분석 (자주 등장하는 term, 자주 등장하지 않는 term)
- train-test-valid 비율 파악, evaluation 과정 파악
- 예측에 embed vector 저장하는거 만들고 T-SNE 시각화 (https://programmers.co.kr/learn/courses/21/lessons/1698)
- 결제데이터 분석
- 카테고리 붙이기 (됨)
- 저장하기 (하는중)
- 대분류 카테고리별 날짜/요일/시간 패턴 시각화 (요일 -> 정훈, 시간(1시간 단위) -> 윤호)
- 여유되면 할 수 있는거
- 세분류 기준 시간컬럼 생성 --> 날짜/요일/시간 패턴 카테고리별, 시간별 거래
- 클러스터링 후 분석
- 데이터 정합성 확인
- 카테고리-상품 데이터 저장할 때 PLU_CD 제대로 저장되는지 확인 (0으로 시작하는 코드)