Skip to content

Latest commit

 

History

History
70 lines (57 loc) · 2.76 KB

TODO.md

File metadata and controls

70 lines (57 loc) · 2.76 KB

TODO list

20210907 해야할 일

  1. 카테고리 오탈자 수정 (준영)
  • 겹치거나 잘못 표기된 데이터 수정
  1. 상품명 : 분류명 매핑
  • 상품명의 분류명과 일치하는 케이스에 "전체분류", "현재분류" 컬럼 붙여서 새로운 파일 (정훈)
  • 상품예시 in 상품명 --> "전체분류", "현재분류" 컬럼 붙여서 새로운 파일 (윤호)
  1. 결제데이터 파악
  • 상품 필터링 : 데이터 축소
  • 후보 컬럼들 고르고 한 번 더 골라내기 (준영) --> 피드백
  • global한 패턴 : emart24 전체에 대한 시간, 요일 패턴, 상품 패턴 (분류에 따라)
  • local한 패턴 : 장바구니, 비슷한 시간대 상품들

20210914 해야할 일

  1. 상품마스터 재구성
  • PLU_CD 중심
  • 상품마스터에서 분류체계 중심으로 필터링 할 때 PLU_CD 살리기 (정훈, 윤호)
  • 상품마스터 원래 col 버리지 않고, row는 있는것만 살리기
  1. 거래데이터 패턴 분석
  • 거래데이터를 상품마스터의 PLU_CD로 필터링 후 저장 (준영)
  • 같이 결제되는 카테고리, 수량
  • 시간대별 구매패턴 (아이템 단위)
  1. 분류체계 임베딩 테스트 (2번까지 하고 나서 진행해보기)

[순서] 1 -> 3(1 끝나고 이어서), 2(따로 돌려놓기)

20210926 해야할 일

  1. CS 데이터 학습
  • 모델 재현 (됨)
  • TMN 돌려보기 (썽공)
  • 예측값에 필요한 형태로 input taxo list 만들기 (됨)
  • 예측값 뽑아보기 (학습 다 돌면 돌리기)
  • 예측 나온거에서 봐야할 케이스 (상위 랭크)
    • 잘 예측한 케이스
    • 잘못 예측한 케이스
    • 카테고리 기준으로 세부적으로 분석 (자주 등장하는 term, 자주 등장하지 않는 term)
    • train-test-valid 비율 파악, evaluation 과정 파악
    • 예측에 embed vector 저장하는거 만들고 T-SNE 시각화 (https://programmers.co.kr/learn/courses/21/lessons/1698)
  1. 결제데이터 분석
  • 카테고리 붙이기 (됨)
  • 저장하기 (하는중)
  • 대분류 카테고리별 날짜/요일/시간 패턴 시각화 (요일 -> 정훈, 시간(1시간 단위) -> 윤호)
  • 여유되면 할 수 있는거
    • 세분류 기준 시간컬럼 생성 --> 날짜/요일/시간 패턴 카테고리별, 시간별 거래
    • 클러스터링 후 분석
  1. 데이터 정합성 확인
  • 카테고리-상품 데이터 저장할 때 PLU_CD 제대로 저장되는지 확인 (0으로 시작하는 코드)