Skip to content

Reign2121/Mining-project1

Folders and files

NameName
Last commit message
Last commit date

Latest commit

Β 

History

51 Commits
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 

Repository files navigation

Mining-project

Data Mining using Decision Tree and codes

주제: μ‘°μ§κ΄€λ¦¬λ°©μ•ˆμ˜ μΌν™˜μœΌλ‘œ λΆ„λ₯˜ λ¬Έμ œμ— μ ν•©ν•œ μ•Œκ³ λ¦¬μ¦˜μ„ μ΄μš©ν•΄ μ΄νƒˆ(퇴사)λͺ¨λΈμ„ λ§Œλ“€μ–΄ μ‹œμ‚¬μ μ„ μ œμ‹œν•œλ‹€.

데이터 : Human Resource data in kaggle made by ibm data scientist

https://www.kaggle.com/datasets/pavansubhasht/ibm-hr-analytics-attrition-dataset?datasetId=1067&searchQuery=deci

label: "attrition" (퇴사 μ—¬λΆ€)


μš°μ„  μ €λŠ” 탐색적 데이터 뢄석(eda)에 μžˆμ–΄μ„œ "데이터λ₯Ό 잘 μ‚΄νŽ΄λ³Ό 수 μžˆλŠ” μ½”λ“œλ₯Ό λ””μžμΈ" ν•˜λŠ” 것에 λ…Έλ ₯ν–ˆμŠ΅λ‹ˆλ‹€.

이λ₯Ό 톡해 λ ˆμ΄λΈ”μ˜ κ· ν˜•μ΄ λ§žμ§€ μ•ŠλŠ” 것을 λ°œκ²¬ν•˜μ—¬ 이λ₯Ό λ³΄μ™„ν•˜κΈ° μœ„ν•΄ 언더 μƒ˜ν”Œλ§ 기법을 μ μš©ν–ˆμŠ΅λ‹ˆλ‹€.

μ œκ°€ μ‚¬μš©ν•œ ossλŠ” 이 방법은 λ§ˆμ°¬κ°€μ§€λ‘œ μ–Έλ”μƒ˜ν”Œλ§ 기법듀인 ν† λ§₯λž­ν¬μ™€ cnn기법을 ν•©μΉœ κΈ°λ²•μž…λ‹ˆλ‹€.

  • ν† λ©•λž­ν¬λŠ” 뢄포가 μž‘μ€ 클래슀의 λ°μ΄ν„°μ—μ„œ κ°€μž₯ κ°€κΉŒμš΄ λ‹€λ₯Έ 클래슀의 데이터λ₯Ό μ°Ύμ•„μ„œ μ£½μ΄λŠ” κΈ°λ²•μž…λ‹ˆλ‹€. μ΄λ ‡κ²Œ 되면, μ€‘μ‹¬λΆ„ν¬λŠ” μœ μ§€ν•˜λ©΄μ„œ λΆ„λ₯˜κΈ°μ€€ 선에 λΆ™μ–΄μžˆλŠ” 데이터듀을 제거힐 수 μžˆμŠ΅λ‹ˆλ‹€.

  • cnn 기법은 뢄포가 큰 ν΄λž˜μŠ€μ—μ„œ μ†Œμˆ˜ ν΄λž˜μŠ€μ™€ μ§€λ‚˜μΉ˜κ²Œ λ¨Ό 거리의 μƒ˜ν”Œ(예컨데 μ΄μƒμΉ˜)을 μ œκ±°ν•˜λŠ” λ°©λ²•μž…λ‹ˆλ‹€. ossλŠ” 이 λ‘˜μ„ 적절히 μ„žμ€ μƒ˜ν”Œλ§ κΈ°λ²•μž…λ‹ˆλ‹€.

μ €λŠ” 이 λ°μ΄ν„°μ—μ„œ μ†Œμˆ˜ 클래슀의 μˆ˜κ°€ 250κ°œκ°€ 채 λ˜μ§€ μ•Šμ•„μ„œ λ‹¨μˆœ λžœλ€μƒ˜ν”Œλ§μœΌλ‘œ 1450κ°œμ— λ‹¬ν•˜λŠ” λ‹€μˆ˜ 데이터λ₯Ό λ¬΄μž‘μœ„λ‘œ 쀄이면(수λ₯Ό λ§žμΆ”λ©΄) λ°μ΄ν„°μ˜ μ™œκ³‘μ΄ 크게 생길 수 μžˆλ‹€κ³  λ³΄μ•˜μŠ΅λ‹ˆλ‹€.

λ˜ν•œ 데이터 μ…‹(train/test) 뢄리에 μžˆμ–΄μ„œλ„ y에 따라 μΈ΅ν™”μΆ”μΆœν•˜λŠ” 방법 λ˜ν•œ λΆˆκ· ν˜• 문제λ₯Ό λ‹€λ£¨λŠ” 것에 μœ νš¨ν•˜μ§€λ§Œ, 이 λͺ¨λΈμ—μ„œλŠ” 였히렀 μ„±λŠ₯이 ν•˜λ½ν•˜λŠ” 것을 λ°œκ²¬ν•˜μ—¬ 이λ₯Ό μ œμ™Έν•˜μ˜€μŠ΅λ‹ˆλ‹€.

  • train_test_split(x, y, test_size=.2, random_state=4) #,shuffle = True #Trueκ°€ λ””ν΄νŠΈ, stratify = y_samp

image

Insight

  • μ Šμ€ 직원(32.5μ„Έ μ΄ν•˜)의 μ΄νƒˆμ΄ λ‘λ“œλŸ¬μ§. 특히 미혼인 μ§μ›λ“€μ˜ μ΄νƒˆμ΄ λ§Žλ‹€.

  • 월급이 13026 보닀 많으면 λŒ€λΆ€λΆ„ μ΄νƒˆμ„ μ•ˆν•œλ‹€. (μ•½ 58λͺ… 쀑 4λͺ… μ •λ„λ§Œ 퇴사)

  • λ°˜λŒ€λ‘œ 월급이 2458보닀 μž‘κ³ , daily rate이 786보닀 μž‘μœΌλ©΄ 무쑰건 퇴사λ₯Ό ν•˜μ˜€λ‹€.(μ—”νŠΈλ‘œν”Ό 0)

  • κ·Όμ†μ—°μˆ˜ 1.5λ…„ μ΄ν•˜μ—μ„œ λŒ€λΆ€λΆ„ 퇴사

  • λΆ€μ„œ μ€‘μ—μ„œ μ˜μ—… λΆ€μ„œμ—μ„œ μ΄νƒˆμ΄ λ‘λ“œλŸ¬μ§. κ·Έ 쀑 특히 직무 λ§Œμ‘±λ„ 3.5 μ΄ν•˜, ν™˜κ²½ λ§Œμ‘±λ„ 2.5 μ΄ν•˜μΈ μ§μ›λ“€μ˜ 퇴사 λΉ„μœ¨μ€ 2배이닀.


앙상블

μ˜ˆμΈ‘μ„±λŠ₯을 ν–₯μƒμ‹œν‚€κΈ° μœ„ν•΄ 앙상블 기법 μ—¬λŸ¬ 개λ₯Ό κ΅¬ν˜„ν•˜μ—¬ μ„±λŠ₯을 λΉ„κ΅ν•˜μ˜€λ‹€.

image


-λ³΄νŒ…

with SVM, Logistic Regression, DT


-λ°°κΉ… (랜덀 포레슀트)

λ³€μˆ˜μ€‘μš”λ„ μ‚°μΆœ

image

Monthly income, 즉, ν•œ 달 월급이 뢄기에 μžˆμ–΄μ„œ κ°€μž₯ μ€‘μš”ν•œ λ³€μˆ˜λ‘œ μ„ μ •λ˜μ—ˆλ‹€. (퇴사에 μžˆμ–΄μ„œ κ°€μž₯ μ€‘μš”ν•œ μš”μΈ)


-λΆ€μŠ€νŒ… (xgboost)

λžœλ€ν¬λ ˆμŠ€νŠΈμ™€ 큰 차이가 λ‚˜μ§€ μ•Šμ§€λ§Œ κ°€μž₯ 높은 정확도λ₯Ό 보인닀.

그런데, f-1 scoreμ—μ„œλŠ” xgλΆ€μŠ€νŠΈ λͺ¨λΈμ΄ λžœλ€ν¬λ ˆμŠ€νŠΈμ— λΉ„ν•΄ 2λ°°κ°€ λ†’λ‹€.

μ΄λŠ” 클래슀 λΆˆκ· ν˜• μƒνƒœμ—λ„ κ½€ 높은 μ„±λŠ₯을 보일 수 μžˆλ‹€λŠ” 것인데, λ™μ‹œμ— 과적합 문제λ₯Ό μ•ˆκ³  μžˆλ‹€κ³ λ„ λ³Ό 수 μžˆλ‹€.


reference: https://seollane22.tistory.com/16

Releases

No releases published

Packages

No packages published