Data Mining using Decision Tree and codes
μ£Όμ : μ‘°μ§κ΄λ¦¬λ°©μμ μΌνμΌλ‘ λΆλ₯ λ¬Έμ μ μ ν©ν μκ³ λ¦¬μ¦μ μ΄μ©ν΄ μ΄ν(ν΄μ¬)λͺ¨λΈμ λ§λ€μ΄ μμ¬μ μ μ μνλ€.
λ°μ΄ν° : Human Resource data in kaggle made by ibm data scientist
label: "attrition" (ν΄μ¬ μ¬λΆ)
μ°μ μ λ νμμ λ°μ΄ν° λΆμ(eda)μ μμ΄μ "λ°μ΄ν°λ₯Ό μ μ΄ν΄λ³Ό μ μλ μ½λλ₯Ό λμμΈ" νλ κ²μ λ Έλ ₯νμ΅λλ€.
μ΄λ₯Ό ν΅ν΄ λ μ΄λΈμ κ· νμ΄ λ§μ§ μλ κ²μ λ°κ²¬νμ¬ μ΄λ₯Ό 보μνκΈ° μν΄ μΈλ μνλ§ κΈ°λ²μ μ μ©νμ΅λλ€.
μ κ° μ¬μ©ν ossλ μ΄ λ°©λ²μ λ§μ°¬κ°μ§λ‘ μΈλμνλ§ κΈ°λ²λ€μΈ ν λ§₯λν¬μ cnnκΈ°λ²μ ν©μΉ κΈ°λ²μ λλ€.
-
ν λ©λν¬λ λΆν¬κ° μμ ν΄λμ€μ λ°μ΄ν°μμ κ°μ₯ κ°κΉμ΄ λ€λ₯Έ ν΄λμ€μ λ°μ΄ν°λ₯Ό μ°Ύμμ μ£½μ΄λ κΈ°λ²μ λλ€. μ΄λ κ² λλ©΄, μ€μ¬λΆν¬λ μ μ§νλ©΄μ λΆλ₯κΈ°μ€ μ μ λΆμ΄μλ λ°μ΄ν°λ€μ μ κ±°ν μ μμ΅λλ€.
-
cnn κΈ°λ²μ λΆν¬κ° ν° ν΄λμ€μμ μμ ν΄λμ€μ μ§λμΉκ² λ¨Ό 거리μ μν(μμ»¨λ° μ΄μμΉ)μ μ κ±°νλ λ°©λ²μ λλ€. ossλ μ΄ λμ μ μ ν μμ μνλ§ κΈ°λ²μ λλ€.
μ λ μ΄ λ°μ΄ν°μμ μμ ν΄λμ€μ μκ° 250κ°κ° μ± λμ§ μμμ λ¨μ λλ€μνλ§μΌλ‘ 1450κ°μ λ¬νλ λ€μ λ°μ΄ν°λ₯Ό 무μμλ‘ μ€μ΄λ©΄(μλ₯Ό λ§μΆλ©΄) λ°μ΄ν°μ μκ³‘μ΄ ν¬κ² μκΈΈ μ μλ€κ³ 보μμ΅λλ€.
λν λ°μ΄ν° μ (train/test) λΆλ¦¬μ μμ΄μλ yμ λ°λΌ μΈ΅νμΆμΆνλ λ°©λ² λν λΆκ· ν λ¬Έμ λ₯Ό λ€λ£¨λ κ²μ μ ν¨νμ§λ§, μ΄ λͺ¨λΈμμλ μ€νλ € μ±λ₯μ΄ νλ½νλ κ²μ λ°κ²¬νμ¬ μ΄λ₯Ό μ μΈνμμ΅λλ€.
- train_test_split(x, y, test_size=.2, random_state=4) #,shuffle = True #Trueκ° λν΄νΈ, stratify = y_samp
Insight
-
μ μ μ§μ(32.5μΈ μ΄ν)μ μ΄νμ΄ λλλ¬μ§. νΉν λ―ΈνΌμΈ μ§μλ€μ μ΄νμ΄ λ§λ€.
-
μκΈμ΄ 13026 λ³΄λ€ λ§μΌλ©΄ λλΆλΆ μ΄νμ μνλ€. (μ½ 58λͺ μ€ 4λͺ μ λλ§ ν΄μ¬)
-
λ°λλ‘ μκΈμ΄ 2458λ³΄λ€ μκ³ , daily rateμ΄ 786λ³΄λ€ μμΌλ©΄ 무쑰건 ν΄μ¬λ₯Ό νμλ€.(μνΈλ‘νΌ 0)
-
κ·Όμμ°μ 1.5λ μ΄νμμ λλΆλΆ ν΄μ¬
-
λΆμ μ€μμ μμ λΆμμμ μ΄νμ΄ λλλ¬μ§. κ·Έ μ€ νΉν μ§λ¬΄ λ§μ‘±λ 3.5 μ΄ν, νκ²½ λ§μ‘±λ 2.5 μ΄νμΈ μ§μλ€μ ν΄μ¬ λΉμ¨μ 2λ°°μ΄λ€.
μμλΈ
μμΈ‘μ±λ₯μ ν₯μμν€κΈ° μν΄ μμλΈ κΈ°λ² μ¬λ¬ κ°λ₯Ό ꡬννμ¬ μ±λ₯μ λΉκ΅νμλ€.
-보ν
with SVM, Logistic Regression, DT
-λ°°κΉ (λλ€ ν¬λ μ€νΈ)
λ³μμ€μλ μ°μΆ
Monthly income, μ¦, ν λ¬ μκΈμ΄ λΆκΈ°μ μμ΄μ κ°μ₯ μ€μν λ³μλ‘ μ μ λμλ€. (ν΄μ¬μ μμ΄μ κ°μ₯ μ€μν μμΈ)
-λΆμ€ν (xgboost)
λλ€ν¬λ μ€νΈμ ν° μ°¨μ΄κ° λμ§ μμ§λ§ κ°μ₯ λμ μ νλλ₯Ό 보μΈλ€.
κ·Έλ°λ°, f-1 scoreμμλ xgλΆμ€νΈ λͺ¨λΈμ΄ λλ€ν¬λ μ€νΈμ λΉν΄ 2λ°°κ° λλ€.
μ΄λ ν΄λμ€ λΆκ· ν μνμλ κ½€ λμ μ±λ₯μ λ³΄μΌ μ μλ€λ κ²μΈλ°, λμμ κ³Όμ ν© λ¬Έμ λ₯Ό μκ³ μλ€κ³ λ λ³Ό μ μλ€.
reference: https://seollane22.tistory.com/16