2020. 8. 31. 20:23γLearning archive/Data Science
π νλ³Έ λΉμ¨λ μΌμ’ μ νλ³Έ νκ· μ λλ€! (μ€μ)
μ΄μμ (Outlier) λ°μ λμ¬μ Έμλ, λ©λ¦¬ λ¨μ΄μ Έμλ λͺ κ°μ μ !
ν λκ°κ° μ λ°μ μλ€? μ€μ¬ μμΉκ° μ€μ± μ¬λΌμ¨λ€!
νκ· κ°μ μ΄μμ (Outlier)μ λ‘λ²μ€νΈ(robust)νμ§ μλλ€!
8λͺ μ νκ· μ ꡬνλ©΄, νκ· μ΄ 227.5κ° λμ€λλ° μ΄ κ²½μ° 6λͺ μ΄ νκ· μ΄νκ° λλ€??
-> νκ· μ΄ μ€μ¬μμΉλ‘ κ³Όμ° μ μ νκ°μ λν μλ¬Έμ νκ² λ¨.
π μ΄μμ (outlier)μ λ‘λ²μ€νΈ(robust)ν 'νλ³Έμ€μκ°'
but μλ£μ μ 보λ₯Ό μ λΆ νμ©νμ§ λͺ»νλ€λ λ¨μ μ΄ μλ€
λ§μ΄ λ°λ κ·Έλ£Ή μ¬λ μκ° λ§μμ Έμ λ§μ΄ λ°λ κ²μ²λΌ λ³΄μΌ λΏ..
μ 체μ κ²°κ³Όμ λΆλΆμ κ²°κ³Όκ° μλ°λλ€? = μ¬μ¨μ μμ€
μ μ΄λ°μΌμ΄ λ°μνμκΉ?
π μλΌλ΄λ νκ· , μ μ¬νκ·
μμλΌμ΄μ΄ μν₯λ μ λ°κ³ , λ°μ΄ν°λ λ€ νμ©ν μ μλ€ (μ μΆ©)
κ°μ₯ ν° κ°, μ μ κ°μ μλΌλ΄κ³ νκ· μ λΈλ€
κ·Έλ λ€λ©΄ μ΄μμ μ λκ°ν λ²μλ μμκΉ?
Q3-Q1 = μ¬λΆμλ²μ
π 25% μ§μ , 75% μ§μ μ μ΄λ»κ² ꡬνλ?
π μμκ·Έλ¦Ό(box plot) : μ΄μμ μ΄ μλμ§ μλμ§ μ μ μκ³ , λΉκ΅ν λ λ§μ΄ μ΄λ€!
π νλ³ΈλΆμ°κ³Ό νλ³Ένμ€νΈμ°¨ : μ λλ‘ μ΄ν΄ν΄μΌ λ κ΄΄λ‘λ€!
μ¬νκΉμ§λ λλ¨Έμ§ λ°μ΄ν°λ₯Ό νμ© λͺ»νλ λ¨μ μ΄ μλ€.
λͺ¨λ λ°μ΄ν°λ₯Ό νμ©νλ©΄μλ, μΌλ§λ νΌμ Έμλμ§ μκ³ μΆλ€λ©΄?
1) a=bμ΄λ©΄ aμ bκ°μ κ±°λ¦¬κ° 0μ΄λ©° κ·Έ μλ μ±λ¦½
2) aμμ μΆλ°ν΄μ bλ‘ κ°λ, bμμ μΆλ°ν΄μ aλ‘ κ°λ κ±°λ¦¬κ° κ°λ€
3) aμμ cλ‘ κ°λ€κ°, cμμ bλ‘ κ°λ κ±°λ¦¬κ° aμμ bλ‘ κ° κ²λ³΄λ€ ν¬κ±°λ κ°λ€.
-> μ΄ μΈ μ‘°κ±΄μ λ§μ‘±νλ©΄ '거리'λ€.