[κΈ°μ΄ˆν†΅κ³„ν•™ 3κ°•] κΈ°μˆ ν†΅κ³„-수치적 해석

2020. 8. 31. 20:23ㆍLearning archive/Data Science

 

 

 

πŸ“Œ ν‘œλ³Έ λΉ„μœ¨λ„ μΌμ’…μ˜ ν‘œλ³Έ ν‰κ· μž…λ‹ˆλ‹€! (μ€‘μš”) 

 

 

 

 

이상점(Outlier) 밖에 λ†“μ—¬μ ΈμžˆλŠ”, 멀리 λ–¨μ–΄μ ΈμžˆλŠ” λͺ‡ 개의 점! 

ν•œ λ‘κ°œκ°€ μ € 밖에 μžˆλ‹€? 쀑심 μœ„μΉ˜κ°€ μ‘€μš± μ˜¬λΌμ˜¨λ‹€! 

 

평균값은 이상점(Outlier)에 λ‘œλ²„μŠ€νŠΈ(robust)ν•˜μ§€ μ•ŠλŠ”λ‹€! 

 

8λͺ…μ˜ 평균을 κ΅¬ν•˜λ©΄, 평균이 227.5κ°€ λ‚˜μ˜€λŠ”λ° 이 경우 6λͺ…이 ν‰κ· μ΄ν•˜κ°€ λœλ‹€??

-> 평균이 μ€‘μ‹¬μœ„μΉ˜λ‘œ κ³Όμ—° μ μ ˆν•œκ°€μ— λŒ€ν•œ μ˜λ¬Έμ„ ν’ˆκ²Œ 됨. 

 

 

 

πŸ“Œ 이상점(outlier)에 λ‘œλ²„μŠ€νŠΈ(robust)ν•œ 'ν‘œλ³Έμ€‘μ•™κ°’' 

 

 

 

but 자료의 정보λ₯Ό μ „λΆ€ ν™œμš©ν•˜μ§€ λͺ»ν•œλ‹€λŠ” 단점이 μžˆλ‹€ 

 

 

이런 일이 μ—„μ²­ λ§Žμ•„μš”! 이런 μ‹€μˆ˜λ₯Ό 많이 ν•©λ‹ˆλ‹€. κ·Έλž˜μ„œ μˆ˜λ°±μ–΅, μˆ˜μ²œμ–΅μ΄ λ‚ λΌκ°€μš”. 

많이 λ°›λŠ” κ·Έλ£Ή μ‚¬λžŒ μˆ˜κ°€ λ§Žμ•„μ Έμ„œ 많이 λ°›λŠ” κ²ƒμ²˜λŸΌ 보일 뿐.. 

 

μ „μ²΄μ˜ 결과와 λΆ€λΆ„μ˜ κ²°κ³Όκ°€ μƒλ°˜λœλ‹€? = μ‹¬μŠ¨μ˜ μ—­μ„€ 

μ™œ 이런일이 λ°œμƒν–ˆμ„κΉŒ? 

 

 

 

 

 

πŸ“Œ μž˜λΌλ‚΄λŠ” 평균, μ ˆμ‚¬ν‰κ·  

아웃라이어 영ν–₯도 μ•ˆ λ°›κ³ , 데이터도 λ‹€ ν™œμš©ν•  수 μžˆλ‹€ (절좩) 

 

κ°€μž₯ 큰 κ°’, 적은 값을 μž˜λΌλ‚΄κ³  평균을 λ‚Έλ‹€

 

이런 것도 μžˆλ‹€~ μ•Œμ•„λ‘μ„Έμš” 

 

 


 

 

μ μ ˆν•˜μ§€λŠ” μ•Šμ§€λ§Œ.. μ‚¬μš©λ  μˆ˜λŠ” μžˆλ‹€λŠ” 점 

 

κ·Έλ ‡λ‹€λ©΄ 이상점에 λ‘”κ°ν•œ λ²”μœ„λŠ” μ—†μ„κΉŒ? 

 

 Q3-Q1 = μ‚¬λΆ„μœ„λ²”μœ„ 

πŸ“Œ  25% 지점, 75% 지점을 μ–΄λ–»κ²Œ κ΅¬ν•˜λ‚˜? 

첫 λ²ˆμ§ΈλŠ” λ‹¨μˆœ 
μ΄κ±°λŠ” λ‚˜μ€‘μ—! 

 

 

πŸ“Œ μƒμžκ·Έλ¦Ό(box plot) : 이상점이 μžˆλŠ”μ§€ μ—†λŠ”μ§€ μ•Œ 수 있고, 비ꡐ할 λ•Œ 많이 μ“΄λ‹€! 

 

 

πŸ“Œ ν‘œλ³ΈλΆ„μ‚°κ³Ό ν‘œλ³Έν‘œμ€€νŽΈμ°¨ :  μ œλŒ€λ‘œ 이해해야 덜 κ΄΄λ‘­λ‹€! 

 

μ—¬νƒœκΉŒμ§€λŠ” λ‚˜λ¨Έμ§€ 데이터λ₯Ό ν™œμš© λͺ»ν•˜λŠ” 단점이 μžˆλ‹€. 

λͺ¨λ“  데이터λ₯Ό ν™œμš©ν•˜λ©΄μ„œλ„, μ–Όλ§ˆλ‚˜ νΌμ ΈμžˆλŠ”μ§€ μ•Œκ³  μ‹Άλ‹€λ©΄? 

 

 

1) a=b이면 a와 bκ°„μ˜ 거리가 0이며 κ·Έ 역도 성립

2) aμ—μ„œ μΆœλ°œν•΄μ„œ b둜 κ°€λ‚˜, bμ—μ„œ μΆœλ°œν•΄μ„œ a둜 κ°€λ‚˜ 거리가 κ°™λ‹€

3) aμ—μ„œ c둜 κ°”λ‹€κ°€, cμ—μ„œ b둜 κ°€λŠ” 거리가 aμ—μ„œ b둜 κ°„ 것보닀 ν¬κ±°λ‚˜ κ°™λ‹€. 

 

-> 이 μ„Έ 쑰건을 λ§Œμ‘±ν•˜λ©΄ '거리'λ‹€.