Feature selection#
Feature selection์ ๋จธ์ ๋ฌ๋ ๋ฐ ๋ฐ์ดํฐ ๋ถ์์์ ์ค์ํ ๋จ๊ณ ์ค ํ๋๋ก, ๋ชจ๋ธ์ ๊ฐ์ฅ ์ ์๋ฏธํ ํน์ง(๋๋ ๋ณ์)๋ค์ ์ ํํ๋ ๊ณผ์ ์ ๋๋ค. ์ด๋ฌํ ์ ํ์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฅ์์ํค๊ณ , ๊ณ์ฐ ๋น์ฉ์ ์ค์ฌ์ค ์ ์์ต๋๋ค.
๋ณดํต RandomForest Classifier์ feature importance_๋ฅผ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์๋ฐ information value๋ woe์ ๋ํด์ ์์๋ณด์.
๋ ์งํ๋ feature selection๊ณผ ๊ด๋ จํ์ฌ ๋ณ์์ ์ค์๋๋ฅผ ์ธก์ ํ๋ ์งํ์ ๋๋ค. ๋์ ๋น์ทํ๋ฉด์ ๋ค๋ฅธ ์ ์ด ์กด์ฌํจ์ผ๋ก ์ฐจ์ด๋ฅผ ๋ช ํํ๊ฒ ํ๊ณ ๊ฐ๋ ๊ฒ์ด ์ข์ ๊ฒ ์ ๋๋ค.
Weight of Evidence(WOE) ๊ทผ๊ฑฐ์ ๋ฌด๊ฒ#
์ข ์ ๋ณ์(target col)์ ๊ด๋ จํ์ฌ ์ํฅ๋ ฅ ์๋ ๋ ๋ฆฝ ๋ณ์์ ์์ธก๋ ฅ์ ๋ํ๋ด๋ ์งํ์ ๋๋ค.
์ฌ๊ธฐ์ ์ด๋ฒคํธ(event)๋ผ๋ ๊ฐ๋ ์ด ์กด์ฌํ๋๋ฐ ๋ก์ง์คํฑ ํ๊ท(์ดํญ ๋ถ๋ฅ)์์ ์ฌ์ฉ๋๋ ๊ฒ์ผ๋ก ๋ ๊ฐ์ค์ ํ๋์ class ํน์ label๋ก ์๊ฐํ ์ ์๋ค. ์ ์ฉํ๊ฐ ์๋ฃ์์์ ๊ฒฝ์ฐ๋๋ ๊ณ ๊ฐ์ด ์ ์ฉ์ฑ๋ฌด๋ฅ๋ ฅ์ด ์๋ ๊ฒฝ์ฐ๋ฅผ non-event, ์๋ ๊ฒฝ์ฐ๋ฅผ event๋ผ๊ณ ํํํ ์ ์์ ๊ฒ์ด๋ค.
๊ฐ์ด ์์์ด๋ฉด ์ข์ ๊ณ ๊ฐ(non-event)์ ๋น์จ์ด ๋์ ๊ณ ๊ฐ(event)์ ๋น์จ๋ณด๋ค ํฐ ๊ฒ์ด๋ค.
์ฐ์ํ ๋ณ์์ธ ๊ฒฝ์ฐ, ๋ฐ์ดํฐ๋ฅผ 10๊ฐ์ ๊ตฌ๊ฐ์ผ๋ก binning. qcut
๊ฐ ๊ทธ๋ฃน์ ์ด๋ฒคํธ, ๋น์ด๋ฒคํธ์ ์๋ฅผ ๊ณ์ฐ
๊ทธ๋ค์ ๋น์จ ๊ณ์ฐ
์์ฐ ๋ก๊ทธ(ln) -> ๊ตฌ๊ฐ๋ณ woe๋ฅผ ๊ณ์ฐ
์ข ์๋ณ์์ ๋ถํฌ ์ ์ฌ์ฑ(event, non-evnet count)์ ๊ธฐ์ดํ์ฌ ์ฐ์์ ์ธ ๋ ๋ฆฝ๋ณ์๋ฅผ ํ๋์ ๋ฒ์ฃผ๋ก ๋ณํํ๋๋ฐ ์ฌ์ฉํ๋ค. ๋ญ์๋ฆฐ์ง ๋ชจ๋ฅด๊ฒ ๋ค.
Information value ์ ๋ณด๊ฐ์น#
์์์ ์ฌ์ฉํ WOE์ events, non-event์ ๋ถํฌ๋ฅผ ์ฌ์ฉํ์ฌ ๊ตฌํ๊ฒ ๋๋ค.
๋ณ์์ ๊ฐ๋ค์ ์ผ์ ํ ๊ตฌ๊ฐ(bin)์ผ๋ก ๋๋๋๋ค.
๊ฐ ๊ตฌ๊ฐ์ ์ํ ๊ด์ธก์น์ ์์ ๋ชฉํ ๋ณ์์ ์ด๋ฒคํธ(์: ์์ฑ ํด๋์ค)๊ฐ ๋ฐ์ํ ํ์๋ฅผ ๊ณ์ฐํฉ๋๋ค.
๊ฐ ๊ตฌ๊ฐ์ ๋น์จ๊ณผ ๋น์จ์ ๋ก๊ทธ๊ฐ์ ๊ณ์ฐํฉ๋๋ค.
๊ฐ ๊ตฌ๊ฐ์ ์ ๋ณด ๊ฐ์น๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํด ๊ตฌ๊ฐ ๋น์จ๊ณผ ๋ก๊ทธ๊ฐ์ ๊ณฑํ ํ, ๋ชจ๋ ๊ตฌ๊ฐ์ ์ ๋ณด ๊ฐ์น๋ฅผ ํฉ์ฐํฉ๋๋ค.
์ ๋ณด ๊ฐ์น๋ ๋ณ์์ ๋ชฉํ ๋ณ์ ๊ฐ์ ์๊ด ๊ด๊ณ๋ฅผ ๋ํ๋ด๋ ์์น๋ก ์ฌ์ฉ๋ฉ๋๋ค. ์ ๋ณด ๊ฐ์น๊ฐ ๋์ ๋ณ์๋ feature selection์์ ์ฐ์ ์ ์ผ๋ก ์ ํ๋๋ ๊ฒฝํฅ์ด ์์ต๋๋ค. Information value๋ ๋ณ์์ ์ค์๋๋ฅผ ์ธก์ ํ๋ ํ๋์ ๋ฐฉ๋ฒ์ด์ง๋ง, ๋ค๋ฅธ ํน์ง ์ ํ ๊ธฐ๋ฒ๊ณผ ํจ๊ป ์ฌ์ฉ๋ ์๋ ์์ต๋๋ค. ๋ณ์ ๊ฐ์ ๋ค์ค๊ณต์ ์ฑ์ ๊ณ ๋ คํ์ฌ ์ํธ ๊ด๋ จ๋ ๋ณ์ ์ค ํ๋๋ง ์ ํํ๋ ๋ฑ์ ์ถ๊ฐ์ ์ธ ๊ณ ๋ ค ์ฌํญ์ด ํ์ํ ์ ์์ต๋๋ค. ํ๋๋ง ์ ํํ๋ ๋ฑ์ ์ถ๊ฐ์ ์ธ ๊ณ ๋ ค ์ฌํญ์ด ํ์ํ ์ ์๋ค.