Feature selection#

Feature selection์€ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ฐ ๋ฐ์ดํ„ฐ ๋ถ„์„์—์„œ ์ค‘์š”ํ•œ ๋‹จ๊ณ„ ์ค‘ ํ•˜๋‚˜๋กœ, ๋ชจ๋ธ์— ๊ฐ€์žฅ ์œ ์˜๋ฏธํ•œ ํŠน์ง•(๋˜๋Š” ๋ณ€์ˆ˜)๋“ค์„ ์„ ํƒํ•˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์„ ํƒ์€ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ณ , ๊ณ„์‚ฐ ๋น„์šฉ์„ ์ค„์—ฌ์ค„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋ณดํ†ต RandomForest Classifier์˜ feature importance_๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์€๋ฐ information value๋ž‘ woe์— ๋Œ€ํ•ด์„œ ์•Œ์•„๋ณด์ž.

๋‘ ์ง€ํ‘œ๋Š” feature selection๊ณผ ๊ด€๋ จํ•˜์—ฌ ๋ณ€์ˆ˜์˜ ์ค‘์š”๋„๋ฅผ ์ธก์ •ํ•˜๋Š” ์ง€ํ‘œ์ž…๋‹ˆ๋‹ค. ๋‘˜์€ ๋น„์Šทํ•˜๋ฉด์„œ ๋‹ค๋ฅธ ์ ์ด ์กด์žฌํ•จ์œผ๋กœ ์ฐจ์ด๋ฅผ ๋ช…ํ™•ํ•˜๊ฒŒ ํ•˜๊ณ  ๊ฐ€๋Š” ๊ฒƒ์ด ์ข‹์„ ๊ฒƒ ์ž…๋‹ˆ๋‹ค.

Weight of Evidence(WOE) ๊ทผ๊ฑฐ์˜ ๋ฌด๊ฒŒ#

์ข…์† ๋ณ€์ˆ˜(target col)์™€ ๊ด€๋ จํ•˜์—ฌ ์˜ํ–ฅ๋ ฅ ์žˆ๋Š” ๋…๋ฆฝ ๋ณ€์ˆ˜์˜ ์˜ˆ์ธก๋ ฅ์„ ๋‚˜ํƒ€๋‚ด๋Š” ์ง€ํ‘œ์ž…๋‹ˆ๋‹ค.

์—ฌ๊ธฐ์„œ ์ด๋ฒคํŠธ(event)๋ผ๋Š” ๊ฐœ๋…์ด ์กด์žฌํ•˜๋Š”๋ฐ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€(์ดํ•ญ ๋ถ„๋ฅ˜)์—์„œ ์‚ฌ์šฉ๋˜๋˜ ๊ฒƒ์œผ๋กœ ๋‘ ๊ฐœ์ค‘์˜ ํ•˜๋‚˜์˜ class ํ˜น์€ label๋กœ ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ๋‹ค. ์‹ ์šฉํ‰๊ฐ€ ์ž๋ฃŒ์—์„œ์˜ ๊ฒฝ์šฐ๋žŒ๋…€ ๊ณ ๊ฐ์ด ์‹ ์šฉ์ฑ„๋ฌด๋Šฅ๋ ฅ์ด ์žˆ๋Š” ๊ฒฝ์šฐ๋ฅผ non-event, ์—†๋Š” ๊ฒฝ์šฐ๋ฅผ event๋ผ๊ณ  ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค.

๊ฐ’์ด ์–‘์ˆ˜์ด๋ฉด ์ข‹์€ ๊ณ ๊ฐ(non-event)์˜ ๋น„์œจ์ด ๋‚˜์œ ๊ณ ๊ฐ(event)์˜ ๋น„์œจ๋ณด๋‹ค ํฐ ๊ฒƒ์ด๋‹ค.

\[ WOE = ln \genfrac [] {1pt}{1}{\text{Distribution of goods}}{\text{Distribution of bads}} = ln \genfrac [] {1pt}{1}{\text{\% of non-events}}{\text{\% of events}} \]
  1. ์—ฐ์†ํ˜• ๋ณ€์ˆ˜์ธ ๊ฒฝ์šฐ, ๋ฐ์ดํ„ฐ๋ฅผ 10๊ฐœ์˜ ๊ตฌ๊ฐ„์œผ๋กœ binning. qcut

  2. ๊ฐ ๊ทธ๋ฃน์˜ ์ด๋ฒคํŠธ, ๋น„์ด๋ฒคํŠธ์˜ ์ˆ˜๋ฅผ ๊ณ„์‚ฐ

  3. ๊ทธ๋“ค์˜ ๋น„์œจ ๊ณ„์‚ฐ

  4. ์ž์—ฐ ๋กœ๊ทธ(ln) -> ๊ตฌ๊ฐ„๋ณ„ woe๋ฅผ ๊ณ„์‚ฐ

์ข…์†๋ณ€์ˆ˜์˜ ๋ถ„ํฌ ์œ ์‚ฌ์„ฑ(event, non-evnet count)์— ๊ธฐ์ดˆํ•˜์—ฌ ์—ฐ์†์ ์ธ ๋…๋ฆฝ๋ณ€์ˆ˜๋ฅผ ํ•˜๋‚˜์˜ ๋ฒ”์ฃผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š”๋ฐ ์‚ฌ์šฉํ•œ๋‹ค. ๋ญ”์†Œ๋ฆฐ์ง€ ๋ชจ๋ฅด๊ฒ ๋‹ค.

Information value ์ •๋ณด๊ฐ€์น˜#

์œ„์—์„œ ์‚ฌ์šฉํ•œ WOE์˜ events, non-event์˜ ๋ถ„ํฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ตฌํ•˜๊ฒŒ ๋œ๋‹ค.

  1. ๋ณ€์ˆ˜์˜ ๊ฐ’๋“ค์„ ์ผ์ •ํ•œ ๊ตฌ๊ฐ„(bin)์œผ๋กœ ๋‚˜๋ˆ•๋‹ˆ๋‹ค.

  2. ๊ฐ ๊ตฌ๊ฐ„์— ์†ํ•œ ๊ด€์ธก์น˜์˜ ์ˆ˜์™€ ๋ชฉํ‘œ ๋ณ€์ˆ˜์˜ ์ด๋ฒคํŠธ(์˜ˆ: ์–‘์„ฑ ํด๋ž˜์Šค)๊ฐ€ ๋ฐœ์ƒํ•œ ํšŸ์ˆ˜๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.

  3. ๊ฐ ๊ตฌ๊ฐ„์˜ ๋น„์œจ๊ณผ ๋น„์œจ์˜ ๋กœ๊ทธ๊ฐ’์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.

  4. ๊ฐ ๊ตฌ๊ฐ„์˜ ์ •๋ณด ๊ฐ€์น˜๋ฅผ ๊ณ„์‚ฐํ•˜๊ธฐ ์œ„ํ•ด ๊ตฌ๊ฐ„ ๋น„์œจ๊ณผ ๋กœ๊ทธ๊ฐ’์„ ๊ณฑํ•œ ํ›„, ๋ชจ๋“  ๊ตฌ๊ฐ„์˜ ์ •๋ณด ๊ฐ€์น˜๋ฅผ ํ•ฉ์‚ฐํ•ฉ๋‹ˆ๋‹ค.

\[ IV = \sum(\text{\% of non-events} - \text{\% of events}) * WOE \]

์ •๋ณด ๊ฐ€์น˜๋Š” ๋ณ€์ˆ˜์™€ ๋ชฉํ‘œ ๋ณ€์ˆ˜ ๊ฐ„์˜ ์ƒ๊ด€ ๊ด€๊ณ„๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ˆ˜์น˜๋กœ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ์ •๋ณด ๊ฐ€์น˜๊ฐ€ ๋†’์€ ๋ณ€์ˆ˜๋Š” feature selection์—์„œ ์šฐ์„ ์ ์œผ๋กœ ์„ ํƒ๋˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์Šต๋‹ˆ๋‹ค. Information value๋Š” ๋ณ€์ˆ˜์˜ ์ค‘์š”๋„๋ฅผ ์ธก์ •ํ•˜๋Š” ํ•˜๋‚˜์˜ ๋ฐฉ๋ฒ•์ด์ง€๋งŒ, ๋‹ค๋ฅธ ํŠน์ง• ์„ ํƒ ๊ธฐ๋ฒ•๊ณผ ํ•จ๊ป˜ ์‚ฌ์šฉ๋  ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ณ€์ˆ˜ ๊ฐ„์˜ ๋‹ค์ค‘๊ณต์„ ์„ฑ์„ ๊ณ ๋ คํ•˜์—ฌ ์ƒํ˜ธ ๊ด€๋ จ๋œ ๋ณ€์ˆ˜ ์ค‘ ํ•˜๋‚˜๋งŒ ์„ ํƒํ•˜๋Š” ๋“ฑ์˜ ์ถ”๊ฐ€์ ์ธ ๊ณ ๋ ค ์‚ฌํ•ญ์ด ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ•˜๋‚˜๋งŒ ์„ ํƒํ•˜๋Š” ๋“ฑ์˜ ์ถ”๊ฐ€์ ์ธ ๊ณ ๋ ค ์‚ฌํ•ญ์ด ํ•„์š”ํ•  ์ˆ˜ ์žˆ๋‹ค.