ارزش اطلاعات و وزن شواهد – مطالعه‌ی موردی بانکداری – بخش چهارم

بخش حاضر ادامه‌ی مطالعه‌ی موردی بانکداری‌مان برای توسعه‌ی کارت‌های امتیاز است. در این بخش، راجع به ارزش اطلاعات (IV)[1]و وزن شواهد بحث می‌کنیم. این مفاهیم در انتخاب متغیر هنگام توسعه‌ی کارت‌های امتیاز اعتباری به‌درد می‌خوردند. همچنین، نحوه‌ی استفاده از وزن شواهد ([۲]WOE) در مدل‌سازی رگرسیون لجستیک را یاد می‌گیریم. برای مطالعه‌ی بخش‌های قبلی می‌توانید به لینک‌های بخش ۱، بخش ۲ و بخش ۳ مراجعه کنید.

متخصصینی با کت و شلوارهای گران‌قیمت

چند هفته پیش داشتم نمایشی به‌نام «بازی‌های فکری[۳]» را روی کانال نشنال جئوگرافیک[۴] تماشا می‌کردم. در یکی از قسمت‌ها، کمدینی اجرا می‌کرد که مثل گزارشگر اخبار تلوزیونی لباس پوشیده بود. عوامل دوربین کاملی همراه این کمدین بود. او به مردمی که از پاساژی در کالیفرنیا بیرون می‌آمدند اطلاع می‌داد که تگزاس تصمیم گرفته است کشوری مستقل تشکیل دهد و دیگر بخشی از ایالات متحده نباشد. به‌علاوه، روی دوربین نظر مردم راجع به این موضوع را جویا می‌شد. پس از مسخره‌بازی‌های اولیه، مردم او را جدی می‌گرفتند و شروع به بیان دیدگاه‌های جدی‌شان می‌کردند. این پدیده‌ای است که روان‌شناسان به‌عنوان «سفسطه‌ی متخصص[۵]» یا اطاعت از قدرت حاکم، صرف‌نظر از این‌که اولیاء امور چقدر غیرمنطقی باشند، توصیف می‌کنند. مردم پس از فهمیدن حقیقت، در این نمایش تلوزیونی گفتند که حرف‌های این کمدین را باور کردند، چون کت و شلوار گران‌قیمتی پوشیده بود و عوامل تلوزیونی همراهش داشت.

نیت سیلور[۶] در کتابش، «سیگنال و نویز[۷]»، پدیده‌ی مشابهی را توصیف می‌کند. او پیش‌بینی‌های انجام‌شده توسط هیئتی از متخصصین در برنامه‌ی تلوزیونی «گروه مکلَفلین[۸]» را تحلیل کرد. معلوم شد که این پیش‌بینی‌ها فقط در ۵۰ درصد موارد واقعیت دارند؛ شما هم می‌توانستید با پرتاب سکه همین پیشگویی را بکنید. ما متخصصینی که کت و شلوار گران می‌پوشند را جدی می‌گیریم، نه؟ اینها مثال‌های مربوط به یکی دو نفر نیستند. مردان کت و شلوارپوش یا یونیفورم‌پوش در فرم‌های مختلفی – از ژنرال‌های ارتش گرفته تا نگهبان‌های امنیتی پاساژها – ظاهر می‌شوند. همه‌ی اینها را خیلی جدی می‌گیریم.

همین الان کشف کردیم که به‌جای پذیرش نظر متخصص، بهتر است ارزش اطلاعات را بررسی کنیم و خودمان تصمیم بگیریم. اجازه دهید موضوع را ادامه دهیم و سعی کنیم نحوه‌ی انتساب مقدار به اطلاعات را با استفاده از ارزش اطلاعات و وزن شواهد بررسی کنیم. سپس، با استفاده از WOE (وزن شواهد)، مدل رگرسیون لجستیکی می‌سازیم. هرچند، پیش از این کار، بیایید به مطالعه‌ی موردی‌مان برگردیم…

ادامه‌ی مطالعه‌ی موردی…

این بخش ادامه‌ی مطالعه‌ی موردی‌مان روی بانک سیندیکت است. این بانک ۶۰۸۱۶ وام خودرو با حدود ۲.۵ درصد نرخ بد در سه‌ماهه‌ی بین آوریل-ژوئن ۲۰۱۲ اعطا کرده بود. ما با استفاده از تصویرسازی داده‌ها در دو بخش اول (بخش‌ ۱ و بخش‌۲)، چند تحلیل کاوشگرانه‌ی داده (EDA) انجام دادیم. در مقاله‌ی قبلی، مدل رگرسیون لجستیک ساده‌ای با متغیر سن (بخش ۳) ساختیم. این‌بار، از بخش پایانی مقاله‌ی قبلی مبحث را ادامه می‌دهیم و از وزن شواهد (WOE) سن برای توسعه‌ی مدل جدید استفاده می‌کنیم. به‌علاوه، قدرت پیشگویانه متغیر (سن) را ازطریق ارزش اطلاعات بررسی می‌کنیم.

ارزش اطلاعات (IV) و وزن شواهد (WOE)

ارزش اطلاعات مفهوم بسیار مفیدی در انتخاب متغیر طی ساخت مدل است. فکر می‌کنم منشأ ارزش اطلاعات، نظریه‌ی اطلاعات پیشنهادشده توسط کلاوده شانون‌ است. دلیلش هم شباهت ارزش اطلاعات با مفهوم پرکاربرد آنتروپی در نظریه‌ی اطلاعات است. مقدار مربع کای، مقیاس پرکاربردی در آمار، جایگزین خوبی برای IV (ارزش اطلاعات) است. هرچند، IV مقیاس رایج و پرکاربردی در صنعت است. دلیل این امر برخی قوانین بسیار راحت در انتخاب متغیرهای مربوط به IV است؛ همان‌طور که بعدا در همین مقاله خواهید دید، اینها متغیرهای بسیار مفیدی هستند. فرمول ارزش اطلاعات در زیر ارائه شده است:

مفهوم توزیع خوب/ بد به‌زودی، زمانی‌که IV را برای مطالعه‌ی موردی‌مان محاسبه می‌کنیم روشن می‌شود. حالا احتمالاً‌ زمان مناسبی برای تعریف وزن شواهد (WOE) است که جزء لگاریتمی ارزش اطلاعات محسوب می‌شود.

بنابراین، در ادامه می‌توان IV را به‌صورت زیر نوشت:

اگر هم ارزش اطلاعات و هم وزن شواهد را به‌دقت بررسی کنید، پس متوجه خواهید شد زمانی‌که یا توزیع خوب یا توزیع بد صفر می‌شود، هر دوی این مقادیر تجزیه می‌شوند. یک ریاضیدان از این مسئله متنفر است. فرض، یک فرض درست، این است که این مسئله هنگام توسعه‌ی کارت امتیاز به‌دلیل اندازه‌ی منطقی نمونه هیچ‌گاه رخ نمی‌دهد. احتیاط! اگر کارت‌های امتیاز غیراستانداردی با اندازه‌ی نمونه‌ی کوچک‌تر می‌سازید، در استفاده از IV دقت کنید.

به مطالعه‌ی موردی برمی‌گردیم

در مقاله‌ی قبلی، دسته‌های نادقیقی برای متغیر سن در مطالعه‌ی موردی‌مان خلق کردیم. حالا، هم ارزش اطلاعات و هم وزن شواهد را برای این دسته‌های نادقیق حساب می‌کنیم.

بیایید این جدول را بررسی کنیم. توزیع وام‌ها در اینجا، نسبت وام‌ها دسته‌ی نادقیق به کل وام‌ها است. برای گروه ۳۰-۲۱، این نسبت ۰.۰۷۹ = ۶۰۸۰۱/۴۸۲۱ می‌شود. همین‌طور، توزیع بد (DB)، ۱۳۵ = ۱۵۲۲/۲۰۶ و توزیع خوب (DG)، ۰.۰۷۸ = ۵۹۲۷۹/۴۶۱۵ می‌شود. به‌علاوه، ۰.۰۵۷- = ۰.۱۳۵ – ۰.۰۷۸ = DB – DG. در ادامه، ۰.۵۵۳- = (۰.۱۳۵/۰.۰۷۸)ln = WOE.

نهایتاً، جزء IV این گروه ۰.۰۳۱۸ = (۰.۵۵۳-)*(۰.۰۵۷-) می‌شود. به همین ترتیب، اجزاء IV سایر دسته‌های نادقیق را حساب کنید. از افزودن این اجزاء، مقدار IV ۰.۱۰۹۳ (ستون آخر جدول) حاصل می‌شود. حالا سؤال این است که این مقدار IV را چطور تفسیر کنیم؟ پاسخ قانون ساده‌ای‌ست که در زیر توصیف شده است:

معمولاً متغیرهایی با قدرت پیشگویانه‌ی قوی و متوسط بر ای توسعه‌ی مدل انتخاب می‌شوند. هرچند، برخی محققان معتقدند که فقط متغیرهایی با IV متوسط باید برای توسعه‌ی مدل مبتنی بر گستردگی استفاده شوند. توجه کنید که ارزش اطلاعات سن، ۰.۱۰۹۳ است، پس به‌ندرت در محدوده‌ی پیش‌بین‌های متوسط قرار می‌گیرد.

رگرسیون لجستیک با وزن شواهد (WOE)

در پایان، بیایید مدل رگرسیون لجستیکی با وزن شواهد دسته‌های نادقیق به‌عنوان مقدار متغیر مستقل سن خلق کنیم. جدول زیر، نتایج حاصل از نرم‌افزاری آماری را ارائه می‌دهد:

اگر مقدار نرخ بد گروه سنی ۳۰-۲۱ را با استفاده از اطلاعات فوق برآورد کنیم:

این دقیقاً همان مقداری است که آخرین بار به‌دست آوردیم (به بخش قبلی نگاهی بیندازید) و با نرخ بد این گروه سنی سازگار است.

مخلص کلام

آرزو داشتم ابزاری شبیه ارزش اطلاعات وجود داشت تا ارزش اطلاعات ارائه‌شده توسط این افرادِ به‌اصطلاح متخصص را برآورد کنیم. هرچند، دفعه‌ی بعد، وقتی متخصصی در کانال کسب‌وکار پیشنهاد خرید سهام خاصی را به شما می‌دهد، خیلی حرف او را باور نکنید.

[۱] Information Value

[۲] Weight of Evidence

[۳] Brain Games

[۴] National Geographic

[۵] expert fallacy

[۶] Nate Silver

[۷] The Signal and The Noise

[۸] The McLaughlin Group

تحلیل ریسک در بانک ها – رگرسیون لجستیک – بخش سوم

فرمول زیبا

ریاضی‌دادنان غالباً مسابقاتی برای زیباترین فرمول جهان ترتیب می‌دهند. مقام اول، تقریباً هر بار، به فرمول کشف‌شده توسط لئونهارد ایلر[۱] تعلق می‌گیرد. این فرمول در زیر ارائه شده است.

این فرمول استثنائی است، چرا که ترکیبی از پنج تا از مهمترین ثابت‌های ریاضی است، یعنی:

۰: عضو همانی جمع

۱: عضو همانی ضرب

π: شاه هندسه و مثلثات

i: شاه جبر پیچیده

e: شاه لگاریتم‌ها

نحوه‌ی پیونددادن این ثابت‌های اساسی ریاضی توسط فرمولی ساده صرفاً زیباست. زمانی‌که این فرمول ایلر را در دبیرستان یاد گرفتم، مدهوش شدم و هنوز هم هستم. ایلر ابداع‌کننده‌ی سمبل e (شاه لگاریتم)، که گاهاً با عنوان ثابت ایلر شناخته می‌شود هم هست. نام‌گذاری این ثابت به دلیل دیگری هم به‌جا است: ایلر به پرکارترین ریاضیدان تمامی دوران‌ها معروف است. او ریاضیات نوین را با نرخی نمایی خلق می‌کرد. این امر خصوصاً وقتی تکان‌دهنده است که بدانیم ایلر نصف عمرش تا حدودی نابینا بود و دو دهه‌ی پایانی عمر هم کاملاً نابینا شد. ازقضا، او در مدت یک هفته‌ی  چشمگیر، یعنی زمانی‌که کاملاً نابینا بود، داشت روی مقاله‌ی علمی با کیفیت‌ بسیار بالایی کار می‌کرد.

امروز، پیش از بازکردن بحث رگرسیون لجستیک، باید به این مرد بزرگ، لئونهارد ایلر ادای احترام کنیم، چرا که ثابت ایلر (e) هسته‌ی رگرسیون لجستیک را شکل می‌دهد.

مثال مطالعه‌ی موردی بانکداری

در دو مقاله‌ی قبلی دایکه (بخش‌ ۱ و بخش‌ ۲)، به‌عنوان مدیر ارشد ریسک (CRO) بانک سیندیکت ایفای نقش می‌کردید. این بانک ۶۰۸۱۶ وام خودرو در سه‌ماهه‌ی بین آوریل-ژوئن ۲۰۱۲ اعطا کرده بود. به‌علاوه، متوجه نرخ بد حدود ۲.۵ درصدی شدید. با استفاده از ابزارهای تصویرسازی داده‌ها، تعدادی تحلیل کاوشگرانه‌ی داده (EDA) انجام دادید و رابطه‌ای بین سن (بخش ۱) و FOIR (بخش ۲) با نرخ‌های بد پیدا کردید. حالا، می‌خواهید مدل رگرسیون لجستیک ساده‌ای با متغیر سن بسازید. اگر یادتان باشد، هیستوگرام نرمال زیر را برای سن همپوشی‌شده با نرخ‌های بد مشاهده کردید.

از این نمودار برای خلق دسته‌های نادقیقی (زمخت) به‌منظور اجرای رگرسیون لجستیک ساده استفاده خواهیم کرد. هرچند، هدف در اینجا، شناخت تفاوت‌های جزئی رگرسیون لجستیک است. بنابراین، بگذارید اول برخی از مفاهیم اصلی رگرسیون لجستیک را دوره کنیم.

رگرسیون لجستیک

در مقاله‌ی دیگری (رگرسیون لجستیک)، برخی از جنبه‌های رگرسیون لجستیک را مطرح کردیم. اجازه دهید مجدداً از تصویری از همان مقاله استفاده کنم. پیشنهاد می‌کنم آن مقاله را بخوانید، چرا که برای درک برخی از مفاهیم مطرح‌شده در اینجا مفید خواهند بود.

در مورد ما، z تابعی از سن است؛ احتمال وام بد را به‌صورت زیر تعریف می‌کنیم:

تأثیر ثابت ایلر روی رگرسیون لجستیک را باید متوجه شده باشید. احتمال بد بودن وام وقتی z یه سمت منفی بینهایت می رود برابر با ۰ و وقتی به سمت مثبت بینهایت می رود برابر با ۱ می‌شود. این امر کران‌های احتمال را در ۰ و ۱، در هر دو طرف بی‌نهایت حفظ می‌کند.

به‌علاوه، می‌دانیم که احتمال وام خوب، یک منهای احتمال وام بد است، پس:

اگر تابه‌حال در هر نوع شرط‌بندی‌ای شرکت کرده باشید، می‌دانید که شرط‌ها باتوجه به شانس بسته می‌شوند. از لحاظ ریاضی، شانس، احتمال بُرد تقسیم بر احتمال باخت است. اگر شانس مسئله‌مان را حساب کنیم، معادله‌ی زیر به‌دست می‌آید.

در اینجا، ثابت ایلر با ابهت تمام مشخص است.

طبقه‌بندی نادقیق

حالا، بیایید دسته‌های نادقیقی از مجموعه‌داده‌ای که در مقاله‌ی اول این سری دیدیم برای گروه‌های سنی بسازیم. دسته‌های نادقیق به‌واسطه‌ی تلفیق گروه‌هایی که ضمن حفظ روند کلی نرخ‌های بد، نرخ‌های بد مشابهی دارند شکل می‌گیرند. همین کار را برای گروه‌های سنی هم انجام می‌دهیم:

از چهار دسته‌ی نادقیق بالا برای اجرای الگوریتم رگرسیون لجستیک استفاده خواهیم کرد. همان‌طور که در مقاله‌ی قبلی دایکه گفتیم، الگوریتم می‌کوشد Z را بهینه کند. در مورد ما، Z ترکیبی خطی از گروه سنی است، یعنی ثابت + G3 + G2 + G1 = Z. همان‌طور که متوجه شدید در این معادله از G4 استفاده نکردیم. چرا که این ثابت اطلاعات G4 را جذب خواهد کرد. این شبیه استفاده از متغیرهای ساختگی در رگرسیون خطی است. اگر می‌خواهید جزئیات بیشتری راجع به این موضوع یاد بگیرید، می‌توانید سؤالتان را روی همین وبلاگ  مطرح کنید تا بیشتر راجع به آن بحث کنیم.

رگرسیون لجستیک

حالا، آماده‌ایم تا رگرسیون لجستیک نهایی‌مان را ازطریق برنامه‌ی آماری برای معادله‌ی زیر بسازیم:

بدین منظور، می‌توانید یا از نرم‌افزار تجاری (SAS، SPSS یا مینی‌تب) یا از نرم‌افزار آزاد (R) استفاده کنید. همه‌ی این نرم‌افزارها جدولی شبیه جدول زیر می‌سازند:

اجازه دهید سریعاً این جدول را رمزگشایی کنیم و نحوه‌ی برآورد ضرایبی در اینجا را بفهمیم. بیایید به ستون آخر این جدول، یعنی نسبت شانس، نگاهی بیندازیم. نرم‌افزار چطور به مقدار ۳.۰۷ برای G1 رسید؟ شانس (وام‌های خوب/ بد) G1، ۴.۴۶ درصد = ۴۶۱۵/۲۰۶ است. نسبت شانس، نسبت این دو عدد است، یعنی ۳.۰۷ = ۱.۴۵٪/۴.۴۶٪. حالا، لگاریتم طبیعی ۳.۰۷ را بگیرید، یعنی ۱.۱۲۳ = (۳.۰۷)In – این c ما برای G1 است. به همین ترتیب، می‌توانید ضریب G2 و G3 را هم بیابید. با ماشین حسابتان امتحان کنید!‌

این ضرایب، مقادیر β  در معادله‌ی اولیه هستند و بنابراین، معادله به‌صورت زیر درخواهد آمد:

حواستان باشد که فقط مقادیر ۱ یا ۰ را می‌توان به G1، G2 و G3 داد. به‌علاوه، از آنجایی‌که G1، G2 و G3 دوبه‌دوناسازگارند، پس وقتی یکی از آنها ۱ باشد، بقیه خودبه‌خود ۰ می‌شوند. اگر G1 را ۱ بگیرید، معادله به‌صورت زیر درمی‌آید:

به همین ترتیب، می‌توانیم مقدار برآوردشده‌ی نرخ بد برای G1 را هم پیدا کنیم:

این دقیقاً همان مقداریست که مشاهده کردیم. پس، رگرسیون لجستیک در برآورد نرخ بد بهخوبی کارساز است. ای ول! اولین مدلمان را ساختیم.

مخلص کلام

ایلر گرچه نابینا بود، اما راه رسیدن تا اینجا را به ما نشان داد! اجازه دهید حقایق بیشتری راجع به زیباترین فرمول جهان که در سرآغاز همین مقاله بحث کردیم، فاش کنم. بین پنج مقام برتر، دو فرمول دیگر هم می‌بینید که توسط لئونهارد ایلر کشف شدند. این یعنی ۳ فرمول از ۵ تا از زیباترین فرمول‌های جهان. واو! فکر کنم باید نابینا را بازتعریف کنیم.

[۱] Leonhard Euler