تحلیل ریسک در بانک ها – تصویرسازی داده‌ها – بخش دوم

شرلوک هولمز و تصویرسازی داده‌ها

وقتی بچه بودم، یکی از دوستانم کیت اسباب‌بازی شرلوک هولمز – منبع انگیزش حسادت سایر دوستان – داشت. این کیت حاوی کلاه شرلوک هولمز، پیپ، ساعت و ذره‌بین بود. ذره‌بین خواستنی‌ترین شیئ داخل کیت بود. لذت فوکوس‌کردن ذره‌بین روی شیئ و دیدن جزئیات آن به‌منظور استخراج معانی اولین درسم در تحقیقات جنایی – چیزی که هنوز هم به‌عنوان تحلیل‌گر از آن خوشم می‌آید – بود. این هسته‌ی تصویرسازی داده‌ها هم بود. بعدها، با خواندن کتاب‌های سِر آرتور کانن دویل[۱]، چیزهای بیشتری راجع به آقای هولمز یاد گرفتم. کتاب اول، پرونده‌ی اسکارلت[۲]، علاقه‌ی آقای هولمز به دانش علمی و علم تحلیل استنتاجی را توصیف می‌کرد. من فهمیدم که کاراگاه‌بودن با دانشمند تجربی یا تحلیل‌گربودن خیلی فرق ندارد. شما کارتان را با جمع‌آوری مجموعه‌ای از مشاهدات شروع می‌کنید و براساس این مشاهدات و ازطریق منطق و استنتاج پرونده تشکیل می‌دهید. این نقل‌قول آقای هولمز «زمانی‌که ناممکن را حذف می‌کنید، چیزی که باقی می‌ماند، هرچقدر هم غیرمحتمل، باید حقیقت باشد»، فرایند تحقیقات را به‌طور کامل شرح می‌دهد.

تصویرسازی داده‌ها – مثال مطالعه‌ی موردی

در مقاله‌ی قبلی از سری مقالات دایکه، بحث را با مثال مطالعه‌ی موردی‌ای راجع به بانک سیندیکت شروع کردیم که ۶۰۸۱۶ وام خودرو در سه‌ماه‌ی بین آوریل-ژوئن ۲۰۱۲ اعطا کرده بود. شما نقش مدیر ارشد ریسک (CRO) را برای این بانک ایفا می‌کردید. به‌علاوه، متوجه شدید که از بین ۶۰۸۱۶ وام اعطاشده،  ۲.۵ درصد نرخ بد یا ۱۵۲۴ وام بد وجود داشت. کارتان را با گمانه‌زنی‌هایی راجع به رابطه‌ی بین سن وام‌گیرندگان و نرخ‌های بد شروع کردید. پس از انجام تحلیل، رابطه‌ی جمعیتی کامل معکوسی بین این دو مشاهده کردید. سن وام‌گیرندگان قطعاً‌ حریف قدری برای مدل ریسک اعتبارتان بود. حس خوبی پیدا می‌کنید و قصد دارید متغیرهای بیشتری برای مدل چندمتغیره‌تان پیدا کنید (مقاله‌ی قبلی را مطالعه کنید).

 

ادامه‌ی مثال مطالعه‌ی موردی

همچنین معتقدید که درآمد متقاضیان باید به نوعی با نرخ‌های بد رابطه داشته باشد. راجع به درک‌تان از ابزارهایی که آخرین بار به‌کار بردید، یعنی هیستوگرام و هیستوگرام نرمال (همپوشی‌شده با وام‌گیرندگان خوب/ بد) مطمئن بودید. کار را بلافاصله با رسم هیستوگرام بازه‌ی یکسان شروع می‌کنید و به نتیجه‌ی زیر می‌رسید:

آخ آخ! این اصلاً‌ شبیه هیستوگرام منحنی زنگوله‌ای ملایمی که برای گروه‌های سنی مشاهده کردید نیست. حتی هیستوگرام نرمال زیر هم کاملاً ناکارامد است.

پس، اینجا چه خبر است؟ درآمد، برخلاف سن، دارای تعداد محدودی نقاط بسیار پرت می باشد که تقریباً در هیستوگرام دیده نمی‌شوند. فردی با شاخص ([۳]HNI) معادل ۱.۴۷ میلیون حقوق سالانه و موارد پرت دیگری در وسط رؤیت می‌شوند. برحسب اتفاق، اعطای این وام به متقاضی بالاترین HNI بد پیش رفته است – و این به ضرر بانک است. به جدول توزیع زیر نگاهی بیندازید؛ تقریباً ۹۹.۸ درصد از جمعیت در دو باکت اول درآمد جای می‌گیرند.

اینجا، به‌عنوان تحلیل‌گر، باید تصمیم بگیرید که آیا می‌خواهید این موارد کرانی، با داده‌های ناچیز را در مدل‌تان جای دهید یا مرز درآمدی بسازید که به‌واسطه‌ی آن، مدل برای اکثریت متقاضیان مناسب است یا نه. به‌نظر من، گزینه‌ی دوم انتخاب معقولانه‌ای است. با ادامه‌ی تحلیل کاوشگرانه و تصویرسازی داده‌ها تصمیم گرفتیم روی نواحی دارای تعداد نقاط داده‌ای فراوان‌تر، یعنی دو باکت اول تمرکز و هیستوگرام را از نو رسم کنید. هیستوگرام زیر همان چیزی‌ست که مشاهده کردید:

* تصحیح: محور x را به‌عنوان گروه‌های درآمد (نه گروه‌های سنی) درنظر بگیرید.

این‌بار، هیستوگرام نسبتاً ملایم است و از این‌رو، مستلزم تبدیل نیست. شکل زیر، هیستوگرام نرمال هسیتوگرام فوق است:

نتایج زیر را می‌توان از هیستوگرام بالا استخراج کرد:

  • روند قطعی‌ای در رابطه با نرخ‌های بد و گروه‌های درآمد وجود دارد. هرچه میزان کسب درآمد وام‌گیرندگان بالاتر باشد، احتمال نکول وام‌شان کمتر می‌شود. این بینش خوبی به‌نظر می‌رسد.
  • برای باکت آخر، یعنی ۱۵۰ هزار<، خطر افزایش می‌یابد؛ یعنی در روند وقفه ایجاد می‌شود. این مسئله به داده‌های ناچیز در این باکت مرتبط است؛ این داده‌ها نه فقط با توجه به شمارش داده‌ها، بلکه در بازه‌های خیلی بزرگ ۱۵۰ تا ۱۵۰۰ هزار نیز پراکنده می‌شوند.

حالا دو متغیر – سن و درآمد – دارید که نرخ‌های بد حاکم احتمالی برای وام‌گیرندگان هستند. هرچند، تحلیل بیشتر راجع به درآمد با سن نشان می‌دهد که همبستگی بالایی – دقیقاً ۰.۷۶ – بین دو متغیر وجود دارد. نمی‌توانید از هر دو متغیر در مدل استفاده کنید، چون به‌دلیل هم‌خطی چندگانه، مسئله‌ساز می‌شود. همبستگی بین سن و درآمد منطقی است. از آنجایی‌که درآمد تابعی از سال‌های تجربه برای فردی حرفه‌ای است، پس بیشتر به سن این فرد بستگی دارد. بنابراین، تصمیم می‌گیرید درآمد را از مدل حذف کنید. این امر به مطرح‌شدن این پرسش منجر می‌شود: راهی برای بازگرداندن درآمد به مدل چندمتغیره‌مان وجود دارد؟

نسبت‌های مالی

زمانی‌که تحلیل‌گران شرکت می‌کوشند امور مالی شرکتی را تحلیل کنند، اغلب با چندین نسبت مالی کار می‌کنند. کارکردن با نسبت‌ها مزیت محرزی در مقایسه با کارکردن با متغیرهای ساده دارد. متغیرهای ترکیبی اغلب اطلاعات بیشتری ارائه می‌دهند. تحلیل‌گران بی‌تجربه این موضوع را کاملاً می‌فهمند. به‌علاوه، خلق متغیر تمرین خلاقانه‌ای است که مستلزم دانشی مستدل است. برای تحلیل اعتباری، نسبت مجموع [تعهد] بدهی‌ها به درآمد خیلی آموزنده است، چرا که این امر بینشی راجع به درصد درآمد قابل‌عرضه برای وام‌گیرندگان مهیا می‌کند.

بیایید سعی کنیم این موضوع را با مثال بفهمیم. درآمد سالانه‌ی سوزان ۱۰۰ هزار دلار است. او وام مسکنی با بدهی سالانه‌ی (EMI) ۴۰ هزار دلار و وام خودرویی با بدهی سالانه‌ی ۱۰ هزار دلار دارد. بنابراین، سوزان  ۴۰ + ۱۰ هزار دلار از ۱۰۰ هزار دلار درآمدش را روی پرداخت EMIها خرج می‌کند. نسبت بدهی ثابت به درآمد ([۴]FOIR) سوزان در این مورد، ۵۰ درصد = ۱۰۰/۵۰ است. پس فقط ۵۰ درصد از درآمد سوزان برای تأمین سایر مخارجش باقی می‌ماند.

شکل زیر، نمودار هسیتوگرام نرمال FOIR است:

بدیهی‌ست که رابطه‌ی متناسب مستقیمی بین FOIR و نرخ بد وجود دارد. به‌علاوه، FOIR همبستگی ناچیزی – فقط ۰.۱۸ – با سن دارد. حالا، علاوه بر سن متغیر دیگری به‌نام FOIR برای مدل چندمتغیره‌تان دارید. تبریک! شما هم مثل شرلوک هولمز دارید پرونده‌تان را با بررسی مدرک به مدرک – فرایندی در علم – می‌سازید.

مخلص کلام

امیدوارم پس از مطالعه‌ی این بخش ترغیب شوید ذره‌بین را بردارید و میراث شرلوک هولمز کبیر را پی بگیرید – این‌بار اسرار در داده‌ها نهفته‌اند!

[۱] Sir Arthur Conon Doyle

[۲] A Study in Scarlet

[۳] High-Net worth-Individual

[۴] Fixed Obligation to Income Ratio

تحلیل ریسک در بانک ها – تصویرسازی داده‌ها – بخش اول

یک دانشمند و یک هنرمند

چند هفته پیش، وقتی در کوچه پس‌کوچه‌های فلورانس، مکان زایش رنسانس، می‌چرخیدم، نتوانستم از فکر لئونارد داوینچی، بزرگترین علامه‌ی تمام دوران‌ها بیرون بیایم. رزومه‌ی درخشان لئونارد حاوی عناوینی مثل نقاش، مخترع، فیزیکدان، منجم، مهندس، زیست‌شناس، کالبدشناس، زمین‌شناس و معمار است؛ شوخی نمی‌کنم! گربه‌ای باهوش مجبور است کل هفت جانش را عمر کند تا نُه عنوانی که لئونارد در یک طول عمر کسب کرد را به‌دست آورد. امروز، ضمن مطرح‌کردن روش‌های تصویرسازی داده‌ها در این سری مقالات دایکه، همچنانکه از سرزمین هنر و علم عبور می‌کنیم، باید به عمو لئونارد هم ادای احترام کنیم.

هنر و علم تصویرسازی داده‌ها

تصویرسازی داده‌ها، همان‌طور که قبلاً گفتم، هم هنر و هم علم است. من شخصاً ترجیح می‌دهم مدت طولانی به داده‌ها نگاه کنم و پیش از پرداختن به مدل‌سازی ریاضی دقیق، آنها را به‌روش‌های مختلفی رسم کنم. ممکن است هنگام مرورکردن کارهنری من که در همه‌ی پست‌های این وبلاگ ارائه شده است، متوجه علاقه‌ی وافرم به هنر شده باشید. این نقل قول – یک تصویر به هزاران کلمه می‌ارزد – در تحلیل داده هم واقعیت دارد. اگر روی فاز کاوشگرانه‌ی داده‌ها، که برای من همه‌اش راجع به تصویرسازی داده است، وقت کافی نگذارید، مدل‌های تجزیه‌وتحلیل به‌شدت اشتباه از آب درمی‌آیند. اجازه دهید یک مثال مطالعه‌ی موردی به شما ارائه بدهم تا جنبه‌های تصویرسازی داده‌ها طی فاز کاوشگرانه را توضیح دهم.

مثال مطالعه‌ی موردی بانکداری – مدیریت ریسک

فرضاً شما مدیر ارشد ریسک ([۱]CRO) بانک سیندیکت[۲] هستید که ۶۰۸۱۶ وام خودرو در مدت سه‌ماهه‌ی بین آوریل-ژوئن ۲۰۱۲ اعطا کرده است. امروز، حدود یک سال و سه ماه از زمان اعطای وام‌ها می‌گذرد، و شما می توانید با قطعیت بالایی وام گیرنده های قابل اعتماد یا بدحساب رو برچسب گذاری کنید و متوجه نرخ بدحسابی حدود ۲.۵ درصد یا ۱۵۲۴ وام بد از بین ۶۰۸۱۶ وام اعطاشده می‌شوید.

پیش از پرداختن به تحلیل چندمتغیره و رتبه‌بندی اعتبار، می‌خواهید نرخ بدحسابی موجود در چند متغیر تکی را تحلیل کنید. از روی تجربه حدس می‌زنید که سن وام گیرنده در زمان اعطای وام، عاملی کلیدی تشخیص‌دهنده‌ای برای وام های بد است. بنابراین، وام‌ها را برمبنای سن وام‌گیرندگان تقسیم‌بندی می‌کنید و جدولی مثل جدول زیر می‌سازید..

همان‌طور که در نمودارهای زیر نشان داده شده است، با استفاده از جدول فوق، هیستوگرامی می‌سازید و روی ناحیه‌ی موردنظر (نزدیک وام‌های بد) زوم می‌کنید:

باید متوجه موارد زیر شده باشید:

  • توزیع وام‌ها در گروه‌های سنی، منحنی توزیع‌شده‌ی نرمال نسبتاً ملایمی است و بخش‌های پرت زیادی ندارد. متغیر سن، اغلب نشان‌دهنده‌ی همچین الگویی در بیشتر محصولات است. هرچند، منحنی‌های مشابهی را برای سایر متغیرهای رایج در سناریو کسب‌وکار انتظار نداشته باشید. اغلب اوقات، شاید مجبور باشید برای ملایم‌کردن توزیع‌ها به تبدیل متغیر روی آورید.
  • بیشتر وام‌های بد در گروه سنی ۴۲ تا ۴۵ سال دیده می‌شوند. این امر قطعاً بدین معنی نیست که ریسک هم در این  باکت سنی (محدوده سنی) بالاترین میزان را دارد، هرچند، یک‌بار شنیدم کسی در نشست‌های بازبینی کسب‌وکار سه‌ماهه به نتیجه‌ی مشابهی رسیده بود – اشتباهی احمقانه! توجه کنید که بیشتر وام‌ها هم به ۴۲ تا ۴۵ ساله‌ها اعطا شده‌اند. اعداد مطلق اطلاعات کافی ارائه نمی‌دهند، پس باید نموداری نرمال رسم کنیم.
  • داده‌های مربوط به رده‌های جانبی (یعنی، گروه‌های سنی ۶۰ < و < ۲۱) واقعاً ناچیزند و فقط ۹ و ۶ نقطه‌ی داده‌ای دارند؛ هنگام کارکردن با چنین داده‌های کمی مراقب باشید. دانش کامل کسب‌وکار برای تعدیل این رده‌های جانبی، ضمن توسعه‌ی مدل، بسیار مفید است. برای مثال، می‌دانید که برای سن بالای ۶۰ سال، وام‌ها می‌توانند بسیار پرخطر باشند، اما در این داده‌ها، شواهد کافی برای اثبات این مسئله نداریم، چرا که داده‌های کافی برای تأیید اعتبار فرضیه‌مان نداریم. در چنین شرایطی، باید وزن ریسک درستی را اضافه کنید؛ هرچند، هنگام انجام‌دادن چنین چیزی خیلی مراقب باشید.

نمودار نرمال

ترسیم نمودار نرمال آسان است. هدف مقیاس‌گذاری هر گروه سنی به ۱۰۰ درصد و جای‌گذاری درصد خوب و بد رکوردها در رأس است. می‌توانیم جدول فوق را بسط دهیم تا مقادیر نمودار نرمال را طبق جدول زیر به‌دست آوریم:

حالا، پس از آماده‌سازی جدول، درست همان‌طور که در زیر نشان داده شده است می‌توانید نمودار نرمال را به‌سادگی ترسیم کنید (باز هم می‌گویم که روی نمودار زوم می‌کنیم تا تصویر واضحی از نرخ‌های بد به‌دست آوریم).

این نمودارها کاملاً با نمودار شمارش فراوانی اولیه فرق دارند و اطلاعات را به‌صورت کاملاً متفاوتی ارائه می‌دهند. موارد زیر، نتایجی هستند که ممکن است از این نمودارها کسب کنید:

  • روند قطعی‌ای در رابطه با نرخ‌های بد و گروه‌های سنی وجود دارد. با افزایش سن وام‌گیرندگان، احتمال نکول وام توسط آنها کمتر می‌شود. این بینش خوبی است.
  • باز هم یادآوری می‌کنم که رده‌های حاشیه‌ای یا جانبی (یعنی، گروه‌های سنی ۶۰ < و < ۲۱) داده‌های ناچیزی دارند؛ این اطلاعات را نمی‌توان از نمودار نرمال کسب کرد. بنابراین، باید نمودار فراوانی دم دست‌تان باشد تا به‌شیوه‌ی متفاوتی با داده‌های کم کار کنید. یکی از قوانین مفید داشتن دست‌کم ۱۰ رکورد از موارد (خوب و بد)، پیش از رسیدگی جدی به اطلاعات است، وگرنه این اطلاعات از لحاظ آماری معنی‌دار محسوب نمی‌شوند.

باید نتیجه‌گیری کنم که تصویرسازی داده‌ها سرآغاز فرایند مدل‌سازی است، نه مقصد. هرچند، این نتیجه‌گیری شروع خوب و خلاقانه‌ای است.

مخلص کلام

با بهره‌گیری از داده‌های بزرگ، ابزارها و فناوری‌های تحلیل داده‌ها، پیشرفت علم و محیط دموکراتیک، می‌توانستیم در رنسانس عصر خودمان زندگی کنیم. هرچند، به لئونارد داوینچی‌های بیشتری نیاز داریم تا بتوانیم این اعصار را واقعاً منحصربه‌فرد کنیم.