فرمول زیبا

رگرسیون لجستیک

ریاضی‌دادنان غالباً مسابقاتی برای زیباترین فرمول جهان ترتیب می‌دهند. مقام اول، تقریباً هر بار، به فرمول کشف‌شده توسط لئونهارد ایلر[1] تعلق می‌گیرد. این فرمول در زیر ارائه شده است.

این فرمول استثنائی است، چرا که ترکیبی از پنج تا از مهمترین ثابت‌های ریاضی است، یعنی:

۰: عضو همانی جمع

۱: عضو همانی ضرب

π: شاه هندسه و مثلثات

i: شاه جبر پیچیده

e: شاه لگاریتم‌ها

نحوه‌ی پیونددادن این ثابت‌های اساسی ریاضی توسط فرمولی ساده صرفاً زیباست. زمانی‌که این فرمول ایلر را در دبیرستان یاد گرفتم، مدهوش شدم و هنوز هم هستم. ایلر ابداع‌کننده‌ی سمبل e (شاه لگاریتم)، که گاهاً با عنوان ثابت ایلر شناخته می‌شود هم هست. نام‌گذاری این ثابت به دلیل دیگری هم به‌جا است: ایلر به پرکارترین ریاضیدان تمامی دوران‌ها معروف است. او ریاضیات نوین را با نرخی نمایی خلق می‌کرد. این امر خصوصاً وقتی تکان‌دهنده است که بدانیم ایلر نصف عمرش تا حدودی نابینا بود و دو دهه‌ی پایانی عمر هم کاملاً نابینا شد. ازقضا، او در مدت یک هفته‌ی  چشمگیر، یعنی زمانی‌که کاملاً نابینا بود، داشت روی مقاله‌ی علمی با کیفیت‌ بسیار بالایی کار می‌کرد.

امروز، پیش از بازکردن بحث رگرسیون لجستیک، باید به این مرد بزرگ، لئونهارد ایلر ادای احترام کنیم، چرا که ثابت ایلر (e) هسته‌ی رگرسیون لجستیک را شکل می‌دهد.

مثال مطالعه‌ی موردی بانکداری

در دو مقاله‌ی قبلی دایکه (بخش‌ ۱ و بخش‌ ۲)، به‌عنوان مدیر ارشد ریسک (CRO) بانک سیندیکت ایفای نقش می‌کردید. این بانک ۶۰۸۱۶ وام خودرو در سه‌ماهه‌ی بین آوریل-ژوئن ۲۰۱۲ اعطا کرده بود. به‌علاوه، متوجه نرخ بد حدود ۲.۵ درصدی شدید. با استفاده از ابزارهای تصویرسازی داده‌ها، تعدادی تحلیل کاوشگرانه‌ی داده (EDA) انجام دادید و رابطه‌ای بین سن (بخش ۱) و FOIR (بخش ۲) با نرخ‌های بد پیدا کردید. حالا، می‌خواهید مدل رگرسیون لجستیک ساده‌ای با متغیر سن بسازید. اگر یادتان باشد، هیستوگرام نرمال زیر را برای سن همپوشی‌شده با نرخ‌های بد مشاهده کردید.

از این نمودار برای خلق دسته‌های نادقیقی (زمخت) به‌منظور اجرای رگرسیون لجستیک ساده استفاده خواهیم کرد. هرچند، هدف در اینجا، شناخت تفاوت‌های جزئی رگرسیون لجستیک است. بنابراین، بگذارید اول برخی از مفاهیم اصلی رگرسیون لجستیک را دوره کنیم.

رگرسیون لجستیک

در مقاله‌ی دیگری (رگرسیون لجستیک)، برخی از جنبه‌های رگرسیون لجستیک را مطرح کردیم. اجازه دهید مجدداً از تصویری از همان مقاله استفاده کنم. پیشنهاد می‌کنم آن مقاله را بخوانید، چرا که برای درک برخی از مفاهیم مطرح‌شده در اینجا مفید خواهند بود.

در مورد ما، z تابعی از سن است؛ احتمال وام بد را به‌صورت زیر تعریف می‌کنیم:

تأثیر ثابت ایلر روی رگرسیون لجستیک را باید متوجه شده باشید. احتمال بد بودن وام وقتی z یه سمت منفی بینهایت می رود برابر با 0 و وقتی به سمت مثبت بینهایت می رود برابر با 1 می‌شود. این امر کران‌های احتمال را در ۰ و ۱، در هر دو طرف بی‌نهایت حفظ می‌کند.

به‌علاوه، می‌دانیم که احتمال وام خوب، یک منهای احتمال وام بد است، پس:

اگر تابه‌حال در هر نوع شرط‌بندی‌ای شرکت کرده باشید، می‌دانید که شرط‌ها باتوجه به شانس بسته می‌شوند. از لحاظ ریاضی، شانس، احتمال بُرد تقسیم بر احتمال باخت است. اگر شانس مسئله‌مان را حساب کنیم، معادله‌ی زیر به‌دست می‌آید.

در اینجا، ثابت ایلر با ابهت تمام مشخص است.

طبقه‌بندی نادقیق

حالا، بیایید دسته‌های نادقیقی از مجموعه‌داده‌ای که در مقاله‌ی اول این سری دیدیم برای گروه‌های سنی بسازیم. دسته‌های نادقیق به‌واسطه‌ی تلفیق گروه‌هایی که ضمن حفظ روند کلی نرخ‌های بد، نرخ‌های بد مشابهی دارند شکل می‌گیرند. همین کار را برای گروه‌های سنی هم انجام می‌دهیم:

از چهار دسته‌ی نادقیق بالا برای اجرای الگوریتم رگرسیون لجستیک استفاده خواهیم کرد. همان‌طور که در مقاله‌ی قبلی دایکه گفتیم، الگوریتم می‌کوشد Z را بهینه کند. در مورد ما، Z ترکیبی خطی از گروه سنی است، یعنی ثابت + G3 + G2 + G1 = Z. همان‌طور که متوجه شدید در این معادله از G4 استفاده نکردیم. چرا که این ثابت اطلاعات G4 را جذب خواهد کرد. این شبیه استفاده از متغیرهای ساختگی در رگرسیون خطی است. اگر می‌خواهید جزئیات بیشتری راجع به این موضوع یاد بگیرید، می‌توانید سؤالتان را روی همین وبلاگ  مطرح کنید تا بیشتر راجع به آن بحث کنیم.

رگرسیون لجستیک

حالا، آماده‌ایم تا رگرسیون لجستیک نهایی‌مان را ازطریق برنامه‌ی آماری برای معادله‌ی زیر بسازیم:

بدین منظور، می‌توانید یا از نرم‌افزار تجاری (SAS، SPSS یا مینی‌تب) یا از نرم‌افزار آزاد (R) استفاده کنید. همه‌ی این نرم‌افزارها جدولی شبیه جدول زیر می‌سازند:

اجازه دهید سریعاً این جدول را رمزگشایی کنیم و نحوه‌ی برآورد ضرایبی در اینجا را بفهمیم. بیایید به ستون آخر این جدول، یعنی نسبت شانس، نگاهی بیندازیم. نرم‌افزار چطور به مقدار ۳.۰۷ برای G1 رسید؟ شانس (وام‌های خوب/ بد) G1، ۴.۴۶ درصد = ۴۶۱۵/۲۰۶ است. نسبت شانس، نسبت این دو عدد است، یعنی ۳.۰۷ = ۱.۴۵٪/۴.۴۶٪. حالا، لگاریتم طبیعی ۳.۰۷ را بگیرید، یعنی ۱.۱۲۳ = (۳.۰۷)In – این c ما برای G1 است. به همین ترتیب، می‌توانید ضریب G2 و G3 را هم بیابید. با ماشین حسابتان امتحان کنید!‌

این ضرایب، مقادیر β  در معادله‌ی اولیه هستند و بنابراین، معادله به‌صورت زیر درخواهد آمد:

حواستان باشد که فقط مقادیر ۱ یا ۰ را می‌توان به G1، G2 و G3 داد. به‌علاوه، از آنجایی‌که G1، G2 و G3 دوبه‌دوناسازگارند، پس وقتی یکی از آنها ۱ باشد، بقیه خودبه‌خود ۰ می‌شوند. اگر G1 را ۱ بگیرید، معادله به‌صورت زیر درمی‌آید:

به همین ترتیب، می‌توانیم مقدار برآوردشده‌ی نرخ بد برای G1 را هم پیدا کنیم:

این دقیقاً همان مقداریست که مشاهده کردیم. پس، رگرسیون لجستیک در برآورد نرخ بد بهخوبی کارساز است. ای ول! اولین مدلمان را ساختیم.

مخلص کلام

ایلر گرچه نابینا بود، اما راه رسیدن تا اینجا را به ما نشان داد! اجازه دهید حقایق بیشتری راجع به زیباترین فرمول جهان که در سرآغاز همین مقاله بحث کردیم، فاش کنم. بین پنج مقام برتر، دو فرمول دیگر هم می‌بینید که توسط لئونهارد ایلر کشف شدند. این یعنی ۳ فرمول از ۵ تا از زیباترین فرمول‌های جهان. واو! فکر کنم باید نابینا را بازتعریف کنیم.

[1] Leonhard Euler