تحلیل بازاریابیِ خرده‌فروشی‌ها – مدل رگرسیون – بخش دهم

Regression-Trainمقاله‌ی حاضر دایکه، ادامه‌ی مثال مطالعه‌ی موردی تحلیل‌های خرده‌فروشی‌مان برای راهکارهای مدیریت کمپین است. در این مورد، با دو هدف کارمان را شروع کردیم تا مدل‌ها را به‌منظور شناسایی (۱) علاقه‌مندترین مشتریان و (۲) درآمدزاترین مشتریان بسازیم.

تعریف مسئله: بخش‌های ۱ و ۲

توصیف: بخش ۳

تحلیل وابستگی: بخش ۴

دسته‌بندی: بخش‌های ۵، ۶، ۷ و ۸

برآورد: بخش ۹

ازطریق الگوریتم‌های دسته‌بندی داده‌کاوی به هدف اول رسیدیم و رفتیم سراغ هدف بعدی. در این بخش، بحث را با مدل‌های رگرسیون و برآورد ادامه می‌دهیم.

قطارها و مدل‌های رگرسیون

گالیلئو گالیه، ایساک نیوتون و آلبرت انیشتین همگی طرفدار جبرگرایی بودند. گزاره‌ی «خدا تاس‌بازی نمی‌کند»، شیوه‌ی انیشتین در بیان این امر بود که زندگی شما، زندگی من و هر چیز دیگری در این جهان مسیرهای مقدری را دنبال می‌کنند. وقتی بچه بودم، اولین درسم در جبرگرایی، سفرکردن ازطریق خطوط راه آهن هند به بخش‌های مختلف کشور طی تعطیلات تابستانی بود. همه‌ی واگن‌های مسافر متصل‌شده به‌واسطه‌ی نیروی محرکه‌ی موتور خط آهن رانده می‌شدند. دنبال‌کردن مسیر معین ریل راه آهن برای قطار مقدر شده بود. این فلسفه‌ی اساسی مدل‌های رگرسیون هم هست.

همبستگی، علیت و انطباق (تصادف) – قطارها و مدل‌های رگرسیون

ایده‌ی اصلی مدل‌های رگرسیون، یافتن نیروهای محرکه‌ای مثل موتور قطار و تعیین مسیر ریل راه آهن است. به‌طور کلی، یکی از مفاهیم کلیدی مدل‌های رگرسیون یا علم، ایجاد تمایز بین همبستگی و علیت است. بیایید سعی کنیم این موضوع را ازطریق مثال قطارها، که در آن همه‌ی واگن‌های متصل‌شده توسط موتور رانده می‌شوند را بفهمیم. جهت حرکت کلیه‌ی این واگن‌ها همبسته است. هرچند، موتور علت این جهت است. اگر چندتایی از واگن‌ها را از سایر واگن‌ها جدا کنید، قطار هنوز در همان جهت حرکت می‌کند؛ هرچند، حذف موتور قطار را کاملاً‌ متوقف خواهد کرد.

در تصویر زیر، می‌توانید همبستگی بین متغیرهای «تعداد نوزادانی که اسمشان آوا هست» و «شاخص قیمت مسکن» را ببینید. این به احتمال زیاد نوعی همبستگی یا انطباق کاذب است. یک جورایی شبیه کسی است که خودرویی را در جاده‌ای به‌موازات چند کیلومتری قطار می‌راند. خودرو و قطار همبستگی کاملی برای این سفر خواهند داشت، اما اگر سعی کنید مکان قطار را برمبنای موقعیت این خودرو بیابید، باید بگوییم موفق باشید!

منبع: businessweek.com

مثال مطالعه‌ی موردی – مدل رگرسیون

اجازه دهید به مثال مطالعه‌ی موردی‌مان برگردیم و مدل رگرسیونی برای برآورد سودآوری هر مشتری برای مدیریت کمپین بسازیم. در بخش قبلی، با استفاده از متغیر دسته‌ای، یعنی دسته‌ی مکانی مشتریان (شهرهای کوچک، متوسط و بزرگ) مدل رگرسیون ساده‌ای ساختیم. این بار، متغیر پیوسته‌ی «سود تولیدشده توسط مشتریان در بخش قبلی» را بررسی می‌کنیم تا سودی که مشتریان ازطریق کمپین‌ها تولید می‌کنند را تعیین کنیم. شکل زیر، نمودار پراکندگی این دو متغیر است:

Regression Model

مدل رگرسیون

همبستگی معینی بین متغیرهای بالا دیده می‌شود. اگر ضرایب همبستگی یا گشتاور ضربی کارل پیرسون[۱] را برای این متغیرها حساب کنیم، مقدار بسیار قابل‌توجهی به‌دست می‌آید:

Correlation Coefficient

رابطه‌ی بین این دو متغیر عمدتاً همبستگی است. سود در بخش قبلی قطعاً علت سودآوری حاصل از کمپین‌ها نیست. هرچند، هر دو این متغیرها تحت تأثیر عوامل رؤیت‌ناپذیری (نیروهای محرکه) مثل علاقه‌ی مشتریان به خرید از فروشگاه آنلاین و قابلیت خرج‌کردن آنها است. بنابراین، این همبستگی کاذب یا تصادفی نیست. تمیزدادن بین همبستگی و انطباق ازطریق منطقی دقیق یقیناً برای تحلیل‌گر اهمیت دارد.

حالا، بیایید مدل رگرسیون ساده‌ای بین این دو متغیر بسازیم:

Regression Model

معادله‌ی خطی مدل رگرسیون فوق به‌صورت زیر است:

Profit

این مدل، اختلاف ۱۳.۸ درصدی در «سود حاصل از کمپین» را توجیه می‌کند.

حالا، با افزودن متغیر دسته‌ای دفعه‌ی پیش، یعنی «دسته‌ی مکانی»، این مدل را بسط می‌دهیم. بیایید اول همان نمودار پراکندگی را با جایگذاری این متغیر دسته‌ای ترسیم کنیم.

Plot-Regression-Model-by-Category

مدل رگرسیون برمبنای دسته

در تئوری، انتظار دارید سه خط «دسته‌ی مکانی» کاملاً‌ با هم موازی باشند. هرچند، در عمل، به‌ندرت خطوط کاملا موازی (یا بدون اندرکنش) رؤیت می‌شوند. در مورد ما، این خطوط از روند مشابهی پیروی می‌کنند و اندرکنش ناچیزی دارند؛ بنابراین، می‌توانیم خیلی ساده این متغیر دسته‌ای را به مدل بالا اضافه کنیم. جدول زیر، مدل جدید پس از افزودن «دسته‌ی مکانی» را ارائه می‌دهد.

توجه کنید که مقدار مربع رگرسیون تعدیل‌شده برای این مدل ترکیبی (۰.۲۹۵) بزرگتر از متغیر پیوسته‌ی تکی (۰.۱۳۸) یا متغیر دسته‌ای (۰.۲۰۶۵) مدل‌های رگرسیون است. این فرایند توسعه‌ی مدل رگرسیون است که شمول هرگونه متغیر افزایشی در مدل مقدار مربع رگرسیون را بهبود می‌بخشد.

مخلص کلام

فلسفه‌ی جبرگرایی علم معتقد است که اگر کسی دانش کامل/ مطلقی از جهان داشته باشد، پس قادر است سرنوشت جهان را با دقت ۱۰۰ درصد یا مقدار مربع رگرسیون ۱۰۰ درصد پیش‌بینی کند. هرچند، مکانیک کوانتومی شبهه‌های خیلی جدی‌ای راجع به دیدگاه جبرگرایی جهان مطرح کرده است. طبیعت یک معما– مملو از حقه‌های تازه – است، این امر احتمالاً‌ مهمترین منبع زیبایی ابدی محسوب می‌شود.


[۱] Carl Pearson product moment

تحلیل بازاریابیِ خرده‌فروشی‌ها – مدل‌ رگرسیون – بخش نهم

مجدداً به مثال مطالعه‌ی موردی خرده‌فروشی‌ دایکه برای تحلیل‌های بازاریابی خوش آمدید. در ۸ بخش قبلی، برخی از وظایف کلیدی علم داده مثل موارد زیر را مطرح کردیم:

تعریف مسئله: بخش‌ ۱ و بخش ۲

توصیف: بخش ۳

تحلیل وابستگی: بخش ۴

دسته‌بندی: بخش‌ ۵، بخش‌۶، بخش‌ ۷ و بخش‌ ۸

در این بخش، راجع به برآورد ازطریق مادر همه‌ی مدل‌ها، یعنی رگرسیون خطی چندگانه یاد می‌گیریم. درک عمیقی از تحلیل رگرسیون و مدل‌سازی، پایه‌ی محکمی برای تحلیل‌گران مهیا می‌سازد تا کمابیش شناخت عمیق‌تری از سایر روش‌های مدل‌سازی، مثل شبکه‌های عصبی، رگرسیون لجستیک و غیره کسب کنند. اما پیش از مبحث رگرسیون اجازه دهید با استفاده از پرطرفدارترین رویداد المپیک تابستانی، تدابیر اساسی ماورای آمار را مطرح و مقایسه کنیم.

دو ۱۰۰ متر

اولین بازی‌های المپیکی که در سال ۱۹۸۸ دنبال کردم در سئولِ کره‌ی جنوبی برگزار می‌شدند. این همان المپیکی بود که بن جانسون[۱] رکورد جهانی دو ۱۰۰ متر آن زمان را با رسیدن به نقطه‌ی پایان در عرض ۹.۷۹ ثانیه شکست. بعدها، نتیجه‌ی آزمایش استعمال داروهای تقویت عملکرد توسط جانسون مثبت اعلام شد. جانسون رد صلاحیت و از مدال محروم شد. برای رویدادی ورزشی که فقط ۱۰ ثانیه طول می‌کشد، دو ۱۰۰ متر یقیناً پرطرفدارترین رویداد المپیک تابستانی بود. در المپیک ۲۰۱۲، اُسین بولت[۲] با رسیدن به نقطه‌ی پایان در عرض ۹.۶۳ ثانیه، رکورد جدیدی ثبت کرد. جدول زیر، لیست برندگان مدال المپیک ۲۰۱۲ را ارائه می‌دهد (منبع: ویکیپدیا).

اُسین بولت به‌عنوان سریع‌ترین مرد جهان شناخته می‌شود. هرچند، باید بگویم که…

شما می‌توانید اُسین بولت را در دو ۱۰۰ متر شکست دهید!

پیش از آن‌که توضیح بدهم چطور می‌توانید این کار را بکنید، اجازه دهید به مدال‌گیرندگان المپیک ۲۰۱۲ برگردیم. برای مثال، اگر اُسین بولت را مجبور کنیم هزار بار دو ۱۰۰ متر را بدود، او هر دور را با زمان‌بندی متفاوتی به پایان می‌رساند؛ بیشتر نزدیک به زمان رکوردش در المپیک. همین امر برای سایر مدال‌گیرندگان، یوهان بلیک و جاستین گاتلین هم واقعیت دارد. به‌خاطر ماهیت بحث، توزیع‌های زیر را برای زمان رسیدن به خط پایان هر سه مدال‌گیرنده فرض می‌گیریم. توزیع‌های زیر همگی نرمال یا گوسی هستند. توزیع نرمال فرضیه‌ی خوبی برای بیشتر پدیده‌های طبیعی مثل دویدن با سرعت انسان‌ها است.

طبق توزیع‌های بالا، مدال طلا هنوز هم به اُسین بولت، به‌عنوان محتمل‌ترین برنده، تعلق می‌گیرد. هرچند، هنوز هم مواردی هستند که در آنها قهرمان دو سرعت می‌تواند برنده‌ی مدال طلا نشود. این امر، به عقیده‌ی من، اساس اندیشیدن آماری است.

حالا به عنوان این بخش برمی‌گردیم، اگر گوگل۱۰ بار با اُسین بولت مسابقه دهید، پس احتمالش هست که دست‌کم یکی از این مسابقات درمقابل سریع‌ترین مرد جهان را ببرید. آره!

google

تحلیل رگرسیون – مثال مطالعه‌ی موردی خرده‌فروشی

حالا اجازه دهید به مثال مطالعه‌ی موردی‌مان برگردیم؛ در این مثال، شما مدیر ارشد تحلیل و رئیس راهبرد کسب‌وکار در فروشگاه آنلاینی به‌نام شرکت درس‌اسمارت هستید که دو هدف دارد:

هدف ۱: ارتقاء نرخ تبدیل کمپین‌ها، یعنی تعداد مشتریانی که از کاتالوگ بازاریابیِ محصولات خرید می‌کنند.

هدف ۲: ارتقاء سود حاصل‌شده ازطریق مشتریان تبدیل‌شده.

در چند بخش قبلی این مثال مطالعه‌ی موردی به هدف اول رسیدید. از مدل‌های دسته‌بندی (بخش‌های ۵، ۶، ۷ و ۸) برای برآورد تمایلات مشتریان در واکنش به کمپین‌ها استفاده کردید. پس هدف دوم می‌ماند که مختص برآورد سود موردانتظار تولیدشده از هر مشتری‌ای است که به کمپین واکنش نشان می‌دهد. این مسئله‌ی رگرسیون کلاسیک است. برای توسعه‌ی مدل رگرسیون، از داده‌های مربوط به ۴۲۰۰ مشتری از بین صدها هزار مشتری متقاضی، یعنی مشتریانی که به کمپین‌های قبلی پاسخ داده‌اند، استفاده خواهید کرد. این ۴۲۰۰ مشتری در مکان‌های مختلفی زندگی می‌کنند که می‌توان آنها را به سه دسته‌ی زیر تقسیم‌بندی کرد:

۱. شهرهای بزرگ

۲. شهرهای متوسط

۳. شهرهای کوچک

این مشتریان برحسب اتفاق به طور مساوی در این سه دسته تقسیم میشوند و ۱۴۰۰ مشتری در هر گروه جای میگیرد.

اولین چیزی که بررسی میکنید، مقدار سود حاصل از این سه دسته شهر است. همانطور که در شکل روبه‎رو میبینید، مقادیر متوسط سود این سه دسته متفاوتند. این مقادیر متوسط را به‌خاطر بسپرید، چون هنگام توسعه‌ی مدل رگرسیون به‌‌دردمان می‌خورند.

حالا سؤال دوم این است که آیا این مقادیر متوسط تفاوت قابل‌توجهی دارند یا نه.این پرسش را می‌توان با استفاده از توزیع‌های مربوط به دسته‌ی مکانی کل ۴۲۰۰ مشتری پاسخ داد. شکل بالا نمایشی از این توزیع‌ها (به سمت راست) را ارائه می‌دهد. برای داده‌های اصلی‌مان، شکل زیر توزیع تراکم مربوط به دسته‌ی مکانی کل این ۴۲۰۰ مشتری را ارائه می‌دهد. توجه کنید که سود به‌خاطر کالاهای برگشتی توسط مشتریان و سایر زیان‌ها، در برخی موارد در این توزیع منفی است.

چندین بینش شهودی در نمودارهای بالا وجود دارد:

۱. مقادر متوسط سود شهرهای بزرگ، به‌دلیل ظرفیت درآمدزایی بالاتر و درآمد قابل‌عرضه برای ساکنین کلان شهرها  در مقایسه با سایر شهرها بالاتر است.

۲. شهرهای بزرگ همچنین به‌خاطر تنوع اقتصادی-اجتماعی بیشتر کلان شهرها، در مقایسه با دو دسته‌ی دیگر توزیع سود گسترده‌تری دارند.

دو بینش بالا را به خاطر بسپرید و بیایید مدل رگرسیون ساده‌مان را با این دو دسته، به‌عنوان متغیرهای پیش‌بین بسازیم. جدول زیر، نتایج مدل رگرسیون را ارائه می‌دهد:

معادله‌ی زیر، معادله‌ی خطی این مدل رگرسیون است:

Profit

توجه کنید که متغیرهای پیش‌بین این مدل فقط شهرهای بزرگ و متوسط هستند. اطلاعات مربوط به شهرهای کوچک در بخش عرض از مبداء جذب می‌شوند. به‌علاوه، این متغیرهای پیش‌بین، متغیرهایی ساختگی هستند، پس تنها مقادیری که می‌توان به آنها داد ۰ و ۱ است. برای مثال، اگر مکان شهری کوچک باشد، پس مقدار شهرهای متوسط، ۰ و مقدار شهرهای بزرگ هم ۰ است و درنتیجه سود ۴۰ می‌شود:

profit

اگر مقادیر متوسط را به‌یاد آورید، می‌بینید که این مقدار همان مقدار متوسط شهرهای کوچک است. حالا، اگر مکان شهری متوسط باشد، پس:

Profit

حالا سؤال بعدی که پیش می‌آید این است: این مدل چقدر خوب است؟ برای پاسخ‌گویی به این پرسش باید نتایج مدل رگرسیون را بالا پایین کنیم و سه مورد زیر را بررسی نماییم:

۱. مقادیر P ضرایب تکی: به سمت‌راست‌ترین ستون ضرایب نگاهی بیندازید؛ مقدار واقعاً‌ کوچک است، <2e – ۱۶، این بدان معنی‌ست که مدل تقریباً‌ ۱۰۰ درصد مطمئن است که ضرایت ۰ نخواهند شد. این شبیه شانس شما در شکست‌دادن اُستین بولت است، یعنی شدیداً پایین، اما نه صفر.

۲. مقدار مربع رگرسیون تعدیل‌شده: برای مدل ما این مقدار ۰.۲۰۶۵ است. این بدان معنی‌ست که فقط دسته‌ی مکانی حدود ۲۰ درصد از اختلاف در سود را توجیه می‌کند. درصورتی‌که افزودن متغیرهای معنی‌دارتر به مدل بالا را همچنان ادامه دهیم، مقدار مربع رگرسیون تعدیل‌شده افزایش خواهد یافت و این برای متغیر دسته‌ای تکی بد نیست.

۳. ارقام F: باز هم می‌گویم که مقدار P در اینجا خیلی کوچک است، یعنی ۲٫۲۰E-16. این بدان معنی‌ست که شانس این مدل در تصادفی‌بودن خیلی پایین است، مثل شانس شما در شکست‌دادن تصادفی اُستین بولت.

مخلص کلام

اظهارات زیر، حقایق کلی ضروری ماورای بازی‌های المپیک را جمع‌بندی می‌کنند. مهمترین چیز در بازی‌های المپیک برنده‌شدن نیست، بلکه شرکت‌کردن است. امر ضروری پیروزی نیست، بلکه نبرد خوب است.

پس وارد عرصه شوید، خوب بازی کنید و از همه مهمتر لذت ببرید، حتی اگر رقیب‌تان سریع‌ترین مرد جهان است. تا بعد!


[۱] Ben Johnson

[۲] Usain Bolt