تحلیل بازاریابیِ خرده‌فروشی‌ها – آنتروپی – بخش ششم

مقاله‌ی حاضر دایکه، ادامه‌ی مثال مطالعه‌ی موردی خرده‌فروشی است که چند هفته‌ی گذشته روی آن کار می‌کردیم. بخش‌های قبلی مثال مطالعه‌ی موردی را می‌توانید در لینک‌های زیر پیدا کنید:

بخش ۱: مقدمه

بخش ۲: تعریف مسئله

بخش ۳: EDA

بخش ۴: تحلیل وابستگی

بخش ۵: درخت تصمیم (CART)

Entropy from order to disorderاگر از مقاله‌ی قبلی یادتان باشد، الگوریتم CART درخت‌های تصمیمی تولید می‌کند که فقط گره‌های فرزند دوتایی دارند. در مقاله‌ی حاضر، الگوریتم دیگری یاد می‌گیریم تا درخت‌های تصمیمی با گره‌های فرزند چندتایی بسازیم. چندین روش برای دستیابی به این هدف موجود است، مثل CHAID (شناساگر تعامل خودکار مربع خی[۱]). در اینجا، راجع به الگوریتم c4.5 می‌آموزیم تا درخت‌های تصمیمی با گره‌های فرزند چندتایی تولید کنیم. چرا که این الگوریتم از مفهومی استفاده می‌کند که به دلم نشسته است.

آنتروپی

قانون اول ترمودینامیک مربوط به تبدیل انرژی را در دبیرستان آموختیم. طبق این قانون:

انرژی نه تولید می‌شود، نه از بین می‌رود؛ به بیان دیگر، انرژی کل جهان ثابت است.

اولین واکنش بیشتر دانش‌آموزان پس از فراگیری این واقعیت این بود: پس چرا برای ذخیره‌ی الکتریسیته و سوخت خودمان را به زحمت بیندازیم؟ اگر انرژی کل جهان ثابت و محفوظ است، پس میزان نامحدودی از انرژی برای مصرف داریم که هیچ‌گاه از بین نمی‌رود.

هرچند، قانون دوم ترمودینامیک این راحتی خیال مربوط به تلف‌شدن انرژی را نابود می‌کند. آنتروپی منشأ اصلی قانون دوم ترمودینامیک است. آنتروپی میزان بی‌نظمی یا تصادفی‌بودن در جهان است. جهت کلی جهان از نظم به سوی بی‌نظمی یا تصادفی‌بودن بالاتر است. قانون دوم می‌گوید:

آنتروپی کل یا بی‌نظمی/ تصادفی‌بودن کل جهان همواره درحال افزایش است.

بسیار خُب، اجازه دهید مثالی بزنیم تا این قانون را بهتر بفهمیم. زمانی‌که برای راه‌انداختن خودروتان از سوخت استفاده می‌کنید، بنزین کاملاً منظم (انرژی فشرده) به اشکال بی‌نظمی از انرژی، مثل گرما، صوت، جنبش و غیره تبدیل می‌شود. حین این فرایند، کار تولید می‌شود تا موتور خودرو را به‌راه اندازد. هر چه این انرژی تصادفی‌تر یا بی‌نظم‌تر باشد، استخراج کاری هدف‌دار از آن دشوارتر/ ناممکن‌تر می‌شود. پس به نظرم ما به کار اهمیت می‌دهیم، نه به انرژی. به بیان دیگر، هر چه آنتروپی یا تصادفی‌بودن سیستمی بالاتر باشد، تبدیل آن به کار معنادار دشوارتر می‌شود. فیزیکدانان آنتروپی سیستم را توسط فرمول زیر تعیین می‌کنند:

آنتروپی، اصل نظریه‌ی اطلاعات هم هست. کلاده شانون[۲]، پدر نظریه‌ی اطلاعات، نبوغش را به‌کار گرفت تا روابط بین ترمودینامیک و اطلاعات را شناسایی کند. وی طی پیام خاصی، تعریف آنتروپی زیر را برای سنجش تصادفی‌بودن پیشنهاد کرد:

برای مثال، آنتروپی (تصادفی‌بودن) سکه‌ی سالم، با شانس یکسان شیر و خط، ۱ بیت (طبق محاسبه‌ی زیر) است. توجه داشته باشید که واحد آنتروپی در نظریه‌ی اطلاعات بیت است که توسط کلاده شانون ابداع شد. از همین واحد به‌عنوان واحد اصلی حافظه‌ی رایانه‌ هم استفاده می‌شود.

برای ساختن درخت تصمیم و پوشیده‌خوانی اطلاعات درون داده‌ها از همین فرمول استفاده خواهیم کرد.

مثال مطالعه‌ی موردی خرده‌فروشی – درخت تصمیم (آنتروپی: الگوریتم C4.5)

به مثال مطالعه‌ی موردی خرده‌فروشی‌مان برمی‌گردیم؛ در این مثال، شما مدیر ارشد تحلیل و رئیس راهبرد کسب‌وکار فروشگاه آنلاینی به‌نام درس‌اسمارت هستید که در عرضه‌ی پوشاک تخصص دارد. در این مورد، هدفتان بهبود عملکرد کمپین آتی است. برای دستیابی به این هدف، داده‌های برگرفته از کمپین قبلی که کاتالوگ‌های کالاها را مستقیماً به صدها هزار مشتری از پایگاه مشتریان چند میلیون نفری ارسال می‌شد را تحلیل می‌کنید. نرخ واکنش کلی این کمپین ۴.۲ درصد بود.

شما کل صدها هزار مشتری متقاضی را برمبنای فعالیت‌های ۳ ماه اخیرشان، پیش از شروع کمپین، به سه دسته تقسیم کرده‌اید. جدول زیر همان جدولی است که در مقاله‌ی قبلی، به‌منظور خلق درخت تصمیم با استفاده از الگوریتم CART به‌کار بردیم.

شکل زیر، درختی با گره دوتایی است که در مقاله‌ی قبلی، با استفاده از CART ساختیم.

درخت تصمیم – CART

بیایید ببینیم می‌توانیم با استفاده از آنتروپی یا الگوریتم c4.5 درخت بهتری بسازیم یا نه. از آنجایی‌که الگوریتم c4.5 قادر به تولید درخت‌های تصمیمی با گره‌های چندتایی است، پس یک احتمال دیگری از درخت (با سه گره – پایین؛ متوسط؛ بالا) خواهیم داشت. این علاوه بر درخت‌هایی دوتایی است که در مقاله‌ی قبلی کاوش کردیم.

روش کار c4.5، مقایسه‌ی آنتروپی کلیه‌ی درخت‌های ممکن با داده‌های اصلی (داده‌های خط‌مبنا) است. سپس، درختی با بیشترین حصول (بازده) اطلاعاتی، یعنی اختلاف آنتروپی‌ها را انتخاب می‌کند:

بنابراین، اول باید آنتروپی خط‌مبنای داده‌هایی با ۴.۲ درصد تبدیل[۳] (۴۲۰۰ مشتری تبدیل‌شده از بین ۱۰۰،۰۰۰ مشتری متقاضی) را محاسبه کنیم. توجه کنید که ۹۵.۸ درصد (۴.۲٪ – ۱۰۰٪ =) در جمله‌ی دوم، درصد مشتریان تبدیل‌نشده است.

این همان مقداری است که در پایین‌ترین ردیف جدول زیر برای آنتروپی کل به‌دست آوردیم.

حالا بیایید با محاسبه‌ی آنتروپی‌های اجزاء تکی درخت اول (با سه گره – پایین؛ متوسط؛ بالا)، آنتروپی درخت را بیابیم.

حالا آنتروپی کل این درخت، همان مجموع موزون کلیه‌ی اجزاءاش است. در اینجا، وزن‌ها، تعداد مشتریان یک گره تقسیم بر تعداد کل مشتریان هستند؛ مثلاً، ۰.۴ = ۴۰،۰۰۰/۱۰۰،۰۰۰  برای گره اول .

نهایتاً، باید مقدار حصول اطلاعات را محاسبه کنیم، یعنی:

ضمناً، حصول اطلاعات درختی با سه گره، در مقایسه با سایر درخت‌ها از همه بالاتر است (به جدول بالا نگاهی بیندازید). بنابراین، الگوریتم c4.5 با استفاده از آنتروپی، درخت تصمیم زیر را خلق می‌کند:

درخت تصمیم c4.5 با استفاده از آنتروپی

و اما حرف آخر

چقدر آنتروپی جالب است! بله، اعتراف می‌کنم عاشق فیزیکم. هرچند، این رابطه‌ی بین ترمودینامیک و اطلاعات هنوز هم موهای تنم را سیخ می‌کند. ایده‌ی کلی این است که اطلاعات عدم قطعیت یا تصادفی‌بودن سیستم را حذف می‌کند. پس، با استفاده از اطلاعات می‌توان مسیر را از بی‌نظمی به نظم تغییر داد! بله، سرنوشت جهان این‌طور رقم خورده است که به سوی بی‌نظمی یا تصادفی‌بودن پیش برود، اما هنوز می‌توانیم از اطلاعات برای ایجاد نظم در سیستم‌های کوچک استفاده کنیم.

تا مقاله‌ی بعدی!


[۱] CHi-squared Automatic Interaction Detector

[۲] Claude Shannon

[۳] conversion

تحلیل بازاریابیِ خرده‌فروشی‌ها – درخت تصمیم (CART) – بخش پنجم

  • مقاله‌ی حاضر دایکه  ادامه‌ی همان مثال مطالعه‌ی موردی‌ است که طی چند هفته‌ی گذشته کار می‌کردیم. چهار بخش قبلی را می‌توانید در لینک‌های زیر بیابید:

بخش ۱: مقدمه

بخش ۲: تعریف مسئله

بخش ۳: EDA

بخش ۴: تحلیل وابستگی


در این مقاله، راجع به نوعی درخت تصمیم به‌نام درخت رگرسیون و دسته‌بندی ([CART[1) به‌منظور توسعه‌ی مدل سریع و نخراشیده‌ای برای همان مثال مطالعه‌ی موردی قبلی بحث می‌کنیم. اما پیش از شروع بحث، اجازه دهید اصول موارد زیر را بررسی کنیم:

درخت تصمیم

Greedy Decision Treeبیاید بپذیریم که همه‌ی ما پیش از برداشتن تکه‌ای پیتزا از داخل جعبه، سریعاً اندازه‌ی تکه و نسبت‌‌های مواد روی آن را تحلیل می‌کنیم. در این بهینه‌سازی، عمدتاً در جستجوی بزرگترین تکه‌ی حاوی بیشترین مواد موردعلاقه‌تان هستید (و احتمالاً‌ از تکه‌هایی که حاوی موادی هستند که اصلاً دوست ندارید پرهیز می‌کنید). با این اوصاف، ترجیحاً‌ این پسربچه (در شکل) را حریص نمی‌نامیم. او صرفاً می‌کوشد کیک تولدش را طوری ببرد که تکه‌ی مدنظرش حاوی بیشترین مقدار از طعم موردعلاقه‌اش باشد. گوشه‌ی بالایی کیک پسند ذائقه‌ی اوست؛ حاوی گیلاس‌های قرمز محبوبش و مقدار نه چندان زیادی از سیب سبز. او باید فقط با دو ضربه چاقو برش تمیزی ایجاد کند، وگرنه مهمانان جشن‌اش  از کاربرد ناشیانه‌ی او از چاقو لذت نخواهند برد. این پسربچه می‌تواند با به‌کارگیری مهارتی بی‌نقص و استفاده از درخت تصمیم در مغزش، تکه‌ی کاملی ببرد تا از طعم آن لذت وافی را ببرد. اجازه دهید به هنرورزی این پسربچه نگاهی بیندازیم:

Decision Tree Cake – The CART Algorithm

کیک درخت تصمیم – الگوریتم CART

او برش کیک را با نسبت‌هایی از تکه‌های قرمز و سبز (۵۰٪ – ۵۰٪) آغاز کرد. یادتان باشد که او بیشترین تعداد از تکه‌های قرمز و کمترین تعداد از تکه‌های سبز را روی برشش می‌خواست. برش او، یعنی یک‌چهارم کیک، ۷۱ درصد تکه‌ی قرمز و ۲۹ درصد تکه‌ی سبز دارد. بد هم نیست! الگوریتم درخت تصمیم دقیقاً‌ این‌طوری کار می‌کند. درست مثل مسئله‌ی بالا، الگوریتم CART می‌کوشد گره ریشه (کل کیک) را فقط به دو تکه (نه بیشتر) برش دهد/ تقسیم کند. هرچند، الگوریتم‌های درخت تصمیم دیگری هم هستند که در مقاله‌ی بعدی مطرح می‌کنیم؛ این الگوریتم‌ها قادرند گره ریشه را به قطعات زیادی تقسیم کنند.

باید خاطرنشان کنم که گرچه در این مقاله، از داده‌های مجزا (مثل گیلاس‌های قرمز و سیب‌های سبز) برای درخت تصمیم استفاده می‌کنیم، اما CART قادر است داده‌های کمی مثل سن، فاصله و غیره را هم به‌طور مساوی تقسیم کند. بیایید الگوریتم درخت تصمیم CART را بیشتر بررسی کنیم.

درخت رگرسیون و دسته‌بندی (CART)

از نظر من، الگوریتم‌هایی مثل الگوریتم پیج‌ رنک گوگل[۲]، الگوریتم‌های رمزنگاری اَلن تورینگ یا چندتایی از الگوریتم‌هایی یادگیری ماشین خیلی شگفت‌انگیزند. برای من، الگوریتم‌ها بازتابی از اندیشه‌ی ساختاریافته‌ی ابرازشده ازطریق منطق هستند. برای مثال، الگوریتم CART توسیعی از فرایندی‌ست که داخل مغز این پسربچه، ضمن تقسیم‌کردن کیک تولدش رخ می‌دهد. او سعی داشت بزرگترین تکه‌ی حاوی بیشترین گیلاس و کمترین سیب را برای خودش ببرد. در این مسئله، او دو هدف داشت.

۱. جداسازی بزرگترین تکه با برشی تمیز

۲. بیشینه‌سازی تعداد گیلاس‌های روی این تکه، ضمن کمینه‌سازی تعداد سیب‌های سبز

الگوریتم درخت تصمیم CART تلاشی برای دستیابی به دو هدف فوق است. معادله‌ی زیر نمایشی از ترکیب این دو هدف است. از این معادله نترسید، این معادله درواقع خیلی ساده است؛ پس از حل مثالی در قسمت بعدی، متوجه سادگی این معادله خواهید شد.

goodness of split

• اولین جمله‌ی معادله‌ی فوق، یعنی P&L هدف اول را کنترل می‌کند تا بزرگترین تکه بریده شود. اجازه دهید این جمله را «(تکه‌ی بزرگ)Ψ» بنامم، چرا که مرا یاد هدف ماورای این معادله‌ی ریاضی می‌اندازد.

• این در حالی‌ست که جمله‌ی دوم، یعنی sum هدف دوم را کنترل می‌کند. این جمله را «(انتخاب گیلاس‌ها)Ψ» می‌نامم.

goodness of split


برای مثال، ۱، ۰ = k است؛ در معادله‌ی فوق، سیب‌های سبز = ۰ و گیلاس‌های قرمز = ۱ هستند. یادتان باشد که برای مطالعه‌ی موردی ما با کمپین‌های بازاریابی، ۰، ۱ = k، مشتریان با واکنش مثبت ([r[3) و بدون واکنش مثبت ([nr[4) می‌شود. همین‌طور، برای مقالات امتیازبندی اعتبار و مطالعه‌ی موردی بانکداری (در آینده به بخش مقالات دایکه اضافه می شود)، ۰، ۱ = k، نکول‌کننده و نکول‌نکننده[۵] می‌شود. هرچند، فلسفه‌ی درخت تصمیم و CART برای همه‌ی این مثال‌ها و مسائل دسته‌بندی عَملی‌تر همچنان یکی است.

اجازه دهید پیش از تشریح اجزاء معادله‌ی نیکویی تقسیم فوق، برخی از مهمترین اصطلاحات فنی الگوریتم درخت تصمیم CART را تعریف کنم.

The CART Decision Tree Terminologies

اصطلاحات فنی درخت تصمیم CART

تعاریف اجزاء معادله‌ی نیکویی تقسیم در زیر ارائه شده‌اند:

L: گره فرزند چپِ گره ریشه

R: گره فرزند راستِ گره ریشه

مطالعه‌ی موردی خرده‌فروشی – درخت تصمیم (CART)

به مثال مطالعه‌ی موردی خرده‌فروشی برمی‌گردیم؛ در این مثال، شما مدیر ارشد تحلیل و رئیس راهبرد کسب‌وکار فروشگاه آنلاینی به‌نام شرکت درس‌اسمارت هستید که در حیطه‌ی پوشاک تخصص دارد. در این مثال موردی، قصد دارید عملکرد کمپین‌های آتی را بهبود بخشید. برای دستیابی به این هدف، داده‌های برگرفته از کمپین قبلی، که کاتالوگ‌های کالاها را مستقیماً به صدها هزار مشتری از پایگاه مشتریان کاملِ چند میلیون نفری ارسال کرد، را تحلیل می‌کنید. نرخ دریافت واکنش مثبت کل برای این کمپین، ۴.۲ درصد بود.

شما کل صدها هزار مشتری متقاضی را برمبنای فعالیت ۳ ماه قبلی‌شان پیش از شروع کمپین، به سه دسته تقسیم کردید. جدول زیر، توزیع مشابهی را ارائه می‌کند. در این جدول، نرخ موفقیت، درصد مشتریانِ با واکنش مثبت (r) به کمپین از بین کل مشتریان متقاضی است.

همان‌طور که می‌دانید، الگوریتم درخت تصمیم CART گره ریشه را فقط به دو گره فرزند تقسیم می‌‌کند. بنابراین، برای این داده‌ها، CART می‌تواند سه ترکیب از درخت‌های دوتایی بسازد (جدول زیر). باید بفهمیم بهترین تقسیم بین این سه ترکیب کدام است. نتایج در جدول زیر ارائه شده‌اند.

اجازه دهید در محاسبه‌ی هر یک از ستون‌های درخت بالا کمک‌تان کنم. برای انجام محاسبات زیر، از اولین ردیف (یعنی گره چپ: گره پایین و بالا: متوسط + بالا) استفاده می‌کنیم و پس از آن، می‌توانید مابقی محاسبات را خودتان انجام دهید. برای شروع،   را به‌روش زیر محاسبه می‌کنیم:

حالا محاسبه‌ی (تکه‌ی بزرگ)Ψ به سادگی زیر می‌شود:

حالا به بخش بعدی معادله، یعنی (انتخاب گیلاس‌ها)Ψ می‌پردازیم. حواستان باشد که r معرف مشتریان با واکنش مثبت و nr معرف مشتریان بدون واکنش مثبت به مثال کمپین‌مان است.

ممکن است بخواهید دو جمله‌ی دیگر یعنی    را هم پیش از جایگزاری آنها در معادله‌ی زیر، برای دستیابی به مقدار (انتخاب گیلاس‌ها)Ψ محاسبه کنید.

با این حساب، محاسبه‌ی پایانی ستون آخر، یعنی نیکویی تقسیم می‌ماند که به‌صورت زیر انجام می‌شود:‌

کار نهایی، یافتن بیشترین مقدار نیکویی تقسیم در ستون انتهایی است. این محاسبه، درخت تصمیم زیر را ازطریق الگوریتم CART، با پایین روی گره چپ و متوسط + بالا روی گره راست، تولید می‌کند.

درخت تصمیم – نتیجه‌ی نهایی الگوریتم CART

این بینش کسب‌وکار مهمی است؛ به‌علاوه این‌که افراد با فعالیت بالاتر، واکنش بهتری به کمپین‌ها نشان می‌دهند. موافقم که این امر از جدول اول در بالا نیز واضح بود، اما ما علم خلق درخت تصمیم با استفاده از الگوریتم CART در فرایند را یاد گرفته‌ایم. زمانی‌که با مجموعه‌داده‌ی بزرگی سروکار دارید و می‌خواهید درخت تصمیمی ازطریق جزءبندی بازگشتی بسازید، این مهارت خیلی مفید خواهد بود.

و اما حرف آخر

بسیار خُب، دفعه‌ی بعدی که آن تکه پیتزا را انتخاب می‌کنید، درخت تصمیم تکاملی را به یاد آورید که در بیشینه‌سازی شانس انتخاب بهترین تکه به شما کمک می‌کند. هر از گاهی، شاید بخواهید آن بهترین تکه را برای کَس دیگری کنار بگذارید – شرط می‌بندم به همان اندازه حس خوشایندی خواهید داشت!‌

در مقاله‌ی بعدی دایکه، این مفهوم درخت تصمیم دارایِ گره فرزند دوتایی ازطریق الگوریتم CART را با استفاده از سایر الگوریتم‌ها، به درخت تصمیمی با بیش از دو گره بسط می‌دهیم. تا بعد!


[۱] classification and regression tree

[۲] Google’s PageRank algorithm

[۳] responded

[۴] not-responded

[۵] loan defaulters & non-defaulters

تحلیل بازاریابیِ خرده‌فروشی‌ها – تحلیل وابستگی – بخش چهارم

Edward Scissorhandsاین بخش ادامه‌ی مثال مطالعه‌ی موردی تحلیل‌های بازاریابی است که در چند مقاله‌ی قبلی مطرح کردیم. بخش‌های قبلی  سری مقالات تحلیل بازاریابیِ خرده‌فروشی‌ دایکه  (بخش‌ ۱ ، بخش۲ و بخش۳) را می‌توانید در لینک‌های زیر بیابید. در بخش ۳، تحلیل کاوشگرانه‌ی داده‌ها (EDA) را مطرح کردیم. در مقاله‌ی حاضر، راجع به تحلیل وابستگی، که روش مفیدی برای استخراج الگوهای جالب در داده‌های مبادلاتی مشتریان است صحبت خواهیم کرد. از تحلیل وابستگی می‌توان به‌عنوان ابزار مفیدی برای تحلیل تعمیم‌ یافته‌ی کاوشگرانه‌ی داده‌ها استفاده کرد. ضمناً، تحلیل وابستگی، هسته‌ی تحلیل سبد بازار[۱] یا تحلیل دنباله‌ای[۲] است. بعداً در همین مقاله، از تحلیل وابستگی در مثال مطالعه‌ی موردی‌مان استفاده می‌کنیم تا کاتالوگ‌های پیشنهادی کارامدی برای کمپین‌ها و همچنین طراحی فروشگاه آنلاین (وب‌سایت) طراحی کنیم.

دست‌قیچی‌ها[۳]

۹ یا ۱۰ سالم بود که اولین کلاس درس کاردستی در مدرسه‌مان برگزار شد. کلاس‌های درسی کاردستی در هند SUPW نامیده می‌شوند که مخفف «کار اجتماعی مفید و ثمربخش[۴]» است. در جلسه‌ی اول کلاس، به هر دانش‌آموز یک برگه‌ی رنگی A4 و یک جفت قیچی داده می‌شد. در جلسه‌ی اول، کودکان پرشوروهیجانِ بی‌هدف دریافتند که قادرند برگه کاغذی را به‌روش‌های تقریباً نامحدودی ببُرند. این کار از لحاظ اجتماعی نه سودمند بود، نه ثمربخش و به تولید مقدار زیادی کاغذ باطله منجر شد. عبارت  SUPW در این مورد، «مقداری کاغذ مفید هدررفته[۵]» است. بعدها، به‌واسطه‌ی تلاش‌های هدفمندتر دریافتیم که اگر از قیچی هوشمندانه استفاده شود، شکل‌های جالب زیادی از یک برگه کاغذ درمی‌آید.

این دقیقاً‌ همان تجربه‌ای است که بسیاری از تحلیل‌گران هنگام مواجه با داده‌های مبادلاتی مشتریان کسب می‌کنند. منبع غنی‌ای از اطلاعات راجع به رفتار مشتری در این داده‌ها نهفته است، اما سردرآوردن از این‌که کار را از کجا شروع کنیم دشوار است. داده‌های مبادلاتی را می‌توان به‌روش‌های بی‌شماری، مثل خردکردن تکه‌ای کاغذ توسط قیچی، خرد، تکه‌تکه و گروه‌بندی کرد. کلید هر دو مورد بالا مسیر درست است.

تصویر هالیوود از تحلیل داده‌ها

A-Beautiful-Mind A-Beautiful-Mindاجازه دهید یک تصویر معمولی هالیوود از تحلیل داده‌ها را برای‌تان توصیف کنم؛ مردی در برابر صفحه‌ی نمایش بزرگی ایستاده است و داده‌ها (دنباله‌ای از اعداد) در کل صفحه شناورند. این مرد الگوهایی موجود در داده‌های شناور را شناسایی می‌کند. این تصویری پرقدرت، اما کاملاً غیرواقعی است. روش خیره‌شدن به داده‌ها و امید به یافتن الگوها بی‌شک فقط نویز تولید می‌کند و سیگنال ناچیزی به‌دست ما می‌دهد. حتی کدشکن‌های بزرگی مثل جان نَش[۶] و اَلن تورینگ[۷] هم اگر بکوشند با استفاده از روش هالیوود الگوهای موجود در داده‌ها را بیابند، شکست می‌خورند.

درواقع، منظورم این است که تحلیل داده‌ها، فعالیتی شدیداً برنامه‌ریزی‌شده‌ است. به‌عنوان تحلیل‌گر، هیچ‌گاه پیش از داشتن برنامه‌ی مناسب و آماده‌ای از اقدامات (فرضیه‌ها و غیره)، به داده‌ها دست نزنید. با این اوصاف، همیشه مواقعی هست که به‌عنوان تحلیل‌گر مجبور خواهید شد برای یافتن الگوها، به قلمروهای ناشناخته‌ای از داده‌ها وارد شوید. در چنین مواردی، توصیه می‌کنم به الگوریتم‌های یادگیری ماشین متکی باشید یا الگوریتم‌های تعدیل‌یافته‌ی خودتان را که مختص نیازهای‌تان هستند خلق کنید. به نظرم، ماشین‌ها در انجام این کار خیلی بهتر از ما انسان‌ها عمل می‌کنند. تحلیل وابستگی قدرت‌یافته توسط الگوریتم آپریوری[۸] یکی از چندین روش‌ها برای استخراج داده‌های مبادلاتی است. اجازه دهید تحلیل وابستگی را در بخش بعدی بررسی کنیم.

تحلیل وابستگی

تحلیل وابستگی، همان‌طور که به‌زودی کشف خواهید کرد، تحلیل فراوانی[۹] مقدماتی اجراشده روی مجموعه‌داد‌ه‌ای بزرگ است. از آنجایی‌که مجموعه‌داده‌های بیشتر مسائل عَملی بزرگ هستند، پس برای اجرای تحلیل وابسنگی به الگوریتم‌های هوشمندی مثل آپریوری نیاز دارید. اجازه دهید برای یادگیری تحلیل وابستگی، از مجموعه‌ داده‌ی خیلی کوچک‌تری شروع کنیم. در جدول زیر، هر ردیف یا عدد مبادله معرف سبدهای بازار مشتریان است. در ستون‌های بعدی کالاها، ۱ معرف «خرید کالا در آن مبادله» و ۰ معرف «عدم خرید» است.

مبادله #

پیراهن‌ها شلوارها کراوات‌ها

۰۰۱

۱ ۱

۱

۰۰۲

۰ ۱

۰

۰۰۳

۱ ۰

۱

۰۰۴

۱ ۰

۱

۰۰۵ ۱ ۱

۰

چندین متریک تحلیل وابستگی (یعنی پشتیبانی، اطمینان و ارتقاء) وجود دارد که در رمزگشایی اطلاعات نهفته در این نوع مجموعه‌داده بسیار مفیدند. بیایید این متریک‌ها را بررسی کنیم و کاربرد آنها را بشناسیم. پشتیبانی برای خرید پیراهن‌ها و کراوات‌ها با هم در تحلیل وابستگی به‌صورت زیر تعیین می‌شود:

برای داده‌های ما، از کل ۵ مبادله، ۳ مبادله‌ مربوط به پیراهن‌ها و کراوات‌هااست:

۶۰ درصد مقدار نسبتاً بالایی برای پشتیبانی است و به‌ندرت چنین مقادیر بالایی از پشتیبانی را در مثال‌های شرایط واقعی رؤیت می‌کنید. برای مشکلات شرایط واقعی با چندین دسته کالا، پشتیبانی ۱ درصد یا گاهی حتی کمتر، بسته به ماهیت مشکل‌تان، نیز مفید خواهد بود. اطمینان وابستگی با استفاده از فرمول زیر محاسبه می‌شود:

در مجموعه‌داده‌ی ما، از ۴ مبادله‌ی پیراهن‌ها، ۳ مبادله مربوط به پیراهن‌ها و کراوات‌ها است. محاسبه‌ی اطمینان مجموعه‌داده‌ی ما به‌صورت زیر است:

بار دیگر یادآوری می‌کنم که به‌ندرت چنین مقدار بالایی از اطمینان را برای بیشتر مشکلات واقعی خواهید یافت، مگر این‌که پیشنهادهای جذابی روی دو کالا داده شود. مقدار خوبی از اطمینان به‌طور خاص به مشکل یافت  می شود.  سومین متریک مفید تحلیل وابستگی ارتقاء است که به‌صورت زیر تعیین می‌شود:

اطمینان موردانتظار در فرمول بالا، موجودی کراوات‌ها در مجموعه‌داده‌ی کل است؛ یعنی از ۵ خرید، ۴ مورد خرید کراوات است.

مقدار ۱۲۵ درصدی ارتقاء نشان می‌دهد زمانی‌که مشتریان پیراهن می‌خرند، خرید کراوات بهبود می‌یابد. سؤالی که اینجا برای‌تان پیش می‌آید این است که اگر مشتری یک پیراهن بخرد، آیا احتمال خرید کراوات توسط این مشتری بالا می‌رود؛ یعنی مقدار ارتقاء بالاتر از ۱۰۰ درصد. بیایید از دانش تحلیل وابستگی‌مان در مثال مطالعه‌ی موردی‌ای که روی آن کار می‌کردیم استفاده کنیم.

مثال مطالعه‌ی موردی خرده‌فروشی – تحلیل پیوستگی

شرکت درس‌اسمارت، شرکتی که شما مدیر ارشد تحلیل و رئیس راهبرد کسب‌وکارش هستید، فروشگاه خرده‌فروشی آنلاین عرضه‌کننده‌ی پوشاک است. این شرکت کالاها، برندها و سبک‌های مختلفی عرضه می‌کند. می‌‌دانید که تحلیل وابستگی زمانی بهترین کارکرد را دارد که روی گروه‌های مختلف مشتریان به‌طور مجزا اجرا شود (راجع به گروه‌بندی مشتری[۱۰] مطالعه کنید). هرچند، تصمیم گرفته‌اید تحلیل وابستگی سریعی روی داده‌های موجود در شرکت‌تان اجرا کنید.

Dress_Shirt_and_Tie_Combos_Men_Nordstromبا داده‌های مربوط به پیراهن‌های رسمی و کراوات‌ها که در مثال بالا بررسی کردیم، پشتیبانی ۰.۲ درصد، اطمینان ۱۲ درصد و ارتقاء ۵۰۹ درصد حاصل شد. این ارقام نشان می‌دهند که گرچه درصد رکوردهای پایین‌تری از مبادلات برای کراوات‌ها و پیراهن‌ها وجود دارد، اما به‌مجرد این‌که مشتری پیراهن‌های رسمی بخرد، احتمال خرید کراواتش تا پنج برابر افزایش می‌یابد.

درس‌اسمارت گزینه‌ی بازگرداندن کالا را برای مشتریانش مهیا کرده است. کالاهای آسیب‌ندیده‌ای که ظرف ۳۰ روز بازگردانده می‌شوند، هزینه‌ی کامل‌شان به مشتری پس داده می‌شود. در ادامه، مشتریانی را بررسی کردید که علاوه بر پیراهن، کراوات هم می‌خرند و دریافتید که نرخ‌های بازگشت کالای کراوات برای آن مبادلات نیز ۳ برابر بیشتر از سایر نرخ‌های بازگشت است. این نشانگر آن است که مشتریان در انتخاب کراوات‌های مناسب، هنگام سفارش‌ آنلاین آنها به‌همراه پیراهن مشکل دارند. نیازی به بهبودبخشیدن این فرایند روی وب‌سایت شرکت نیست. هدف کاهش نرخ بازگشت کالا، ضمن بهره‌گیری کامل از فرصت مهیاشده برای فروش مکمل کراوات‌ها با پیراهن‌ها است.

چندین سرنخ خوب پیدا کردید تا بتوانید سودآوری شرکت‌تان را از طریق ابزارهای تحلیل کاوشگرانه‌ی داده‌ها بهبود بخشید. حالا می‌خواهید اهداف اصلی را آماده و مطرح کنید (بخش ۲) تا سودآوری اقدامات کمپین را ارتقاء دهید. دفعه‌ی بعد، مدل‌سازی جدی این کار را به‌طور دقیق بررسی خواهید کرد.

و اما حرف آخر

امیدواریم هنگام کارکردن با داده‌های‌تان، از ایفای نقش ادوارد دست‌قیچی لذت ببرید! به‌زودی در بخش بعدی، مثال مطالعه‌ی موردی از سری مقالات تحلیل بازاریابیِ خرده‌فروشی‌ دایکه، جایی‌که بیشتر راجع به الگوریتم‌های درخت تصمیم کاوش می‌کنیم، شما را ملاقات خواهیم کرد!


[۱] market basket analysis

[۲] sequence analysis

[۳] Scissorhands

[۴] Socially Useful Productive Work

[۵] Some Useful Paper Wasted

[۶] John Nash

[۷] Alan Turing

[۸] Apriori algorithm

[۹] frequency analysis

[۱۰]  customer segmentation