نشریه

تحلیل بازاریابیِ خرده‌فروشی‌ها – شبکه‌های عصبی مصنوعی – بخش هشتم

باز هم به مثال مطالعه‌ی موردی خرده‌فروشی‌ دایکه در رابطه با تحلیل‌های بازاریابی و کمپین خوش آمدید. تا اینجای کار، داشتیم روی مسئله‌ی دسته‌بندی کار می‌کردیم تا مشتریانی با احتمال بالاتر خرید کالا از کاتالوگ‌های کمپین را شناسایی کنیم. در مقاله‌ی آخر مربوط به انتخاب مدل، متوجه شدیم که شبکه‌های عصبی مصنوعی، برای مسئله‌ی دسته‌بندی ما بهتر از رگرسیون لجستیک و الگوریتم‌های درخت تصمیم عمل می‌کنند. در مقاله‌ی حاضر، قصد داریم به درک شهودی و ساده‌ای از شبکه‌های عصبی مصنوعی برسیم که از مغزمان الهام می‌گیرند. در چند قسمت بعدی، راجع به آن دسته از خصوصیات مغز که شبکه‌های عصبی می‌کوشند تقلید کنند یاد می‌گیریم؛ چندتایی از این خصوصیات عبارتند از:

دیدن با زبان‌!

اریک ویهنمیر[۱] قله‌ی اورست را در سال ۲۰۰۱ فتح کرد. با این کار، او اولین کوهنورد نابینایی شد که به این فتح شکوهند نائل شده بود. اریک پیگیری این علاقه‌مندی را ازطریق دستگاهی به‌نام برین‌پورت[۲]، که به او کمک کرد با زبانش ببیند، در سنگ‌نوردی به حد اعلا رساند! این وسیله دوربینی در یک سمتش دارد که به چند صد الکترود ریز متصل است که اریک روی زبانش قرار می‌دهد تا موانع موجود در مسیرش را حس کند. این تجربه به‌واسطه‌ی یادگیری باورنکردنی سازگارپذیری مغز انسان برای اریک ممکن شد. دفعات اول، زمانی‌که اریک استفاده از این دستگاه را شروع کرد، گزیدگی روی زبانش حس می‌کرد که با تجارب دیگری همراه بود. رفته‌رفته مغز اریک یاد گرفت تا هر تجربه را به احساسات متمایز دیگر ربط دهد و این امر، توانایی دیدن را برایش امکان‌پذیر کرد. این داستانی استثنائی راجع به قابلیت سازش‌پذیری مغزمان – خصوصیتی که الهام‌بخش الگوریتم یادگیری ماشین، یعنی شبکه‌های عصبی مصنوعی است – است.

حلقه‌های پس‌خورد و پیش‌خورد شبکه‌های عصبی

مغز ازطریق شبکه‌ی پیچیده‌ای از رشته‌های عصبی به‌نام شبکه‌های عصبی زیستی، با سایر بخش‌های بدن در ارتباط است. مغز با مکانیسم قدرتمندی کار می‌کند که شامل حلقه‌های پس‌خورد و پیش‌خورد درون شبکه‌های عصبی پیچیده جای دارند. برای مثال، مکانیسم پیش‌خورد مستلزم ورودی‌هایی از اندام‌های حسی، مثل چشم‌ها و گوش‌ها، است که به خروجی‌ها، یعنی اطلاعات و درک تبدیل می‌شوند. از سوی دیگر، مکانیسم پس‌خورد باعث می‌شود مغز با اندام‌های حسی ارتباط برقرار کند و ورودی‌های آنها را اصلاح نماید.

برای یادگیری بهتر راجع به این موضوع، اجازه دهید چند آزمایش کوچک انجام دهیم. برای آزمایش اول، چشمان خود را ببنیدید و واژگان زیر را در بازه‌های زمانی ۱۰ ثانیه‌ای، با هدف مصورسازی یا تصویرسازی آنها، بیان کنید.

  • اژدها
  • دهکده
  • قاتل اژدها

به احتمال زیاد، با اژدهایی که به دهکده‌ای حمله می‌کند و توسط قاتل اژدها کشته می‌شود، حس بسط‌یافته‌ای را مجسم می‌کنید. چیزی که همین الان درک کردید، قابلیت استثنائی مغز در استخراج اطلاعاتی راجع به این واژگان در کسری از ثانیه و تصویرسازی توالی کامل رویدادها بدون استفاده از چشمان‌تان است. این قابلیت منبع تصور بسط‌یافته‌ی است که مغز انسان پردازش می‌کند. در این مورد، یک شکل از ورودی (واژگان) ازطریق پردازش پیچیده‌ای در مغزمان، شکل دیگری از ورودی (تصویرسازی) را تولید می‌کند.

آزمایش دوم در شناخت حلقه‌ی پس‌خورد و پیش‌خورد مغزمان مفید است. مواجه با جمله‌ی زیر در برخی از سایت‌های رسانه‌ی اجتماعی خیلی محتمل است. بگذریم، جمله‌ی داخل کادر متنی پایین را بخوانید.

TextBox

باورنکردنی‌ست، نه؟!‌ مغزتان چندین چرخه‌ی پس‌خورد و پیش‌خورد را طی می‌کند تا بتواند این حروف به‌هم‌ریخته را در کسری از ثانیه بخواند. در این مورد، مغز خروجی معنی‌دار، یعنی فهمیدن این جمله را جایگزین ورودی ناکامل و به‌هم‌ریخته، یعنی اطلاعاتی که چشمان‌تان می‌گیرد می‌کند. شبکه‌های عصبی مصنوعی می‌کوشند مغز استثنائی ما را با هدف پیش‌بینی ازطریق حلقه‌ی پس‌خورد و پیش‌خورد بین متغیرهای ورودی و خروجی تقلید کنند.

شبکه‌های عصبی مصنوعی – مثال مطالعه‌ی موردی خرده‌فروشی

 شبکه‌های عصبی مصنوعی به‌هیچ وجه از پیچیدگی‌های شبکه‌های عصبی زیستی برخوردار نیستند، اما نباید فراموش کنیم که شبکه‌های عصبی زیستی متحمل میلیون‌ها سال تکامل شده‌اند. از سوی دیگر، شبکه‌های عصبی مصنوعی (از اینجا به بعد، شبکه‌های عصبی) تاریخچه‌ای نزدیک به نیم‌قرن دارند. در دهه‌ی ۱۹۹۰، شبکه‌های عصبی محبوبیت‌شان را به الگوریتم‌های یادگیری ماشین مثل ماشین‌های بردار پشتیبان و غیره باختند. هرچند، تقریباً در دهه‌ی گذشته، به‌دلیل پیدایش یادگیری عمیق، علاقه‌مندی تجدیدشده‌ای به شبکه‌های عصبی شکل گرفت. بیایید سعی کنیم طراحی شبکه‌های عصبی و ویژگی‌های آنها را با استفاده از مطالعه‌ی موردی خرده‌فروشی‌مان بشناسیم.

همان‌طور که در شکل می‌بینید، شبکه‌های عصبی را می‌توان به‌طور گسترده‌ای به سه لایه تقسیم کرد؛ ورودی، پنهان و خروجی. لایه‌ی پنهان نوعی ویژگی فرعی است که شبکه‌های عصبی را از سایر مدل‌های پیش‌بین مجزا می‌کند. اگر لایه‌ی پنهان را از این طرح حذف کنیم، به رگرسیونی ساده (برای برآورد) یا رگرسیون لجستیک (برای دسته‌بندی) تبدیل می‌شود. لایه‌ی ورودی این طرح صرفاً متغیرهای ورودی هستند. برخی از متغیرهای ورودی مطالعه‌ی موردی خرده‌فروشی که در مقالات قبلی بحث کردیم عبارتند از:

لایه‌ی خروجی، برای مسئله‌ی دسته‌بندی در شناسایی مشتریانی که به کمپین‌ها واکنش مثبت نشان می‌دهند، متغیر دوتایی معرف واکنش‌دهندگان تاریخی (۱/۰) است.

ساختار ریاضی شبکه‌های عصبی

این بخش ساختار ریاضی شبکه‌های عصبی را توصیف می‌کند. اگر این مبحث برای‌تان زیادی پیچیده است، پیشنهاد می‌کنم فعلاً از این بخش بگذرید و قسمت بعدی، یعنی کاربرد شبکه‌های عصبی را مطالعه کنید.

اجازه دهید به لایه‌ی پنهان برگردیم؛ هر لایه‌ی پنهان چندین گره پنهان (دایره‌های نارنجی در شکل بالا) دارد. هر گره پنهان مجموع موزونی از ورودی مربوط به متغیرهای ورودی می‌گیرد. عبارت زیر مجموع موزون متغیرهای ورودی‌ای را ارائه می‌دهد که گره‌های پنهان به‌عنوان ورودی می‌گیرند. این متغیرهای پنهان با سیگنال‌های ورودی‌ای که اندام‌های حسی‌مان به مغزمان می‌فرستند قابل قیاسند؛ مثلاً، زمانی‌ که آتشی دوروبرتان باشد، آتش را می‌بینید، زبانه‌کشیدن آتش را می‌شنوید، دود را استشمام می‌کنید و پوست‌تان داغ می‌شود (تجربه‌ی حسی کاملی ازطریق چندین گره ورودی).

Hidden Node

برای شروع، وزن‌های    را به‌صورت تصادفی انتخاب می‌کنیم، سپس، آنها را به‌طور ترجیعی تعدیل می‌کنیم تا با ورودی‌های مطلوب (در لایه‌ی ورودی) همخوان شوند. مثال آتش بالا را ادامه می‌دهیم؛ اگر سیگنال‌های حسی مربوط به آتش خیلی قوی باشند، تمایل جانور به محافظت از خود کنترل را به‌دست می‌گیرد. هرچند، سیگنال‌های حسی مربوط به شعله‌ی اجاق آشپزی را هم باید برای انسان‌هایی که آشپزی می‌کنند لحاظ کنید. بنابراین، وزن‌ها باید برمبنای استفاده از آتش و محافظت از خود تعدیل شوند.

در لایه‌ی پنهان، مجموع موزون خطی بالا [ HiddenNode]، ازطریق تابعی غیرخطی به شکل غیرخطی تبدیل می‌شود. این تبدیل معمولاً‌ با استفاده از تابع فعال‌سازی سیگموئید انجام می‌شود؛ بله، این همان تابع لاجیت رگرسیون لجستیک است. عبارت زیر نشان‌دهنده‌ی این پردازش است.

حواستان باشد که  Hidden است؛ خروجی [] گره‌های پنهان مختلف (j)، متغیرهای ورودی گره خروجی پایانی می‌شود:

output

این خروجی موزون خطی ازطریق تابع سیگموئید مجدداً‌ به شکل غیرخطی تبدیل می‌شود. عبارت زیر، احتمال تبدیل مشتری، (واکنش مشتری)P برمبنای متغیرهای ورودی‌اش است.

Customer Response

الگوریتم‌های شبکه‌ی عصبی (مثل پس‌انتشار) وزون‌ها را مکرراً‌ برای هر دو لینک (یعنی  input hidden output ) تعدیل می‌کنند تا خطای پیش‌بینی را کاهش دهند. یادتان باشد که وزن‌های ساختار ما عبارتند از، وزن‌های w0، Ui  و U0.

مزایا و معایب استفاده از شبکه‌های عصبی

اجازه دهید برخی از مهمترین مزایا و معایب استفاده از شبکه‌های عصبی در توسعه‌ی مدل را به‌طور خلاصه مطرح کنیم.

مزایا

۱. شبکه‌های عصبی روش‌های بسیار تطبیق‌پذیری برای حل چهار دسته از شش دسته‌ی گسترده‌ی وظایف علم داده، یعنی دسته‌بندی، برآورد، پیش‌بینی و خوشه‌بندی (نقشه‌ی خودسازنده) ارائه می‌دهند. این شش دسته‌ی گسترده از وظایف علم داده در مقاله‌ی قبلی (دیاگرام بالا) مطرح شدند.

۲. شبکه‌های عصبی به‌دلیل لایه‌ی پنهان که اطلاعات نویزدار را جذب می‌کند، (مثل مغزمان) به نویز موجود در داده‌های ورودی حساسند.

۳. شبکه‌های عصبی برای پرداختن به روابط فازی/ غیرخطی بین متغیرهای ورودی و متغیر خروجی مناسب‌ترند.

معایب

۱. شبکه‌های عصبی اغلب به‌عنوان جعبه‌های سیاه (مثل مغزمان) تلقی می‌شوند، چرا که رابطه‌ی بین متغیرهای ورودی و خروجی را به‌وضوح برجسته نمی‌کنند. این خصیصه در درخت‌های تصمیم که راهکارهای بسیار شهودی‌ای ارائه می‌دهند خیلی نامحتمل است.

۲. هنگام طراحی ساختار شبکه‌های عصبی، هیچ قانون ثابتی برای انتخاب تعداد لایه‌ها و گره‌های پنهان وجود ندارد. این امر مستلزم آن است که دانشمندان خبره‌ی داده مدل‌های شبکه‌های عصبی را توسعه دهند.

۳. شبکه‌های عصبی اغلب مستعد بیش‌برازش هستند، بنابراین، تحلیل‌گران باید نتایج را به‌دقت بررسی کنند.

مخلص کلام

شبکه‌های عصبی مصنوعی روزهای اولیه‌شان را سپری می‌کنند، اما مطمئناً کلی امیدبخش خواهند بود. طبیعت مغز ما را با بردباری و به‌دقت طراحی و تعدیل کرده است تا شبکه‌های عصبی زیستی استثنائی‌ا‌ی خلق شوند. شک دارم انسان‌ها هم به اندازه‌ی طبیعت باحوصله باشند. این زیبایی‌ای است که همگی باید از طبیعت فراگیریم.

در بخش بعدی مطالعه‌ی موردی دایکه می‌بینیمتان!‌


[۱] Eric Weihenmayer

[۲] BrainPort

تحلیل بازاریابیِ خرده‌فروشی‌ها – انتخاب مدل – بخش هفتم

انتخاب مدل

این بخش از سری مقالات تحلیل بازاریابیِ خرده‌فروشی‌ دایکه ، ادامه‌ی مثال مطالعه‌ی موردی خرده‌فروشی تحلیل‌های بازاریابی و کمپین است. در دو بخش قبلی، دو الگوریتم درخت تصمیم (CART و C4.5) برای دسته‌بندی را مطرح کردیم. مثال مطالعه‌ی موردی قبلیِ راجع به بانکداری و مدیریت خطر را به یاد آورید که در آن رگرسیون لجستیک، رویکرد دیگری برای حل مسائل دسته‌بندی را بحث کردیم. به‌علاوه، چندین الگوریتم یادگیری ماشین و آماری دیگری هم هست که برای کارهای دسته‌بندی، مثل موارد ذکرشده در زیر، همان‌اندازه پرقدرتند:

  • ماشین‌های بردار پشتیبان[۱]
  • جنگل تصادفی[۲]
  • شبکه‌های عصبی مصنوعی
  • تحلیل تشخیصی
  • مدل تجمیعی boosting
  • دسته‌بندی بیز ساده[۳]

این لیست کامل نیست، اما شامل برخی از رویکردهای رایج است. کلیه‌ی این رویکردها را در مقالات بعدی دایکه مطرح می‌کنیم. حالا سؤال این است: چرا تعداد زیادی رویکرد مختلف برای حل مسئله‌ای مشابه وجود دارد؟ سؤال مهمتری که هرکسی می‌پرسد این است: کدامیک از این رویکردها بهترین است؟ پاسخ سؤال دوم هیچکدام است! بله، بهترین رویکرد به نوع داده‌هایی که با آنها کار می‌کنید بستگی دارد و از آنجایی‌که داده‌ها در هر شکل و اندازه‌ای موجودند، پس نمی‌توانید یک بهترین رویکرد برای همه‌ی مسائل داشته باشید. بنابراین، توسعه‌ی مدل‌هایی با رویکردهای مختلف و انتخاب بهترین مدل برای داده‌های شما تمرین مهمی در علم داده و تحلیل است. در این مقاله، در مورد عوامل تأثیرگذار روی فرایند انتخاب مدل بحث می‌کنیم. هرچند، پیش از شروع بحث اجازه دهید سریعاً برخی از کارهایی که دانشمندان داده انجام می‌دهند را بررسی کنیم؛ زمانی‌که وارد بخش‌های بعدی این مثال مطالعه‌ی موردی خواهیم شد، این موضوع به دردمان می‌خورد.

وظایف علم داده

اساساً وظایفی که دانشمندان داده انجام می‌دهند را می‌توان به شش دسته‌ی گسترده‌ (همان‌طور که در زیر ارائه شده است) گروه‌بندی کرد. لطفاً توجه کنید که حتی وظایف علم داده‌ی مدرن، مثل تحلیل‌های وب و رسانه‌های اجتماعی، متن‌کاوی، تحلیل‌های تصویری و شناسایی الگوی صوت از این شش دسته‌ی گسترده استفاده کرده‌اند.

وظایف علم داده‌

همان‌طور که متوجه شدید، در این مطالعه‌ی موردی، تا اینجا ۳ وظیفه از لیست بالا، یعنی «توصیف» (تحلیل کاوشگرانه‌ی داده‌ها)، «وابستگی» (تحلیل وابستگی) و «دسته‌بندی» (درخت‌های تصمیم؛ CART و C4.5) را انجام دادیم. EDA تمرین بسیار مهمی‌ست که مدل‌های پیشگویانه‌ای در جهت درست استخراج می‌کند.

در بخش‌های پایانی این مطالعه‌ی موردی، چندین «برآورد» انجام می‌دهیم (یعنی تحلیل رگرسیون برای برآورد درآمد تولیدشده توسط مشتریان ازطریق کمپین‌ها). اجازه دهید برای رسیدگی مسئله‌ی طبقه‌بندی‌مان به انتخاب مدل برگردیم.

انتخاب مدل – مثال مطالعه‌ی موردی خرده‌فروشی

به مثال مطالعه‌ی موردی خرده‌فروشی‌مان برمی‌گردیم؛ در این مثال، شما مدیر ارشد تحلیل و رئیس راهبرد کسب‌وکار فروشگاه آنلاینی به‌نام درس‌اسمارت هستید که در عرضه‌ی پوشاک تخصص دارد. ازطریق تحلیل کاوشگرانه‌ی دقیق داده‌ها، چندین عامل که نقش حیاتی‌ای در واکنش مشتریان به کمپین بازاریابی ایفا می‌کنند را پیدا می‌کنید؛ برخی از این فاکتورها عبارتند از:

  • تازگی: # بازدیدها و خریدهای اخیر از وب‌سایت شرکت
  • توالی خریدها: تأخیر زمانی بین خریدها در ۶ ماه گذشته
  • روش پرداخت به‌کاررفته: پرداخت نقدی هنگام تحویل، پرداخت با کارت اعتباری، بانکداری اینترنتی و غیره
  • داده‌های بازاریابی گردآوری شده: گروه‌بندی برمبنای سبک زندگی (یعنی، دوستداران کالاهای لوکس، سالخوردگان طرفدار کالاهای بسیار گران‌قیمت و مزدبگیران دائمی).
  • روند مخارج سال گذشته: مقدار پول خرج‌شده در سال گذشته
  • الگوی کاربرد کوپن توسط مشتری

شما مدل‌های چندمتغیره‌ی فوق (یعنی رگرسیون لجستیک، SVM، درخت‌های تصمیم و غیره) را برای مدل‌سازی رفتار مشتریان و تولید امتیازات تمایل به خرید امتحان کرده‌اید. انتخاب مدل درست به دو عامل زیر بستگی دارد:

۱. قدرت پیشگویانه‌ی مدل‌ها

۲. یکپارچگی عملیات‌ها و کسب‌وکار

۱. قدرت پیشگویانه‌ی مدل‌ها

عامل اول در انتخاب مدل، قدرت پیشگویانه‌ی کلی مدل موردنظر در مقایسه با سایر مدل‌ها است. برای این مسئله‌ی دسته‌بندی، ناحیه‌ی زیر منحنی عملیاتی گیرنده ([۴] AUROC) احتمالاً بهترین روش برای ارزیابی قدرت پیشگویانه‌ی مدل‌ها است (راجع به AUROC بیشتر بخوانید). گاهی اوقات از ضریب جینی[۵] برای ارزیابی قدرت پیشگویانه‌ی مدل‌ها استفاده می‌شود؛ جینی نوع دیگری از AUROC است و از لحاظ ریاضی به‌صورت زیر بیان می‌شود:Gini

در نمودار زیر، AUROC برای شبکه‌های عصبی مصنوعی، رگرسیون لجستیک و درخت تصمیم CART نمایش داده شده است. توجه داشته باشید که در اینجا قدرت پیشگویانه‌ی منحنی مدل کامل (به رنگ سبز)، ۱۰۰ درصد است و مدل تصادفی (به رنگ قرمز) پیشگویی را ازطریق پرتاب سکه نمایش می‌دهد. مقادیر AUROC نمونه‌ی آزمایشی این سه مدل عبارتند از:

مدل

AUROC

درخت تصمیم

۷۲٪

رگرسیون لجستیک

۷۶٪

شبکه‌های عصبی مصنوعی

۷۷٪

ناحیه‌ی زیر ROC برای مدل‌های مختلف

در اینجا، درخت تصمیم خیلی پایین‌تر از مدل‌های دیگر اجرا می‌شود. این موضوع اغلب در درخت‌های تصمیم دیده می‌شود، اما هنوز هم به‌دلیل راهکارهای ساده و بسیار فهم‌پذیر خیلی محبوب و سودمندند. شبکه‌های عصبی مصنوعی در این مورد، با ناحیه‌ی کمی بالاتر زیر ROC، یک درجه بالاتر از رگرسیون لجستیک اجرا می‌شوند. بنابراین، براساس معیار اول، شبکه‌های عصبی مصنوعی بهترین مدل را از بین این سه مدل ارائه می‌دهند.

۲. یکپارچگی عملیات‌ها و کسب‌وکار

این جنبه از انتخاب مدل هم به اندازه‌ی عامل بالا، اگر نه بیشتر، مهم است. انتخاب مدل باید برمبنای زایایی[۶] مدل برای کاربرد تجاری در بلندمدت صورت گیرد. به‌خاطرسپردن عوامل زیر در شروع فرایند مدل‌سازی مفید است:

۱) دسترس‌پذیری مستمر داده‌ها برای کلیه‌ی متغیرهای پیش‌بین: بسیاری اوقات، مدل‌ها برمبنای متغیرهای پیش‌بینی توسعه می‌یابند که دستیابی منظم و مستمر به آنها دشوار است. نگه‌داشتن چنین متغیرهایی در مدل، حتی اگر روی قدرت پیشگویانه‌ی بالا نیز تأثیرگذار باشند، توصیه نمی‌شود. این موضوع مخصوصاً راجع به داده‌های شخص ثالث که هر از گاهی خریداری می‌شوند واقعیت دارد.

۲) مدل باید به اندازه‌ی کافی برای کالیبره‌کردن ساده باشد: هدف هر مدلی یکپارچه‌شدن خوب با سیستم‌های IT به‌کاررفته توسط کاربران کسب‌وکار است. تحلیل‌گران باید زایایی مدل برای یکپارچه‌سازی فرایند کسب‌وکار در شروع پروژه را لحاظ کنند تا از دوباره‌کاری غیرضروری در تکمیل پروژه بپرهیزند.

۳) تعهد کابران کسب‌وکار به کاربرد منظم مدل‌ها: علم داده صرفاً نوعی تمرین فکری نیست. مهمترین جنبه‌ی موفقیت علم داده، تولید ارزش کسب‌وکار ازطریق بینش‌های شدنی و تعهد کاربران کسب‌وکار به عمل‌کردن به این بینش‌هاست. این تعهد کاربران کسب‌وکار، از مشارکت و درکشان از فرایند ساخت مدل نشأت می‌گیرد. دانشمندان علم داده باید رابطه‌ی خوبی با کابران کسب‌وکار برقرارکنند تا اعتمادشان را جلب نمایند.

مخلص کلام

در این مقاله، متوجه شدیم که شبکه‌های عصبی مصنوعی، برای مجموعه‌داده‌ی ما کمی بهتر از رگرسیون لجستیک و الگوریتم‌های درخت تصمیم عمل می‌کنند. پیش از پرداختن به ادامه‌ی بخش بعدی این مطالعه‌ی موردیِ دایکه، یعنی برآوردها ازطریق رگرسیون، شبکه‌های عصبی مصنوعی را در مقاله‌ی بعدی مطرح می‌کنیم. تا بعد!


[۱]  Support Vector Machines

[۲]  Random Forest

[۳]  Naïve Bayes Classifiers

[۴]  area under receiver operating curve

[۵]  Gini coefficient

[۶]  productionization

تحلیل بازاریابیِ خرده‌فروشی‌ها – آنتروپی – بخش ششم

مقاله‌ی حاضر دایکه، ادامه‌ی مثال مطالعه‌ی موردی خرده‌فروشی است که چند هفته‌ی گذشته روی آن کار می‌کردیم. بخش‌های قبلی مثال مطالعه‌ی موردی را می‌توانید در لینک‌های زیر پیدا کنید:

بخش ۱: مقدمه

بخش ۲: تعریف مسئله

بخش ۳: EDA

بخش ۴: تحلیل وابستگی

بخش ۵: درخت تصمیم (CART)

Entropy from order to disorderاگر از مقاله‌ی قبلی یادتان باشد، الگوریتم CART درخت‌های تصمیمی تولید می‌کند که فقط گره‌های فرزند دوتایی دارند. در مقاله‌ی حاضر، الگوریتم دیگری یاد می‌گیریم تا درخت‌های تصمیمی با گره‌های فرزند چندتایی بسازیم. چندین روش برای دستیابی به این هدف موجود است، مثل CHAID (شناساگر تعامل خودکار مربع خی[۱]). در اینجا، راجع به الگوریتم c4.5 می‌آموزیم تا درخت‌های تصمیمی با گره‌های فرزند چندتایی تولید کنیم. چرا که این الگوریتم از مفهومی استفاده می‌کند که به دلم نشسته است.

آنتروپی

قانون اول ترمودینامیک مربوط به تبدیل انرژی را در دبیرستان آموختیم. طبق این قانون:

انرژی نه تولید می‌شود، نه از بین می‌رود؛ به بیان دیگر، انرژی کل جهان ثابت است.

اولین واکنش بیشتر دانش‌آموزان پس از فراگیری این واقعیت این بود: پس چرا برای ذخیره‌ی الکتریسیته و سوخت خودمان را به زحمت بیندازیم؟ اگر انرژی کل جهان ثابت و محفوظ است، پس میزان نامحدودی از انرژی برای مصرف داریم که هیچ‌گاه از بین نمی‌رود.

هرچند، قانون دوم ترمودینامیک این راحتی خیال مربوط به تلف‌شدن انرژی را نابود می‌کند. آنتروپی منشأ اصلی قانون دوم ترمودینامیک است. آنتروپی میزان بی‌نظمی یا تصادفی‌بودن در جهان است. جهت کلی جهان از نظم به سوی بی‌نظمی یا تصادفی‌بودن بالاتر است. قانون دوم می‌گوید:

آنتروپی کل یا بی‌نظمی/ تصادفی‌بودن کل جهان همواره درحال افزایش است.

بسیار خُب، اجازه دهید مثالی بزنیم تا این قانون را بهتر بفهمیم. زمانی‌که برای راه‌انداختن خودروتان از سوخت استفاده می‌کنید، بنزین کاملاً منظم (انرژی فشرده) به اشکال بی‌نظمی از انرژی، مثل گرما، صوت، جنبش و غیره تبدیل می‌شود. حین این فرایند، کار تولید می‌شود تا موتور خودرو را به‌راه اندازد. هر چه این انرژی تصادفی‌تر یا بی‌نظم‌تر باشد، استخراج کاری هدف‌دار از آن دشوارتر/ ناممکن‌تر می‌شود. پس به نظرم ما به کار اهمیت می‌دهیم، نه به انرژی. به بیان دیگر، هر چه آنتروپی یا تصادفی‌بودن سیستمی بالاتر باشد، تبدیل آن به کار معنادار دشوارتر می‌شود. فیزیکدانان آنتروپی سیستم را توسط فرمول زیر تعیین می‌کنند:

آنتروپی، اصل نظریه‌ی اطلاعات هم هست. کلاده شانون[۲]، پدر نظریه‌ی اطلاعات، نبوغش را به‌کار گرفت تا روابط بین ترمودینامیک و اطلاعات را شناسایی کند. وی طی پیام خاصی، تعریف آنتروپی زیر را برای سنجش تصادفی‌بودن پیشنهاد کرد:

برای مثال، آنتروپی (تصادفی‌بودن) سکه‌ی سالم، با شانس یکسان شیر و خط، ۱ بیت (طبق محاسبه‌ی زیر) است. توجه داشته باشید که واحد آنتروپی در نظریه‌ی اطلاعات بیت است که توسط کلاده شانون ابداع شد. از همین واحد به‌عنوان واحد اصلی حافظه‌ی رایانه‌ هم استفاده می‌شود.

برای ساختن درخت تصمیم و پوشیده‌خوانی اطلاعات درون داده‌ها از همین فرمول استفاده خواهیم کرد.

مثال مطالعه‌ی موردی خرده‌فروشی – درخت تصمیم (آنتروپی: الگوریتم C4.5)

به مثال مطالعه‌ی موردی خرده‌فروشی‌مان برمی‌گردیم؛ در این مثال، شما مدیر ارشد تحلیل و رئیس راهبرد کسب‌وکار فروشگاه آنلاینی به‌نام درس‌اسمارت هستید که در عرضه‌ی پوشاک تخصص دارد. در این مورد، هدفتان بهبود عملکرد کمپین آتی است. برای دستیابی به این هدف، داده‌های برگرفته از کمپین قبلی که کاتالوگ‌های کالاها را مستقیماً به صدها هزار مشتری از پایگاه مشتریان چند میلیون نفری ارسال می‌شد را تحلیل می‌کنید. نرخ واکنش کلی این کمپین ۴.۲ درصد بود.

شما کل صدها هزار مشتری متقاضی را برمبنای فعالیت‌های ۳ ماه اخیرشان، پیش از شروع کمپین، به سه دسته تقسیم کرده‌اید. جدول زیر همان جدولی است که در مقاله‌ی قبلی، به‌منظور خلق درخت تصمیم با استفاده از الگوریتم CART به‌کار بردیم.

شکل زیر، درختی با گره دوتایی است که در مقاله‌ی قبلی، با استفاده از CART ساختیم.

درخت تصمیم – CART

بیایید ببینیم می‌توانیم با استفاده از آنتروپی یا الگوریتم c4.5 درخت بهتری بسازیم یا نه. از آنجایی‌که الگوریتم c4.5 قادر به تولید درخت‌های تصمیمی با گره‌های چندتایی است، پس یک احتمال دیگری از درخت (با سه گره – پایین؛ متوسط؛ بالا) خواهیم داشت. این علاوه بر درخت‌هایی دوتایی است که در مقاله‌ی قبلی کاوش کردیم.

روش کار c4.5، مقایسه‌ی آنتروپی کلیه‌ی درخت‌های ممکن با داده‌های اصلی (داده‌های خط‌مبنا) است. سپس، درختی با بیشترین حصول (بازده) اطلاعاتی، یعنی اختلاف آنتروپی‌ها را انتخاب می‌کند:

بنابراین، اول باید آنتروپی خط‌مبنای داده‌هایی با ۴.۲ درصد تبدیل[۳] (۴۲۰۰ مشتری تبدیل‌شده از بین ۱۰۰،۰۰۰ مشتری متقاضی) را محاسبه کنیم. توجه کنید که ۹۵.۸ درصد (۴.۲٪ – ۱۰۰٪ =) در جمله‌ی دوم، درصد مشتریان تبدیل‌نشده است.

این همان مقداری است که در پایین‌ترین ردیف جدول زیر برای آنتروپی کل به‌دست آوردیم.

حالا بیایید با محاسبه‌ی آنتروپی‌های اجزاء تکی درخت اول (با سه گره – پایین؛ متوسط؛ بالا)، آنتروپی درخت را بیابیم.

حالا آنتروپی کل این درخت، همان مجموع موزون کلیه‌ی اجزاءاش است. در اینجا، وزن‌ها، تعداد مشتریان یک گره تقسیم بر تعداد کل مشتریان هستند؛ مثلاً، ۰.۴ = ۴۰،۰۰۰/۱۰۰،۰۰۰  برای گره اول .

نهایتاً، باید مقدار حصول اطلاعات را محاسبه کنیم، یعنی:

ضمناً، حصول اطلاعات درختی با سه گره، در مقایسه با سایر درخت‌ها از همه بالاتر است (به جدول بالا نگاهی بیندازید). بنابراین، الگوریتم c4.5 با استفاده از آنتروپی، درخت تصمیم زیر را خلق می‌کند:

درخت تصمیم c4.5 با استفاده از آنتروپی

و اما حرف آخر

چقدر آنتروپی جالب است! بله، اعتراف می‌کنم عاشق فیزیکم. هرچند، این رابطه‌ی بین ترمودینامیک و اطلاعات هنوز هم موهای تنم را سیخ می‌کند. ایده‌ی کلی این است که اطلاعات عدم قطعیت یا تصادفی‌بودن سیستم را حذف می‌کند. پس، با استفاده از اطلاعات می‌توان مسیر را از بی‌نظمی به نظم تغییر داد! بله، سرنوشت جهان این‌طور رقم خورده است که به سوی بی‌نظمی یا تصادفی‌بودن پیش برود، اما هنوز می‌توانیم از اطلاعات برای ایجاد نظم در سیستم‌های کوچک استفاده کنیم.

تا مقاله‌ی بعدی!


[۱] CHi-squared Automatic Interaction Detector

[۲] Claude Shannon

[۳] conversion

تحلیل بازاریابیِ خرده‌فروشی‌ها – درخت تصمیم (CART) – بخش پنجم

  • مقاله‌ی حاضر دایکه  ادامه‌ی همان مثال مطالعه‌ی موردی‌ است که طی چند هفته‌ی گذشته کار می‌کردیم. چهار بخش قبلی را می‌توانید در لینک‌های زیر بیابید:

بخش ۱: مقدمه

بخش ۲: تعریف مسئله

بخش ۳: EDA

بخش ۴: تحلیل وابستگی


در این مقاله، راجع به نوعی درخت تصمیم به‌نام درخت رگرسیون و دسته‌بندی ([CART[1) به‌منظور توسعه‌ی مدل سریع و نخراشیده‌ای برای همان مثال مطالعه‌ی موردی قبلی بحث می‌کنیم. اما پیش از شروع بحث، اجازه دهید اصول موارد زیر را بررسی کنیم:

درخت تصمیم

Greedy Decision Treeبیاید بپذیریم که همه‌ی ما پیش از برداشتن تکه‌ای پیتزا از داخل جعبه، سریعاً اندازه‌ی تکه و نسبت‌‌های مواد روی آن را تحلیل می‌کنیم. در این بهینه‌سازی، عمدتاً در جستجوی بزرگترین تکه‌ی حاوی بیشترین مواد موردعلاقه‌تان هستید (و احتمالاً‌ از تکه‌هایی که حاوی موادی هستند که اصلاً دوست ندارید پرهیز می‌کنید). با این اوصاف، ترجیحاً‌ این پسربچه (در شکل) را حریص نمی‌نامیم. او صرفاً می‌کوشد کیک تولدش را طوری ببرد که تکه‌ی مدنظرش حاوی بیشترین مقدار از طعم موردعلاقه‌اش باشد. گوشه‌ی بالایی کیک پسند ذائقه‌ی اوست؛ حاوی گیلاس‌های قرمز محبوبش و مقدار نه چندان زیادی از سیب سبز. او باید فقط با دو ضربه چاقو برش تمیزی ایجاد کند، وگرنه مهمانان جشن‌اش  از کاربرد ناشیانه‌ی او از چاقو لذت نخواهند برد. این پسربچه می‌تواند با به‌کارگیری مهارتی بی‌نقص و استفاده از درخت تصمیم در مغزش، تکه‌ی کاملی ببرد تا از طعم آن لذت وافی را ببرد. اجازه دهید به هنرورزی این پسربچه نگاهی بیندازیم:

Decision Tree Cake – The CART Algorithm

کیک درخت تصمیم – الگوریتم CART

او برش کیک را با نسبت‌هایی از تکه‌های قرمز و سبز (۵۰٪ – ۵۰٪) آغاز کرد. یادتان باشد که او بیشترین تعداد از تکه‌های قرمز و کمترین تعداد از تکه‌های سبز را روی برشش می‌خواست. برش او، یعنی یک‌چهارم کیک، ۷۱ درصد تکه‌ی قرمز و ۲۹ درصد تکه‌ی سبز دارد. بد هم نیست! الگوریتم درخت تصمیم دقیقاً‌ این‌طوری کار می‌کند. درست مثل مسئله‌ی بالا، الگوریتم CART می‌کوشد گره ریشه (کل کیک) را فقط به دو تکه (نه بیشتر) برش دهد/ تقسیم کند. هرچند، الگوریتم‌های درخت تصمیم دیگری هم هستند که در مقاله‌ی بعدی مطرح می‌کنیم؛ این الگوریتم‌ها قادرند گره ریشه را به قطعات زیادی تقسیم کنند.

باید خاطرنشان کنم که گرچه در این مقاله، از داده‌های مجزا (مثل گیلاس‌های قرمز و سیب‌های سبز) برای درخت تصمیم استفاده می‌کنیم، اما CART قادر است داده‌های کمی مثل سن، فاصله و غیره را هم به‌طور مساوی تقسیم کند. بیایید الگوریتم درخت تصمیم CART را بیشتر بررسی کنیم.

درخت رگرسیون و دسته‌بندی (CART)

از نظر من، الگوریتم‌هایی مثل الگوریتم پیج‌ رنک گوگل[۲]، الگوریتم‌های رمزنگاری اَلن تورینگ یا چندتایی از الگوریتم‌هایی یادگیری ماشین خیلی شگفت‌انگیزند. برای من، الگوریتم‌ها بازتابی از اندیشه‌ی ساختاریافته‌ی ابرازشده ازطریق منطق هستند. برای مثال، الگوریتم CART توسیعی از فرایندی‌ست که داخل مغز این پسربچه، ضمن تقسیم‌کردن کیک تولدش رخ می‌دهد. او سعی داشت بزرگترین تکه‌ی حاوی بیشترین گیلاس و کمترین سیب را برای خودش ببرد. در این مسئله، او دو هدف داشت.

۱. جداسازی بزرگترین تکه با برشی تمیز

۲. بیشینه‌سازی تعداد گیلاس‌های روی این تکه، ضمن کمینه‌سازی تعداد سیب‌های سبز

الگوریتم درخت تصمیم CART تلاشی برای دستیابی به دو هدف فوق است. معادله‌ی زیر نمایشی از ترکیب این دو هدف است. از این معادله نترسید، این معادله درواقع خیلی ساده است؛ پس از حل مثالی در قسمت بعدی، متوجه سادگی این معادله خواهید شد.

goodness of split

• اولین جمله‌ی معادله‌ی فوق، یعنی P&L هدف اول را کنترل می‌کند تا بزرگترین تکه بریده شود. اجازه دهید این جمله را «(تکه‌ی بزرگ)Ψ» بنامم، چرا که مرا یاد هدف ماورای این معادله‌ی ریاضی می‌اندازد.

• این در حالی‌ست که جمله‌ی دوم، یعنی sum هدف دوم را کنترل می‌کند. این جمله را «(انتخاب گیلاس‌ها)Ψ» می‌نامم.

goodness of split


برای مثال، ۱، ۰ = k است؛ در معادله‌ی فوق، سیب‌های سبز = ۰ و گیلاس‌های قرمز = ۱ هستند. یادتان باشد که برای مطالعه‌ی موردی ما با کمپین‌های بازاریابی، ۰، ۱ = k، مشتریان با واکنش مثبت ([r[3) و بدون واکنش مثبت ([nr[4) می‌شود. همین‌طور، برای مقالات امتیازبندی اعتبار و مطالعه‌ی موردی بانکداری (در آینده به بخش مقالات دایکه اضافه می شود)، ۰، ۱ = k، نکول‌کننده و نکول‌نکننده[۵] می‌شود. هرچند، فلسفه‌ی درخت تصمیم و CART برای همه‌ی این مثال‌ها و مسائل دسته‌بندی عَملی‌تر همچنان یکی است.

اجازه دهید پیش از تشریح اجزاء معادله‌ی نیکویی تقسیم فوق، برخی از مهمترین اصطلاحات فنی الگوریتم درخت تصمیم CART را تعریف کنم.

The CART Decision Tree Terminologies

اصطلاحات فنی درخت تصمیم CART

تعاریف اجزاء معادله‌ی نیکویی تقسیم در زیر ارائه شده‌اند:

L: گره فرزند چپِ گره ریشه

R: گره فرزند راستِ گره ریشه

مطالعه‌ی موردی خرده‌فروشی – درخت تصمیم (CART)

به مثال مطالعه‌ی موردی خرده‌فروشی برمی‌گردیم؛ در این مثال، شما مدیر ارشد تحلیل و رئیس راهبرد کسب‌وکار فروشگاه آنلاینی به‌نام شرکت درس‌اسمارت هستید که در حیطه‌ی پوشاک تخصص دارد. در این مثال موردی، قصد دارید عملکرد کمپین‌های آتی را بهبود بخشید. برای دستیابی به این هدف، داده‌های برگرفته از کمپین قبلی، که کاتالوگ‌های کالاها را مستقیماً به صدها هزار مشتری از پایگاه مشتریان کاملِ چند میلیون نفری ارسال کرد، را تحلیل می‌کنید. نرخ دریافت واکنش مثبت کل برای این کمپین، ۴.۲ درصد بود.

شما کل صدها هزار مشتری متقاضی را برمبنای فعالیت ۳ ماه قبلی‌شان پیش از شروع کمپین، به سه دسته تقسیم کردید. جدول زیر، توزیع مشابهی را ارائه می‌کند. در این جدول، نرخ موفقیت، درصد مشتریانِ با واکنش مثبت (r) به کمپین از بین کل مشتریان متقاضی است.

همان‌طور که می‌دانید، الگوریتم درخت تصمیم CART گره ریشه را فقط به دو گره فرزند تقسیم می‌‌کند. بنابراین، برای این داده‌ها، CART می‌تواند سه ترکیب از درخت‌های دوتایی بسازد (جدول زیر). باید بفهمیم بهترین تقسیم بین این سه ترکیب کدام است. نتایج در جدول زیر ارائه شده‌اند.

اجازه دهید در محاسبه‌ی هر یک از ستون‌های درخت بالا کمک‌تان کنم. برای انجام محاسبات زیر، از اولین ردیف (یعنی گره چپ: گره پایین و بالا: متوسط + بالا) استفاده می‌کنیم و پس از آن، می‌توانید مابقی محاسبات را خودتان انجام دهید. برای شروع،   را به‌روش زیر محاسبه می‌کنیم:

حالا محاسبه‌ی (تکه‌ی بزرگ)Ψ به سادگی زیر می‌شود:

حالا به بخش بعدی معادله، یعنی (انتخاب گیلاس‌ها)Ψ می‌پردازیم. حواستان باشد که r معرف مشتریان با واکنش مثبت و nr معرف مشتریان بدون واکنش مثبت به مثال کمپین‌مان است.

ممکن است بخواهید دو جمله‌ی دیگر یعنی    را هم پیش از جایگزاری آنها در معادله‌ی زیر، برای دستیابی به مقدار (انتخاب گیلاس‌ها)Ψ محاسبه کنید.

با این حساب، محاسبه‌ی پایانی ستون آخر، یعنی نیکویی تقسیم می‌ماند که به‌صورت زیر انجام می‌شود:‌

کار نهایی، یافتن بیشترین مقدار نیکویی تقسیم در ستون انتهایی است. این محاسبه، درخت تصمیم زیر را ازطریق الگوریتم CART، با پایین روی گره چپ و متوسط + بالا روی گره راست، تولید می‌کند.

درخت تصمیم – نتیجه‌ی نهایی الگوریتم CART

این بینش کسب‌وکار مهمی است؛ به‌علاوه این‌که افراد با فعالیت بالاتر، واکنش بهتری به کمپین‌ها نشان می‌دهند. موافقم که این امر از جدول اول در بالا نیز واضح بود، اما ما علم خلق درخت تصمیم با استفاده از الگوریتم CART در فرایند را یاد گرفته‌ایم. زمانی‌که با مجموعه‌داده‌ی بزرگی سروکار دارید و می‌خواهید درخت تصمیمی ازطریق جزءبندی بازگشتی بسازید، این مهارت خیلی مفید خواهد بود.

و اما حرف آخر

بسیار خُب، دفعه‌ی بعدی که آن تکه پیتزا را انتخاب می‌کنید، درخت تصمیم تکاملی را به یاد آورید که در بیشینه‌سازی شانس انتخاب بهترین تکه به شما کمک می‌کند. هر از گاهی، شاید بخواهید آن بهترین تکه را برای کَس دیگری کنار بگذارید – شرط می‌بندم به همان اندازه حس خوشایندی خواهید داشت!‌

در مقاله‌ی بعدی دایکه، این مفهوم درخت تصمیم دارایِ گره فرزند دوتایی ازطریق الگوریتم CART را با استفاده از سایر الگوریتم‌ها، به درخت تصمیمی با بیش از دو گره بسط می‌دهیم. تا بعد!


[۱] classification and regression tree

[۲] Google’s PageRank algorithm

[۳] responded

[۴] not-responded

[۵] loan defaulters & non-defaulters

تحلیل بازاریابیِ خرده‌فروشی‌ها – تحلیل وابستگی – بخش چهارم

Edward Scissorhandsاین بخش ادامه‌ی مثال مطالعه‌ی موردی تحلیل‌های بازاریابی است که در چند مقاله‌ی قبلی مطرح کردیم. بخش‌های قبلی  سری مقالات تحلیل بازاریابیِ خرده‌فروشی‌ دایکه  (بخش‌ ۱ ، بخش۲ و بخش۳) را می‌توانید در لینک‌های زیر بیابید. در بخش ۳، تحلیل کاوشگرانه‌ی داده‌ها (EDA) را مطرح کردیم. در مقاله‌ی حاضر، راجع به تحلیل وابستگی، که روش مفیدی برای استخراج الگوهای جالب در داده‌های مبادلاتی مشتریان است صحبت خواهیم کرد. از تحلیل وابستگی می‌توان به‌عنوان ابزار مفیدی برای تحلیل تعمیم‌ یافته‌ی کاوشگرانه‌ی داده‌ها استفاده کرد. ضمناً، تحلیل وابستگی، هسته‌ی تحلیل سبد بازار[۱] یا تحلیل دنباله‌ای[۲] است. بعداً در همین مقاله، از تحلیل وابستگی در مثال مطالعه‌ی موردی‌مان استفاده می‌کنیم تا کاتالوگ‌های پیشنهادی کارامدی برای کمپین‌ها و همچنین طراحی فروشگاه آنلاین (وب‌سایت) طراحی کنیم.

دست‌قیچی‌ها[۳]

۹ یا ۱۰ سالم بود که اولین کلاس درس کاردستی در مدرسه‌مان برگزار شد. کلاس‌های درسی کاردستی در هند SUPW نامیده می‌شوند که مخفف «کار اجتماعی مفید و ثمربخش[۴]» است. در جلسه‌ی اول کلاس، به هر دانش‌آموز یک برگه‌ی رنگی A4 و یک جفت قیچی داده می‌شد. در جلسه‌ی اول، کودکان پرشوروهیجانِ بی‌هدف دریافتند که قادرند برگه کاغذی را به‌روش‌های تقریباً نامحدودی ببُرند. این کار از لحاظ اجتماعی نه سودمند بود، نه ثمربخش و به تولید مقدار زیادی کاغذ باطله منجر شد. عبارت  SUPW در این مورد، «مقداری کاغذ مفید هدررفته[۵]» است. بعدها، به‌واسطه‌ی تلاش‌های هدفمندتر دریافتیم که اگر از قیچی هوشمندانه استفاده شود، شکل‌های جالب زیادی از یک برگه کاغذ درمی‌آید.

این دقیقاً‌ همان تجربه‌ای است که بسیاری از تحلیل‌گران هنگام مواجه با داده‌های مبادلاتی مشتریان کسب می‌کنند. منبع غنی‌ای از اطلاعات راجع به رفتار مشتری در این داده‌ها نهفته است، اما سردرآوردن از این‌که کار را از کجا شروع کنیم دشوار است. داده‌های مبادلاتی را می‌توان به‌روش‌های بی‌شماری، مثل خردکردن تکه‌ای کاغذ توسط قیچی، خرد، تکه‌تکه و گروه‌بندی کرد. کلید هر دو مورد بالا مسیر درست است.

تصویر هالیوود از تحلیل داده‌ها

A-Beautiful-Mind A-Beautiful-Mindاجازه دهید یک تصویر معمولی هالیوود از تحلیل داده‌ها را برای‌تان توصیف کنم؛ مردی در برابر صفحه‌ی نمایش بزرگی ایستاده است و داده‌ها (دنباله‌ای از اعداد) در کل صفحه شناورند. این مرد الگوهایی موجود در داده‌های شناور را شناسایی می‌کند. این تصویری پرقدرت، اما کاملاً غیرواقعی است. روش خیره‌شدن به داده‌ها و امید به یافتن الگوها بی‌شک فقط نویز تولید می‌کند و سیگنال ناچیزی به‌دست ما می‌دهد. حتی کدشکن‌های بزرگی مثل جان نَش[۶] و اَلن تورینگ[۷] هم اگر بکوشند با استفاده از روش هالیوود الگوهای موجود در داده‌ها را بیابند، شکست می‌خورند.

درواقع، منظورم این است که تحلیل داده‌ها، فعالیتی شدیداً برنامه‌ریزی‌شده‌ است. به‌عنوان تحلیل‌گر، هیچ‌گاه پیش از داشتن برنامه‌ی مناسب و آماده‌ای از اقدامات (فرضیه‌ها و غیره)، به داده‌ها دست نزنید. با این اوصاف، همیشه مواقعی هست که به‌عنوان تحلیل‌گر مجبور خواهید شد برای یافتن الگوها، به قلمروهای ناشناخته‌ای از داده‌ها وارد شوید. در چنین مواردی، توصیه می‌کنم به الگوریتم‌های یادگیری ماشین متکی باشید یا الگوریتم‌های تعدیل‌یافته‌ی خودتان را که مختص نیازهای‌تان هستند خلق کنید. به نظرم، ماشین‌ها در انجام این کار خیلی بهتر از ما انسان‌ها عمل می‌کنند. تحلیل وابستگی قدرت‌یافته توسط الگوریتم آپریوری[۸] یکی از چندین روش‌ها برای استخراج داده‌های مبادلاتی است. اجازه دهید تحلیل وابستگی را در بخش بعدی بررسی کنیم.

تحلیل وابستگی

تحلیل وابستگی، همان‌طور که به‌زودی کشف خواهید کرد، تحلیل فراوانی[۹] مقدماتی اجراشده روی مجموعه‌داد‌ه‌ای بزرگ است. از آنجایی‌که مجموعه‌داده‌های بیشتر مسائل عَملی بزرگ هستند، پس برای اجرای تحلیل وابسنگی به الگوریتم‌های هوشمندی مثل آپریوری نیاز دارید. اجازه دهید برای یادگیری تحلیل وابستگی، از مجموعه‌ داده‌ی خیلی کوچک‌تری شروع کنیم. در جدول زیر، هر ردیف یا عدد مبادله معرف سبدهای بازار مشتریان است. در ستون‌های بعدی کالاها، ۱ معرف «خرید کالا در آن مبادله» و ۰ معرف «عدم خرید» است.

مبادله #

پیراهن‌ها شلوارها کراوات‌ها

۰۰۱

۱ ۱

۱

۰۰۲

۰ ۱

۰

۰۰۳

۱ ۰

۱

۰۰۴

۱ ۰

۱

۰۰۵ ۱ ۱

۰

چندین متریک تحلیل وابستگی (یعنی پشتیبانی، اطمینان و ارتقاء) وجود دارد که در رمزگشایی اطلاعات نهفته در این نوع مجموعه‌داده بسیار مفیدند. بیایید این متریک‌ها را بررسی کنیم و کاربرد آنها را بشناسیم. پشتیبانی برای خرید پیراهن‌ها و کراوات‌ها با هم در تحلیل وابستگی به‌صورت زیر تعیین می‌شود:

برای داده‌های ما، از کل ۵ مبادله، ۳ مبادله‌ مربوط به پیراهن‌ها و کراوات‌هااست:

۶۰ درصد مقدار نسبتاً بالایی برای پشتیبانی است و به‌ندرت چنین مقادیر بالایی از پشتیبانی را در مثال‌های شرایط واقعی رؤیت می‌کنید. برای مشکلات شرایط واقعی با چندین دسته کالا، پشتیبانی ۱ درصد یا گاهی حتی کمتر، بسته به ماهیت مشکل‌تان، نیز مفید خواهد بود. اطمینان وابستگی با استفاده از فرمول زیر محاسبه می‌شود:

در مجموعه‌داده‌ی ما، از ۴ مبادله‌ی پیراهن‌ها، ۳ مبادله مربوط به پیراهن‌ها و کراوات‌ها است. محاسبه‌ی اطمینان مجموعه‌داده‌ی ما به‌صورت زیر است:

بار دیگر یادآوری می‌کنم که به‌ندرت چنین مقدار بالایی از اطمینان را برای بیشتر مشکلات واقعی خواهید یافت، مگر این‌که پیشنهادهای جذابی روی دو کالا داده شود. مقدار خوبی از اطمینان به‌طور خاص به مشکل یافت  می شود.  سومین متریک مفید تحلیل وابستگی ارتقاء است که به‌صورت زیر تعیین می‌شود:

اطمینان موردانتظار در فرمول بالا، موجودی کراوات‌ها در مجموعه‌داده‌ی کل است؛ یعنی از ۵ خرید، ۴ مورد خرید کراوات است.

مقدار ۱۲۵ درصدی ارتقاء نشان می‌دهد زمانی‌که مشتریان پیراهن می‌خرند، خرید کراوات بهبود می‌یابد. سؤالی که اینجا برای‌تان پیش می‌آید این است که اگر مشتری یک پیراهن بخرد، آیا احتمال خرید کراوات توسط این مشتری بالا می‌رود؛ یعنی مقدار ارتقاء بالاتر از ۱۰۰ درصد. بیایید از دانش تحلیل وابستگی‌مان در مثال مطالعه‌ی موردی‌ای که روی آن کار می‌کردیم استفاده کنیم.

مثال مطالعه‌ی موردی خرده‌فروشی – تحلیل پیوستگی

شرکت درس‌اسمارت، شرکتی که شما مدیر ارشد تحلیل و رئیس راهبرد کسب‌وکارش هستید، فروشگاه خرده‌فروشی آنلاین عرضه‌کننده‌ی پوشاک است. این شرکت کالاها، برندها و سبک‌های مختلفی عرضه می‌کند. می‌‌دانید که تحلیل وابستگی زمانی بهترین کارکرد را دارد که روی گروه‌های مختلف مشتریان به‌طور مجزا اجرا شود (راجع به گروه‌بندی مشتری[۱۰] مطالعه کنید). هرچند، تصمیم گرفته‌اید تحلیل وابستگی سریعی روی داده‌های موجود در شرکت‌تان اجرا کنید.

Dress_Shirt_and_Tie_Combos_Men_Nordstromبا داده‌های مربوط به پیراهن‌های رسمی و کراوات‌ها که در مثال بالا بررسی کردیم، پشتیبانی ۰.۲ درصد، اطمینان ۱۲ درصد و ارتقاء ۵۰۹ درصد حاصل شد. این ارقام نشان می‌دهند که گرچه درصد رکوردهای پایین‌تری از مبادلات برای کراوات‌ها و پیراهن‌ها وجود دارد، اما به‌مجرد این‌که مشتری پیراهن‌های رسمی بخرد، احتمال خرید کراواتش تا پنج برابر افزایش می‌یابد.

درس‌اسمارت گزینه‌ی بازگرداندن کالا را برای مشتریانش مهیا کرده است. کالاهای آسیب‌ندیده‌ای که ظرف ۳۰ روز بازگردانده می‌شوند، هزینه‌ی کامل‌شان به مشتری پس داده می‌شود. در ادامه، مشتریانی را بررسی کردید که علاوه بر پیراهن، کراوات هم می‌خرند و دریافتید که نرخ‌های بازگشت کالای کراوات برای آن مبادلات نیز ۳ برابر بیشتر از سایر نرخ‌های بازگشت است. این نشانگر آن است که مشتریان در انتخاب کراوات‌های مناسب، هنگام سفارش‌ آنلاین آنها به‌همراه پیراهن مشکل دارند. نیازی به بهبودبخشیدن این فرایند روی وب‌سایت شرکت نیست. هدف کاهش نرخ بازگشت کالا، ضمن بهره‌گیری کامل از فرصت مهیاشده برای فروش مکمل کراوات‌ها با پیراهن‌ها است.

چندین سرنخ خوب پیدا کردید تا بتوانید سودآوری شرکت‌تان را از طریق ابزارهای تحلیل کاوشگرانه‌ی داده‌ها بهبود بخشید. حالا می‌خواهید اهداف اصلی را آماده و مطرح کنید (بخش ۲) تا سودآوری اقدامات کمپین را ارتقاء دهید. دفعه‌ی بعد، مدل‌سازی جدی این کار را به‌طور دقیق بررسی خواهید کرد.

و اما حرف آخر

امیدواریم هنگام کارکردن با داده‌های‌تان، از ایفای نقش ادوارد دست‌قیچی لذت ببرید! به‌زودی در بخش بعدی، مثال مطالعه‌ی موردی از سری مقالات تحلیل بازاریابیِ خرده‌فروشی‌ دایکه، جایی‌که بیشتر راجع به الگوریتم‌های درخت تصمیم کاوش می‌کنیم، شما را ملاقات خواهیم کرد!


[۱] market basket analysis

[۲] sequence analysis

[۳] Scissorhands

[۴] Socially Useful Productive Work

[۵] Some Useful Paper Wasted

[۶] John Nash

[۷] Alan Turing

[۸] Apriori algorithm

[۹] frequency analysis

[۱۰]  customer segmentation

تحلیل بازاریابیِ خرده‌فروشی‌ها – تحلیل کاوشگرانه‌ی داده‌ها (EDA ) – بخش سوم

Exploratory data analysis for Soccerطی چند هفته‌ی گذشته، داشتیم روی مثال مطالعه‌ی موردی تحلیل‌های بازاریابی (بخش‌ ۱ و بخش‌ ۲ از سری مقالات تحلیل بازاریابیِ خرده‌فروشی‌ دایکه را مطالعه کنید) کار می‌کردیم. در بخش پایانی (بخش ۲)، چندین هدف تحلیلی پیشرفته را برمبنای مشکل کسب‌وکار موجود در شرکت آنلاین خرده‌فروشی‌ای به‌نام شرکت درس‌اسمارت[۱] تعریف کردیم. در این بخش، تعدادی از تحلیل‌های کاوشگرانه‌ی داده‌ها را به‌عنوان بخشی از مثال موردی مشابه اجرا می‌کنیم. اما پیش از اجرای این تحلیل‌ها اجازه دهید قدرت تحلیل کاوشگرانه‌ی داده‌ها ( [۲] EDA) را به‌منظور افشای حقایق پنهان مربوط به مهم‌ترین بازی دنیا، یعنی فوتبال بررسی کنیم.

فوتبال – تحلیل کاوشگرانه‌ی داده‌ها

فوتبال بی‌شک محبوب‌ترین بازی دنیا است و بیش از ۲۰۰ کشور تیم فوتبال رسمی خودشان را دارند. هیچ بازی دیگری از چنین جذابیت جهانی و میلیون‌ها طرفدار پروپاقرص برخوردار نیست. تمامی جزئیات فوتبال توسط بازیکنان، مربیان و کادر پشتیبانی تحلیل می‌شوند. با این‌وجود، همان‌طور که در دو مثال مطالعه‌ی موردی بعدی خواهید دید، تحلیل کاوشگرانه‌ی دقیق داده‌های بازی می‌تواند رمز و رازهای بُرد مسابقه را راجع به مهمترین بازی جهان افشا کند.

ضربات پنالتی

بیایید اولین مسابقه‌ی حذفی (پیش از مرحله‌ی نهایی) جام جهانی فوتبال ۲۰۱۴ بین برزیل و شیلی را مرور کنیم. نتیجه‌ی ‌این مسابقه در پایان ۹۰ دقیقه ۱-۱ بود. حتی یک ساعت وقت اضافی هم نتوانست نتیجه را عوض کند. همین باعث شد بازی به ضربات پنالتی کشیده شود تا این تساوی بالاخره بشکند. پس از این‌که بازیکن برزیلی، نیمار[۳]، پنالتی یکی مانده به آخر را گل کرد، برزیل ۳-۲ در ضربات پنالتی جلو افتاد. شیلی هنوز یک ضربه‌ی پنالتی داشت که گونزالو جارا[۴] زننده‌ی آن بود؛ پس شیلی فرصت داشت نتیجه‌ی تساوی را همچنان پیش ببرد. اما اگر این ضربه گل نمی‌شد، شیلی از مسابقه حذف می‌شد. پس گونزالو جارا چه باید می‌کرد تا تساوی همچنان پابرجا می‌ماند؟

در این سطح، به‌طور متوسط حدود ۷۵ درصد از ضربات پنالتی گل می‌شوند. با این حساب، احتمالات شدیداً به نفع گونزالو جارا هستند. گونزالو جارا توپ را کجای دروازه باید شوت کند تا احتمالات را بهبود بخشد؟ همه‌ی طرفداران، مربیان و بازیکنان می‌گویند توپ را به سمت یکی از گوشه‌های دروازه، دور از دسترس دروازه‌بانی که در وسط دروازه ایستاده است شوت کن. همچنین برخی توصیه می‌کنند که هرگز توپ را مستقیماً به سوی مرکز بسته‌ی سمت دروازه‌بان شوت نکن. گروهی از محققان پرسش‌های مشابهی را مطرح و تحلیل کاوشگرانه‌ی داده‌های ضربات پنالتی را در سطح سرآمدی از فوتبال اجرا کردند. دروازه‌بانان، زمانی‌که توپ با سرعت پیش‌بینی‌ناپذیری به سمت‌شان شوت می‌شود، معمولاً برحسب غریزه عمل می‌کنند؛ یا به سمت چپ‌شان (۵۷ درصد از مواقع) یا به سمت راست‌شان (۴۱ درصد مواقع) شیرجه می‌زنند. این باعث می‌شود فقط ۲ درصد از مواقع برای گرفتن توپی که به سمت‌شان پرتاپ می‌شود در مرکز دروازه باشند. بنابراین، ضربه‌ی دقیق به سمت مرکز دروازه، در مقایسه با ضربات به یکی از گوشه‌ها در ارتفاع یکسان، شانس بسیار بالایی برای گل‌شدن دارد.

Gonzalo Jara’s Kickبه گونزالو جارا برمی‌گردیم؛ او توپ را به سمت راستش شوت می‌کند، یعنی در مسیر شیرجه‌زنی دروازه بان (شکل بالا). ضربه‌ی او گل نمی‌شود، توپ به تیر دروازه برخورد می‌کند و از دروازه دور می‌شود. به این ترتیب، شیلی از مسابقات جام جهانی حذف و برزیل وارد مرحله‌ی بعدی شد. در دفاع از گونزالو جارا باید بگوییم که نرخ گل‌شدن ضربات پنالتی بحرانی‌ای مثل این مورد (برای اجتناب از حذف‌ شدن) ۴۴ درصد افت دارد. بله!‌ فشار غول دیگری است که حتی بهترین‌ها هم دربرابرش تسلیم می‌شوند.

ضربات کُرنر

cornerدر موردی دیگر، چندین سال پیش تیم فوتبال منچستر سیتی[۵] با ضربات کرنر مشکل داشت و بنابراین، تصمیم گرفت تحلیل کاوشگرانه داده‌ای انجام دهد تا ضربات کرنر نتیجه‌بخش را از ضربات کرنر بی‌نتیجه متمایز کند. تیمی از تحلیل‌گران، صدها ویدئوی ضربات کرنر مربوط به لیگ برتر را تحلیل کردند. آنها پس از تکمیل تحلیل دریافتند که ضربات چرخشی به سمت دروازه بسیار نتیجه‌بخش‌تر و خطرناک‌تر از ضربات غیرچرخشی بودند. آنها نتایج‌شان را به روبرتو مانیچی[۶]، مربی تیم منچستر سیتی در آن زمان، ارائه دادند. مانیچی، که از کودکی فوتبال بازی و دنبال می‌کرده است، این یافته‌ها را به‌کلی رد کرد. او همه‌ی گل‌های به‌یادماندنی و بی‌نقص توسط سرزن‌های شوت‌های غیرچرخشی را یادآوری کرد. از سوی دیگر، گل‌های ناشیانه‌ی شوت‌های چرخشی نتوانسته بودند خاطره‌ی ماندگاری در ذهن تماشاچیان حک کنند. از قرار معلوم، مانیچی اشتباه می‌کرد. شوت‌هایی که فوق‌العاده و به‌یادماندنی به‌نظر می‌رسند، همیشه هم بهینه نیستند. این مورد به‌خوبی ثابت می‌کند که تحلیل کاوشگرانه‌ی داده‌ها چطور به‌سادگی اما صادقانه می‌تواند باورهای عمیقاً‌ ریشه‌داری که طی قرن‌ها شکل گرفته‌اند را به چالش بکشد (بله!‌ فوتبال واقعاً‌ یک بازی قدیمی‌ است).

تحلیل کاوشگرانه‌ی داده‌ها – مثال مطالعه‌ی موردی خرده‌فروشی

به مثال مطالعه‌ی موردی‌مان برمی‌گردیم (بخش‌ ۱ و بخش‌ ۲ را مطالعه کنید)؛ در این مثال، شما مدیر ارشد تحلیل و رئیس راهبرد کسب‌وکار در فروشگاه آنلاینی به‌نام شرکت درس‌اسمارت هستید. شما در ارتقاء نتایج کمپین‌های شرکت به مدیرعامل کمک می‌کنید. طی چند روز گذشته، به‌عنوان بخشی از تحلیل کاوشگرانه‌ی داده‌ها، با داده‌ها ور می‌روید. گراف زیر یکی از چندین الگو و نتیجه‌ی جالبی است که در داده‌ها یافته‌اید. زمانی‌که توزیع مشتریان در تعدادی از دسته‌های کالاها (پیراهن مردانه، شلوارهای غیررسمی، دامن‌های رسمی و غیره) خریداری‌شده توسط هر مشتری را تحلیل می‌کنید، به الگوی زیر می‌رسید.

Marketing-Analytics-Distribution

توزیع فوق کمابیش شبیه توزیع پیش‌بینی‌شده است. هرچند، پیک جالبی برای مشتریانی که بیش از ۵۰ دسته کالا می‌خرند دیده می‌شود. این مشتریان چه کسانی هستند؟ چرا این همه کالا می‌خرند؟ در ادامه، این گروه از مشتریان را تحلیل می‌کنید و درمی‌یابید که نرخ رشدشان بالاتر از سایر گروه مشتریان است. از زمان شروع فعالیت ۷ سال پیش شرکت، درصد مشتریانی که بیش از ۵۰ دسته کالا در سال خریداری می‌کنند به‌طور نمایی افزایش یافته است (در حال حاضر، ۲.۱ درصد). این گروه از مشتریان در ۲۳ درصد از کل فروش شرکت درس‌اسمارت نیز مشارکت می‌کنند. گراف‌های زیر بخشی از تحلیل فوق هستند.

خُب، اینجا چه خبر است؟ در ادامه، الگوها و اندازه(های) پوشاکی که این مشتریان می‌خرند را تحلیل کردید و متوجه شدید که آنها سبک مشابه با سایزهای مختلف را می‌خرند. خب!‌ حالا این مشتریان را می‌شناسید، اینها خرده‌فروشان مجاور کوچکی هستند که از درس‌اسمارت به‌عنوان عمده‌فروش استفاده می‌کنند.

۱. ارسال کاتالوگ و کمپین خرده‌فروشی مشابه مشتریان خرده‌فروشی به این خرده‌فروشان منطقی نیست.

۲. فرصتی برای تقویت روابط تجاری با این خرده‌فروشان خانوادگی و بدین ترتیب، ارتقاء سودآوری شرکت‌تان از طریق برنامه‌ی کسب‌وکار مجزایی وجود دارد.

به‌علاوه، تحلیل بیشتر نشان داد که الگوهای تحویل یا تکمیل سفارش (کمیت تحویل/ مطالبه‌کنندگان و غیره) برای این خرده‌فروشان با مشتریان دیگر یکی است. شرکت شما، در زمان تحویل، از این مشتریان هزینه‌ی اضافی می‌گیرد. با حفظ این خرده‌فروشان کوچک در معادله، می‌توانید زنجیره‌ی تأمین کلی را بهتر طرح‌ریزی کنید. این تحلیل کاوشگرانه‌ی داده‌ها، ایده‌های خوبی برای دستیابی به اهداف سهل‌الوصول‌تر به‌منظور ارتقاء سودآوری شرکت‌تان ارائه می‌دهد.

و اما حرف آخر

تحلیل کاوشگرانه‌ی داده‌ها ابزار قدرتمندی است. EDA ضرورت مسلمی برای سوق‌دادن تحلیل‌های پیشرفته‌ی کسب‌وکارتان در مسیر درست است. EDA فرصت فوق‌العاده‌ای برای آزمودن ساده‌ترین فرضیه‌ها و حدسیات کسب‌وکارتان، پیش از پیشروی سریع به‌سوی ساختن مدلی دقیق، مهیا می‌کند. به فوتبال بازمی‌گردیم؛‌ کماکان به مراحل پایانی جام جهانی نزدیک می‌شویم. از چند بازی نهایی لذت ببرید و باشد که بهترین تیم جام را از آن خود کند.

[۱] DresSmart Inc

[۲] Exploratory Data Analysis

[۳] Neymar

[۴] Gonzalo Jara

[۵] Manchester City

[۶] Roberto Mancini

تحلیل بازاریابیِ خرده‌فروشی‌ها – بخش دوم

The Killer

در مقاله قبلی، ما مطالعه روی موسسه خرده فروشی آنلاین را به منظور یادگیری بیشتر درمورد تجزیه و تحلیل بازاریابی شروع کردیم (بخش اول از سری مقالات تحلیل بازاریابیِ خرده‌فروشی‌ دایکه را بخوانید). قبل از اینکه همین مورد را ادامه دهیم، اجازه بدید من چند فاکتور مهم که کیفیت تحلیل برای بازاریابی یا تحلیل مشتری را افزایش می دهد بازگو کنم. فاکتورهای بسیار واضح عبارت اند از گرایش و خبرگی در حل کردن مشکلات کسب و کار و همینطور عشق به داده، ریاضیات و اعداد. علاوه بر این، برای درک و شناخت بهتر مشتریان، تحلیل‌گران باید مشتاق به درک رفتار انسان باشند. شاخه‌های اصلی از علوم که فهم ما از چرایی رفتار انسان را افزایش میدهند، روانشناسی، جامعه شناسی و علوم اعصاب می باشند.


روانشناسی مطالعه روی رفتارهای انفرادی است درحالیکه جامعه شناسی روی رفتارهای اجتماعی انسان ها تمرکز دارد. علم اعصاب نیز در دهه ی گذشته بازی را در دست گرفته و فهم ما از رفتار و مغز انسان را دگرگون ساخته است. تکنیک های تصویربرداری پیشرفته نظیر fMRI در مورد مناطق غیرقابل دسترس مغز و کاربردهایش توضیح می دهد. البته این‌ها هنوز در مراحل اولیه خود هستند، اما ما در زمان هیجان انگیزی زندگی می‌کنیم که در آن چیزهای بامزه‌ی زیادی در مورد رفتار انسان‌ها یاد می‌گیریم. خب اجازه دهید در مورد رفتار انسان‌ها بواسطه‌ی تجزیه و تحلیل، کمی بیشتر واکاوی کنیم. همچنین راجع به انحرافات رفتاری…!

عصب شناسی آدمکش

قتل، جنایت هولناکی است. اکثر آدم‌کش های فجیع یا قاتل‌های سریالی بودند یا روانپریش‌ها! این قانون‌گریزان، در جامعه ما به عنوان مجرمینی شناخته می‌شوند که دو یا چند قربانی را در رخدادهای مجزایی به قتل رسانده اند. بدترین قاتل‌های سریالی مثل Ted Bundy بیش از ۳۰ قربانی را به قتل رسانده که همگی ناشناس و بدون دلیل خاصی بودند. روانپریشان اغلب چنین رفتارهایی را بخاطر عدم همدلی، ضعف در کنترل شخصیت و خطر ابتلا به افسردگی از خود نشان میدهند. اجازه دهید برای فهم عمیق چنین رفتارهایی نظیر عدم همدلی و ضعف در کنترل شخصیت، نگاهی به مغز و عملکرد آن داشته باشیم و در ادامه رفتارهای دیگر را هم بررسی خواهیم کرد. این فرآیند در یادگیری بیشتر در مورد رفتار انسان، به ما کمک می‌کند.


Titanic the Movieآخرین سکانس از فیلم تایتانیک را بخاطر بیاورید، زمانی که لئوناردو دیکاپریو (در نقش جک) در حال مرگ در اقیانوس آتلانتیک بود. در این سکانس جک از دوست دخترش رُز درخواست می‌کند که زندگی بلند و شادی داشته باشد. این سکانس بعضی از مردم را به گریه انداخت و خیلی از تماشاگران عمیقا درگیر این رخداد ناگوار شدند. این تمایل انسان به ارتباط و حس کردن درد مردمان دیگر و یا شادی‌شان را همدلی می نامند. بی شک بازاریابان از این واقعیت آگاه بودند و از تاثیرگذاری آن در تبلیغات بخاطر ایجاد احساس عمیق تر و ارتباط مشتری با محصولشان استفاده کردند.

افراد روانپریش و قاتلان سریالی این حس همدلی را ندارند. به همین دلیل به راحتی میتوانند قربانی خود را تا حد مرگ شکنجه دهند و از تماشای آن لذت ببرند. عدم همدلی در روانپریشان به دلیل اختلال نورولوجیکال (عصبی) در مغز آنها رخ می‌دهد. نورون‌های آینه (بخشی از مدار پیچیده و مفصل از شبکه های عصبی مغز) مراکز احساسی مغز را به اندام های حسی نظیر چشم متصل می‌کنند. مدارهای مربوط به نورون های آینه در افراد روانپریش دچار اختلال می‌شود، از این رو مراکز عاطفی مغز آنها دیگر به اندازه کافی نسبت به درد افراد دیگر حساسیت نشان نمی‌دهد.

brainبخش مهمی از مغز انسان که مسئول احساسات ماست، لوب پیشانی است (بله خودم کاملا متوجه هستم که از اصطلاحات زیادی در اینجا استفاده میکنم، اما این بخش از مغز واقعا جالب است، بعدا در مورد لوب پیشانی بیشتر هم صحبت خواهیم کرد). لوب پیشانی همچنین وظیفه خودآگاهی و کنترل شخصی را بر عهده دارد. در بیماران روانی لوب پیشانی فعالیت کمتری نسبت به مغز انسان عادی دارد. از این رو فقدان کنترل شخصی در این گونه افراد به وفور دیده می‌شود. بازاریابان و تبلیغ‌کنندگان، اغلب کنترل شخصی مخاطبان خود را در پیام‌های جذاب و تکنیک های بصری بازاریابی، مورد بررسی و هدف قرار می‌دهند. همه‌ی ما در مقاطع مختلفی از زندگی‌مان محصولاتی را خریدیم که به آن‌ها نیاز نداشتیم و بخاطر عدم کنترل شخصی متقاعد به خرید شده‌ایم! این که عصب شناسی چطور رفتار ما را به فعالیت های مغزمان پیوند میزند موضوع جالب توجهی است.

برگردیم به قاتل های سریالی. در ادبیات مدلسازی و تحلیل، فاکتورها و متغیرهای کلیدی برای شناسایی فعالیت های نابجا، هم به طبیعت (یعنی ژنتیک، فعالیت های مغزی و…) وابسته است و هم به پرورش (نوع تربیت، رفتار والدین، رفتار جامعه و…). این جمله از فرانسیس کالینز (مدیر NIH) نقش ژنتیک و جامعه را برای بوجود آمدن قاتلان بخوبی شرح داده است:

ژنتیک اسلحه را پر می‌کند و طبیعت ماشه را می‌کشد!

رفتار انسانی بسیار پیچیده است، چرا که ترکیبی از فاکتورها و متغیرهای بسیار زیادی است. برای تحلیلگران بازاریابی، این یک ضرورت است که نسبت به رفتار انسان هوشیار و تیزبین باشند. وظیفه تحلیلگر بازاریابی فقط محاسبه اعداد نیست، بلکه باید درک عمیقی از رفتار مشتری داشته باشد. یک تحلیلگر بازاریابی همچنین نباید فقط بگوید مشتری چگونه رفتار میکند، بلکه باید در مورد چرایی رفتار مشتری در موقعیتی که قرار می‌گیرد هم صحبت کند. اینها رو توی ذهنتون داشته باشید، و برگردیم به مطالعه تجزیه و تحلیل بازاریابی که در مقاله قبلی دایکه شروع کردیم؛

مثال برای تجزیه و تحلیل بازاریابی

بعد از اینکه CMO از اتاق شما بیرون رفت (مقاله قبلی را مطالعه کنید)، از تحلیلگرانتان خواستید تا چند عدد از انباره  داده شرکت برای سود و هزینه کمپین را بیرون بکشند. با استفاده از داده ها شما متوجه شدید متغیر هزینه اجرای یک کمپین برای هر درخواست چیزی حدود ۲٫۳$ است. علاوه بر این، هر مشتری که از کاتالوگ بازاریابی استفاده میکند سودی حدود ۵۶$ بوجود میاورد. شما هم پشت یه برگه سریعا سود حاصل از کمپین را محاسبه کردید.

campaign profit & loss

الان می توانید ابعاد مسئله را در تراز سود و زیان بالا ببینید. در محاسبات خط پایانی هیچ حاشیه سود مناسبی برای هزینه کرد اجرایی کمپین ها برای CMO  باقی نمی‌ماند و بایستی در دو مورد بهتر کار کرد: نرخ پاسخ/تبدیل کمپین و درآمدی که از مشتریان بدست می آید. این امر به شما کمک می کند تا سریعا به شناسایی اهداف دست یابید؛ مثل :

هدف اول نرخ تبدیل کمپین ها (تعداد مشتریانی که پس از ارائه کاتالوگ اقدام به خرید می کنند)  را افزایش دهیم

هدف دوم افزایش درآمدی که از مشتریان بدست می آید

اهداف بالا باعث به وجود آمدن دو مدل می شود، مدل اول ارزیابی امکانات برای مشتریان در جهت پاسخ به کاتالوگ کمپین از طریق خرید محصولات، مدل دوم تخمین میزان دلاری که هرمشتری خرج می کند

همانطور که پیداست مشکل مدل اول دسته‌بندی و مشکل مدل دوم تخمین زدن میزان دلار به صورت متوالی است. پس از تلاش هایی که کمپین برای رضایت بخشی ۲ هدف بالا انجام داده است، سود خالص باید بیشتر از ۵۲۰۰ دلار باشد. در مقالات بعدی دایکه،  بیشتر روند انجام این اهداف فوق را بررسی خواهیم کرد.

و اما حرف آخر

ما تا اینجا شاهد آن بودیم که روانپریشان و قانون‌گریزان الگوهای رفتاری ای نظیر عدم همدلی، کنترل شخصی ضعیف، خطر ابتلا به افسردگی، غرور و … را دارند. با این حال بایستی اشاره کنم که هرکس که تمایلات مذکور را داشته باشد الزاما قاتل سریالی نخواهد شد، مثال های بسیاری هست از مردمی با ساختار مغزی مشابه با روانپریشان که در جامعه با شرافت رفتار می‌کنند. البته که پرورش خوب (تربیت والدین، پشتیبانی جامعه و…) شخصیت آنها را به گونه ای شکل داده است که نسبت به جامعه درست رفتار کنند.

آغاز ثبت نام دومین دوره بلندمدت علم داده – بهار۹۸

ثبت نام دومین دوره بلندمدت دانشمند داده برای بهار 98، با ظرفیت محدود در آکادمی دایکه شروع شد. مدت دوره 208 ساعت، ظرفیت 14 نفر، فقط پنج‌شنبه ها، دوره حضوری و غیرحضوری، همراه با کد تخفیف 15 درصدی ویژه نوروز 98. 

پس از برگزاری موفق و همزمان دو مسیر دانشمند داده و تحلیلگر داده در سال ۹۷، طبق برنامه ریزی‌هایی که در هسته اجرایی گروه دایکه صورت گرفته، قصد داریم تا برای دومین بار، مسیر تخصصی و مهارتی دانشمند داده (علم داده یا data science) رو در بهار ۹۸ برگزار کنیم.

مسیر آموزشی علوم داده - گروه داده کاوی دایکه

در این دوره نیز مانند تجربه قبلی، تمام تلاش ما این هست که مخاطبین عزیز در یک مسیر اصولی و حرفه ای که برای طراحی و تدوین اون کلی مطالعه و کار شده، آموزش دیده و همزمان دانش خود را در مسیر اجرای پروژه کارورزی بکار گرفته و تجربه کسب کنند.

  • شروع دوره:  ۲۹ فروردین ۹۸
  • نوع دوره: حضوری و غیرحضوری
  • روز برگزاری: فقط پنج شنبه ها
  • ظرفیت دوره حضوری: ۱۴ نفر
  • ثبت نام بصورت آنلاین و از طریق سامانه ثبت نام گروه دایکه
  • امکان پرداخت اقساطی در سامانه ثبت نام

ورود به صفحه تقویم آموزشی و مشاهده اطلاعات کامل این مسیر  

نکته ای که برای مجموعه دایکه در اولویت اصلی قرار داره، انتقال یک رویکرد و بینش حل مساله با نگاه داده محور به مخاطبین این مسیرهاست و این چیزی نیست که در کتابها و مقالات و متون پراکنده براحتی قابل دستیابی باشه! بهمین خاطر سعی میکنیم تا جای ممکن، تجربیات خود را در انواع مسائل و پروژه های واقعی، در جای جای مباحث این دوره مطرح کنیم.
اگر بتوانید در طی این مسیر، بینش حل مساله را در خود تقویت کنید، باقی مسائل فقط ابزار هست و منابع آموزشی برای ابزارها، به وفور قابل دستیابی هستند.


ثبت نام مسیرهای آموزشی “علوم داده” با ظرفیت محدود شروع شد!

ثبت‌نام اولین سری از مسیرهای آموزشی-مهارتی علوم داده در گروه داده کاوی دایکه، شروع شد. این مسیرها با رویکرد مهارتی و کاربردی طرح ریزی شدند و قرار هست که شرکت کنندگان رو برای ورود به بازار کار و پروژه های بزرگ آماده کنند. 

ثبت نام در مسیرهای آموزشی علوم داده | گروه دایکه

  • شروع مسیرهای دانشمند داده و تحلیلگر داده از ۱۹ مهرماه
  • برگزاری مسیرها به دو صورت حضوری و غیرحضوری
  • روزهای برگزاری دوره ها: پنج‌شنبه و جمعه
  • ظرفیت محدود مسیرها در حالت حضوری
  • ثبت نام بصورت آنلاین و از طریق سامانه ثبت نام گروه دایکه
  • امکان پرداخت اقساطی در سامانه ثبت نام

ظرفیت محدود است، زمان را از دست ندهید. 

اطلاعات تکمیلی را از صفحه اختصاصی مسیرهای آموزشی دانشمند داده و تحلیلگر داده دریافت کرده و برای ثبت نام وارد سامانه ثبت نام دایکه شوید.


دایکه روانشناس داده های شماست

چکیده‌ی ده سال تجربه در آموزش، مشاوره و اجرای پروژه های متعدد داده‌کاوی، هنر حل مساله گروه دایکه است که در سامانه دایکر نمایان شده است. برای آشنایی با این سامانه و طرح‌های آموزشی جدید، با ما همراه باشید. 
 

گروه داده کاوی دایکه با یک دهه سابقه فعالیت در حوزه تخصصی داده کاوی، به عنوان یکی از پیشگامان این عرصه در کشور مطرح می باشد. فعالیت همزمان در بخش های آموزش، مشاوره و اجرای پروژه های متعدد در حوزه های مختلف کسب و کاری، علاوه بر دانش علمی مرتبط، بینش تجربی بسیار گرانبهایی را نیز به سرمایه های مجموعه افزوده که همین تجربه عملیاتی در حوزه های متنوع، سبب کیفیت هرچه بیشتر خدمات دایکه به مخاطبین و همراهانش بوده است.

پروفسور نخعی زاده مشاور ارشد گروه دایکه

البته ناگفته نماند که مجموعه دایکه رسیدن به جایگاه فعلی خود را بخاطر حمایت های علمی و تجربی پروفسور نخعی‌زاده می داند که در طول این سالها به عنوان مشاور ارشد در کنار و همراه گروه دایکه بوده اند و مجموعه دایکه از این بابت به خود می‌بالد.

پروفسور غلامرضا نخعی‌زاده، استاد دانشگاه کارلسروهه آلمان و موسس و مدیر اسبق دپارتمان داده کاوی شرکت دایملر کرایسلر (مرسدس بنز) می باشند که در جهت معرفی دانش داده کاوی و کاربردهای آن به مدیران سازمان ها، شرکتها و صنایع کشور، در طول یک دهه‌ی گذشته زحمات بسیاری کشیده اند.

بعد از گذشت سالیان، فعالیت های دایکه همچنان در سه حوزه آموزش، مشاوره و اجرا ادامه دارد. اما با این تفاوت که رویکرد جدیدی نیز در ارائه خدمات داده کاوی دایکه اضافه گشته که با نام سامانه تحلیلی دایکر معرفی شده است.

سامانه دایکر، در راستای ترند جدیدیست که با عنوان Automation Machine Learning در دنیا مطرح می باشد. در چند سال گذشته پروژه های متعددی در این زمینه تعریف و راه اندازی شده اند و با کیفیت خوب و بد مشغول فعالیت هستند. اما چیزی که دایکر را کمی متفاوت می‌سازد، پیاده سازی فرایند حل مساله در لایه بیزینس است. درواقع دایکر بطور همزمان از دو بعد راهکار و کسب‌و‌کار به ارائه سرویس می پردازد. برای اطلاعات بیشتر در این مورد به صفحه اختصاصی سامانه دایکر مراجه نمایید.

گروه داده کاوی دایکه، همزمان با معرفی سامانه تحلیلی دایکر، در امر آموزش هم سرویس جدیدی را ارائه کرده است. مسیرهای آموزشی حرفه ای با هدف تربیت تحلیلگر داده، دانشمند داده و مهندس داده، رویکرد جدیدیست که در آکادمی دایکه طراحی و تدوین شده است. در مسیرهای آموزشی جدید، شرکت کنندگان می توانند همزمان با گذراندن دوره های آموزشی هدفمند و مهارتی، فرصت حضور در پروژه های واقعی دایکه را نیز داشته باشند و در قالب دوره های کارورزی و اینترنشیپ به کسب تجربه بپردازند.

ضمنا مجموعه دایکه از حضور متخصصان علاقه‌مند، پرتلاش و حرفه‌ای برای همکاری در بخش آموزش، تیم حل مساله و توسعه نرم افزار استقبال می کند. برای اطلاعات بیشتر به صفحه همکاری با دایکه مراجعه کنید.


به وبسایت جدید دایکه خوش آمدید…

بمنظور آشنایی با "سامانه تحلیلی دایکر" و معرفی "مسیرهای آموزشی" هدفمند، همزمان با حضور در بیست و چهارمین نمایشگاه بین المللی الکامپ، در وبسایت جدید گروه دایکه با ما همراه باشید.

وبسایت جدید گروه دایکه متناسب با توسعه فعالیت های اخیر مجموعه، همزمان با نمایشگاه الکامپ ۲۴ رونمایی شد. وبسایت جدید شامل بخش های اصلی “سامانه تحلیلی دایکر“، “آکادمی دایکه” و “نشریه” می باشد.

محتوای “سامانه دایکر”  به معرفی محصول اصلی شرکت و بیان ویژگی های آن پرداخته و در بخش “آکادمی دایکه” اطلاعات مرتبط با دوره های آموزشی شامل سرفصل دوره ها، تقویم و مسیرهای آموزشی گردآوری شده و همچنین مقالات آموزشی و خبری در خصوص مفاهیم، ابزارها و تکنولوژی های مرتبط با علوم داده در بخش “نشریه” ارائه شده است.

همچنین گروه دایکه از تمام دوستانی که برای همکاری در لایه‌های مختلف از قبیل محتوای نشریه، همکاری آموزشی و فنی آمادگی دارند، دعوت می نماید.

گروه دایکه امیدوار است تا  قالب جدید ارائه محتوا، مورد نظر علاقه مندان و استفاده کنندگان از فعالیت های دایکه قرار گیرد.

تحلیل بازاریابیِ خرده‌فروشی‌ها – بخش اول

قصد داریم مقالاتِ کاربردیِ جدیدی از مقالات سریالی وبسایت ucananalytics رو، در این بخش استارت بزنیم. در سری اول، وجه های مختلفی از تجزیه و تحلیل بازاریابی و مدیریت ارتباط با مشتری (CRM) رو ارزیابی می‌کنیم. از مثال خرده فروشی آنلاین که حوزه پرمخاطبی است، برای بیان بهتر جزئیات این نوع تحلیل استفاده خواهیم کرد. 

ادامه خواندن تحلیل بازاریابیِ خرده‌فروشی‌ها – بخش اول

ابزارهای پرکاربرد علوم داده برای کسانی که برنامه نویسی نمی دانند!

شاید گمان کنید برای اینکه بتوانید در حوزه علم داده گام بردارید، باید حتما به یک زبان برنامه نویسی تسلط داشته باشید! اما این مقاله ابزارهایی را به شما معرفی میکند که بدون نیاز به برنامه نویسی قادر خواهید بود تا داده های خود را تحلیل کرده و به حل مساله بپردازید. 

ادامه خواندن ابزارهای پرکاربرد علوم داده برای کسانی که برنامه نویسی نمی دانند!

آموزش گام‌به‌گام زبان R (بخش دوم: شروع برنامه‌نویسی)

در بخش اول مجموعه آموزشی برنامه نویسی R با تاریخچه، ضرورت و نحوه نصب برنامه آشنا شدیم. در این بخش سعی میکنیم از دروازه برنامه نویسی گذر کرده و اولین برنامه خود را محیط R بنویسیم.

ادامه خواندن آموزش گام‌به‌گام زبان R (بخش دوم: شروع برنامه‌نویسی)

آموزش گام‌به‌گام زبان R (بخش اول: پیش‌گفتار، نصب و راه‌اندازی)

زبان برنامه نویسی R بطور وسیع توسط متخصصین آماری استفاده میشود و عملا اولین انتخاب متخصین داده میباشد که توسط اجتماعی فعال و مستعدی از مشارکت کنندگان پشتیبانی میشود. این زبان هم در محیط های دانشگاهی و هم در برنامه های کاربردی تجاری استفاده میشود.

ادامه خواندن آموزش گام‌به‌گام زبان R (بخش اول: پیش‌گفتار، نصب و راه‌اندازی)

داده کاوی چیست؟! تعریف، چرایی و روش اجرا

داده کاوی چیست؟ چه کاربردهایی دارد و روش اجرای آن چگونه است؟! فلسفه ی داده کاوی این است که آینده بسیار به گذشته شبیه است. داده کاوی به شما کمک می کند تا رفتار کسب و کار خود در گذشته را دقیق بشناسید و بر اساس آن آینده را با تقریب بالایی پیش بینی کنید. داده کاوی فضای حاکم بر کسب و کار شما را شفاف می کند و شما را مجبور می کند واقع بینانه تصمیم بگیرید. 

ادامه خواندن داده کاوی چیست؟! تعریف، چرایی و روش اجرا