✅ میخوای رزومهت رد نشه؟
🔃 یه پروژه «سری زمانی» بنداز توش!
👨🏻💻 اگه میخوای تو پورتفولیوت یه پروژه داشته باشی که مهارتهاتو به رخ بکشه، هیچ چیزی مثل یک پروژه Time Series (سری زمانی) قدرتمند نیست!
✏️
چرا؟ چون تقریباً همهچی رو تو خودش داره: از تمیزکاری دیتا و مهندسی ویژگی گرفته تا انتخاب مدل، تیون کردنش، و آخرش هم تحلیل خطا.
▶️ برای تمرین و ساخت همچین پروژهای هم برو سراغ
مسابقهی M5 Forecasting تو کگل؛ یه دیتاست واقعی از فروش روزانهی هزاران محصول تو فروشگاههای والمارت. هم اندازهیِ دیتا بزرگه، هم مسئله واقعی.
🔗
M5 Forecasting
🔗
M5 Forecasting
〰
قدم اول: انتخاب و فهمیدن داده (EDA)
🏷 قبل از هر کدی، باید بفهمی دیتا چی میگه. پس باید بزنی به دلِ تحلیل اکتشافی داده. تو دیتای M5 میبینی فروش روزانهیِ کلی محصول هست. حالا سوالهایی که اینجا باید از خودت بپرسی:
❓ فروشها فصلیان؟ تعطیلات روی فروش اثر دارن؟
❓ تقاضا تو ایالتها یا دستهبندیها فرق میکنه؟
❓ دادهی گمشده یا رفتار عجیب (ناهنجاری) داریم؟
⬅️
بعد میری سراغ مهندسی ویژگی. یعنی:
✅ ویژگیهای تقویمی بسازی (روز هفته، ماه، پرچم تعطیلات و …)
✅ ویژگیهای وقفهای (lag) و میانگینهای متحرک بسازی تا روندها دیده بشن
✅ فروش رو تو سطحهای مختلف جمع بزنی (فروشگاه، بخش، محصول)
🧐 تجربهم میگه واقعاً تو سری زمانی،
ویژگیهای خوب خیلی وقتها از مدلهای عجیبغریب قویتر جواب میدن.
"فیچر خوب همیشه مدل پیچیده رو شکست میده."
➖ ➖ ➖ ➖ ➖
〰
قدم دوم: انتخاب مدل و ارزیابی
🏷
اینجا دو تا مسیر داری:
1️⃣ مدلهای کلاسیک سری زمانی؛ مثل ARIMA, SARIMAX, ETS
2️⃣ مدلهای یادگیری ماشین/یادگیری عمیق؛ مثل LightGBM, XGBoost, Prophet, LSTM, Temporal Fusion Transformer
⬅️ اینجا باید
انتخابت به اندازهی داده و نیازت به تفسیرپذیری بستگی داشته باشه. بعد باید معیار ارزیابی درست انتخاب کنی:
🔃 مثل RMSE یا MAE برای دقت کلی. تو مسابقهی M5 معیار اصلی WRMSSEـه که برای پیشبینی چندسطحی ساخته شده.
❗️ من برای حجم دیتای بالا، LightGBM رو ترجیح دادم. نکته مهم اینه که متریک درست رو انتخاب کنید (مثلاً WRMSSE) تا نشون بدید که بیزینس رو میفهمید، نه فقط ریاضیات رو.
🧐
اینکه معیار درست رو انتخاب کنی، نشون میده فهمیدی «پیشبینی تو کسبوکار یعنی چی»، نه اینکه فقط عدد بگیری.
➖ ➖ ➖ ➖ ➖
〰
قدم سوم: تنظیم و بهینهسازی مدل
🏷 اینجا باید بری سراغ تنظیم ابرپارامترها با چیزهایی مثل GridSearchCV یا Optuna. مثلاً تست کنی. فقط به عدد دقت مدل راضی نشید!
❓ وقفههای مختلف چقدر اثر دارن؟
❓ اندازهی پنجرهی میانگین متحرک چقدر باشه؟
❓ منظمسازی رو چطور بذاری؟
➖ ➖ ➖ ➖ ➖
〰
قدم چهارم: تحلیل خطا و بهتر کردن مدل
🏷 به امتیاز قانع نشو؛ برو ببین چرا مدل خطا میده!
⬅️ من رفتم عمیق شدم ببینم مدلم کجاها اشتباه کرده؟ آیا توی تعطیلات خراب کرده؟ برای محصولات جدید گیج زده؟
❓ کدوم محصولها یا فروشگاهها همیشه بیشبرآورد/کمبرآورد میشن؟
❓ خطا تو تعطیلات یا تخفیفها بیشتر میشه؟
❓ مدل با محصول جدید بد رفتار میکنه؟
⬅️
بعد با همون بینشها بهترش کن:
✅ ویژگیهای بیرونی بهتر اضافه کن (قیمت، تخفیف، رویدادها)
✅ مدلها رو برای دستهها/منطقهها جدا کن.
✅ چند مدل رو ترکیب کن تا پایدارتر بشه.
➖ ➖ ➖ ➖ ➖
〰
قدم آخر: داستان پروژه رو بگو (مهمترین بخش)
🏷 توی پورتفولیو، نوتبوک شما نباید فقط کد باشه؛ باید مثل یک Case Study باشه. بنویسید "چرا" این مدل رو انتخاب کردید و این پیشبینی چه سودی برای بیزینس داره.
❓ چرا پیشبینی مهمه؟
❓ چه چیزهایی امتحان کردی؟ چی جواب داد و چی نه؟
❓ مدل چه الگوهایی از داده کشف کرد؟
🧐
چون همین داستانگویی، پروژه رو تبدیل میکنه به چیزی که تو ذهن مصاحبهگر میمونه. اگه بتونید دیتاست M5 رو هندل کنید، یعنی برای هر چالش واقعی در بازار کار آمادهاید.
🌐 #علم_داده #DataScience
➖➖➖➖➖➖➖➖➖➖➖➖➖➖
📊 دانشمند داده شوید :
📊 @DataScience_ir
📱
پیج اینستاگرام:
📊 @DataScience_fa