مهندسی داده و ام‌ال‌آپس 🚀

Відкрити в Telegram

✅ دنیای مهندسی داده و ام‌ال‌آپس 🟢 ارتباط با ما https://www.m-fozouni.ir/contact-me 🔵 دوره‌‌ی آموزشی مهندسی داده https://www.m-fozouni.ir/de7 🔴 یوتیوب https://youtube.com/c/ElmeDade 🟤 مشاوره با دکتر فزونی https://www.m-fozouni.ir/consult

Іран59 873 Технології та додатки24 065

3 217

Підписники

-224 години

-77 днів

+2530 день

904

Перегляди допису

~ 35224 години

~ 46148 годин

28.10%

Коефіцієнт залучення

~ 1

Дописів на день

Ads index

beta

Архів дописів

3 218

پیاده‌سازی الگوریتم‌های یادگیری ماشین بصورت امن در میانه‌ی جنگ و تردید، از شنبه دهم مرداد ماه این دوره آموزشی رو استارت می‌زنیم؛ https://www.m-fozouni.ir/mlsecops/ دوست داشتید، به ما ملحق بشید. تمرکز اصلی روی MLOps هست منتها با افزودن مولفه‌های امنیتی سعی کردیم کورسی رو تدوین کنیم که مسیر یک MLSecOps Engineer رو ایجاد کند. تجربیات امنیتی خودم در کارهایی که حضور داشتم، تا حدودی مطرح خواهند شد. دوره در ۳۲ جلسه و بطور تقریبی ۵۰ ساعت با عناوین زیر برگزار خواهد شد MLSecOps in Action: From Foundations to Applied Security ⌛️ 00-Intro to the Course 1️⃣ Foundations: OS & Containers ⌛️ 01-Linux-01: Essential Linux for ML Engineers ⌛️ 02-Docker-01 ⌛️ 03-Docker-02 ⌛️ 04-Security in Docker (Scanning with Trivy) ⌛️ 05-Linux-02: Advanced Topics (iptables) 2️⃣ CI/CD & Cloud Basics ⌛️ 06-ArvanCloud ⌛️ 07-GitHub Actions (Backup to S3 by GitHub Actions) ⌛️ 08-Terraform-01: IaC Basics for ML Infra Provisioning ⌛️ 09-Terraform-02: Security Best Practices 3️⃣ Streaming Pipelines: Kafka ⌛️ 10-Kafka-01: Quick Start ⌛️ 11-Kafka-02: Clustering ⌛️ 12-Kafka-03: Quix for Python-native Streaming ⌛️ 13-Kafka-04: ksqlDB (Process real time data with SQL) ⌛️ 14-Kafka-05: Security in Kafka Deployments (ACLs & Encryption) 4️⃣ Orchestration: Kubernetes ⌛️ 15-Kubernetes-01: Theory-Core-Concepts ⌛️ 16-Kubernetes-02: Minikube (MLFlow on k8s) ⌛️ 17-Kubernetes-05: Falco for Securing Kubernetes Implementations 5️⃣ ML Operations ⌛️ 18-What is MLOps? (Theory) ⌛️ 19-What is MLSecOps and the best python libs in this realm (Theory) ⌛️ 20-MLflow-01: Theory and Hello World ⌛️ 21-MLflow-02: DVC for Data and Model Versioning ⌛️ 22-MLflow-03: MLflow-DVC on Cloud ⌛️ 23-FastAPI-01: Model Serving Basics (APIs for ML Inference) ⌛️ 24-FastAPI-02: Securing Endpoint ⌛️ 25-MLflow-04: Secure Experiment Tracking (Signed Models) ⌛️ 26-Jenkins (Traefik-MLflow-DVC-Jenkins on the Cloud) 6️⃣ MLSec Tools ⌛️ 27-Poisoning Attacks ⌛️ 28-Model Tampering ⌛️ 29-Supply Chain Attacks ⌛️ 30-Evasion Attacks ⌛️ 31-Privacy-Preserving AI 7️⃣ Capstone Projects ⌛️ 32-Final-Project: Fraud Detection in FinTech (Whole Lifecycle of ML Algorithms + Security Audit: Simulate Poisoning + ART Defenses) A Complete MLSecOps Example . @elmedadeir

3 218

#گرافانا ایشون خالق گرافانا هستند. ابزاری که امروزه در اکثر استک‌های دیتایی رد پایی از اون وجود دارد. تداد دنبال کنندگان این شخص هنوز به سه هزار هم نرسیده 😎. . @elmedadeir

3 218

🧠 قبل از اینکه چت‌جی‌پی‌تی جوابتو بده، توی مغزش چه اتفاقی می‌افته؟ یه دفترچه‌ی تعاملی ساختم که قدم‌به‌قدم نشونت می‌ده یه کلمه چطور از ذهن هوش مصنوعی رد می‌شه. فایل رو دانلود کن و با مرورگر گوشیت باز کن. #هوش_مصنوعی #ChatGPT #یادگیری_ماشین #AI #تکنولوژی #پردازش_زبان_طبیعی . @elmedadeir

3 218

راهنمای برای کد پیوست به این پست. . @elmedadeir

3 218

#مشکلات_مرتبط_با_اسکیما یکی از بزرگ‌ترین ریسک‌های پایپ‌لاین‌های داده، معمولن منطق تبدیلات لازم روی داده نیست؛ لبه‌ی ورودیه. در واقع، یک فیلد که فرمتش عوض شده، یک ای‌پی‌آی بالادستی که اسکیما رو بی‌خبر تغییر داده، کافیه تا داده‌ی خراب عمیق بره تو سیستم. پای‌دنتیک (Pydantic) دقیقن همین لبه رو برامون محکم می‌کنه. یعنی: اسکیما رو صریح تعریف می‌کنیم براش (در قالب یک کلاس پایتونی)، و هر رکوردی که مطابقش نباشه، همون لحظه‌ی ورود متوقف می‌شه؛ نه چند مرحله بعد، وقتی ردیابی خطا چند برابر سخت‌تره. می‌تونیم جوری کد رو تنظیم کنیم که، رکوردهای معتبر ادامه‌ی مسیر رو برن، رکوردهای نامعتبر هدایت شوند سمت یک صف یا دیتابیس از رکوردهای نامنطبق بر اسکیمای مد نظر ما که در آینده بطور دقیق این رکوردها رو بررسی کنیم؛ بدون این‌که مجبور بشیم کل پایپ‌لاین رو متوقف کنیم یا داده‌ی کثیف رو با چراغ خاموش بچپونیم تو سیستم. بعضی اوقات، یک تغییر کوچک در تعریف مدل و طراحی خط‌لوله، یک لایه‌ی محافظ بزرگ برای کل سیستم برامون ایجاد می‌کنه. کد پیوست به پست رو تو سیستم خودتون بعد از نصب پای‌دنتیک اجرا کنید و نتیجه رو بررسی نمائید. . @elmedadeir

3 218

🔷 کلیک‌هاوس چیه؟ فرض کن یه انبار با میلیون‌ها کارتنه و می‌خوای سریع بفهمی «چندتاش آبیه؟» دیتابیس‌های معمولی باید کل کارتن رو باز کنن، ولی کلیک‌هاوس فقط می‌ره سراغ همون چیزی که لازمه و خیلی سریع جواب می‌ده. برای همین بهش می‌گن ستون‌محور. ✅ چرا محبوبه؟ • روی میلیاردها ردیف، در چند ثانیه جواب می‌ده • فضای ذخیره‌سازی خیلی کمتری می‌گیره • راحت روی چند سرور گسترش پیدا می‌کنه • با SQL معمولی کار می‌کنه، یادگیریش سخت نیست 📊 کاربرد: تحلیل لاگ‌ سایت، داشبورد ریل‌تایم، رفتار کاربران 🏢 استفاده‌کننده‌ها: Uber، Cloudflare، eBay ➕ مزایا: سرعت بالا، فشرده‌سازی قوی، رایگان و متن‌باز، مقیاس‌پذیری آسون ➖ معایب: برای تراکنش‌های معمول (ثبت سفارش، بانک) مناسب نیست، آپدیت/حذف تکی سخته، نیاز به طراحی درست داره، برای تیم‌های تازه‌کار یادگیریش زمان می‌بره 📌 خلاصه: ابزار تخصصیه برای تحلیل سریع حجم بالای داده، نه برای کارهای روزمره‌ی ثبت و ویرایش. #ClickHouse #Database #DataEngineering @elmedadeir

3 218

چون زمانه‌ی انفجار ابزارها رو پیش‌رو داریم، به هیچ وجه حساس نباشید روی ابزار. مگر واقعن نیاز باشه. من چند روز پیش خواستم از pip به uv مهاجرت کنم هیچ برتری خاصی ندیدم که مجبورم کنه یک ابزار دیگه هم یاد بگیرم. واقعن ابزار دیگه بسه. فقط یک دلیل داره که این مهاجرت منطقی بنظر برسه (از pip به uv) می‌دونین چیه؟؟؟ در نظر داشته باشید که باینری uv با راست نوشته شده است. . @elmedadeir

3 218

-5782635720152965374_94340011939946.mp36.10 MB

3 218

@elmedadeir

3 218

دوره آموزشی رایگـــــــان و متنی مهندســـــــــــی داده به زبان ساده این دوره برای کسانی طراحی شده که اهل خواندن هستن و با مطالعه بهتر ارتباط می‌گیرن و از طرفی می‌خوان وارد دنیای مهندسی داده بشن، اما نمی‌دونن از کجا شروع کنن. توی این کورس، تلاش می‌کنیم قدم‌به‌قدم با یک پروژه‌ی عملی جلو بریم. 🗂 سرفصل‌های اصلی دوره: ✅ مبانی مهندسی داده و تفاوت آن با علم داده ✅ کار با داده‌ها در پایتون ✅ آشنایی با فرمت‌های CSV, JSON & Parquet ✅ پایگاه‌های داده‌ی رابطه‌ای SQLite & PostgreSQL ✅ پایگاه‌های داده‌ی غیررابطه‌ای MongoDB ✅ ساخت خط‌لوله‌ی ای‌تی‌ال کامل با پایتون ETL Data Pipeline ✅ ذخیره‌سازی ابری با آبجکت استوریج ابرآروان Cloud Object Storage همه‌ی کدها و مثال‌ها به صورت عملی و گام‌به‌گام ارائه شدن تا بتونید کنار دوره، خودتون هم دست به کد بشید. 🎯 این دوره برای چه کسانی مناسبه؟ - کسانی که با مفاهیم پایه‌ای برنامه‌نویسی پایتون آشنا هستن - علاقه‌مندان به حوزه‌ی داده و هوش مصنوعی که می‌خوان زیرساخت کار با داده رو یاد بگیرن - دانشجویانی که به دنبال یک مسیر عملی برای ورود به مهندسی داده هستن - هر کسی که دوست داره بفهمه داده از مرحله‌ی تولید تا مصرف، چه مسیری رو طی می‌کنه 📎 لینک دسترسی به دوره: https://www.m-fozouni.ir/courses/intro-to-de این دوره رو با دوستان خودتون به اشتراک بذارید، اگر آنها رو علاقمند به این مباحث دیدین. نکته: هدف از تهیه این سبک دوره‌های مقدماتی این است که، مخاطب قبل از ورود به دوره‌های پیشرفته‌ و تخصصی، خود را یک محک کلی بزند. به این نتیجه برسد که آیا اهل چنین حوزه‌های است یا خیر. قبل از اینکه هزینه نماید و وارد دوره‌های اصلی گردد. همچنین، اگر ایشان به این نتیجه رسید که بعنوان مثال به مهندسی داده علاقمند است، مقدمات لازم برای ورود به دوره‌های با سطح بالاتر را کسب می‌نماید. در نتیجه با آمادگی بسیار بهتری، مسیر حرفه‌ای خود را آغاز می‌کند. با آرزوی بهترین‌ها برای جوانان این مرز و بوم و به امید روزهای خوب برای ایران . @elmedadeir

3 218

Moonlight_Smooth_Jazz_Soft_Female_Vocals,_Gentle_Love_&_Relaxing.mp3103.42 MB

3 218

#قابل_تامل

در حالی که خیلی از تازه کارها نگران جایگزین شدن با هوشواره هستند. افرادی رو میشناسم که دارن اسمبلی می نویسن. افرادی که سی می نویسن و افرادی که کارشون شخصی سازی دیتابیس های اوپن سورس و امن سازی آن ها برای شرکت هاست.

پیام ارسالی از آرش در گروه . @elmedadeir

3 218

#باز_نشر دو سال عمرم حروم شد این دو سالی که از تمام داشته های مادی و زمان و جوونیم زدم برای کار بنیادین روی LLM ها دو نکته ی خیلی مهم رو لابلای مقالات نادیده گرفته بودم و به نظرم بی ارزش بودن. تا این که پیاده سازیشون کردم و فهمیدم خیلی از وقت و انرژیم رو تا اینجای کار حروم کرده بودم. یکیشون رو توی این پست توضیح میدم. مورد دیگر رو هم هروقت فرصت شد لینکدین قرار میدم اگر داری روی مدل های سنگین یا داده های بزرگ کار میکنی و زمان زیادی صرف آموزش میکنی حتما به این نکته توجه داشته باش: در آموزش برای موازی سازی پردازش ها طول تمام داده های ورودی در یک بچ یکسان سازی میشه یعنی اگر توی داده های آموزشیت یه جمله ی پنج کلمه ای و یه جمله ی ده هزار کلمه ای کنار هم باشن هنگام آموزش جلوی اون پنج کلمه 9995 کلمه ی خالی قرار میگیره (منظورم از کلمه توکن هست) تا طول ها یکسان بشن. و این زمان آموزش و هزینه ی اون رو به شدت افزایش میده چاره چیه؟ بچ ها رو طوری انتخاب کنید که طول داده های داخلشون نزدیک به هم باشن در مقالات راه های زیادی اومده. یکی از ساده ترین هاش اینه که داده ها رو بر اساس طولشون مرتب کنید و به پنجره های کوچک کوچک بشکنیدش. و برای هر بچ فقط از یک پنجره داده بردارید اینطور دیگه برای داده ی پنج کلمه ای اندازه ی داده ی ده هزار کلمه ای حافظه و پردازش حروم نمیشه با این کار زمان آموزشم تقریبا نصف شد. چیزی که این دو سال به خاطر عدم تاثیر در بهتر شدن خود مدل از کنارش گذشته بودم میتونست زمان آزمایش هام رو نصف کنه. منبع در لینکدین: مهندس علی زارعان . @elmedadeir

3 218

سلام. ببخشید شما رودمپ پیشنهادی برای مهندسی داده ندارین؟ و اینکه برام سوال بود قبلش لازمه تحلیل داده و ابزارهای اونو هم بلد باشیم(اکسل، BI tool, یسری کتابخونه های تحلیل و مصورسازی دیتای پایتون)؟

یکعده معتقد هستند که خوبه قبل از ورود به مهندسی داده افراد تحلیل داده رو یاد گرفته باشند. چندتا از مهندسین داده خفن در دنیا رو هم من بشخصه دنبال میکنم اینها ابتدا دیتا ساینتیست بودند. پس بی‌شک داشتن این دانش کمک کننده است. اما در خصوص رودمپ پایتون، سی‌کوال، لینوکس. این سه تا تقریبن پایه ثابت هستند. شروع کن. از جایی به بعد یاد می‌گیری. کتاب و مقاله هم بخون. دوره هم شرکت کنی خوبه. میتونی با دوره‌های انگلیسی که رایگان هستند هم کار خودتو آغاز کنی که هیچ هزینه‌ای ندی. در ادامه با توجه به نیازت می‌فهمی دنبال چه تکنولوژی بری. سایت‌های زیادی هم هستند که برای مهندسی داده رودمپ گذاشتند. گوگل کن. . @elmedadeir

3 218

برای این موضوع کمی جستجو کردم (چون بطور دقیق نمی‌دونستم) و متوجه شدم که برای تخمین هزینه‌ی ماهیانه کاربران، آمازون دقیقن از یادگیری ماشین استفاده می‌کنه. باید دقت کنیم که هر منبع، قیمت مشخصی دارد در پنل AWS ولی این موضوع تنها یک تخمینی هست که به کاربر نمایش داده می‌شود برای اینکه به ایشان بگوید در ماه جاری چه مقدار ممکن است مصرف نمائید. منبـــــــــــــــــع در سایت آمازون . @elmedadeir

3 218

در این راستا، یک مورد جالب که فردی توصیه می‌کرد بنظرم منطقی و درست بود. ایشون می‌گفت: زمانی بعنوان مثال برای کسی که دیتاساینتیست بود، دونستن داکر فقط یک مزیت محسوب می‌شد. ولی الان تجربه کار با این تکنولوژی برای افرادی که می‌رن مصاحبه ضرورت هست. این موضوع رو من در تمامی فیلدهای مرتبط با کامپیوتر می‌بینم. پس تو همون شاخه که داریم کار می‌کنیم، تکنولوژی‌ها و ابزار ترند رو حتمن یاد باید بگیریم. . @elmedadeir

3 218

در اینستاگرام شروع کردم افرادی که بهم پیشنهاد میشه رو فالو کردم. چندتا ویدیو هم در خصوص ترندهای آتی در دنیای تک دیدم. پدرم در اومد. حالا تا اینستا رو باز می‌کنم، یکی رفته رو منبر و داره توضیح میده که: - چطوری سه سوت سایت آمازون رو بسازیم؟ تنها با یک پرامپت - چی یاد نگریم دو ماه دیگه بیکاریم و باید بشینیم سیگار بزنیم بر بدن - اینجوری اکانت جی‌پی‌تی ۲۰۰۰ دلاری رو رایگان بگیر - همین الان فرش زیرپاتم بفروش برو اینو بخر که فردا ده برابر میشه - کل زندگیت رو با n8n اتومیت کن و یک نود رو هم اختصاص بده با ارتباط با کاخ سفید . خلاصه عجب وضعی هست. راه خودتونو برید. اینها بیشتر هایپ هست تا واقعیت. . بشخصه نمی‌دونم درست هست این موارد یا نه. ولی خودم دنبال نمی‌کنم. سعی می‌کنم متمرکز بمونم روی کار و مطالعه‌ی خودم. . @elmedadeir

3 218

بتازگی افرادی که اکانت AWS دارند، ایمیلی دریافت کردند مبنی بر اینکه «پیش‌بینی هزینه ماه جاری حساب کاربری شما، بیش از یک میلیارد دلار» شده است. رقم فضایی است واقعن . اما این یک نقص در سیستم آمازون هست و جای نگرانی ندارد. نیازی هم نیست اقدام خاصی انجام بدهید. به احتمال زیاد سیستم پیش‌بینی هزینه‌ی اونها که بر مبنای یک مدل یادگیری ماشین داره فعالیت می‌کنه، مورد حمله قرار گرفته شده باشه 😎. این نوع حملات باعث می‌شوند که مدل یادگیری ماشین، عملکرد بسیار بدی در محیط عملیاتی از خودش نشون بده. همون‌طور که ارسال این ایمیل‌ها نگرانی‌های زیادی رو برای کاربران آمازون به همراه داشت. . @elmedadeir

3 218

#باز_نشر #تجربه_کاری #مهندسی_داده از دی‌ماه وارد شرکت شدم و اولین تجربه جدی کاریم تو حوزه دیتا شروع شد. تا قبل از فروردین، بیشتر کنار همکارم که تو حوزه BI کار می‌کرد پیش می‌رفتم. با انجام تسک‌های مختلف، کم‌کم با دیتابیس‌ها، فرایندهای ETL، جاب‌های شبانه و پردازش دیتا با Spark آشنا می‌شدم. ولی واقعیت اینه که اون موقع شاید فقط ۳۰ درصد متوجه بودم این دیتاها دقیقاً چی هستن، چه منطقی پشتشونه و ما داریم چه کاری انجام می‌دیم. اواخر فروردین همکارم از شرکت رفت و بدون اینکه فرصت تحویل کامل کارها پیش بیاد، من موندم و مسئولیتی که احساس می‌کردم هنوز برای انجام دادنش آماده نیستم. استرس داشتم و مدام با خودم فکر می‌کردم واقعاً می‌تونم از پسش بربیام یا نه. اون موقع مدیرم بهم گفت: «همه‌چی رو می‌سپرم به خودت. هر اتفاقی افتاد، ریسکش با من؛ تو فقط پیش برو.» همین حرف باعث شد به‌جای ترسیدن، شروع کنم به جلو رفتن و یاد گرفتن. یکی از مهم‌ترین مسائلی که باهاش درگیر شدیم، اختلاف آمار بین داشبورد BI و چند سامانه دیگه بود. در نگاه اول همه فکر می‌کردن این اختلاف‌ها به خاطر اشتباه بودن دیتای داشبورده. من هم اول کار فقط سعی می‌کردم خطاها و تنظیمات داشبورد رو بررسی کنم، ولی کم‌کم متوجه شدم قبل از هر چیزی باید منطق پشت داده‌ها رو بفهمم. بعد از بررسی بیشتر فهمیدم دو سامانه‌ای که با هم مقایسه می‌شدن، اصلاً داده‌ها رو با یک منطق زمانی نمایش نمی‌دن. یکی بر اساس تاریخ توزیع مرسوله گزارش می‌داد و داشبورد BI بر اساس تاریخ قبول. پس طبیعی بود که اعدادشون با هم یکی نباشه. پیشنهاد دادم به‌جای اینکه این دو سامانه با هم مقایسه بشن، دیتای داشبورد رو مستقیماً با سامانه‌های مبدأ خودش مقایسه کنیم. بعد از چند ماه بررسی، اجرای کوئری‌های مختلف و دنبال کردن مسیر داده‌ها، در نهایت مشخص شد که دیتای داشبورد درسته و اختلاف واقعی با منابع اصلی وجود نداره. رسیدن به این نتیجه برای من فقط حل شدن یک مسئله کاری نبود. این چند ماه باعث شد بفهمم توی کار با دیتا، فقط بلد بودن ابزارها کافی نیست. اینکه SQL، Spark یا هر ابزار دیگه‌ای رو بلد باشیم خیلی مهمه، ولی مهم‌تر از اون، فهمیدن منطق کار و فرایندی هست که دیتا ازش به وجود میاد. وقتی منطق مسئله رو درست بفهمیم، کم‌کم می‌تونیم با ابزارهای مختلف راه‌حلش رو هم پیدا کنیم. یکی دیگه از چیزهای مهمی که یاد گرفتم، اهمیت داشتن یک چک‌لیست دقیق بود؛ اینکه بدونم از کجا باید شروع کنم، هر مرحله چه ارتباطی با مرحله بعد داره، چه چیزی رو باید بررسی کنم و در نهایت انتظار دارم به چه نتیجه‌ای برسم. این تجربه برای من آسون نبود، مخصوصاً با شرایطی که در شروع کار داشتم. ولی الان خودم رو خوش‌شانس می‌دونم که در چنین موقعیتی قرار گرفتم؛ چون هم از نظر فنی خیلی چیزها یاد گرفتم و هم شناخت بهتری از خودم پیدا کردم. فهمیدم حتی وقتی شرایط سخت و پراسترسه، می‌تونم آروم بمونم، مسئله رو مرحله‌به‌مرحله جلو ببرم و بالاخره راهش رو پیدا کنم. الان بعد از گذروندن این مسیر، خودم رو جایی می‌بینم که سال گذشته آرزوش رو داشتم. هنوز اول مسیرم، ولی خوشحالم که این مسیر رو شروع کردم. . 📝 منبع: لینکدین خانم مهندس ثمین شقاقی . @elmedadeir