Data world with Mina

前往频道在 Telegram

minarabti32@gmail.com منبع مطالب يادگيري ماشين،پايتون ،داده كاوي ،هوش مصنوعي، دانلود داده، فيلم هاي آموزشي رايگان، داده ارتباط با ادمین @Datalook_mina اینستاگرام:mina.rabti

显示更多

伊朗52 385 技术与应用20 935

4 140

订阅者

-324 小时

-47 天

+1830 天

897

帖子浏览量

无数据24 小时

无数据48 小时

21.67%

参与率

无数据

每日帖子数

Ads index

beta

帖子存档

4 142

https://www.linkedin.com/posts/mina-rabti-31a31951_datascience-machinelearning-featureengineering-ugcPost-7479489598864257025-RVcO/

4 142

Repost from Data world with Mina

کسی که با مدل‌ها برای رسیدن به دقت بالا در پروژه های یادگیری ماشین کار می‌کند، حتما میدونه که یکی از فازهای خیلی مهم در مسائل یادگیری ماشین فاز اعتبارسنجی و ارزیابی مدله. اینکه از چه معیاری و کجا رو چه نوع داده ای استفاده کنیم. اینجا تمرکزم مدل‌های پیش بینی و رگرسیونه مزایا و معایب هر کدوم رو نام میبرم و میگم کجا بهتره ازش استفاده کنیم: معیار 𝗥𝗠𝗦𝗘 (𝗥𝗼𝗼𝘁 𝗠𝗲𝗮𝗻 𝗦𝗾𝘂𝗮𝗿𝗲𝗱 𝗘𝗿𝗿𝗼𝗿): 🟢 مزایا میانگین بزرگی خطا را اندازه‌گیری می‌کند، و خطاها را به توان دو می‌رساند تا اختلافات بزرگتر را برجسته کند. مناسب برای زمانی که به حداقل رساندن خطاهای قابل توجه بسیار مهم است، زیرا انحرافات بزرگ را جریمه می‌کند. 🔴 معایب → خطای RMSE: اگر هدف اولویت‌بندی خطاهای بزرگ نباشد، RMSE می‌تواند گمراه‌کننده باشد، زیرا به داده‌های پرت وزن زیادی می‌دهد. 🔶معیار شاخص MAE یکی از ساده ترین معیارهای ارزیابی مدلهای رگرسیونی می باشد. این شاخص متوسط اندازه خطای پیش بینی را محاسبه می کند و تفسیر خوبی از میزان اثربخشی مدل فراهم میکند. 🔺معیار→ R²: معیار ² درصد تغییرپذیری در داده‌هایی که توسط مدل ثبت می‌شوند را نشان می‌دهد و درک آن را آسان می‌کند. 🔴 معایب به شدت تحت تأثیر مقادیر بسیار زیاد قرار دارد که می‌تواند منجر به ارائه نادرست اطلاعات شود. مفهوم واضحی از اندازه واقعی خطا ارائه نمی‌دهد. 💥معیار MAPE خطاها را به صورت درصد ارائه می‌دهد و این امر آن را شهودی و توضیح آن را آسان می‌کند. کمتر حساس به داده های پرت : برخلاف RMSE، اگر مقادیر واقعی نیز بالا باشند، MAPE با یک یا دو خطای بالا از کوره در نمی‌رود.(منفجر نمیشه) ❌معایب: MAPE می‌تواند وقتی مقادیر واقعی نزدیک به صفر باشند، گمراه‌کننده باشد و منجر به خطاهای بسیار بالایی شود. مثلا فروش صفر باشد پایدار نیست بهتره از SMAPE استفاده بشه.

4 142

Repost from Data world with Mina

۹ نکته عملی برای تنظیم (Tuning) الگوریتم Gradient Boosting ۱. پارامترهای خیلی زیادی انتخاب نکن ✅ برای ۹۹٪ از کاربردها همین چند پارامتر کفایت می‌کنن: learning rate (نرخ یادگیری) tree depth (عمق درخت) number of trees (تعداد درخت‌ها) subsample ratio (نسبت نمونه‌گیری) L1/L2 regularization (تنظیم منظم‌سازی برای جلوگیری از بیش‌برازش) 📌 توضیح: بعضی‌ها وسوسه می‌شن همه پارامترها رو تغییر بدن، ولی واقعیت اینه که چند پارامتر کلیدی هستن و بقیه معمولاً تأثیر کمی دارن. --- ۲. به ارتباط بین هایپرپارامترها دقت کن نرخ یادگیری (learning rate)، عمق درخت (tree depth) و تعداد درخت‌ها (n_estimators) خیلی به هم وابسته‌ان. نرخ یادگیری پایین → نیاز به درخت‌های بیشتر درخت‌های عمیق‌تر → نیاز به نرخ یادگیری کوچک‌تر (تا بیش‌برازش اتفاق نیفته) 📌 توضیح: یعنی وقتی یکیشو تغییر می‌دی، باید حواست به بقیه هم باشه. ۳. روش پیشنهادی برای تیونینگ (tuning) 1. تعداد زیادی درخت ثابت بذار (مثلاً ۵۰۰ تا ۱۰۰۰). 2.نرخ یادگیری learning rate، عمق درخت و بقیه پارامترها رو تغییر بده. 3. از early stopping استفاده کن (یعنی اگر ۱۵–۲۰ مرحله بهتر نشد، متوقف کن) → اینطوری بهترین تعداد درخت پیدا می‌شه. 📌 توضیح: با این روش عملاً به مدل فرصت می‌دی یاد بگیره ولی بی‌خود ادامه نده. ۴. نرخ یادگیری (learning rate) رو در مقیاس لگاریتمی تست کن. حد پایین: 0.001 حد بالا: 0.05 مقدار پیش‌فرض خوب: 0.01 📌 توضیح: نرخ خیلی کم باعث می‌شه مدل خیلی کند یاد بگیره و نرخ خیلی زیاد باعث بیش‌برازش یا ناپایداری می‌شه. --- ۵. به اندازه دیتاست دقت کن دیتاست کوچک → درخت‌های ساده (عمق ۱–۳) دیتاست بزرگ → می‌تونی عمق بیشتر بذاری (۴–۶) 📌 توضیح: چون دیتاست کوچک نمی‌تونه پیچیدگی زیاد رو پشتیبانی کنه. --- ۶. از L1 و L2 همزمان استفاده نکن مقدارL2 (reg_lambda): انتخاب پیش‌فرض، مخصوصاً وقتی ویژگی‌ها همبستگی بالا دارن. مقدارL1 (reg_alpha): وقتی مطمئنی ویژگی‌های بی‌ربط زیادی داری و می‌خوای مدل خودش انتخاب کنه کدوم رو نگه داره. 📌 توضیح: L2 فقط وزن‌ها رو کوچک می‌کنه ولی حذف نمی‌کنه. L1 می‌تونه بعضی ویژگی‌ها رو صفر کنه --- ۷. اندازه نمونه (subsample) رو خیلی کم نذار حد بالا: 0.7 حد پایین: 0.1 مقدار پیش‌فرض خوب: 0.5 📌 توضیح: subsample کمک می‌کنه مدل روی کل داده overfit نشه، ولی خیلی کم هم باشه دقت از بین میره.

4 142

*ابزار OpenClaw* یک پروژه متن‌باز (Open Source) است که به آن «عامل هوش مصنوعی» (AI Agent) می‌گویند. برخلاف ChatGPT که فقط در قالب چت به شما پاسخ می‌دهد، OpenClaw می‌تواند به ابزارها، فایل‌ها، مرورگر، ایمیل، پیام‌رسان‌ها و سیستم‌عامل متصل شود و کارها را برای شما انجام دهد. به زبان ساده: • ابزار ChatGPT پاسخ می‌دهد. • ابزار OpenClaw پاسخ می‌دهد + اقدام می‌کند. (OpenClaw Docs) 🔶 چه کارهایی می‌تواند انجام دهد؟ • خواندن و نوشتن فایل‌ها • جستجو در وب • اجرای دستورات سیستم‌عامل • مدیریت ایمیل و تقویم • اتصال به WhatsApp، Telegram، Slack، Discord و سایر سرویس‌ها • اجرای Workflow های خودکار • استفاده از MCP Server ها و ابزارهای خارجی (Hugging Face) مثلاً می‌توانید به آن بگویید: «هر روز صبح ایمیل‌های مهمم را بررسی کن، خلاصه‌شان را برایم بفرست و جلسات امروز را از تقویم استخراج کن.» یا: «مقالات جدید RAG و Agentic AI را پیدا کن و خلاصه‌شان را در یک فایل Markdown ذخیره کن.» 🔺چرا این روزها معروف شده؟ چون روی کامپیوتر شخصی اجرا می‌شود و می‌تواند با مدل‌های مختلف کار کند: • GPT • Claude • Gemini • Grok • مدل‌های محلی از طریق Ollama و LM Studio مانند Qwen، Llama و Mistral (openclawdoc.com) ✅ارتباط OpenClaw با Mac Mini چیست؟ بسیاری از افراد یک Mac Mini با حافظه زیاد (مثلاً 64 یا 128 گیگابایت) می‌خرند تا: • OpenClaw را 24 ساعته اجرا کنند. • مدل‌های محلی را با Ollama اجرا کنند. • هزینه API های Claude یا OpenAI را کاهش دهند. (build.nvidia.com) ✔️آیا واقعاً می‌توان بدون API کار کرد؟ بله، اما کیفیت به مدل محلی و سخت‌افزار بستگی دارد. برای کارهای ساده: • Qwen • Llama • Mistral خوب عمل می‌کنند. اما برای Agentهای پیچیده، بسیاری از کاربران هنوز از Claude یا GPT استفاده می‌کنند چون عملکرد Agentic و Tool Calling قوی‌تری دارند. برخی کاربران Reddit نیز گزارش کرده‌اند که اجرای کامل OpenClaw با مدل‌های محلی نیازمند سخت‌افزار قدرتمند است. (Reddit)

4 142

این مقاله از Towards Data Science درباره استفاده از یادگیری ماشین برای پیش‌بینی نتایج جام جهانی ۲۰۲۶ است که از ۱۱ ژوئن در استادیوم مکزیکوسیتی آغاز می‌شود. نویسنده مجموعه‌ای از داده‌ها شامل حدود ۴۹٬۰۰۰ بازی فوتبال (از سال ۱۸۷۲ تا ۲۰۲۶) را گرد هم آورده که شامل امتیازات الو (Elo)، نتایج بازی‌ها و محل برگزاری مسابقات است. نکات اصلی مقاله: • نویسنده با رویکردی احتمالاتی، چند مدل یادگیری ماشین مختلف (از جمله LightGBM) را با هم مقایسه می‌کند تا بهترین مدل برای پیش‌بینی نتایج بازی‌ها (برد میزبان، برد مهمان، یا تساوی) را پیدا کند. • یکی از یافته‌ها این است که مدل‌ها تمایل دارند نتیجه تساوی را نادیده بگیرند و آن را به اشتباه به‌عنوان «برد میزبان» پیش‌بینی کنند، در حالی که حدود ۲۰٪ بازی‌ها واقعاً با تساوی پایان می‌یابند. • برای بهبود این مشکل، ویژگی‌های جدیدی مانند تفاوت امتیاز تیم‌ها، نرخ تساوی در ۵ بازی اخیر، و اینکه آیا بازی در زمین خودی، زمین بی‌طرف یا دوستانه برگزار می‌شود، به مدل اضافه می‌شوند. 📊 یه نگاه فنی و جذاب به دنیای فوتبال از دریچه‌ی داده و یادگیری ماشین، برای کسایی که هم به فوتبال علاقه دارن هم به دیتا ساینس. لینک مقاله: https://towardsdatascience.com/can-machine-learning-predict-the-world-cup/?utm_campaign=tds%20daily&utm_medium=email&_hsenc=p2ANqtz--LU3CIkhxuvYVyz6NFMt1dg7-nDryNr1Thfi5oncaXlzuiYqjk_TH3XJRK6HiYbSiUUR9NumraggEdIFFHxbqqN45M-g&_hsmi=423013673&utm_source=newsletter #جام_جهانی #جام_جهانی_2026 #پیش_بینی_فوتبال #یادگیری_ماشین

4 142

بیشتر مردم فکر می‌کنند همهٔ مدل‌های هوش مصنوعی شبیه هم هستند. اما در سیستم‌های واقعی هوش مصنوعی، مخصوصاً در ایجنت‌های هوش مصنوعی (AI Agents)، انواع مختلف مدل‌های زبانی نقش‌های متفاوتی دارند. این ۸ نوع مدل، آیندهٔ سیستم‌های مدرن هوش مصنوعی را شکل می‌دهند: ۱. مدل GPT (ترنسفورمر از پیش آموزش‌دیده مولد) برای تولید محتوا، پاسخ‌گویی و استدلال عمومی. ۲. مدل MoE (ترکیب متخصص‌ها) شبکه‌های تخصصی مختلف را فعال می‌کند → سریع‌تر و بهینه‌تر در مقیاس بزرگ. ۳.مدل LRM (مدل بزرگ استدلال) برای تفکر چندمرحله‌ای پیچیده و تصمیم‌گیری طراحی شده است. ۴. مدل VLM (مدل بینایی-زبان) تصویر و متن را به‌صورت هم‌زمان درک می‌کند. ۵. مدل SLM (مدل زبانی کوچک) سبک، سریع و کم‌هزینه؛ مناسب برای مسیریابی درخواست‌ها یا وظایف ساده. ۶.مدل LAM (مدل بزرگ اقدام) بر انجام عمل، استفاده از ابزارها و تعامل با APIها تمرکز دارد. ۷. مدل HLM (مدل زبانی سلسله‌مراتبی) مسائل پیچیده را به لایه‌ها و بخش‌های ساختاریافته تقسیم می‌کند. ۸.مدل LCM (مدل بزرگ مفهومی) به‌جای تمرکز صرف بر کلمات یا توکن‌ها، مفاهیم سطح بالا را درک می‌کند. تغییری که الان در حال رخ دادن است: از یک مدل واحد: به سیستم‌های چندمدلی از چت‌بات : به ایجنت هوش مصنوعی از پاسخ دادن : به انجام دادن مهندسان برجستهٔ هوش مصنوعی فقط یک مدل انتخاب نمی‌کنند؛ آن‌ها معماری مناسب مدل را متناسب با نیاز هر مسئله طراحی می‌کنند. اگر در حال ساخت AI Agent هستی، درک این تفاوت‌ها می‌تواند مزیت مهم تو باشد. کانال تحلیل داده و هوش مصنوعی https://t.me/datalook_ir

4 142

بیشتر مردم فکر می‌کنند همهٔ مدل‌های هوش مصنوعی شبیه هم هستند. اما در سیستم‌های واقعی هوش مصنوعی، مخصوصاً در ایجنت‌های هوش مصنوعی (AI Agents)، انواع مختلف مدل‌های زبانی نقش‌های متفاوتی دارند. این ۸ نوع مدل، آیندهٔ سیستم‌های مدرن هوش مصنوعی را شکل می‌دهند: ۱. GPT (ترنسفورمر از پیش آموزش‌دیده مولد) برای تولید محتوا، پاسخ‌گویی و استدلال عمومی. ۲. MoE (ترکیب متخصص‌ها) شبکه‌های تخصصی مختلف را فعال می‌کند → سریع‌تر و بهینه‌تر در مقیاس بزرگ. ۳. LRM (مدل بزرگ استدلال) برای تفکر چندمرحله‌ای پیچیده و تصمیم‌گیری طراحی شده است. ۴. VLM (مدل بینایی-زبان) تصویر و متن را به‌صورت هم‌زمان درک می‌کند. ۵. SLM (مدل زبانی کوچک) سبک، سریع و کم‌هزینه؛ مناسب برای مسیریابی درخواست‌ها یا وظایف ساده. ۶. LAM (مدل بزرگ اقدام) بر انجام عمل، استفاده از ابزارها و تعامل با APIها تمرکز دارد. ۷. HLM (مدل زبانی سلسله‌مراتبی) مسائل پیچیده را به لایه‌ها و بخش‌های ساختاریافته تقسیم می‌کند. ۸. LCM (مدل بزرگ مفهومی) به‌جای تمرکز صرف بر کلمات یا توکن‌ها، مفاهیم سطح بالا را درک می‌کند. تغییری که الان در حال رخ دادن است: از یک مدل واحد: به سیستم‌های چندمدلی از چت‌بات : به ایجنت هوش مصنوعی از پاسخ دادن : به انجام دادن مهندسان برجستهٔ هوش مصنوعی فقط یک مدل انتخاب نمی‌کنند؛ آن‌ها معماری مناسب مدل را متناسب با نیاز هر مسئله طراحی می‌کنند. اگر در حال ساخت AI Agent هستی، درک این تفاوت‌ها می‌تواند مزیت مهم تو باشد. کانال تحلیل داده و هوش مصنوعی

4 142

Repost from رادیو چهرازی و ... 🎧📚🎬

من تندترین نقد از سوی یک انسان باهوش را به تأیید و تقلید بی تعقل میلیون‌ها انسان احمق ترجیح می‌دهم... •یوهان کپلر @Radio_chehraziii

4 142

بیشتر مردم فکر می‌کنند همهٔ مدل‌های هوش مصنوعی شبیه هم هستند. اما در سیستم‌های واقعی هوش مصنوعی، مخصوصاً در ایجنت‌های هوش مصنوعی (AI Agents)، انواع مختلف مدل‌های زبانی نقش‌های متفاوتی دارند. این ۸ نوع مدل، آیندهٔ سیستم‌های مدرن هوش مصنوعی را شکل می‌دهند: ۱. GPT (ترنسفورمر از پیش آموزش‌دیده مولد) برای تولید محتوا، پاسخ‌گویی و استدلال عمومی. ۲. MoE (ترکیب متخصص‌ها) شبکه‌های تخصصی مختلف را فعال می‌کند → سریع‌تر و بهینه‌تر در مقیاس بزرگ. ۳. LRM (مدل بزرگ استدلال) برای تفکر چندمرحله‌ای پیچیده و تصمیم‌گیری طراحی شده است. ۴. VLM (مدل بینایی-زبان) تصویر و متن را به‌صورت هم‌زمان درک می‌کند. ۵. SLM (مدل زبانی کوچک) سبک، سریع و کم‌هزینه؛ مناسب برای مسیریابی درخواست‌ها یا وظایف ساده. ۶. LAM (مدل بزرگ اقدام) بر انجام عمل، استفاده از ابزارها و تعامل با APIها تمرکز دارد. ۷. HLM (مدل زبانی سلسله‌مراتبی) مسائل پیچیده را به لایه‌ها و بخش‌های ساختاریافته تقسیم می‌کند. ۸. LCM (مدل بزرگ مفهومی) به‌جای تمرکز صرف بر کلمات یا توکن‌ها، مفاهیم سطح بالا را درک می‌کند. تغییری که الان در حال رخ دادن است: از یک مدل واحد: به سیستم‌های چندمدلی از چت‌بات : به ایجنت هوش مصنوعی از پاسخ دادن : به انجام دادن مهندسان برجستهٔ هوش مصنوعی فقط یک مدل انتخاب نمی‌کنند؛ آن‌ها معماری مناسب مدل را متناسب با نیاز هر مسئله طراحی می‌کنند. اگر در حال ساخت AI Agent هستی، درک این تفاوت‌ها می‌تواند مزیت مهم تو باشد. کانال تحلیل داده و هوش مصنوعی https://t.me/datalook_ir

4 142

Repost from Tech Immigrants

اندرو انگ در کنفرانس AI Dev 26. داستان آینده‌ای که داره اتفاق می‌افته اندرو انگ دیروز رفت روی صحنه و یه داستان تعریف کرد. نه با اسلاید پر از عدد، بلکه با یه تشبیه ساده: تصور کن فقط لگوی سفید داری. یه چیزایی می‌سازی، ولی نه چیز خیلی جالبی. حالا سیاه اضافه کن. آبی اضافه کن. قرمز و زرد. هرچی رنگ بیشتر داشته باشی، چیزای خفن‌تری می‌تونی بسازی. نرم‌افزار هم دقیقاً همینه. هر API، هر فریمورک، هر ابزار یه آجر جدیده. حالا coding agent های AI اومدن و دوتا کار کردن: هم تعداد آجرها رو منفجر کردن، هم سرعت چیدنشون رو. و این فوق‌العاده‌ست. ولی بعد یه چیز عجیب اتفاق افتاد. انگ گفت کدنویسی خودش تقریباً ۱۰۰٪ AI شده. و فرقش با ۸۰٪ خیلی زیاده. چرا؟ چون وقتی ۸۰٪ کد رو AI می‌نویسه ولی تو باید بشینی خط به خط بررسی کنی، تو می‌شی bottleneck. انگار یه ماشین فراری داری ولی ترمز دستیش کشیده‌ست. خب، وقتی ساختن اینقدر سریع شد، چی شد؟ انگ گفت یه پدیده عجیب دید: قبلاً یه مدیر محصول ۸ تا مهندس رو مشغول نگه می‌داشت. بعد شد ۱ به ۲. بعد ۱ به ۱. و بعد فهمید سریع‌ترین حالت اینه که اصلاً این دو نفر یه نفر بشن. یه آدم که هم می‌فهمه چی بسازه، هم می‌سازه. بعد طراحی هم bottleneck شد. حقوقی هم. بازاریابی هم. تیم مهندسی اونقدر سریع شیپ می‌کنه که بقیه نمی‌تونن همگام بشن. نتیجه؟ تیم‌های کوچیک از آدم‌های همه‌فن‌حریف که با کمک AI کمی از همه چیز بلدن، بهترین عملکرد رو دارن. آیا آخرالزمان شغلی شده؟ انگ گفت نه، صادقانه این رو نمی‌بینم. حتی تیم‌های خودم هم نمی‌تونیم به اندازه کافی از این مهندسا پیدا کنیم. تقاضا عظیمه. ولی یه مشکل واقعی هست. آجرها. ابزارها، APIها، فریمورک‌ها. اونقدر سریع عوض می‌شن که نه ما آدما می‌تونیم همه‌شون رو یاد بگیریم، نه coding agent هامون می‌شناسنشون. agent ها از API‌های قدیمی استفاده می‌کنن. توهم می‌زنن. مدل‌های منسوخ رو صدا می‌زنن. چون دانششون مال ماه‌ها پیشه. اینجا بود که انگ گفت: ما دوتا مشکل داریم و دوتا ابزار ساختیم. مشکل اول: agent ها به‌روز نیستن. راه‌حل: Context Hub. مستندات تازه رو می‌ده دست coding agent ت تا کد درست بنویسه، نه کد بر اساس حافظه کهنه. 🔗 https://github.com/andrewyng/context-hub مشکل دوم: ما آدما هم باید سریع‌تر یاد بگیریم. راه‌حل: Code Dream. نه یه دوره آنلاین معمولی. یه مکالمه ویدیویی با نسخه AI خود انگ که می‌تونی وسط حرفش بپری و سؤال بپرسی، و کنارش یه ترمینال واقعی داری که همونجا تمرین کنی. 🔗 https://app.codream.ai/ خلاصه داستان: agent ها قوی‌تر می‌شن، ولی به context درست نیاز دارن. ما آدما هم باید مهارت‌های مکمل رو توسعه بدیم. اسمش رو گذاشته «توسعه مهارت موازی». انسان و AI کنار هم رشد کنن، نه جای هم. 🎬 ویدیو کامل سخنرانی: https://youtu.be/g8um2AEf5ZA?is=4DfzGvizN8n_7H7i

4 142

🎓 معرفی StudentAI؛ پلتفرم هوش مصنوعی مخصوص دانشجوها و یادگیری این روزها ابزارهای AI فقط برای چت کردن نیستند و کم‌کم دارند تبدیل می‌شوند به دستیار کامل مطالعه و یادگیری. یکی از سایت‌های جالب در این حوزه، StudentAI هست: https://studentai.app/ این پلتفرم مجموعه‌ای از ابزارهای هوش مصنوعی را برای درس، تحقیق، تولید محتوا، برنامه‌نویسی و حتی آمادگی شغلی کنار هم آورده. مثلاً می‌توانید PDF یا جزوه آپلود کنید تا خلاصه‌سازی شود، از داخل فایل سوال بپرسید یا نکات مهم استخراج شود. حتی لینک ویدیوی یوتیوب را هم می‌گیرد و تبدیلش می‌کند به خلاصه و Study Notes. بخش جالب دیگرش ابزارهای نوشتاری و دانشگاهی است؛ از Essay و Paraphrasing گرفته تا تولید SOP، Cover Letter و Citation. علاوه بر این، چند AI Tutor و دستیار تخصصی هم دارد که برای یادگیری، مصاحبه شغلی یا کمک در برنامه‌نویسی طراحی شده‌اند. در واقع این نوع پلتفرم‌ها دارند ترکیبی از ChatGPT + ابزار تحقیق + معلم خصوصی + دستیار تولید محتوا را در یک محیط ارائه می‌کنند. البته مثل هر ابزار AI، خروجی‌ها نیاز به بررسی دارند و نباید بدون بازبینی برای کار علمی استفاده شوند؛ اما برای یادگیری سریع‌تر، خلاصه‌سازی و ایده گرفتن واقعاً می‌توانند مفید باشند. 🚀 https://t.me/datalook_ir

4 142

این روزها یک تصویر جالب دیدم با عنوان How to Duplicate Yourself into Claude؛ یعنی چطور یک نسخه از خودت را وارد هوش مصنوعی کنی. شاید در نگاه اول تبلیغاتی به نظر برسد، اما پشت این ایده یک مفهوم واقعی و مهم وجود دارد: اینکه بتوانی سبک فکر کردن، لحن نوشتن، ترجیحات، ارزش‌ها و روش تصمیم‌گیری خودت را به یک مدل هوش مصنوعی منتقل کنی تا مثل یک دستیار شخصی حرفه‌ای کنارت کار کند. منظور از «کپی کردن خودت» این نیست که واقعاً انسان دیگری ساخته می‌شود. منظور ساختن یک نسخه دیجیتالی از ذهن و سبک کاری توست. یعنی دیگر لازم نباشد هر بار از صفر برای AI توضیح بدهی که چگونه می‌نویسی، چه چیزهایی را دوست داری، چه چیزهایی را قبول نداری یا خروجی را با چه استانداردی می‌خواهی. یک بار این اطلاعات را ساختارمند می‌کنی و بعد مدل می‌تواند بسیار هماهنگ‌تر با تو کار کند. مراحلی که در تصویر برای Claude گفته شده هم جالب بود. ابتدا باید Claude را نصب کنی و حالت Cowork Mode را فعال کنی؛ حالتی که مدل را بیشتر شبیه همکار هوشمند می‌کند. سپس یک پوشه برای «صدای شخصی» خودت می‌سازی؛ یعنی جایی که نمونه نوشته‌ها، لحن، طرز فکر و قواعد شخصی تو در آن ذخیره شود. بعد از آن مدل Opus انتخاب می‌شود و گزینه Extended Thinking فعال می‌شود تا مدل زمان و عمق بیشتری برای استدلال و تحلیل داشته باشد. سپس پیشنهاد شده به جای تایپ کردن، با مدل صحبت کنی و به مجموعه‌ای از سؤالات پاسخ بدهی؛ سؤالاتی درباره سبک کار، سلیقه، روش تصمیم‌گیری، چیزهایی که دوست داری، چیزهایی که قبول نداری و حتی عبارت‌هایی که هیچ‌وقت استفاده نمی‌کنی. این بخش در واقع مرحله استخراج شخصیت حرفه‌ای توست. در ادامه این اطلاعات خام فشرده و ساختارمند می‌شود و به شکل یک فایل متنی ذخیره می‌شود؛ چیزی شبیه پروفایل ذهنی تو. بعد این فایل در یک گفت‌وگوی جدید تست می‌شود تا مشخص شود مدل چقدر توانسته لحن و تفکر تو را بازسازی کند. سپس می‌توان آن را در ابزارهایی مثل Obsidian مدیریت کرد، و حتی به مدل‌های دیگر مثل ChatGPT، Gemini یا Grok هم منتقل کرد. نکته هوشمندانه تصویر این بود که قبل از این فرآیند، کاربر زمان زیادی صرف نوشتن و توضیح دادن می‌کند و مدل کمتر فکر می‌کند. اما بعد از ساخت این نسخه شخصی‌سازی‌شده، تو کمتر تایپ می‌کنی و بیشتر نقش هدایت‌گر را داری، در حالی که مدل بخش سنگین فکر کردن و تولید خروجی را انجام می‌دهد. از نگاه تخصصی، این موضوع ترکیبی از مفاهیمی مثل Prompt Engineering، Persona Modeling، AI Memory و Personal Knowledge Base است. آینده استفاده حرفه‌ای از AI فقط سؤال پرسیدن نیست؛ بلکه ساختن سیستم‌هایی است که تو را بشناسند و در امتداد توانایی‌هایت عمل کنند. اگر بخواهم در یک جمله بگویم: آینده متعلق به کسانی است که فقط از AI استفاده نمی‌کنند، بلکه نسخه‌ای از تخصص و ذهن خودشان را روی AI سوار می‌کنند. #هوش_مصنوعی #Claude #ChatGPT #DigitalTwin #AI #Productivity #FutureOfWork #فناوری

4 142

«مهندس هوش مصنوعی» در حال تبدیل شدن به یکی از بدفهمیده‌ترین(اصطلاح بهتر پیدا نکردم:)) عناوین شغلی در دنیای فناوری است. 🔍وقتی مردم این عنوان را می‌شنوند، تصور می‌کنند منظور کسی است که مدل‌های زبانی بزرگ را از صفر آموزش می‌دهد. 🔑اما واقعیت چیست؟ حداقل 4 نقش متفاوت زیر این عنوان قرار می‌گیرند که کاملاً با هم فرق دارند: 1_مهندس یادگیری ماشین / مهندس مدل 🔬 ML / Model Engineer پیش‌آموزش (Pre-training) فاین‌تیون (Fine-tuning) RLHF (یادگیری تقویتی از بازخورد انسانی) ارزیابی مدل‌ها (Evals) ارسال این افراد مستقیماً با وزن‌های مدل کار می‌کنند. این نقش از همه به حوزه تحقیق نزدیک‌تر است. نیازمند ریاضیات عمیق، CUDA و دانش سیستم های توزیع شده است. 2_مهندس استنتاج Inference engineer مدل آموزش دیده است. حالا سؤال این است: چطور آن را برای 10 میلیون کاربر با تأخیر کم و هزینه پایین سرویس‌دهی کنیم؟ وظایف اصلی: Quantization (کوانتیزه‌سازی) Speculative Decoding بهینه‌سازی KV-Cache کرنل‌های سفارشی GPU این یک نقش تخصصی و بسیار اثرگذار است که تا 3 سال پیش تقریباً وجود نداشت. 🏗️ مهندس زیرساخت هوش مصنوعی / MLOps وظایف: مدیریت کلاسترهای GPU پایپ‌لاین استقرار مدل مقیاس‌پذیری خودکار زیرساخت سرویس‌دهی مانیتورینگ هزینه‌ها CI/CD برای پروژه‌های ML این همان نقش «چراغ‌ها را روشن نگه دار» است؛ نقشی که باعث می‌شود همه بخش‌های دیگر کار کنند. 🛠️ مهندس اپلیکیشن LLM محصولاتی را بر پایه مدل‌ها و از طریق APIها می‌سازد. حوزه‌های کاری: پایپ‌لاین‌های RAG ورک‌فلوهای Agentic استفاده از ابزارها (Tool Use) طراحی پرامپت ارزیابی رفتار اپلیکیشن این نقش معمولاً هیچ کاری با وزن‌های مدل یا زیرساخت GPU ندارد. حقیقت ناراحت‌کننده این است: بیشتر آگهی‌های شغلی با عنوان AI Engineer در واقع به دنبال دسته چهارم هستند. اما بیشتر داوطلبان (و حتی مدیران استخدام) فکر می‌کنند منظور دسته اول است. اگر در حال استخدام هستید: دقیق مشخص کنید کدام نوع مهندس هوش مصنوعی را می‌خواهید. منبع مطالب تحلیل داده، هوش مصنوعی، هوش تجاری و یادگیری ماشین ارتباط با ادمین در بله ‎@minaDataScience شناسه کانال در بله @ai_with_mina

4 142

🎯 چطور فریمورک مناسب برای Agentهای هوش مصنوعی رو انتخاب کنیم؟ خیلی‌ها فکر می‌کنن این ابزارها رقیب هم هستن، ولی واقعیت اینه: 👉 این‌ها فقط کتابخانه‌های مختلف پایتون هستن، مثل مقایسه NumPy و Pandas! پس سوال درست اینه: ❓ «من دارم چی می‌سازم؟» هر فریمورک برای یک سطح از پیچیدگی و یک نوع مسئله طراحی شده. --- 🔥 ۵ فریمورک مهم برای AI Agentها: --- 🧠 1. کتابخانه LangGraph 📌 مناسب برای: - کنترل کامل روی state ایجنت - ورک‌فلوهای پیچیده (loop، شرط، شاخه‌بندی) - سیستم‌های production 💡 کاربردها: - تشخیص پزشکی مرحله‌ای - بررسی اسناد با تصمیم‌گیری شرطی - کشف تقلب مالی با reasoning چندمرحله‌ای ⚠️ کنترل بسیار بالا، ولی منحنی یادگیری سخت‌تر --- 🤖 2. کتابخانه CrewAI 📌 مناسب برای: - سیستم‌های چند ایجنتی (multi-agent) - معماری role-based و خوانا - توسعه سریع و prototype 💡 کاربردها: - تیم تحقیقاتی (یک ایجنت جستجو، یکی تحلیل) - تولید محتوا (نویسنده، ویراستار، ناشر) - اتوماسیون فروش 🚀 سریع‌ترین راه برای ساخت سیستم multi-agent --- 📊 3. فریمورک PydanticAI 📌 مناسب برای: - خروجی‌های ساختاریافته - نیاز جدی به اعتبارسنجی داده - ادغام با پروژه‌های Python موجود 💡 کاربردها: - پردازش گزارش‌های مالی - ایجنت‌های API-based - سیستم‌های حساس به صحت داده ✅ ولیدیشن در سطح core (نه یه ویژگی اضافه) --- ⚙️ 4. کتابخانه OpenAI Swarm 📌 مناسب برای: - یادگیری عمیق نحوه کار ایجنت‌ها - حداقل abstraction - درک واقعی handoff بین ایجنت‌ها 💡 کاربردها: - پروژه‌های آموزشی - پروتوتایپ سریع سیستم‌های سبک - تحلیل رفتار ایجنت‌ها 🪶 سبک‌ترین و شفاف‌ترین گزینه برای یادگیری --- 🔗 5. فریمورک MCP (Model Context Protocol) 📌 مناسب برای: - اتصال ایجنت‌ها به ابزارهای خارجی - یکپارچه‌سازی بین فریمورک‌ها - کار با سیستم‌های واقعی 💡 کاربردها: - اتصال به دیتابیس‌ها بدون کدنویسی اضافی - دسترسی استاندارد به فایل سیستم - اتصال به APIها ❗ این یک فریمورک نیست، یک پروتکل است (Glue Layer) --- 📌 جمع‌بندی سریع (Decision Matrix): ✔️ منطق پیچیده → LangGraph ✔️ سیستم چند ایجنتی → CrewAI ✔️ خروجی ساختاریافته → PydanticAI ✔️ یادگیری عمیق → Swarm ✔️ اتصال به ابزارهای خارجی → MCP 💬 در نهایت: «کتابخانه‌های متفاوت، عمق‌های متفاوت، ولی یک هدف مشترک: ساخت Agentهای کاربردی»

4 142

⚙️ 4. کتابخانه OpenAI Swarm 📌 مناسب برای: - یادگیری عمیق نحوه کار ایجنت‌ها - حداقل abstraction - درک واقعی handoff بین ایجنت‌ها 💡 کاربردها: - پروژه‌های آموزشی - پروتوتایپ سریع سیستم‌های سبک - تحلیل رفتار ایجنت‌ها 🪶 سبک‌ترین و شفاف‌ترین گزینه برای یادگیری --- 🔗 5. MCP (Model Context Protocol) 📌 مناسب برای: - اتصال ایجنت‌ها به ابزارهای خارجی - یکپارچه‌سازی بین فریمورک‌ها - کار با سیستم‌های واقعی 💡 کاربردها: - اتصال به دیتابیس‌ها بدون کدنویسی اضافی - دسترسی استاندارد به فایل سیستم - اتصال به APIها ❗ این یک فریمورک نیست، یک پروتکل است (Glue Layer) --- 📌 جمع‌بندی سریع (Decision Matrix): ✔️ منطق پیچیده → LangGraph ✔️ سیستم چند ایجنتی → CrewAI ✔️ خروجی ساختاریافته → PydanticAI ✔️ یادگیری عمیق → Swarm ✔️ اتصال به ابزارهای خارجی → MCP -- 💬 در نهایت: «کتابخانه‌های متفاوت، عمق‌های متفاوت، ولی یک هدف مشترک: ساخت Agentهای کاربردی»

4 142

Repost from Data world with Mina

درود به اعضای کانال 💫 امیدوارم اینترنت داشته باشید و در سلامت پیامم رو ببینید 🥺❤️ ممنون میشم با ری اکشن و ایموجی از خودتون و سالم بودنتون خبر بدید. تو پیام رسان "بله" کانال زدم که تو شرایط قطعی نت بتونیم باهم در ارتباط باشیم ،گرچه این روزها هممون تاب آوری و بقا رو تمرین میکنیم. «هوش مصنوعی و یادگیری ماشین» 🆔 شناسه: https://ble.ir/ai_with_mina به امید دیدار تو روزهای سپید 💫✌️

4 142

هفت پروژه مهندسی داده بسیار کاربردی (سناریوهای واقعی، نه Kaggle 👇🏻) ۱. پایپ‌لاین API به انبار داده (API-to-Warehouse Pipeline) دریافت داده از یک API عمومی (مثل OpenWeather یا Spotify). مدیریت بارگذاری تدریجی (Incremental Loading) در Postgres. ⚙️ تکنولوژی‌ها: Python، dlt، Postgres، Docker https://dlthub.com/docs/intro ۲. انبار داده مدرن با dbt لود کردن دیتاست نمونه Jaffle Shop در Postgres. ساخت مدل‌ها از لایه staging به marts به همراه تست‌ها، مستندسازی و اسنپ‌شات‌های SCD2. ⚙️ تکنولوژی‌ها: dbt Core، SQL، Postgres، Git 🔗 https://docs.getdbt.com/guides/manual-install ۳. پروژه DAG Airflow با سنسورها و backFills زمان‌بندی دریافت روزانه داده از دیتاست شکایات NYC 311. اضافه کردن سنسورها، شاخه‌بندی (branching) و تلاش مجدد (retry) با backoff. ⚙️ تکنولوژی‌ها: Apache Airflow، Python، Docker 🔗 آموزش Airflow: https://airflow.apache.org/docs/apache-airflow/stable/tutorial/ ۴. استریم رویداد با Kafka اجرای Kafka به صورت لوکال و تولید داده‌های مصنوعی (مثل کلیک و سفارش) با Python و Faker. ساخت یک consumer که داده‌ها را به صورت real-time تجمیع کرده و در Postgres ذخیره کند. تکنولوژی‌ها: Kafka، Python، Faker، Docker 🔗 مبانی Kafka: https://developer.confluent.io/courses/apache-kafka/events/ ۵. پردازش دسته‌ای با PySpark (PySpark Batch Processing) پردازش داده‌های یک ماه از GitHub Archive (حدود ۵۰ گیگابایت رویداد) به‌صورت محلی با PySpark. تمرین پارتیشن‌بندی (partitioning)، اتصال‌ها (joins) و نوشتن داده. ⚙️ تکنولوژی‌ها: PySpark، Parquet، Python، Docker 🔗 GH Archive: https://www.gharchive.org/ ۶. لیک‌هاوس مدالیون (Medallion Lakehouse) دریافت داده‌های سفر تاکسی نیویورک در لایه‌های برنز → نقره → طلا با استفاده از فرمت جدول باز. بهره‌مندی از تکامل اسکیمای داده (schema evolution) و قابلیت time travel به‌صورت پیش‌فرض. ⚙️ تکنولوژی‌ها: Postgres، Apache Iceberg، Parquet، Python 🔗 معرفی Iceberg: https://iceberg.apache.org/spark-quickstart/ ۷. چارچوب کیفیت داده (Data Quality Framework) گسترش DAG در Airflow از پروژه ۳ با افزودن بررسی‌های خودکار برای: مقادیر خالی (null)، بازه‌ها (ranges)، اسکیمای داده و به‌روز بودن (freshness). ⚙️ تکنولوژی‌ها: Great Expectations، Python، Airflow 🔗 Great Expectations: https://docs.greatexpectations.io/docs/

4 142

🔻دسترسی به تعدادی از سایت‌ها و سرویس‌های بین‌المللی که عموما مورد نیاز توسعه‌دهندگان و دانشجویان هستند، برقرار شده است. 🔻سایت‌ letsencrypt.org که برای صدور گواهی SSL ضروری است، نیز در دسترس قرار گرفته‌اند. 🔻فهرست سایت‌هایی که دسترسی به آن‌ها میسر شده است: https://letsencrypt.org/ https://react.dev https://vercel.com https://ubuntu.com/ https://nextjs.org https://www.python.org/ https://link.springer.com https://pubmed.ncbi.nlm.nih.gov https://www.digicert.com/ https://www.sciencedirect.com/ https://www.certum.eu/en/ https://sourceforge.net/ https://pypi.org/ https://crates.io https://www.ieee.org @ai_with_mina