9 634
订阅者
+424 小时
+307 天
+10530 天
帖子存档
Repost from RandRng
نسل بعدی مدلها بنظرم خیلی بهتر خواهند شد :
Qwen AgentWorld
بنظرم این حرکت در راستای
JEPA خواهد بود و این Gap بین LLM و JEPA رو برای مدتی میپوشونه تا نتایج مدلهای بر پایه JEPA خیلی بهتر بشه.این ادعای بنچمارک یک مدل ۳ میلیارد پارامتری هست؛ تخصصی برای تسکهایی که نیاز به Thinking دارند.
و نتایجی نزدیک به مدلهای بیش از
300x بزرگتر
Hugging face
Paper12M context window
52x faster than Flash-attention
up to 1000x more efficient
جدیدا مثل اینکه Early Access براش باز شده اگر تونستم دسترسی بگیرم حتما بررسی میکنم و نتایجش رو میذارم.
فعلا که وبسایت پر باگی دارند.
Repost from RandRng
اینم یک تست دیگه از این مدل هست؛ خواستم برای ویدئوهای یوتیوب یک تیکه ویدئو کوچیک بسازم از لوگو
Gemini, ChatGPT, Claude, Grok, Qwen
رو تست کردم ولی هیچکدوم نتونستند این کار رو بکنند (با کد این ویدئو ساخته شده)
چندتا تست فرانت روی این مدل زدم و دیدم خیلی عالی روی کدهای فرانت اند کار میکنه (فوقالعاده هست برای طراحی) به ذهنم رسید همین کار رو با این مدل هم تست کنم.
همون پرامپت جزئی که به مدلهای قبلی دادم رو به این مدل هم دادم و خروجی رو میتونید خودتون مقایسه کنید.
پینوشت:
این مدل با پرامپت خوب؛ هیولاتر از چیزی هست که بنچمارکها دارند گزارش میدهند
جالبترین نکته:
بنچمارکهای خصوصی نتایج بهتری نسبت به بنچمارکهای منتشر شده توسط خود تیم GLM دارهRepost from RandRng
دیروز یا پیروز
GLM5.2 روی وبسایت
chat.z.ai
اضافه شد و این یعنی نسخه نهایی هست (نسخهای که قبلتر روی api اومده بود نهایی نشده بود)
بعنوان یک مدل رایگان و opensource باید بگم هیولا هست؛ برای من نصف تستهام که روی کدها انجام میدادم رو با همون تلاش اول بطور درست حل کرد (این موارد رو حذف کردم از لیست)
آمار جالبی هم ازش منتشر شده؛ بطوریکه شرکتهای با بنچمارکهای خصوصی حالا اون رو رقیب مدلهای Claude برای کد زدن و رقیب مدلهای OpenAI برای چتهای کلی میدونند.
اما نتابج فوقالعاده بهتری میشه ازش گرفت به این شرطها :
۱- اگر نیاز به سرچ داره؛ گزینه advance search رو فعال کنید یا دقیقا منبع رو بهش بدید
۲- پرامپت رو طولانی نکنید؛ سعی کنید مشکل رو توی کوچکترین متن ممکن بهش بدید اما رمزنگاری شده هم نباشه:
اشتباه :
نگید کد کند شده؛ مشکل از دیتابیس هست.
درست :
این کد کند شده؛ چون تعداد درخواستهای همزمان به n تعداد افزایش پیدا کرده و مستقیم از دیتابیس پستگرس داره میخونه که از کانفیگ دیفالت استفاده میکنه
۳- پرامپت فارسی بهش ندید؛ شخصا توی خیلی از مدلها دیدم وقتی غیر انگلیسی باهاش چت میکنم نتابج ضعیفتر میشه.
۴- اگر توی prompt یک نمونه از خروجی که میخواید رو بهش بدید هم عملکرد بهتری داره
متاسفانه این مدل COT رو نمایش نمیده (قبلتر نوشتم چرا خوندنش مهم هست؛ توی پستی که راجب deepseek بود)
و الان هم این مدل رو معرفی کردم مجدد چون دسترسی به z.ai برای ایرانیها مجدد باز شد.
درنهایت:
با اضافه شدن ۴ مورد بالا؛ ۷۵٪ از تستهای خصوصی من رو حل کرد و این تستها مواردی هست که مدلهای دیگه نتونسته بودند انجام بدند (قبلتر راجبش پست گذاشته بودم)
پیشنهاد میکنم حتما این مدل رو تست کنید.
برای یک سری تسکهای مثل این هست که پیشنهاد میکنم شرکتهایی که جدی روی هوش مصنوعی کار میکنند حتما
DGX Spark
رو حداقل برای تیمهای هوش مصنوعی بخرند.اگر از agent ها زیاد استفاده میکنید احتمالا این مورد نتایج رو براتون بهبود بده؛
Repost from RandRng
برق قطع شده بود چند ساعت پیش؛ نشستم پای تبلت و یک مقدار توی لینکدین و کانالهای ایرانی گشتم.
طرف یک کار کوچیک رو برای خودش همچین دستاورد کرده آدم پشماش میریزه؛ برید vLLM رو سرچ کنید متوجه میشید چی میگم :
میخوام کاسبی بهم بریزم :
vLLM Recipes
این لینک به راحتی همه آن چیزی که برای دیپلوی سریع یگ مدل نیاز دارید رو بهتون میده؛ کامند + ورژن + فلگهای موجود و ...
هر کسی ۵ دقیقه داکیومنت
vLLM رو خونده باشه این رو باید پیدا کنه.
خطاب به اون دوستان :
ازینا دستاورد نسازید واسه خودتون بعد از این رو بگید که چه optimization هایی انجام دادید و چقدر بهبود داشتید و ...
من اصل مطلب رو داشتم توی بوکمارکهام دیدم خیلیها علاقهمند بودند توی لینکدین گفتم بجای اینکه براشون ماهی بگیرم؛ ماهی گرفتن رو یادشون بدم.
دعوای ورژن هم ندارید؛ وارد سایت که بشید بالای صفخه براتون نوشته دقیقا چه ورژنی از vLLM این مدل رو پشتیبانی میکنه
مثال :
من مدل JetBrain رو انتخاب کردم که توی Nightly پشتیبانی میشه و روی BF16 برای vLLM به 29GB رم نیاز داره.
پارامترهای دیگهاش هم هست؛ میخواید tool call رو غیرفعال کنید (من اینو انتخاب کردم) و باقی موارد توی بخش advance
پایینتر هم بیاید توضیحات آموزشی براتون گذاشته.Repost from RandRng
توی لینکدین هر کاربر ایرانی که داستانهای واقعی رو نصف و نیمه میکنه و فقط بخش خوب قضیهی استفاده از AI برای توسعه کد رو میگه،
پروفایلش رو به دقت نگاه کنید.
توی ۷-۸ موردی که من دیدم، همگی
TechLead, CEO, CTO, ... شرکتهای هوش مصنوعی داخلی بودند که خب اگر شما ازشون توکن نخرید وضعیت خوبی نخواهند داشت.
داستانهای دیگری که باید بشنوید:
۱- لینوس توروالدز (پروژهای رو vibe کد زده) آره اما مصاحبهاش رو هم ببینید LTT یوتیوب، که گفت هیچ سوادی راجب این بخش نداره و میخواد فقط یک چیزی رو برای خودش تست کنه.
اما، این شرکتها وقتی صحبت میکنند طوری اعلام میکنند که انگار کرنل لینوکس رو با vibe coding نوشتند.
۲- تغییر bun از zig به rust ؛ این مورد رو شخصاً قبلتر براتون واضح بررسی کردم.
zig, rust
شبیه به هم کدها فقط از یک سورس به سورس دیگه transcompile شده انگار بخش unsafe دست نخورده و کامل فقط کپی شده
از همه بدتر، هیچ صحبتی از میزان هزینه و تعداد توکن مصرفی نشده.
۳- بنچمارک جدیدی برای Software Engineering اومده، برخلاف بنچمارکهای قبلی نه از گیتهاب پروژههای عمومی و نه از بخش discussion و ... ساخته نشده.
دلیلش هم این بوده که، بالاخره این دیتا توی آموزش مدل حتماً به نحوی استفاده شده پس سوالات و جوابهارو خودشون طراحی کردند.
نتایج ؟ هیچ کدوم از مدلها به اندازهای که گفتند قوی نبودند.
۴- شرکت اوبر، اعلام شده بودجهی AI برای سال ۲۰۲۶ توی ۴ ماه مصرف شده و حالا دارند به این موضوع فکر میکنند که شاید از اول اشتباه کردند.
و کلی موارد دیگر، من تخصصم خیلی سال روی AI بوده و هست. هرچقدر پول بیشتری وارد این حوزه بشه من هم سهم بزرگتری خواهم داشت
اما، من برای منفعت خودم به کسی رویا نمیفروشم، واقعیت رو دست و پا شکسته نمیگم.
شما هم حداقل به پروفایل شخصی که دارید پستش رو میخونید نگاه کنید.
#شب_بخیر 🌹Repost from RandRng
به ذهنم رسید همین کار رو برای این کتاب هم میشه کرد؛ ولی خب این کتاب ویدئویی براش وجود نداره.
این شد که به هوش مصنوعی رو آوردم بدون اینکه لذت خوندن کتاب رو از کسی بگیریم ازش خواستم کتاب رو تبدیل به پادکست کنه اما توی کل پادکست باید همه چیز با مثال پیش بره و خیلی ساده و روان باشه.
برای منی که این مباحث رو اکثرا کار کردم بنظرم خیلی ساده اومد؛ شما هم گوش بدید ببینید چطور هست ؟
بنظرتون اینکار و پادکست کردن فصل به فصل کتابها ادامه بدم یا نه ؟
البته باقی پادکستها رو توی این کانال نخواهم گذاشت؛ چون کانال رو پر میکنه.
اول این سمپل پادکست رو گوش بدید و بعد کتاب رو بخونید سادهتر میشه قضیه برای شما هم ؟
آیا این بخش پادکست به اندازه کافی مباحث رو ساده توضیح داده ؟
پینوشت:
reaction بزنید روی پست متوجه میشم ادامه بدیم یا نه؛ البته شخصا اینکار رو ادامه خواهم داد. چون وسط هرکاری میتونم این پادکست رو گوش بدم.Repost from RandRng
Designing Data-Intensive Applications
یکی از کتابهای مورد علاقه من هست؛ وقتی نسخه اول این کتاب منتشر شد من هم بسیار درگیر سیستمهایی بودم که دیتای زیادی داشتند و BigData بخشی از کارم بود.
خوندن این کتاب دریچه جدیدی رو برام باز کرد و الان که فکر میکنم کتاب سنگینی بود؛ حالا چرا الان این رو میگم ؟
قبل از اتفاقات اخیر کمک یکی از دوستان قدیمی میکردم که تازه (۲ سال) هست وارد دنیای برنامهنویسی بعنوان شغل شده و چندوقتی رو درگیر یک سری مشکلات پروژهاش بوده؛ بعد از اینکه کمکش کردم مشکلش حل شد ازم پرسید این موارد رو از کجا یاد گرفتی و چطوری میتونم یاد بگیرم ؟
منم این کتاب رو بهش معرفی کردم.
امروز دوباره پیام داد (ایران نیستند) و بعد از صحبت از کتاب گفت که بسیار خوندنش سخت هست براش؛ برای خیلی از سنیورها هم درک این موضوعات سخت هست بطور کلی این کتاب کتاب آسونی نیست هرچند همه چیز ساده بیان شده.
همینطوری که داشتم فکر میکردم چطوری میشه این کتاب رو برای دیگران ساده کرد و پروسه یادگیری خودم رو مرور میکردم ( همون روش ویدئو ببین و تخمه بشکون : ویدئو اول یوتیوب pyhints )Repost from RandRng
17.91 token/secبرای شروع عدد خوبی هست ؟ روی
GTX 1060 با ۶ گیگ گرافیک فکر کنم این GPU الان ۳۰ دلار قیمتش باشه
ولی داره Qwen3.6 با ۳۵ میلیارد پارامتر رو اجرا میکنه
docker run --gpus all --cap-add=IPC_LOCK \
-p 8080:8080 \
-v ~/.ai_models:/models:ro \
-e LD_LIBRARY_PATH=/app \
reg.home.arpa/ggml-org/llama.cpp:server-cuda \
-m /models/Qwen3.6-35B-A3B-UD-Q4_K_M.gguf \
--n-cpu-moe 34 \
--no-mmap \
--mlock \
--cache-type-k q8_0 \
--cache-type-v q8_0 \
--host 0.0.0.0 \
--port 8080
خداییش این رو کپی نکنید؛ البته ۹۹٪ اعضای کانال فروارد میکنند (دمتون گرم ❤️) آمار فروارد رو دیدم ولی خب برای اون ۱٪ که پستهام رو تو لینکدین به اسم خودشون میذارند این یکی رو اینکار رو نکنید.
واقعا انرژی گرفت ازم
اگر خواستید خودتون اجرا کنید :
۱- حتما llamacpp رو آپدیت کنید؛ نسخه cuda 13 رو نگیرید؛ nvidia 1060 به زور cuda 13.0 رو پشتیبانی میده
نسخه درایور nvidia روی باید بالاتر از 570 ببرید (خیلی جاها میگن 575) من مستقیم برای آخرین نسخه ها رفتم و درنهایت متوجه شدم که 580 آخرین نسخهای هست که این کارت گرافیک رو پشتیبانی میکنه پیشنهاد میکنم که دقیقا هم روی این نسخه بمونید.
۲- به هیچوجه سراغ درایور open source نرید؛ یک سری باگهایی داره که نتایج خیلی بدی بهتون میده
۳- پارامترها رو من تا جایی که شده اپتیمایز کردم پس همین اعداد رو بذراید باشه؛ اگر gpu شما حافظه بیشتری داره پیشنهاد میکنم
—n-cpu-moeرو عدد کوچکتری بذارید تقریبا هر لایه ۵۰۰ مگ گرافیک میخواد یعنی اگر
gpu شما ۸ گیگ هست شما این مقدار رو میتونید بجای 34 توی تست من روی 32 بذارید تا مقدار بیشتری از لایهها روی gpu قرار بگیره
درنهایت؛ یک تکنیک دیگر هست که فکر میکنم با اضافه کردن اون به ۲۰ هم برسم یا شاید بتونم کانتکست رو دستی تنظیم کنم روی 256K و اون هم TurboQuant هست برای k-v cache من اینجا برای اطمینان از base-line با q8 که نرم هست رفتم جلو.
میزان مصرف هم اینطوری هست که :
5684MiB / 6144MiB Nvidia 1060GPU
و حدود ۱۹ گیگ از رم سیستم رو استفاده کرده.
البته من چون سیستم رو استفاده میکنم با محیط گرافیکی اومدم بالا و کمی از رم برای اون استفاده شده
——————————
البته همهی اینها به لطف یکی از دوستان بود که vpn لازم برای تست رو فراهم کرد. ❤️🌹
پینوشت:
من تا اینجا هدفم سرعت توکن خروجی بود؛ بعد از این با TurboQuant و تکنیک های جدیدی که معرفی شده سعی میکنم کانتکست توکن رو افزایش بدم.Repost from RandRng
بخاطر عدم دسترسی به اینترنت بینالمللی باب شده خیلی از شرکتها و خیلی از بچهها از لینکهای داخلی برای دانلود مدلهای هوش مصنوعی استفاده میکنند.
چون
huggingface در دسترس نیست.
برای تست منم همینکار رو کردم و مدل gemma-4-E2B-it-Q4_K_M.gguf رو از چندین منبع که تو گروها معرفی شده بود دانلود کردم (همینجا بگم؛ خوب پیش نرفت) :
۱- ۵۰٪ موارد مدلها آپدیت نشده بود؛ یک سری مشکلات باعت میشد دقت مدلها پایین بیاد گوگل این موضوع رو با آپدیت مدلها چندروز بعد از انتشار برطرف کرد ولی خیلی از لینکهای داخلی آپدیت نشدند و عملا بدرد نمیخوره.
۲- خیلی از سایتها sha256 مدل با sha256 چیزی که huggingface منتشر میکنه نمیخونه!
اگر به api مربوط به hugging face درخواست بدید sha256 مدلهارو میتونید ببینید :
unsloth-sample-api-link :
https://huggingface.co/api/models/unsloth/gemma-4-E2B-it-GGUF/tree/main
توی مواردی که من مقایسه کردم؛ همگی متفاوت بود.
غیر از اونهایی که بنظر سایتهای رسمی میاد ولی متاسفانه آپدیت مدلها رو نداشتند.
گفتم اینجا بذارم چون عدهی زیادی (شاید ۹۹٪) حتی نمیدونند این api و sha256 ها وجود داره.
پیشنهاد میکنم بسیار مراقب باشید. نمیدونم چندنفر تا الان ارین لینکهای داخلی استفاده کردند ولی مطمئن خیلیهاشون حتی به بررسی sha256 فکر هم نکردند. بخصوص اونا که روی سیستم شرکتی کار میکنند.Repost from RandRng
یادآوری کنم:
نه بنده و نه هیچ کدوم از کانالهای بنده روی هیچ یک از پلتفرمهای ایرانی اکانت نداره و نخواهد داشت.
ویدئویی، متنی یا ...
اینو بزارم و برم
مثل اینکه یک سری از دیتاسنترها دارند کارتهای nvidia v100 خودشون رو به فروش میزارند
قیمت زیر ۱۰۰ دلار هست - ۱۶ گیگ هم گرافیک داره
من توی سرچهام حتی این ویدئو رو هم توی یوتیوب پیدا کردم
Youtube Link
که با سوال از Ask AI یوتیوب طرف تونسته با ollama روی v100 مدل gpt-oss-20b رو اجرا کنه و 130 توکن هم بهش خروجی میداده.
ما هنوز منتظر اتصال اینترنت جهت وصل شدن به سایت
pytorch.org
و شروع به ادامه زندگی بعد از اتفاقات از دیماه هستیم.
Repost from RandRng
یک راهکار این هست که داکر ایمیج رو از یک دوستی که قبلتر
pull کرده بگیرید.
چون دیدم دوستان خودم این روش رو بلد نیستند گفتم اینجا هم بذارم:
سناریو اینطوری هست.
من روی registry شخصی خودم این image رو نداشتم و برای راهاندازی پروژه یکی از دوستان بهش نیاز داشتم، بعد از تماس با دوست دیگری متوجه شدم اونها هفته قبل موفق به pull کردن این ایمیج شدند و من اینطوری image رو برداشتم فرض کنیم مثلاً postgres:18 رو لازم داشتم
روی سروری که ایمیج رو داشتند (بله من از دوستانم دسترسی مستقیم به سرور میگیرم)
docker save postgres:18 | gzip > postgres_dockerimg.tar.gz
بعد این فایل رو با scp از سرور به سیستم خودم، و از سیستم خودم به سروری که ایمیج رو نداشت منتقل میکنم و این دستور رو روی اون سیستم میزنم :
docker load < postgres_dockerimg.tar.gz
و تمام حالا image رو روی این سرور دارم و میتونم به کارم ادامه بدم، اگر لازم شد میتونید با docker tag اسم و اطلاعات image رو تغییر بدید.
پینوشت :
یک توصیه امنیتی، اگر image رو از کسی یا جایی گرفتید که بهش اعتماد ندارید (۹۹.۹٪ بهتره اعتماد نداشته باشید)
اول این دستور رو وارد کنید:
docker image inspect --format='{{.Id}}' postgres:18
خروجی این باید یک sha256 باشه.
وارد سایت hub.docker.com بشید (گفتم که سایت کند باز میشه ولی pull نمیده چون کلودفلیر بستهاس) ایمیج مدنظر رو و تگ درستش رو پیدا کنید وارد جزئیات که بشید
Index Digest
رو گذاشته باید با چیزی که توی ترمینال دیدید یکسان باشه.
اگر نبود image دستکاری شده و بهتره باهاش کانتینر اجرا نکنید.ادیت پیام یکی از دوستانم:
اگر تونستی Qwen3.6 رو تست کن نتایج بهتری از Gemma4 روی تسکهای Agentic داره و برای کد زدن هم خیلی خوب عمل میکنه.البته من روی یکی از پروژههاش که کمی در جریان بودم هم عملکرد این مدل رو دیدم و بنظرم برای تسکهای مربوط به کد عملکرد خیلی خوبی داره واقعا
Repost from RandRng
خواستم بگم اینا باعث شدند که اینترنت طبقاتی داریم الان
بعد سگ و شغال میومدند میگفتند برای امنیت اینترنت رو قطع کردند.
خب جاکشای پدرسگ، الان فقط اونی که توان مالی خرید نداره نمیتونه اینترنت داشته باشه.
مغز عرررزشی جماعت رو با تاپاله گاوی پر کردن
اینترنت آزاد برای همه باید باشه
اینترنت مهمترین ابزار برای پیشرفت هست
اینترنت مهمترین ابزار برای یادگیری هست
برای بچههایی که طبقه اجتماعی (درآمدی) پایینتری دارند اینترنت بهترین ابزار برای یادگیری و داشتن آینده بهتر هست.
ولی عرررزشی پدرسگ زبون نفهم، انقدر خر بود که باعث شد این ابزار فقط از قشر ضعیفتر (مالی) جامعه گرفته بشه.
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
