Tensorflow(@CVision)
اخبار حوزه یادگیری عمیق و هوش مصنوعی مقالات و یافته های جدید یادگیری عمیق بینایی ماشین و پردازش تصویر TensorFlow, Keras, Deep Learning, Computer Vision سایت: http://class.vision 👨💻👩💻پشتیبان دوره ها: @classvision_support لینک گروه: @tf2keras
نمایش بیشتر📈 تحلیل کانال تلگرام Tensorflow(@CVision)
کانال Tensorflow(@CVision) (@cvision) در بخش زبانی فارسی بازیگری فعال است. در حال حاضر جامعه شامل 15 007 مشترک است و جایگاه 8 586 را در دسته فناوری و برنامهها و رتبه 21 611 را در منطقه إيران دارد.
📊 شاخصهای مخاطب و پویایی
از زمان ایجاد در невідомо، پروژه رشد سریعی داشته و 15 007 مشترک جذب کرده است.
بر اساس آخرین دادهها در تاریخ 28 ژوئن, 2026، کانال فعالیت پایداری دارد. در ۳۰ روز گذشته تغییر اعضا برابر 12 و در ۲۴ ساعت گذشته برابر 3 بوده و همچنان دسترسی گستردهای حفظ شده است.
- وضعیت تأیید: تأیید نشده
- نرخ تعامل (ER): میانگین تعامل مخاطب 25.50% است و در ۲۴ ساعت نخست پس از انتشار، محتوا معمولاً 10.22% واکنش نسبت به کل مشترکان کسب میکند.
- دسترسی پستها: هر پست به طور میانگین 3 826 بازدید دریافت میکند. در اولین روز معمولاً 1 533 بازدید جمعآوری میشود.
- واکنشها و تعامل: مخاطبان بهطور فعال حمایت میکنند؛ میانگین واکنش به هر پست 24 است.
- علایق موضوعی: محتوا بر موضوعات کلیدی مانند مدل, مصنوعی, llm, استدلال, مغز تمرکز دارد.
📝 توضیح و سیاست محتوایی
نویسنده این فضا را محل بیان دیدگاههای شخصی توصیف میکند:
“اخبار حوزه یادگیری عمیق و هوش مصنوعی
مقالات و یافته های جدید یادگیری عمیق
بینایی ماشین و پردازش تصویر
TensorFlow, Keras, Deep Learning, Computer Vision
سایت:
http://class.vision
👨💻👩💻پشتیبان دوره ها:
@classvision_support
لینک گروه:
@tf2kera...”
به لطف بهروزرسانیهای پرتکرار (آخرین داده در تاریخ 29 ژوئن, 2026)، کانال همواره بهروز و دارای دسترسی بالاست. تحلیلها نشان میدهد مخاطبان بهطور فعال با محتوا تعامل دارند و آن را به نقطه اثرگذاری مهم در دسته فناوری و برنامهها تبدیل کردهاند.
در حال بارگیری داده...
| تاریخ | رشد مشترکین | اشارات | کانالها | |
| 29 ژوئن | +3 | |||
| 28 ژوئن | +3 | |||
| 27 ژوئن | +9 | |||
| 26 ژوئن | +2 | |||
| 25 ژوئن | +14 | |||
| 24 ژوئن | +9 | |||
| 23 ژوئن | +12 | |||
| 22 ژوئن | +2 | |||
| 21 ژوئن | +6 | |||
| 20 ژوئن | +6 | |||
| 19 ژوئن | 0 | |||
| 18 ژوئن | +6 | |||
| 17 ژوئن | +1 | |||
| 16 ژوئن | +9 | |||
| 15 ژوئن | +1 | |||
| 14 ژوئن | +3 | |||
| 13 ژوئن | +1 | |||
| 12 ژوئن | +3 | |||
| 11 ژوئن | +5 | |||
| 10 ژوئن | 0 | |||
| 09 ژوئن | 0 | |||
| 08 ژوئن | +1 | |||
| 07 ژوئن | 0 | |||
| 06 ژوئن | 0 | |||
| 05 ژوئن | +4 | |||
| 04 ژوئن | 0 | |||
| 03 ژوئن | 0 | |||
| 02 ژوئن | +1 | |||
| 01 ژوئن | +1 |
| 2 | 🗂️ تبدیل اسناد به چانکهای آماده برای RAG با Chunkr
یه ابزار متنباز برای پردازش هوشمند اسناد؛ PDF، PowerPoint، Word و تصویر رو میگیره و خروجی ساختاریافته برای پایپلاینهای RAG و LLM تولید میکنه.
✅ تحلیل لایهبندی سند با OCR و Bounding Box
✅ خروجی HTML و Markdown ساختاریافته
✅ پردازش با مدلهای Vision-Language
✅ Self-hosted با Docker Compose و پشتیبانی از LLMهای مختلف
🔗 مستندات: https://docs.chunkr.ai/pages/get-started/welcome
🐙 گیتهاب: https://github.com/lumina-ai-inc/chunkr
#RAG #LLM #OpenSource #DocumentAI | 754 |
| 3 | سلام و درود خدمت دوستان و همراهان گرامی 🌱
با توجه به پیامهایی که اخیراً دریافت کردهام، لازم دانستم توضیح کوتاهی ارائه کنم.
در حال حاضر بنده در هیچ مؤسسهای (چه بهصورت حضوری و چه آنلاین) که ثبتنام دورهای در این فصل داشته باشد، تدریس نمیکنم.
برخی از مواردی که نام بنده در معرفی دورهها یا صفحات مؤسسات درج شده، مربوط به همکاریهای قبلی بوده است. همچنین چند موردی که دوستان ارسال کردهاند و دورهای با عنوان مدرس «اخوان» معرفی شده بود، صرفاً تشابه اسمی داشته و ارتباطی با بنده ندارد.
هدف از این پیام صرفاً شفافسازی و جلوگیری از هرگونه سوءبرداشت است.
از همراهی و توجه شما سپاسگزارم.
با احترام
علیرضا اخوانپور | 1 378 |
| 4 | پیاده سازی GraphRAG با Neo4j، Qdrant و Ollama
اگه با RAG کار کرده باشید، میدونید که بزرگترین ضعفش اینه که فقط «تکههای متن» بازیابی میکنه و روابط بین موجودیتها رو از دست میده.
میشه گفت GraphRAG تا حد خوبی این مشکل رو حل میکنه
متن خام رو به یه Knowledge Graph تبدیل میکنه و موقع retrieval، هم جستجوی معنایی داری، هم پیمایش روابط گراف.
این پست یه پیادهسازی عملی ارائه میده:
▫️ابتدا LangExtract — استخراج خودکار موجودیتها و روابط از متن
▫️سپس Neo4j — ذخیره گراف دانش و traversal روابط
▫️و Qdrant — جستجوی vector روی node های گراف
▫️سرو مدل هم Ollama — تمام مدلها local، بدون نیاز به API خارجی
جریان کار:
متن خام ← استخراج entity/relation ← ذخیره در Neo4j ← embedding هر node در Qdrant ← query time: جستجوی vector + توسعه گراف + پاسخ با LLM
https://medium.com/@manthapavankumar11/a-practical-graphrag-architecture-using-langextract-neo4j-qdrant-and-ollama-0e4c86908c41 | 1 773 |
| 5 | مثلا صدای Andrew NG را کلون کردم...
کاملا لوکال و بدون وب سرویس | 1 936 |
| 6 | for-anyone-interested-in-ai--i.wav | 192 |
| 7 | 🎙 Voicebox
این ستودیوی صوتی AI متنباز جایگزین رایگان ElevenLabs + WisprFlow در یک اپ تر تمیزه که روی کامپیوتر خودتون اجرا میشه:
✅ کلون صدا از چند ثانیه صوت
✅ ۷ موتور TTS (Qwen3، Chatterbox، Kokoro، ...)
✅ دیکته با hotkey در هر جای سیستم
✅ کاملاً Local — هیچ دادهای از دستگاه خارج نمیشه
⭐️ 23k | MIT License
❌هنوز خودش فارسی را ساپورت نکرده، این که یه نفر خودش بخواد فاین تیون کنه یه حرف دیگست...
🔗 github.com/jamiepine/voicebox | 1 982 |
| 8 | فاین تیون کردن مدلهای MoE با یه خط کد، ۳.۷ برابر سریعتر!
اخیرا NVIDIA یه کتابخونه open-source معرفی کرده به اسم NeMo AutoModel که روی Transformers v5 هاگینگفیس ساخته شده.
فقط یه خط import عوض میشه:
🔹 تا ۳.۷ برابر throughput بالاتر
🔹 تا ۳۲٪ حافظه GPU کمتر
🔹 امکان fine-tune مدل ۵۵۰B که با Transformers خالص اصلاً در حافظه جا نمیشه
سه تکنیک به کار برده:
Expert Parallelism، DeepEP fused dispatch، و TransformerEngine kernels.
اگه با مدلهای MoE مثل Qwen3 یا DeepSeek کار میکنید، ارزش خوندن داره 👇
🔗 https://huggingface.co/blog/nvidia/accelerating-fine-tuning-nvidia-nemo-automodel | 1 854 |
| 9 | OpenKB
یه ایده از Karpathy بود که خیلیها ازش رد شدن — ولی یه تیم رفت پیادهش کرد!
ایده اینه: به جای اینکه LLM هر بار سند رو بخونه و جواب بده، یه بار همه چیز رو compile کنه و نتیجه رو نگه داره.
RAG معمولی چه مشکلی داره؟
هر query از صفر شروع میکنه. هیچی جمع نمیشه. ارتباط بین اسناد پیدا نمیشه. تناقضها دیده نمیشن.
اما OpenKB یه بار اسنادت رو میخونه و تبدیل میکنه به یه ویکی ساختاریافته — خلاصه، صفحات مفهومی، entities (افراد، سازمانها، محصولات) و لینکهای متقاطع بین همه چیز. دانش تجمیع میشه، نه اینکه هر بار از نو کشف بشه.
قابلیت Skill Factory
از ویکیت میتونی یه agent skill بسازی — یه فایل portable که Claude Code، Codex یا Gemini CLI میتونن مستقیم load کنن و ازش استفاده کنن.
مثلاً ۲۰ تا پیپر دربارهی attention بهش میدی، یه متخصص transformer میسازی که agent دیگهات میتونه ازش بخواد.
سایر امکانات:
- ورودی: PDF، Word، PPT، Excel، HTML، URL و...
- اسناد بلند رو بدون Vector DB مدیریت میکنه (با PageIndex)
- تصویر و جدول رو هم میفهمه
- ویکی خروجی کاملاً با Obsidian باز میشه
🔗 github.com/VectifyAI/OpenKB | 2 017 |
| 10 | مدل جدید Gemma4-12B Agentic v2 — یه ایجنت کدنویسی کامل روی سختافزار شخصی
یه fine-tune قوی روی Gemma 4 12B که تمرکزش روی کدنویسی + استفاده از ابزار + کارهای چندمرحلهای (agentic) هست.
📊 عملکرد روی بنچمارک ایجنتیک (tau2-bench telecom):
| مدل | امتیاز |
|---|---|
| Gemma 4 12B-it (پایه) | ~۱۵٪ |
| این مدل (v2) | ~۵۵٪ |
➡️ تقریباً ۳.۵ برابر بهتر از مدل پایه در تسکهای ایجنتیک
مدل پایه معمولاً توی تسکهای چندمرحلهای زود تسلیم میشه و کار رو به انسان واگذار میکنه. این مدل یاد گرفته مثل یه دولوپر واقعی عمل کنه:
read → reason → act → verify
یعنی اول state رو بررسی میکنه، بعد تشخیص میده، بعد fix میزنه، و در نهایت نتیجه رو verify میکنه — بدون hallucinate کردن مسیرها یا توابع ناموجود.
📦 سایزهای GGUF موجود:
- Q3_K_M → 5.7 GB (مناسب GPU های 8GB)
- Q4_K_M → 6.87 GB ✅ پیشنهادی
- Q6_K → 9.11 GB
- Q8_0 → 11.8 GB
⚡ اجرا با Ollama:
ollama run hf.co/yuxinlu1/gemma-4-12B-agentic-fable5-composer2.5-v2-3.5x-tau2-GGUF:Q4_K_M
---
⚠️ نکات مهم:
- لایسنس Apache 2.0 (آزاد برای استفاده تجاری)
- بهینه برای کدنویسی و کارهای ایجنتیک — نه دانش عمومی
- safety alignment کمتری داره، برای production باید guardrail اضافه کنید
🔗 https://huggingface.co/yuxinlu1/gemma-4-12B-agentic-fable5-composer2.5-v2-3.5x-tau2-GGUF | 2 204 |
| 11 | 🔍 Agentic Resource Discovery (ARD)
یه استاندارد جدید و باز از Hugging Face (با همکاری Microsoft، Google، GoDaddy و دیگران) که لایهی discovery رو برای ایجنتها حل میکنه.
مشکل امروز اینه که ایجنتها باید همه چیز رو از قبل بدونن — URL سرور MCP رو hardcode کنی، ابزارها رو از قبل install کنی، و همه چیز static باشه. با بزرگشدن اکوسیستم، این روش دیگه scale نمیده.
ARD چی میکنه؟
— هر publisher یه فایل ai-catalog.json رو در یه مسیر well-known روی دامنهش منتشر میکنه
— رجیستریها اون رو ایندکس میکنن
— ایجنت بهجای hardcode کردن، با intent جستجو میکنه و capability مناسب رو پیدا میکنه
# نمونه با HF CLI
hf discover search "Fine tune a language model"
hf discover search "Generate an image" --kind mcp
Hugging Face یه reference implementation به اسم Discover Tool ارائه داده که به هزاران Skills، MCP Server و Spaces دسترسی میده — و از طریق MCP هم قابل استفادهست:
https://huggingface-hf-discover.hf.space/mcp
در واقع ARD مثل DNS برای ایجنتهاست — بهجای اینکه بدونی کجا بری، بگی چی میخوای.
🔗 مستندات: agenticresourcediscovery.org | 2 882 |
| 12 | در هاگینگ فیس هم اضافه شد
https://huggingface.co/baidu/Unlimited-OCR | 2 340 |
| 13 | 🔍 Unlimited-OCR از Baidu
یه مدل OCR قدرتمند از بایدو که یک قدم جلوتر از DeepSeek-OCR حرکت کرده. قابلیت پارس تکشات اسناد طولانی (Long-horizon Parsing) رو داره — تصویر، چند صفحه، یا PDF کامل رو یهجا پردازش میکنه.
پشتیبانی از Transformers و SGLang، و خروجی ساختاریافته با کیفیت بالا.
🔗 github.com/baidu/Unlimited-OCR | 2 624 |
| 14 | 🔇 گوگل بیسروصدا یک هوش مصنوعی منتشر کرد که الگوها را پیشبینی میکند
فروش. قیمت بازار. ترافیک وب. تقاضای انرژی. نوسانات کریپتو.
مدل جدید منتشر شده TimesFM :
← روی ۱۰۰ میلیارد داده واقعی آموزش دیده
← پیشبینی zero-shot، بدون نیاز به fine-tune
← روی سیستم شما اجرا میشود. کاملاً رایگان و متنباز
🔗 لینک | 5 109 |
| 15 | مدل RF-DETR — ترنسفورمر جدید Roboflow برای تشخیص و سگمنتیشن real-time
گروه Roboflow مدل RF-DETR را به کتابخانه 🤗 Transformers اضافه کرد؛ یک معماری مبتنی بر ترنسفورمر که ادعا میکند هم در Object Detection و هم در Instance Segmentation از YOLO پیشی میگیرد.
چی داره؟
مجموعهای کامل از سایزهای مختلف برای هر دو تسک:
🔍 تشخیص شیء: nano / small / medium / large / base
✂️ سگمنتیشن: nano / small / medium / large / xlarge / xxlarge
چرا جالبه؟
مستقیماً در transformers قابل استفادهست
دموی real-time با وبکم روی HuggingFace Spaces موجوده
معماری بر اساس Neural Architecture Search طراحی شده (مقاله: RF-DETR)
تست آنلاین:
🔗 huggingface.co/spaces/huggingface-projects/rf-detr-realtime-webcam
مدلها:
🔗 huggingface.co/Roboflow/models | 4 002 |
| 16 | https://sophon.at/papers | 3 248 |
| 17 | آیا gzip میتواند یک مدل زبانی باشد؟
یک محقق کشف کرد که gzip — همان الگوریتم فشردهسازی قدیمی و ساده لینوکس — میتواند متن تولید کند؛ بدون هیچ شبکه عصبی، بدون وزن، بدون آموزش.
چطور؟
هر الگوریتم فشردهسازی در دلش یک مدل احتمالاتی پنهان دارد:
دادهای که «انتظارش را دارد» با بایت کمتری کُد میشود
داده غیرمنتظره بایت بیشتری میخواهد
پس میشود از این معیار به عنوان امتیازدهی استفاده کرد:
هر ادامه متنی که بهتر فشرده شود، «محتملتر» است!
روش کار (gzipt):
۱. یک corpus (مثلاً متون شکسپیر) به gzip داده میشود
۲. یک prompt ورودی میگیرد
۳. با beam search روی توالی بایتها جستجو میکند
۴. ادامهای را انتخاب میکند که بهترین فشردهسازی را داشته باشد
نتیجه؟
خروجی کاملاً منسجم نیست، ولی بهطور شگفتانگیزی ساختار زبان را درک کرده!
این ایده از مقالهای با نام "Language Modeling is Compression" الهام گرفته که میگوید:
هر مدل پیشبینی، یک compressor است و هر compressor یک مدل پیشبینی.
بلاگ پست:
🔗 https://nathan.rs/posts/gzip-lm/
کد پروژه:
🔗 nathan.rs/posts/ | 3 015 |
| 18 | گوگل نسخههای جدید Gemma 4 را با تکنیک Quantization-Aware Training (QAT) منتشر کرده؛ رویکردی که بهجای کوانتایز کردن مدل بعد از آموزش (PTQ)، از همان فرآیند آموزش، محدودیتهای دقت پایین را شبیهسازی میکند. نتیجه این کار، مدلهایی است که با حافظه بسیار کمتر اجرا میشوند اما بخش بزرگی از کیفیت نسخه اصلی را حفظ میکنند. به گفته گوگل، نسخه موبایلی Gemma 4 E2B حتی میتواند با کمتر از ۱ گیگابایت حافظه اجرا شود و برای لپتاپها، موبایلها و Edge Deviceها گزینه بسیار جذابتری باشد.
از طرف دیگر، Unsloth نیز پشتیبانی کامل از این مدلها را اضافه کرده و نشان داده که اگر تبدیل QAT به فرمتهای اجرایی مانند GGUF بهدرستی انجام شود، میتوان افت دقت را به حداقل رساند و در عین حال از مزایای اجرای 4-bit بهره برد. این یعنی اجرای مدلهای بزرگتر روی GPUهای مصرفی و حتی سختافزارهای محدود، بدون قربانی کردن محسوس کیفیت پاسخها. برای توسعهدهندگانی که به اجرای محلی (Local LLM)، Agentها یا اپلیکیشنهای Edge علاقه دارند، Gemma 4 QAT یکی از مهمترین انتشارهای اخیر محسوب میشود.
📚 برای مطالعه بیشتر:
🔹 https://blog.google/innovation-and-ai/technology/developers-tools/quantization-aware-training-gemma-4/
🔹 https://unsloth.ai/docs/models/gemma-4/qat
🌀 @cvision 🌀 | 4 245 |
| 19 | 🚀 مدل Gemma 4 QAT؛ وقتی کوانتایز شدن دیگر به معنی افت کیفیت نیست ! 🚀 | 3 795 |
| 20 | 🔥 SAM 3D Body — Promptable Full-Body Mesh Recovery
یک مقاله از Meta AI که از یک single RGB image میتواند یک full 3D human body mesh را reconstruct کند.
ویژگی مهم این مدل این است که promptable است؛ یعنی علاوه بر حالت automatic، میتوانید reconstruction را با mask و 2D keypoints هدایت کنید.
✅ Full-body 3D mesh recovery از یک تصویر
✅ Support برای guidance با mask و keypoints
✅ Robust روی تصاویر واقعی
✅ کاربرد در animation، game development، AR/VR و motion capture
این مدل در ادامه مسیر SAM نشان میدهد که vision foundation models در حال ورود جدی به 3D reconstruction هستند. 🚀
📄 Paper:
https://arxiv.org/pdf/2602.15989
💻 Code:
https://github.com/facebookresearch/sam-3d-body | 4 408 |
اکنون در دسترس! پژوهش تلگرام ۲۰۲۵ — مهمترین بینشهای سال 
