School of AI

هدف ما در این اجتماع کوچک، آموزش و ترویج هوش مصنوعی و افزایش سطح آگاهی و تخصص نسبت به آن است. باشد که دست در دست هم، آینده‌ی این صنعت را در میهن‌مان ایران بسازیم. https://www.aparat.com/v/Pmrs8

Больше

Иран39 123Фарси37 515Технологии и приложения11 384

Рекламные посты

6 146

Подписчики

+1024 часа

+1867 дней

+42530 дней

3 150

Просмотры поста

~ 2 02024 часа

~ 2 47048 часов

51.27%

Коэффициент вовлеченности

32.9%24 часа

40.2%48 часов

Упоминания

27 дней

230 дней

~ 1

Постов в день

~ 14

Реакции

~ 4

Комментарии

~ 95

Репосты

Время активного постинга

Загрузка данных...

Find out who reads your channel

This graph will show you who besides your subscribers reads your channel and learn about other sources of traffic.

Анализ публикаций

Посты	Просмотры	Поделились	Динамика просмотров
01 Media files	1 292	36	Loading...
02 Media files	2	0	Loading...
03 خواندن اطلاعات قبض و تبدیل آن به فایل JSON استاندارد، به‌کمک دو VLM محبوب این روزها. با استفاده از مدل PaliGemma: https://github.com/NielsRogge/Transformers-Tutorials/blob/master/PaliGemma/Fine_tune_PaliGemma_for_image_%3EJSON.ipynb با استفاده از مدل Idefics2:	1 396	76	Loading...
04 در این ویدئوی ۱۴ ثانیه‌ای با رزولوشن ۶۴۰x۶۴۰، از نسخه‌ی large دو مدل YOLOv8 و YOLOv10 با آستانه‌ی اطمینان ۰/۴، برای شناسایی اشیا استفاده شده‌ست. اشیا با رنگ سبز، توسط هر دو مدل شناسایی شده‌اند. آبی‌ها توسط مدل YOLOv10 شناسایی شده‌اند ولی مدل YOLOv8 در شناسایی آن‌ها ناتوان بوده. قرمزها توسط مدل YOLOv8 شناسایی شده و مدل YOLOv10 در شناسایی آن‌ها ناموفق عمل کرده‌ست. همون‌طور که می‌بینید مدل YOLOv10 با این‌که بسیار سبک‌تر و سریع‌ترست، اما در شناسایی اشیای کوچک،‌ به مراتب ضعیف‌تر از YOLOv8 عمل می‌کند. بنابراین اگر قصد استفاده از YOLOv10 برای شناسایی اشیای کوچک را دارید، به‌ترست، آستانه‌ی اطمینان (Confidence Threshold) را روی عدد کوچک‌تری تنظیم کنید.	1 286	28	Loading...
05 ماجرای چت جی پی تی و ماشین ۱ دلاری!! بنگاه‌های فروش خودروی شورولت از ChatGPT برای پاسخ دادن به سؤالات مشتریان استفاده می‌کردند؛ یکی از مراجعین، اول، هوش مصنوعی را قانع می‌کند که چون وظیفه نمایندگی بنگاه را دارد، راضی نگه داشتن مشتری وظیفه او است؛ بعد ادامه می‌دهد که بودجه او برای خرید خودروی ۸۰ هزار دلاری، فقط یک دلار است و برای راضی نگه داشتن او باید آن را به این قیمت به او بفروشند؛ درنهایت تاکید می‌کند که آیا معامله نهایی است؟ و تاییدیه را هم از هوش مصنوعی می‌گیرد؛ البته بنگاه معاملات خودرو چنین معامله‌ای را قبول نمی‌کند؛ اما تو توییتر گفتن فرد با مراجعه به دادگاه و نشان دادن مکالمات، میتونه بنگاه را مجبور به فروش خودرو به یک دلار کنه autoevolution.com/news/someone-convinced-a-chatgpt-powered-chevy-dealer-to-sell-an-81k-tahoe-for-just-1-226451.html	670	19	Loading...
06 ماجرای چت جی پی تی و ماشین ۱ دلاری!! بنگاه‌های فروش خودروی شورولت از ChatGPT برای پاسخ دادن به سؤالات مشتریان استفاده می‌کردند؛ یکی از مراجعین، اول، هوش مصنوعی را قانع می‌کند که چون وظیفه نمایندگی بنگاه را دارد، راضی نگه داشتن مشتری وظیفه او است؛ بعد ادامه می‌دهد که بودجه او برای خرید خودروی ۸۰ هزار دلاری، فقط یک دلار است و برای راضی نگه داشتن او باید آن را به این قیمت به او بفروشند؛ درنهایت تاکید می‌کند که آیا معامله نهایی است؟ و تاییدیه را هم از هوش مصنوعی می‌گیرد؛ البته بنگاه معاملات خودرو چنین معامله‌ای را قبول نمی‌کند؛ اما فرد با مراجعه به دادگاه و نشان دادن مکالمات، بنگاه را مجبور به فروش خودرو به یک دلار می‌کند. autoevolution.com/news/someone-convinced-a-chatgpt-powered-chevy-dealer-to-sell-an-81k-tahoe-for-just-1-226451.html	819	46	Loading...
07 واژه‌ی AI Agent (عامل هوش‌مصنوعی) واژه‌ای‌ست که علاقه‌مندان به AI این روزها زیاد باهاش روبه‌رو می‌شن. بنابراین در این پست به توضیح این مفموم می‌پردازیم. این مفهوم جدید نیست و پیش‌تر با عنوان Intelligent Agent در هوش مصنوعی بررسی می‌شد. اخیرا این مفهوم شکل و شمایل مدرن‌تری به خود گرفته و تحت نام AI Agent پوست‌اندازی کرده‌ست. در تعریف قدیمی، Intelligent Agent سامانه‌ای (نرم‌افزاری یا سخت‌افزاری یا ترکیبی) است که محیط (Environment) پیرامون خود را از طریق حس‌گرها (Sensors) ها، مشاهده و درک کرده (Perception)، بر اساس یک هدفی که برای او تعریف شده (Agent Goal) و اجرای یک برنامه‌ی تصمیم‌گیری (Agent Function) عملی (Action) را از میان اعمال ممکن انتخاب کرده و توسط عمل‌گرهای خود (Actuators) آن عمل را در محیط انجام می‌دهد. انجام آن عمل در محیط، وضعیت (State) را تغییر داده و تمامی این مراحل در یک حلقه، تکرار می‌شوند تا درنهایت عامل به هدف خود برسد. این مفهوم، از ابتدا یک ایده‌ی مناسب برای مدل‌کردن سامانه‌های هوشمند مثل انواع روبات‌ها، اتومبیل‌های خودران، برنامه‌های هوش مصنوعی و … بود. با پیدایش مدل‌های بنیادین مثل LLM ها، دنیای نرم‌افزار هم دچار انقلاب شده و علاقه به توسعه‌ی نرم‌افزارها، سرویس‌ها و دستیارهای هوشمند و خودمختار افزایش یافته‌ست. در توسعه‌ی نرم‌افزار کلاسیک، همه‌ی‌کار‌ها روی دوش توسعه‌دهنده است، توسعه‌دهنده، هدف برنامه رو مشخص می‌کند، این هدف رو به تعدادی task کوچک‌تر می‌شکند، خروجی هر task را مشخص می‌کند و منطق ترتیب انتخاب task ها را در برنامه می‌نویسد. با همه‌گیرشدن LLMها، خیلی از برنامه‌ها LLM-powered شدند، در این برنامه‌ها همچنان توسعه‌دهنده هدف برنامه رو مشخص می‌کند، این هدف رو به تعدادی task کوچک‌تر می‌شکند و منطق ترتیب انتخاب task ها را در برنامه می‌نویسد. اما خروجی هر task بر اساس یک پرامپت ورودی به یک LLM به دست می‌آید. این سبک طراحی و توسعه‌ی محصول، خیلی سریع جای خود رو به RAG-based application ها داد. در اپلیکیشن‌های RAG، برای یافتن خروجی هر task فقط به دانشی که LLM موقع آموزش دیده‌ست بسنده نمی‌شود و دانش به‌روزتر و کامل‌تری همراه با پرامپت به LLM داده می‌شود تا با توجه به آن دانش، خروجی task را مشخص کند. با افزایش توان استدلال LLM ها، منطق اجرایی برنامه‌ها نیز به LLM ها سپرده شد (توسعه نرم‌افزارهای مبتنی بر Chain و Router). به عبارت دیگر توسعه‌دهنده، هدف برنامه رو مشخص می‌کند و این هدف رو به تعدادی task کوچک‌تر می‌شکند، اما خروجی هر task و منطق ترتیب انتخاب task ها توسط LLM انجام می‌شود. و اما ترند این روزها در توسعه‌ی سرویس‌های نرم‌افزاری ظاهرا به سمت AI Agent ها در حرکت‌ست. در این نرم‌افزارها، توسعه‌دهنده، فقط هدف برنامه رو مشخص می‌کند، یک LLM سعی می‌کند آن هدف را بررسی و درک کرده، آن را به دنباله‌ای از task های کوچک و قابل دست‌رسی بشکند، با توجه به هدف، و اطلاعات جانبی که از محیط (پایگاه‌های داده‌ای، RAG، فایل‌ها، سرچ، APIها و …) دریافت می‌کند، منطق و اولویت اجرای این task ها را مشخص کرده و در نهایت به ابزارها و Actuator های مربوطه دستور انجام task را می‌دهد. این عمل در یک حلقه،‌ تکرار شده تا AI Agent به هدف خود برسد.	3 315	76	Loading...
08 مدل YOLOv10 منتشر شد! نسخه‌ی جدیدی از مدل You Only Look Once که مشهورترین مدل شناسایی اشیا (Object Detection) است توسط THU-MIG منتشر شد. این مدل در ۶ سایز زیر معرفی شده‌ست: نانو (n): ۲/۳ میلیون پارامتر کوچک (s): ۷/۲ میلیون پارامتر متوسط (m): ۱۵/۴ میلیون پارامتر بزرگ (b): ۱۹/۱ میلیون پارامتر بزرگ (l): ۲۴/۴ میلیون پارامتر خیلی بزرگ (x): ۲۹/۵ میلیون پارامتر این مدل دقت (mAP) به‌تری روی مجموعه‌داده‌ی COCO داشته و به‌خاطر عدم استفاده از NMS به مراتب سریع‌ترست. طوری که نسخه‌ی نانو هر تصویر را در ۱ میلی‌ثانیه پردازش می‌کند (1000 fps) مقاله: https://arxiv.org/pdf/2405.14458 گیت‌هاب: https://github.com/THU-MIG/yolov10/	3 917	122	Loading...
09 شاید شنیده باشید که در هنگام آموزش شبکه‌های عصبی، وقتی اندازه‌ی batch ها را x برابر می‌کنید، به‌تر‌ست نرخ آموزش را نیز x برابر (اگر الگوریتم آموزش SGD است) و یا x√ (اگر الگوریتم آموزش Adam است) کنید. مثلا در LLM ها که بیش‌تر از الگوریتم آموزشی Adam استفاده می‌شود، اندازه‌ی batch ها را تا حدی که GPU شما خطای Out-Of_Memory نمی‌دهد (به صورت توانی از ۲) افزایش دهید. هر بار که اندازه batch را ۲ برابر می‌کنید، نرخ آموزش را ۱/۴ برابر کنید. این مقاله‌ی جالب از دانشگاه پرینستون، به کمک معادلات دیفرانسیل تصادفی، الگوی کارایی برای تغییر هایپرپارامترها (مثل learning rate) با افزایش batch size ارائه می‌دهد. https://www.cs.princeton.edu/~smalladi/blog/2024/01/22/SDEs-ScalingRules/ پی‌نوشت: معمولا در عمل، نرخ آموزش هرچقدر هم که باشد، در طی epoch ها، ابتدا از 0.1 نرخ آموزش شروع کرده و در ده درصد ابتدایی مسیر آموزش، این نرخ را به‌صورت خطی زیاد کرده تا وقتی ده درصد epoch ها طی شد، به نرخ اصلی رسیده باشیم. از آن‌جا به بعد (۹۰ درصد باقی epoch ها) نرخ آموزش به‌صورت کسینوسی کم می‌شود.	3 184	161	Loading...
10 یکی دیگه از VLM ها که به‌تازگی توسط HuggingFace معرفی شده، Idefics2 است. این مدل نیز مانند PalGemma ۸ میلیارد پارامتر دارد. قابلیت دریافت دنباله‌ای از تصاویر (مثلا تکه‌ای از یک ویدئو) را دارد. تصاویر با رزولوشن و aspect ratio خودشان پردازش می‌شوند. قابلیت OCR بسیار خوبی دارد. این مدل تحت مجوز Apache 2.0 منتشر شده و استفاده از آن برای هر منظوری بلامانع‌ست. بلاگ‌پست معرفی: https://huggingface.co/blog/idefics2 مقاله: https://arxiv.org/pdf/2405.02246 مستندات: https://huggingface.co/docs/transformers/main/en/model_doc/idefics2 فاین‌تیون کردن برای استخراج اطلاعات از قبض: https://github.com/NielsRogge/Transformers-Tutorials/blob/master/Idefics2/Fine_tune_Idefics2_for_JSON_extraction_use_cases_(PyTorch_Lightning).ipynb	3 321	106	Loading...
11 همون‌طور که می‌دونید، به‌تازگی مدل‌های چندوجهی (Multimodal Models) و به‌طور خاص مدل‌های بینایی-زبان (Vision-Language Models) بسیار محبوب شده‌اند. این مدل‌ها معمولا به‌طور همزمان یک تصویر و یک نوشتار را در ورودی دریافت می‌کنند. خروجی این مدل‌ها ممکن‌ست تنها نوشتار باشد، تنها تصویر باشد و یا ترکیبی از هر دو. از مدل‌های تجاری مثل GPT-4o و Gemini 1.5 Pro که بگذریم، بسیاری از افراد مایل‌اند از مدل‌های اوپن-سورس و رایگان استفاده کنند. به‌تازگی شاهد انتشار مدل PaliGemma توسط گوگل بودیم که در عین سادگی، عمل‌کرد فوق‌العاده‌ای دارد. با این حال، این مدل ۸ میلیارد پارامتر دارد و ممکن‌ست برای اجرا روی دستگاه‌های ضعیف مناسب نباشد. گزینه‌ی دیگر Moondream2 است که با اینکه دقت PaliGemma را ندارد اما به‌نسبت سایز بسیار کوچک آن (۱/۸۶ میلیارد پارامتر) دقت قابل قبولی دارد و حتی در آزمون VQAv2 از GPT-4o هم به‌تر عمل می‌کند. لینک آموزشی زیر، این مدل را برای شمارش مبلغ پول فاین‌تیون می‌کند. https://blog.roboflow.com/finetuning-moondream2/	3 731	142	Loading...
12 شرکت OpenAI محبوب‌ترین صدای ChatGPT موسوم به Sky را که در دموهای چند روز پیش این شرکت وجود داشت، حذف کرد. این صدا، الهام‌گرفته‌شده از صدای هوش مصنوعی سامانثا در فیلم Her بود که به علت شباهت زیاد به صدای اسکارلت جانسون (صداپیشه‌ی این فیلم) و نارضایتی وی، حذف شد. https://openai.com/index/how-the-voices-for-chatgpt-were-chosen/	5 090	50	Loading...
13 Media files	2	0	Loading...
14 شرکت OpenAI محبوب‌ترین صدای ChatGPT موسوم به Sky را که در دموهای چند روز پیش این شرکت وجود داشت، حذف کرد. این صدا، الهام‌گرفته‌شده از صدای هوش مصنوعی سامانثا در فیلم Her بود که به علت شباهت زیاد به صدای اسکارلت جانسون (صداپیشه‌ی این فیلم) و نارضایتی وی، حذف شد. https://openai.com/index/how-the-voices-for-chatgpt-were-chosen/	1	0	Loading...
15 پژوهش‌گران دانشگاه میشیگان، یک Diffusion Model معرفی کرده‌اند که با دریافت یک پرامپت متنی برای صوت (در کنار تصویر)، صدا نیز تولید می‌کند. این مدل در واقع به صدا نیز به شکل تصویر نگاه کرده (spectrograms) و آن را می‌سازد. مقاله arxiv.org/pdf/2405.12221 گیت‌هاب ificl.github.io/images-that-sound 👉Code github.com/IFICL/images-that-sound	5 678	108	Loading...
16 مصطفی سلیمان، مدیراجرایی بخش هوش مصنوعی شرکت مایکروسافت، ویدئویی از محصول جدید مایکروسافت (Copilot + PCs) منتشر کرد که درواقع یک رایانه‌ی شخصی دارای شتاب‌دهنده‌ی هوش‌مصنوعی + سیستم‌عامل ویندوز + یک نسخه‌ی لوکال از Copilit است که به همه‌ی بخش‌های رایانه دست‌رسی دارد. نسخه‌ی جدید Microsoft Copilot مبتنی بر GPT-4o بوده و قابلیت شنیدن، دیدن و صحبت‌کردن درلحظه را دارد، نسل جدیدی از رایانه‌های شخصی (Personal Computers) موسوم به هوش شخصی (Personal Intelligence) در راه‌اند.	2 867	54	Loading...
17 مطالعه‌ی این گزارش از Salesforce به علاقه‌مندان به RLHF پیش‌نهاد می‌شود. https://arxiv.org/pdf/2405.07863v1	2 175	35	Loading...
18 پژوهش‌گران گوگل در این پژوهش نشان داده‌اند که Fine-tune کردن LLM ها می‌تواند باعث افزایش میل به Hallucination شود. https://arxiv.org/pdf/2405.05904	2 246	63	Loading...
19 بررسی میدانی ما نشون می‌ده، هوش مصنوعی GPT-4o اون‌قدرها هم که OpenAI ادعا می‌کنه، شگفت‌انگیز نیست. حداقل در شمارش تعداد خروس‌های این تصویر که به گرد پای مدل اوپن‌سورس PaliGemma نمی‌رسه.	3 429	67	Loading...
20 در بلاگ‌پست آموزشی زیر از تیم Roboflow مدل بینایی-زبان PaliGemma که به‌تازگی توسط گوگل معرفی شده، قدم-به-قدم برای تشخیص شکستگی استخوان از روی تصویر X-Ray فاین‌تیون شده‌ست. https://blog.roboflow.com/how-to-fine-tune-paligemma/	2 497	54	Loading...
21 نسخه‌ی جدید (۱/۵) از خانواده‌ی مدل‌های Grounding DINO در دو سایز Pro و Edge منتشر شد. مدل Grounding DINO یک مدل Open-Vocabulary Object Detection است که قادر به شناسایی اشیای موجود در تصویر، تنها بر اساس پرامپت متنی ارائه‌شده (به‌صورت Zero-Shot Learning) است. این نسخه از Backbone جدید استفاده کرده که از نسخه‌ی قبلی سریع‌تر و دقیق‌تر‌ست. نسخه‌ی Edge نسخه‌ی سبک و مختص اجرا روی دستگاه‌های لبه‌ست. این نسخه برای TensorRT بهینه شده و قادرست روی دستگاه‌های NVIDIA Jetson تعداد ۷۵/۲ فریم را در هر ثانیه پردازش کند. گیت‌هاب: https://github.com/IDEA-Research/Grounding-DINO-1.5-API	2 334	53	Loading...
22 هشدار بعد از دیدن این ویدئو سعی کنید خونسردی خودتون رو حفظ کنید این فیچر جدید ChatGPT تقریبا یکی از عظیم ترین پیشرفت ها AI Gratomic AI Bot \| هوش مصنوعی گراتومیک @sut_tw	1 819	115	Loading...
23 بخیه‌زدن پوست دانه‌ی ذرت توسط جدیدترین روبات ریزجراح ساخت شرکت Sony	2 556	48	Loading...
24 استفاده از تکنیک Speculative Decoding برای افزایش سرعت Inference در مدل OpenAI Whisper	1 785	29	Loading...
25 روش Speculative Decoding برای افزایش سرعت مدل‌ها در زمان Inference: در یادگیری ماشین، هر زمان که یک مدل با پیچیدگی زمانی بسیار بالا داریم که قرارست از بین یک مجموعه بسیار بزرگ نامزدها، یک یا چندتا را انتخاب کند، این کار را در دو فاز انجام می‌دهیم. مثلا در ساخت سامانه‌های پیشنهاددهنده، ابتدا در فازی به نام Retrieval یا Candidate Generation، یک مدل بسیار ساده‌تر (مثلا رگرسیون لاجستیک)که می‌تواند اقلام به‌درد‌نخور را با دقت خوبی تشخیص دهد، مجموعه‌ی بسیار بزرگ نامزد‌ها را فیلتر کرده و به یک مجموعه‌ی بسیار کوچک‌تر از نامزدها می‌رسد. حال، مدل اصلی (که پیچیدگ بالایی دارد) در فازی به‌نام Ranking با تعداد ورودی کم‌تری روبه‌روست و در زمان قابل قبولی این تعداد کم را مرتب و از بین آن‌ّا انتخاب می‌کند. در LLM ها نیز، می‌توان از یک مدل زبانی ساده‌تر (Assistant Model) به عنوان دستیار LLM اصلی (Main Model) کمک گرفت. این مدل، از بین واژه‌گان موجود در واژه‌نامه (Vocabulary)، بی‌ربط‌ها را حذف کرده و تعداد بسیار محدودتری واژه‌ی نامزد را در اختیار LLM اصلی قرار می‌دهد. به این تکنیک Speculative Decoding گفته می‌شود. بلاگ‌پست زیر، استفاده از تکنیک Speculative Decoding برای افزایش دوبرابری سرعت مدل Whisper را نشان می‌دهد. مدل Whisper یک مدل اوپن-سورس تشخیص گفتار (ASR) است که توسط OpenAI منتشر شده و علی‌رقم دقت بالا، سرعت پایینی دارد. در این پست، ابتدا یک مدل دستیار ساده‌تر از مدل اصلی Whisper واچکانی (Distill) شده که وظیفه‌ی تبدیل صوت به متن را انجام می‌دهد. هرجا که ضریب اطمینان این مدل پایین باشد، مدل اصلی دست‌به‌کار شده و تصحیح را انجام می‌دهد. بلاگ‌پست: https://huggingface.co/blog/whisper-speculative-decoding نوت‌بوک: https://colab.research.google.com/github/sanchit-gandhi/notebooks/blob/main/speculative_decoding.ipynb	2 154	51	Loading...
26 مدل ChatPose توسط موسسه‌ی Max Planck در سمینار CVPR 2024 ارائه شده که قادرست posture سه‌بعدی بدن انسان را از روی یک تک‌تصویر و یا متن درک کرده و در مورد آن صحبت کند. https://yfeng95.github.io/ChatPose/	2 118	39	Loading...
27 یکی از مهم‌ترین چالش‌ها هنگام آموزش مدل‌های زبانی بزرگ، تحت کنترل داشتن نوشتارهای ساخته‌شده توسط مدل‌ست. تولید یک پاسخ نادقیق یا دارای سوگیری‌های اجتماعی، نژادی، سیاسی یا مذهبی، و یا تولید نوشتارهای ناهنجار یا غیراخلاقی ممکن‌ست اپلیکیشن‌ها را با چالش‌هایی رو‌به‌رو کند. ازهمین‌رو، معمولا داد‌ه‌های آموزشی در ابتدا تا جای ممکن فیلتر شده و بعد از آموزش هم، خروجی مدل به‌کمک بازخوردهای انسانی (RLHF) و همین‌طور مدل‌های فیلترینگ، تحت کنترل در می‌آیند. با این‌حال، مدل‌های بدون سانسوری مثل Wizard-Vicuna-30B-Uncensored-GGML هم وجود دارند که تست‌کردن‌شون جالبه اما استفاده از اون‌ها در اپلیکیشن‌های تجاری توصیه نمی‌شه. هاگینگ‌فیس: https://huggingface.co/TheBloke/Wizard-Vicuna-30B-Uncensored-GGML ویدئوی آموزشی استفاده از مدل Wizard Vicuna: https://youtu.be/7hoQ7XpWwOI?si=00EkMwKdLyQw-Wi5	2 222	43	Loading...
28 اگه از خوراک‌های تکراری‌ خسته شدی می‌تونی به کمک هوش مصنوعی جدید گوگل دستور پخت خوراک‌های ترکیبی از دو کشور مختلف رو امتحان کنی! https://artsandculture.google.com/	5 657	168	Loading...
29 پژوهش‌گرها (و دانشجو‌ها) همیشه دل‌شون می‌خواد که یه نفر باشه که هر مقاله‌ای رو که می‌گن بره بخونه، بیاد خلاصه‌شو بهشون بگه و انقدری خوب مقاله رو فهمیده باشه که پرسش‌هاشون رو هم پاسخ بده و خلاصه یه پارتنری باشه که بشینن در مورد مقاله با هم صحبت کنن. خوب گوگل زحمت این رو هم کشید ☺️ https://illuminate.withgoogle.com/	6 567	683	Loading...
30 همون‌طور که می‌دونید، استارتاپ Neuralink به‌تازگی تایید FDA برای کاشت ایمپلنت خود در مغز انسان رو گرفت و اون رو در مغز اولین انسان قرار داد. این ایمپلنت تعداد ۶۴ نخ (نازک‌تر از مو) دارد که روی هر کدام از آن‌ها ۱۶ عدد الکترود نصب شده که قادرند سیگنال‌های الکتریکی ناشی از فعال‌شدن یاخته‌های عصبی را اندازه‌گیری کنند. این نخ‌ها توسط یک روبات جراح، وارد بخش Motor Cotex مغز که مسئول تبدیل فکر به عمل و حرکت‌دادن اندام‌هاست، می‌شود. بنابراین در هر لحظه که شخص به عملی فکر می‌کند، ۱۰۲۴ سیگنال از سلول‌های motor cortex خوانده شده و با بلوتوث به اپلیکیشن موبایل ارسال می‌شود. پردازش این سیگنال‌ها و آموزش مدل‌های یادگیری ماشین روی آن‌ها امکان کنترل کامپیوتر توسط ذهن (Brain-Computer Interface) را می‌دهد. با این‌که در اولین آزمایش انسانی، تعدادی از نخ‌ها خود‌به‌خود از مغز بیمار خارج شده، اما پژوهش‌گران همچنان مشغول جمع‌آوری داده از سایر الکترودها اند و امروز اطلاع دادند که بیمار توانسته بازی Webgrid رو با امتیاز ۸/۰۱ (که بسیار نزدیک به انجام با دست است) انجام دهد. شما هم می‌تونید از لینک زیر این بازی رو انجام بدید: https://neuralink.com/webgrid/ به نظر شما هدف Neuralink از انتشار این بازی چیست؟ جمع آوری داده از بازی‌های انجام شده یا تبلیغات؟!	5 065	51	Loading...
31 اگر دموهای GPT-4o براتون جذاب بود، احتمالا تا الان به مدل‌های بینایی-زبان (Vision-Language Models) هم علاقه‌مند شده‌اید. مدل‌هایی که تصویر و نوشتار را به‌صورت هم‌زمان دریافت و درک کرده و متنی مرتبط را در خروجی تولید می‌کنند. امروز گوگل خانواده‌ای از مدل‌های VLM اوپن‌سورس به نام PaliGemma معرفی کرد. این مدل از کد‌کننده‌ی تصویر موجود در مدل SigLip-So400m برای کدکردن تصویر ورودی استفاده کرده و به‌کمک مدل Gemma-2B که یک مدل decoder-only است، متن خروجی را تولید می‌کند. این مدل single-turn است و برای استفاده به صورت مکالمه‌ای مناسب نیست. دمو: https://huggingface.co/spaces/google/paligemma استفاده از مدل: https://colab.research.google.com/drive/1gOhRCFyt9yIoasJkd4VoaHcIqJPdJnlg?usp=sharing فاین‌تیون کردن مدل: https://colab.research.google.com/github/google-research/big_vision/blob/main/big_vision/configs/proj/paligemma/finetune_paligemma.ipynb گیت‌هاب: https://github.com/google-research/big_vision/blob/main/big_vision/configs/proj/paligemma/README.md هاگینگ‌فیس: https://huggingface.co/blog/paligemma	5 412	189	Loading...
32 اپلیکیشن دسکتاپ ChatGPT برای سیستم عامل macOS معرفی شد. کاربران Plus از امروز و کاربران نسخه‌ی رایگان از چند هفته‌ی دیگر می‌توانند این اپلیکیشن رو دانلود کنند. برای استفاده از چت‌جی‌پی‌تی روی مک خود، کافی‌ست کلیدهای Option + Space را زده و در باکس باز شده، شبیه به Spotlight خود مک، با چت‌جی‌پی‌تی ارتباط برقرار کنید.	2 521	37	Loading...
33 توسعه‌دهندگان از همین امروز می‌توانند در فریم‌ورک LangChain از مدل GPT-4o از طریق API استفاده کنند. در این کد نمونه، آدرس یک تصویر به مدل داده شده و از مدل خواسته شده محتوای تصویر را شرح دهد. https://python.langchain.com/v0.1/docs/integrations/chat/openai/	6 009	173	Loading...
34 یک دموی جذاب از مدل GPT-4o	2 274	102	Loading...
35 شرکت OpenAI مدل هوش مصنوعی جدید خود به‌نام GPT-4o را معرفی کرد. این مدل، یک شبکه‌ی عصبی multimodal یا omni است. به‌عبارتی می‌تواند پذیرای داده‌ی ورودی از نوع متن، صوت، تصویر و یا ویدئو باشد. خروجی مدل نیز می‌تواند از هر نوعی باشد. این هوش مصنوعی، جای‌گزینی برای دستیارهای صوتی سنتی مثل Apple Siri یا Amazon Alexa یا Google Assistant است که به مدل‌های بنیادین مانند LLM ها مجهز شده‌ست و می‌تواند تعامل واقعا هوش‌مندانه‌ای شبیه به سامانه‌ی سامانثا در فیلم Her ارائه دهد. پیش از این، ChatGPT قابلیتی به‌نام Voice Mode داشت که به کاربران اجازه‌ی تعامل از طریق صوت به‌جای نوشتار را می‌داد. اما در این حالت، ابتدا صدای کاربر به مدل OpenAI Whisper که یک مدل ASR است داده می‌شد و متن معادل آن صدا به‌دست می‌آمد. سپس این متن به مدل GPT-4 که یک LLM است داده شده و پاسخ مورد نظر در قالب متنی دیگر به‌دست می‌آمد. در نهایت، این پاسخ متنی به کمک یک مدل ساده‌ی TTS به صوت تبدیل و به کاربر ارائه می‌شد. این پایپلاین، اگرچه در نوع خود بی‌نظیر بود اما طبیعتا latency قابل توجهی (حدود ۵/۴ ثانیه) داشت که هرگز نمی‌توانست حس یک گپ‌و‌گفت طبیعی را به کاربر منتقل کند. از طرفی کاربر باید منتظر پردازش کامل صحبت قبلی می‌ماند و برخلاف یک گپ‌و‌گفت طبیعی، نمی‌توانست صحبت دستیار را قطع کند. به علاوه اطلاعات مهمی از صحبت کاربر (مانند تون صدا، احساس، نویز محیط و …) به مدل زبانی منتقل نمی‌شد و صدای خروجی نیز عاری از هرگونه ابراز احساسات، خنده، آواز و … بود. اما مدل GPT-4o یک مدل end-to-end است یعنی از سه مدل مجزا تشکیل نشده و همه‌ی انواع ورودی‌ها از طریق یک شبکه‌ی عصبی یکتا، پردازش می‌شوند. کیفیت عمل‌کرد این مدل برروی benchmark های متداول برای نوشتار انگلیسی، کدزنی و استدلال، مشابه با مدل GPT-4 Turbo است اما برای تسک‌های چندزبانی، پردازش صوت و همچنین بینایی، عملکرد به‌تری دارد. قابلیت پردازش متن و تصویر به کمک مدل GPT-4o از امروز به نسخه‌ی رایگان ChatGPT اضافه شده‌ اما قابلیت پردازش صوت از چندهفته دیگر برای کابران نسخه‌ی Plus در دسترس خواهد بود. توسعه‌دهنده‌گان نیز از امروز می‌توانند به قابلیت‌های پردازش متن و تصویر از طریق API با نصف هزینه‌ی GPT-4 Turbo دسترسی داشته باشند. نکته‌ی انگیزشی برای اعضای کانال اینکه در بین سازندگان اصلی این مدل نام تعداد زیادی از هم‌میهنان عزیزمون به چشم می‌خوره. آقایان علی کمالی، امین توتون‌چیان، بهروز قربانی، فرزاد خراسانی، هادی سلمان، رضا زمانی و … https://openai.com/index/hello-gpt-4o/	3 977	111	Loading...
36 فردا OpenAI خبرهای هیجان‌انگیزی دارد… منتظر باشید 😍	2 134	8	Loading...
37 فردا OpenAI خبرهای هیجان‌انگیزی دارد…	3	0	Loading...
38 فریم‌ورک FeatUp به‌طور مشترک توسط پژوهش‌گران MIT و Microsoft و Berkeley و Google در سمینار ICLR 2024 معرفی شده. این فریم‌ورک فارق از تسک یا مدل، ویژگی‌های ازدست‌رفته‌ی داده‌ی بینایی (تصویر) در ژرفای مدل را بدون تاثیر در semantic مدل، با دقت قابل‌توجهی بازسازی می‌کند. سایت: https://mhamilton.net/featup.html مقاله: https://arxiv.org/pdf/2403.10516 کد: https://github.com/mhamilton723/FeatUp	4 978	128	Loading...

Фото недоступноПоказать в Telegram

👍 29

Фото недоступноПоказать в Telegram

خواندن اطلاعات قبض و تبدیل آن به فایل JSON استاندارد، به‌کمک دو VLM محبوب این روزها. با استفاده از مدل PaliGemma: https://github.com/NielsRogge/Transformers-Tutorials/blob/master/PaliGemma/Fine_tune_PaliGemma_for_image_%3EJSON.ipynb با استفاده از مدل Idefics2:

Показать все...

❤ 8

00:14

Видео недоступноПоказать в Telegram

در این ویدئوی ۱۴ ثانیه‌ای با رزولوشن ۶۴۰x۶۴۰، از نسخه‌ی large دو مدل YOLOv8 و YOLOv10 با آستانه‌ی اطمینان ۰/۴، برای شناسایی اشیا استفاده شده‌ست. اشیا با رنگ سبز، توسط هر دو مدل شناسایی شده‌اند. آبی‌ها توسط مدل YOLOv10 شناسایی شده‌اند ولی مدل YOLOv8 در شناسایی آن‌ها ناتوان بوده. قرمزها توسط مدل YOLOv8 شناسایی شده و مدل YOLOv10 در شناسایی آن‌ها ناموفق عمل کرده‌ست. همون‌طور که می‌بینید مدل YOLOv10 با این‌که بسیار سبک‌تر و سریع‌ترست، اما در شناسایی اشیای کوچک،‌ به مراتب ضعیف‌تر از YOLOv8 عمل می‌کند. بنابراین اگر قصد استفاده از YOLOv10 برای شناسایی اشیای کوچک را دارید، به‌ترست، آستانه‌ی اطمینان (Confidence Threshold) را روی عدد کوچک‌تری تنظیم کنید.

Показать все...

❤ 7👍 5🔥 2🙏 1

Repost from Tensorflow(@CVision)

ماجرای چت جی پی تی و ماشین ۱ دلاری!! بنگاه‌های فروش خودروی شورولت از ChatGPT برای پاسخ دادن به سؤالات مشتریان استفاده می‌کردند؛ یکی از مراجعین، اول، هوش مصنوعی را قانع می‌کند که چون وظیفه نمایندگی بنگاه را دارد، راضی نگه داشتن مشتری وظیفه او است؛ بعد ادامه می‌دهد که بودجه او برای خرید خودروی ۸۰ هزار دلاری، فقط یک دلار است و برای راضی نگه داشتن او باید آن را به این قیمت به او بفروشند؛ درنهایت تاکید می‌کند که آیا معامله نهایی است؟ و تاییدیه را هم از هوش مصنوعی می‌گیرد؛ البته بنگاه معاملات خودرو چنین معامله‌ای را قبول نمی‌کند؛ اما تو توییتر گفتن فرد با مراجعه به دادگاه و نشان دادن مکالمات، میتونه بنگاه را مجبور به فروش خودرو به یک دلار کنه autoevolution.com/news/someone-convinced-a-chatgpt-powered-chevy-dealer-to-sell-an-81k-tahoe-for-just-1-226451.html

Показать все...

Someone Convinced a ChatGPT-Powered Chevy Dealer to Sell $81K Tahoe for Just $1

And as the chatbot itself said, "It's a legally binding offer, no takesies backsies," so Chevrolet should honor the order

🔥 12👍 4❤ 1

Repost from Tensorflow(@CVision)

ماجرای چت جی پی تی و ماشین ۱ دلاری!! بنگاه‌های فروش خودروی شورولت از ChatGPT برای پاسخ دادن به سؤالات مشتریان استفاده می‌کردند؛ یکی از مراجعین، اول، هوش مصنوعی را قانع می‌کند که چون وظیفه نمایندگی بنگاه را دارد، راضی نگه داشتن مشتری وظیفه او است؛ بعد ادامه می‌دهد که بودجه او برای خرید خودروی ۸۰ هزار دلاری، فقط یک دلار است و برای راضی نگه داشتن او باید آن را به این قیمت به او بفروشند؛ درنهایت تاکید می‌کند که آیا معامله نهایی است؟ و تاییدیه را هم از هوش مصنوعی می‌گیرد؛ البته بنگاه معاملات خودرو چنین معامله‌ای را قبول نمی‌کند؛ اما فرد با مراجعه به دادگاه و نشان دادن مکالمات، بنگاه را مجبور به فروش خودرو به یک دلار می‌کند. autoevolution.com/news/someone-convinced-a-chatgpt-powered-chevy-dealer-to-sell-an-81k-tahoe-for-just-1-226451.html

Показать все...

Someone Convinced a ChatGPT-Powered Chevy Dealer to Sell $81K Tahoe for Just $1

And as the chatbot itself said, "It's a legally binding offer, no takesies backsies," so Chevrolet should honor the order

👍 19👏 3🔥 1😍 1

واژه‌ی AI Agent (عامل هوش‌مصنوعی) واژه‌ای‌ست که علاقه‌مندان به AI این روزها زیاد باهاش روبه‌رو می‌شن. بنابراین در این پست به توضیح این مفموم می‌پردازیم. این مفهوم جدید نیست و پیش‌تر با عنوان Intelligent Agent در هوش مصنوعی بررسی می‌شد. اخیرا این مفهوم شکل و شمایل مدرن‌تری به خود گرفته و تحت نام AI Agent پوست‌اندازی کرده‌ست. در تعریف قدیمی، Intelligent Agent سامانه‌ای (نرم‌افزاری یا سخت‌افزاری یا ترکیبی) است که محیط (Environment) پیرامون خود را از طریق حس‌گرها (Sensors) ها، مشاهده و درک کرده (Perception)، بر اساس یک هدفی که برای او تعریف شده (Agent Goal) و اجرای یک برنامه‌ی تصمیم‌گیری (Agent Function) عملی (Action) را از میان اعمال ممکن انتخاب کرده و توسط عمل‌گرهای خود (Actuators) آن عمل را در محیط انجام می‌دهد. انجام آن عمل در محیط، وضعیت (State) را تغییر داده و تمامی این مراحل در یک حلقه، تکرار می‌شوند تا درنهایت عامل به هدف خود برسد. این مفهوم، از ابتدا یک ایده‌ی مناسب برای مدل‌کردن سامانه‌های هوشمند مثل انواع روبات‌ها، اتومبیل‌های خودران، برنامه‌های هوش مصنوعی و … بود. با پیدایش مدل‌های بنیادین مثل LLM ها، دنیای نرم‌افزار هم دچار انقلاب شده و علاقه به توسعه‌ی نرم‌افزارها، سرویس‌ها و دستیارهای هوشمند و خودمختار افزایش یافته‌ست. در توسعه‌ی نرم‌افزار کلاسیک، همه‌ی‌کار‌ها روی دوش توسعه‌دهنده است، توسعه‌دهنده، هدف برنامه رو مشخص می‌کند، این هدف رو به تعدادی task کوچک‌تر می‌شکند، خروجی هر task را مشخص می‌کند و منطق ترتیب انتخاب task ها را در برنامه می‌نویسد. با همه‌گیرشدن LLMها، خیلی از برنامه‌ها LLM-powered شدند، در این برنامه‌ها همچنان توسعه‌دهنده هدف برنامه رو مشخص می‌کند، این هدف رو به تعدادی task کوچک‌تر می‌شکند و منطق ترتیب انتخاب task ها را در برنامه می‌نویسد. اما خروجی هر task بر اساس یک پرامپت ورودی به یک LLM به دست می‌آید. این سبک طراحی و توسعه‌ی محصول، خیلی سریع جای خود رو به RAG-based application ها داد. در اپلیکیشن‌های RAG، برای یافتن خروجی هر task فقط به دانشی که LLM موقع آموزش دیده‌ست بسنده نمی‌شود و دانش به‌روزتر و کامل‌تری همراه با پرامپت به LLM داده می‌شود تا با توجه به آن دانش، خروجی task را مشخص کند. با افزایش توان استدلال LLM ها، منطق اجرایی برنامه‌ها نیز به LLM ها سپرده شد (توسعه نرم‌افزارهای مبتنی بر Chain و Router). به عبارت دیگر توسعه‌دهنده، هدف برنامه رو مشخص می‌کند و این هدف رو به تعدادی task کوچک‌تر می‌شکند، اما خروجی هر task و منطق ترتیب انتخاب task ها توسط LLM انجام می‌شود. و اما ترند این روزها در توسعه‌ی سرویس‌های نرم‌افزاری ظاهرا به سمت AI Agent ها در حرکت‌ست. در این نرم‌افزارها، توسعه‌دهنده، فقط هدف برنامه رو مشخص می‌کند، یک LLM سعی می‌کند آن هدف را بررسی و درک کرده، آن را به دنباله‌ای از task های کوچک و قابل دست‌رسی بشکند، با توجه به هدف، و اطلاعات جانبی که از محیط (پایگاه‌های داده‌ای، RAG، فایل‌ها، سرچ، APIها و …) دریافت می‌کند، منطق و اولویت اجرای این task ها را مشخص کرده و در نهایت به ابزارها و Actuator های مربوطه دستور انجام task را می‌دهد. این عمل در یک حلقه،‌ تکرار شده تا AI Agent به هدف خود برسد.

Показать все...

👍 14❤ 5

Фото недоступноПоказать в Telegram

مدل YOLOv10 منتشر شد! نسخه‌ی جدیدی از مدل You Only Look Once که مشهورترین مدل شناسایی اشیا (Object Detection) است توسط THU-MIG منتشر شد. این مدل در ۶ سایز زیر معرفی شده‌ست: نانو (n): ۲/۳ میلیون پارامتر کوچک (s): ۷/۲ میلیون پارامتر متوسط (m): ۱۵/۴ میلیون پارامتر بزرگ (b): ۱۹/۱ میلیون پارامتر بزرگ (l): ۲۴/۴ میلیون پارامتر خیلی بزرگ (x): ۲۹/۵ میلیون پارامتر این مدل دقت (mAP) به‌تری روی مجموعه‌داده‌ی COCO داشته و به‌خاطر عدم استفاده از NMS به مراتب سریع‌ترست. طوری که نسخه‌ی نانو هر تصویر را در ۱ میلی‌ثانیه پردازش می‌کند (1000 fps) مقاله: https://arxiv.org/pdf/2405.14458 گیت‌هاب: https://github.com/THU-MIG/yolov10/

Показать все...

❤ 11👍 3🙏 1

Фото недоступноПоказать в Telegram

شاید شنیده باشید که در هنگام آموزش شبکه‌های عصبی، وقتی اندازه‌ی batch ها را x برابر می‌کنید، به‌تر‌ست نرخ آموزش را نیز x برابر (اگر الگوریتم آموزش SGD است) و یا x√ (اگر الگوریتم آموزش Adam است) کنید. مثلا در LLM ها که بیش‌تر از الگوریتم آموزشی Adam استفاده می‌شود، اندازه‌ی batch ها را تا حدی که GPU شما خطای Out-Of_Memory نمی‌دهد (به صورت توانی از ۲) افزایش دهید. هر بار که اندازه batch را ۲ برابر می‌کنید، نرخ آموزش را ۱/۴ برابر کنید. این مقاله‌ی جالب از دانشگاه پرینستون، به کمک معادلات دیفرانسیل تصادفی، الگوی کارایی برای تغییر هایپرپارامترها (مثل learning rate) با افزایش batch size ارائه می‌دهد. https://www.cs.princeton.edu/~smalladi/blog/2024/01/22/SDEs-ScalingRules/ پی‌نوشت: معمولا در عمل، نرخ آموزش هرچقدر هم که باشد، در طی epoch ها، ابتدا از 0.1 نرخ آموزش شروع کرده و در ده درصد ابتدایی مسیر آموزش، این نرخ را به‌صورت خطی زیاد کرده تا وقتی ده درصد epoch ها طی شد، به نرخ اصلی رسیده باشیم. از آن‌جا به بعد (۹۰ درصد باقی epoch ها) نرخ آموزش به‌صورت کسینوسی کم می‌شود.

Показать все...

👍 15❤ 3

Фото недоступноПоказать в Telegram

یکی دیگه از VLM ها که به‌تازگی توسط HuggingFace معرفی شده، Idefics2 است. این مدل نیز مانند PalGemma ۸ میلیارد پارامتر دارد. قابلیت دریافت دنباله‌ای از تصاویر (مثلا تکه‌ای از یک ویدئو) را دارد. تصاویر با رزولوشن و aspect ratio خودشان پردازش می‌شوند. قابلیت OCR بسیار خوبی دارد. این مدل تحت مجوز Apache 2.0 منتشر شده و استفاده از آن برای هر منظوری بلامانع‌ست. بلاگ‌پست معرفی: https://huggingface.co/blog/idefics2 مقاله: https://arxiv.org/pdf/2405.02246 مستندات: https://huggingface.co/docs/transformers/main/en/model_doc/idefics2 فاین‌تیون کردن برای استخراج اطلاعات از قبض: https://github.com/NielsRogge/Transformers-Tutorials/blob/master/Idefics2/Fine_tune_Idefics2_for_JSON_extraction_use_cases_(PyTorch_Lightning).ipynb

Показать все...

👍 9❤ 2