School of AI
هدف ما در این اجتماع کوچک، آموزش و ترویج هوش مصنوعی و افزایش سطح آگاهی و تخصص نسبت به آن است. باشد که دست در دست هم، آیندهی این صنعت را در میهنمان ایران بسازیم. https://www.aparat.com/v/Pmrs8
Больше6 146
Подписчики
+1024 часа
+1867 дней
+42530 дней
Время активного постинга
Загрузка данных...
Find out who reads your channel
This graph will show you who besides your subscribers reads your channel and learn about other sources of traffic.Анализ публикаций
Посты | Просмотры | Поделились | Динамика просмотров |
01 Media files | 1 292 | 36 | Loading... |
02 Media files | 2 | 0 | Loading... |
03 خواندن اطلاعات قبض و تبدیل آن به فایل JSON استاندارد، بهکمک دو VLM محبوب این روزها.
با استفاده از مدل PaliGemma:
https://github.com/NielsRogge/Transformers-Tutorials/blob/master/PaliGemma/Fine_tune_PaliGemma_for_image_%3EJSON.ipynb
با استفاده از مدل Idefics2: | 1 396 | 76 | Loading... |
04 در این ویدئوی ۱۴ ثانیهای با رزولوشن ۶۴۰x۶۴۰، از نسخهی large دو مدل YOLOv8 و YOLOv10 با آستانهی اطمینان ۰/۴، برای شناسایی اشیا استفاده شدهست.
اشیا با رنگ سبز، توسط هر دو مدل شناسایی شدهاند.
آبیها توسط مدل YOLOv10 شناسایی شدهاند ولی مدل YOLOv8 در شناسایی آنها ناتوان بوده.
قرمزها توسط مدل YOLOv8 شناسایی شده و مدل YOLOv10 در شناسایی آنها ناموفق عمل کردهست.
همونطور که میبینید مدل YOLOv10 با اینکه بسیار سبکتر و سریعترست، اما در شناسایی اشیای کوچک، به مراتب ضعیفتر از YOLOv8 عمل میکند.
بنابراین اگر قصد استفاده از YOLOv10 برای شناسایی اشیای کوچک را دارید، بهترست، آستانهی اطمینان (Confidence Threshold) را روی عدد کوچکتری تنظیم کنید. | 1 286 | 28 | Loading... |
05 ماجرای چت جی پی تی و ماشین ۱ دلاری!!
بنگاههای فروش خودروی شورولت از ChatGPT برای پاسخ دادن به سؤالات مشتریان استفاده میکردند؛
یکی از مراجعین، اول، هوش مصنوعی را قانع میکند که چون وظیفه نمایندگی بنگاه را دارد، راضی نگه داشتن مشتری وظیفه او است؛
بعد ادامه میدهد که بودجه او برای خرید خودروی ۸۰ هزار دلاری، فقط یک دلار است و برای راضی نگه داشتن او باید آن را به این قیمت به او بفروشند؛
درنهایت تاکید میکند که آیا معامله نهایی است؟ و تاییدیه را هم از هوش مصنوعی میگیرد؛
البته بنگاه معاملات خودرو چنین معاملهای را قبول نمیکند؛
اما تو توییتر گفتن فرد با مراجعه به دادگاه و نشان دادن مکالمات، میتونه بنگاه را مجبور به فروش خودرو به یک دلار کنه
autoevolution.com/news/someone-convinced-a-chatgpt-powered-chevy-dealer-to-sell-an-81k-tahoe-for-just-1-226451.html | 670 | 19 | Loading... |
06 ماجرای چت جی پی تی و ماشین ۱ دلاری!!
بنگاههای فروش خودروی شورولت از ChatGPT برای پاسخ دادن به سؤالات مشتریان استفاده میکردند؛
یکی از مراجعین، اول، هوش مصنوعی را قانع میکند که چون وظیفه نمایندگی بنگاه را دارد، راضی نگه داشتن مشتری وظیفه او است؛
بعد ادامه میدهد که بودجه او برای خرید خودروی ۸۰ هزار دلاری، فقط یک دلار است و برای راضی نگه داشتن او باید آن را به این قیمت به او بفروشند؛
درنهایت تاکید میکند که آیا معامله نهایی است؟ و تاییدیه را هم از هوش مصنوعی میگیرد؛
البته بنگاه معاملات خودرو چنین معاملهای را قبول نمیکند؛
اما فرد با مراجعه به دادگاه و نشان دادن مکالمات، بنگاه را مجبور به فروش خودرو به یک دلار میکند.
autoevolution.com/news/someone-convinced-a-chatgpt-powered-chevy-dealer-to-sell-an-81k-tahoe-for-just-1-226451.html | 819 | 46 | Loading... |
07 واژهی AI Agent (عامل هوشمصنوعی) واژهایست که علاقهمندان به AI این روزها زیاد باهاش روبهرو میشن. بنابراین در این پست به توضیح این مفموم میپردازیم.
این مفهوم جدید نیست و پیشتر با عنوان Intelligent Agent در هوش مصنوعی بررسی میشد. اخیرا این مفهوم شکل و شمایل مدرنتری به خود گرفته و تحت نام AI Agent پوستاندازی کردهست.
در تعریف قدیمی، Intelligent Agent سامانهای (نرمافزاری یا سختافزاری یا ترکیبی) است که محیط (Environment) پیرامون خود را از طریق حسگرها (Sensors) ها، مشاهده و درک کرده (Perception)، بر اساس یک هدفی که برای او تعریف شده (Agent Goal) و اجرای یک برنامهی تصمیمگیری (Agent Function) عملی (Action) را از میان اعمال ممکن انتخاب کرده و توسط عملگرهای خود (Actuators) آن عمل را در محیط انجام میدهد. انجام آن عمل در محیط، وضعیت (State) را تغییر داده و تمامی این مراحل در یک حلقه، تکرار میشوند تا درنهایت عامل به هدف خود برسد.
این مفهوم، از ابتدا یک ایدهی مناسب برای مدلکردن سامانههای هوشمند مثل انواع روباتها، اتومبیلهای خودران، برنامههای هوش مصنوعی و … بود.
با پیدایش مدلهای بنیادین مثل LLM ها، دنیای نرمافزار هم دچار انقلاب شده و علاقه به توسعهی نرمافزارها، سرویسها و دستیارهای هوشمند و خودمختار افزایش یافتهست.
در توسعهی نرمافزار کلاسیک، همهیکارها روی دوش توسعهدهنده است، توسعهدهنده، هدف برنامه رو مشخص میکند، این هدف رو به تعدادی task کوچکتر میشکند، خروجی هر task را مشخص میکند و منطق ترتیب انتخاب task ها را در برنامه مینویسد.
با همهگیرشدن LLMها، خیلی از برنامهها LLM-powered شدند، در این برنامهها همچنان توسعهدهنده هدف برنامه رو مشخص میکند، این هدف رو به تعدادی task کوچکتر میشکند و منطق ترتیب انتخاب task ها را در برنامه مینویسد. اما خروجی هر task بر اساس یک پرامپت ورودی به یک LLM به دست میآید.
این سبک طراحی و توسعهی محصول، خیلی سریع جای خود رو به RAG-based application ها داد. در اپلیکیشنهای RAG، برای یافتن خروجی هر task فقط به دانشی که LLM موقع آموزش دیدهست بسنده نمیشود و دانش بهروزتر و کاملتری همراه با پرامپت به LLM داده میشود تا با توجه به آن دانش، خروجی task را مشخص کند.
با افزایش توان استدلال LLM ها، منطق اجرایی برنامهها نیز به LLM ها سپرده شد (توسعه نرمافزارهای مبتنی بر Chain و Router). به عبارت دیگر توسعهدهنده، هدف برنامه رو مشخص میکند و این هدف رو به تعدادی task کوچکتر میشکند، اما خروجی هر task و منطق ترتیب انتخاب task ها توسط LLM انجام میشود.
و اما ترند این روزها در توسعهی سرویسهای نرمافزاری ظاهرا به سمت AI Agent ها در حرکتست. در این نرمافزارها، توسعهدهنده، فقط هدف برنامه رو مشخص میکند، یک LLM سعی میکند آن هدف را بررسی و درک کرده، آن را به دنبالهای از task های کوچک و قابل دسترسی بشکند، با توجه به هدف، و اطلاعات جانبی که از محیط (پایگاههای دادهای، RAG، فایلها، سرچ، APIها و …) دریافت میکند، منطق و اولویت اجرای این task ها را مشخص کرده و در نهایت به ابزارها و Actuator های مربوطه دستور انجام task را میدهد. این عمل در یک حلقه، تکرار شده تا AI Agent به هدف خود برسد. | 3 315 | 76 | Loading... |
08 مدل YOLOv10 منتشر شد!
نسخهی جدیدی از مدل You Only Look Once که مشهورترین مدل شناسایی اشیا (Object Detection) است توسط THU-MIG منتشر شد.
این مدل در ۶ سایز زیر معرفی شدهست:
نانو (n): ۲/۳ میلیون پارامتر
کوچک (s): ۷/۲ میلیون پارامتر
متوسط (m): ۱۵/۴ میلیون پارامتر
بزرگ (b): ۱۹/۱ میلیون پارامتر
بزرگ (l): ۲۴/۴ میلیون پارامتر
خیلی بزرگ (x): ۲۹/۵ میلیون پارامتر
این مدل دقت (mAP) بهتری روی مجموعهدادهی COCO داشته و بهخاطر عدم استفاده از NMS به مراتب سریعترست. طوری که نسخهی نانو هر تصویر را در ۱ میلیثانیه پردازش میکند (1000 fps)
مقاله:
https://arxiv.org/pdf/2405.14458
گیتهاب:
https://github.com/THU-MIG/yolov10/ | 3 917 | 122 | Loading... |
09 شاید شنیده باشید که در هنگام آموزش شبکههای عصبی، وقتی اندازهی batch ها را x برابر میکنید، بهترست نرخ آموزش را نیز x برابر (اگر الگوریتم آموزش SGD است) و یا x√ (اگر الگوریتم آموزش Adam است) کنید.
مثلا در LLM ها که بیشتر از الگوریتم آموزشی Adam استفاده میشود، اندازهی batch ها را تا حدی که GPU شما خطای Out-Of_Memory نمیدهد (به صورت توانی از ۲) افزایش دهید. هر بار که اندازه batch را ۲ برابر میکنید، نرخ آموزش را ۱/۴ برابر کنید.
این مقالهی جالب از دانشگاه پرینستون، به کمک معادلات دیفرانسیل تصادفی، الگوی کارایی برای تغییر هایپرپارامترها (مثل learning rate) با افزایش batch size ارائه میدهد.
https://www.cs.princeton.edu/~smalladi/blog/2024/01/22/SDEs-ScalingRules/
پینوشت:
معمولا در عمل، نرخ آموزش هرچقدر هم که باشد، در طی epoch ها، ابتدا از 0.1 نرخ آموزش شروع کرده و در ده درصد ابتدایی مسیر آموزش، این نرخ را بهصورت خطی زیاد کرده تا وقتی ده درصد epoch ها طی شد، به نرخ اصلی رسیده باشیم. از آنجا به بعد (۹۰ درصد باقی epoch ها) نرخ آموزش بهصورت کسینوسی کم میشود. | 3 184 | 161 | Loading... |
10 یکی دیگه از VLM ها که بهتازگی توسط HuggingFace معرفی شده، Idefics2 است.
این مدل نیز مانند PalGemma ۸ میلیارد پارامتر دارد.
قابلیت دریافت دنبالهای از تصاویر (مثلا تکهای از یک ویدئو) را دارد.
تصاویر با رزولوشن و aspect ratio خودشان پردازش میشوند.
قابلیت OCR بسیار خوبی دارد.
این مدل تحت مجوز Apache 2.0 منتشر شده و استفاده از آن برای هر منظوری بلامانعست.
بلاگپست معرفی:
https://huggingface.co/blog/idefics2
مقاله:
https://arxiv.org/pdf/2405.02246
مستندات:
https://huggingface.co/docs/transformers/main/en/model_doc/idefics2
فاینتیون کردن برای استخراج اطلاعات از قبض:
https://github.com/NielsRogge/Transformers-Tutorials/blob/master/Idefics2/Fine_tune_Idefics2_for_JSON_extraction_use_cases_(PyTorch_Lightning).ipynb | 3 321 | 106 | Loading... |
11 همونطور که میدونید، بهتازگی مدلهای چندوجهی (Multimodal Models) و بهطور خاص مدلهای بینایی-زبان (Vision-Language Models) بسیار محبوب شدهاند.
این مدلها معمولا بهطور همزمان یک تصویر و یک نوشتار را در ورودی دریافت میکنند. خروجی این مدلها ممکنست تنها نوشتار باشد، تنها تصویر باشد و یا ترکیبی از هر دو.
از مدلهای تجاری مثل GPT-4o و Gemini 1.5 Pro که بگذریم، بسیاری از افراد مایلاند از مدلهای اوپن-سورس و رایگان استفاده کنند.
بهتازگی شاهد انتشار مدل PaliGemma توسط گوگل بودیم که در عین سادگی، عملکرد فوقالعادهای دارد. با این حال، این مدل ۸ میلیارد پارامتر دارد و ممکنست برای اجرا روی دستگاههای ضعیف مناسب نباشد.
گزینهی دیگر Moondream2 است که با اینکه دقت PaliGemma را ندارد اما بهنسبت سایز بسیار کوچک آن (۱/۸۶ میلیارد پارامتر) دقت قابل قبولی دارد و حتی در آزمون VQAv2 از GPT-4o هم بهتر عمل میکند.
لینک آموزشی زیر، این مدل را برای شمارش مبلغ پول فاینتیون میکند.
https://blog.roboflow.com/finetuning-moondream2/ | 3 731 | 142 | Loading... |
12 شرکت OpenAI محبوبترین صدای ChatGPT موسوم به Sky را که در دموهای چند روز پیش این شرکت وجود داشت، حذف کرد.
این صدا، الهامگرفتهشده از صدای هوش مصنوعی سامانثا در فیلم Her بود که به علت شباهت زیاد به صدای اسکارلت جانسون (صداپیشهی این فیلم) و نارضایتی وی، حذف شد.
https://openai.com/index/how-the-voices-for-chatgpt-were-chosen/ | 5 090 | 50 | Loading... |
13 Media files | 2 | 0 | Loading... |
14 شرکت OpenAI محبوبترین صدای ChatGPT موسوم به Sky را که در دموهای چند روز پیش این شرکت وجود داشت، حذف کرد.
این صدا، الهامگرفتهشده از صدای هوش مصنوعی سامانثا در فیلم Her بود که به علت شباهت زیاد به صدای اسکارلت جانسون (صداپیشهی این فیلم) و نارضایتی وی، حذف شد.
https://openai.com/index/how-the-voices-for-chatgpt-were-chosen/ | 1 | 0 | Loading... |
15 پژوهشگران دانشگاه میشیگان، یک Diffusion Model معرفی کردهاند که با دریافت یک پرامپت متنی برای صوت (در کنار تصویر)، صدا نیز تولید میکند.
این مدل در واقع به صدا نیز به شکل تصویر نگاه کرده (spectrograms) و آن را میسازد.
مقاله
arxiv.org/pdf/2405.12221
گیتهاب
ificl.github.io/images-that-sound
👉Code github.com/IFICL/images-that-sound | 5 678 | 108 | Loading... |
16 مصطفی سلیمان، مدیراجرایی بخش هوش مصنوعی شرکت مایکروسافت، ویدئویی از محصول جدید مایکروسافت (Copilot + PCs) منتشر کرد که درواقع یک رایانهی شخصی دارای شتابدهندهی هوشمصنوعی + سیستمعامل ویندوز + یک نسخهی لوکال از Copilit است که به همهی بخشهای رایانه دسترسی دارد.
نسخهی جدید Microsoft Copilot مبتنی بر GPT-4o بوده و قابلیت شنیدن، دیدن و صحبتکردن درلحظه را دارد،
نسل جدیدی از رایانههای شخصی (Personal Computers) موسوم به هوش شخصی (Personal Intelligence) در راهاند. | 2 867 | 54 | Loading... |
17 مطالعهی این گزارش از Salesforce به علاقهمندان به RLHF پیشنهاد میشود.
https://arxiv.org/pdf/2405.07863v1 | 2 175 | 35 | Loading... |
18 پژوهشگران گوگل در این پژوهش نشان دادهاند که Fine-tune کردن LLM ها میتواند باعث افزایش میل به Hallucination شود.
https://arxiv.org/pdf/2405.05904 | 2 246 | 63 | Loading... |
19 بررسی میدانی ما نشون میده، هوش مصنوعی GPT-4o اونقدرها هم که OpenAI ادعا میکنه، شگفتانگیز نیست. حداقل در شمارش تعداد خروسهای این تصویر که به گرد پای مدل اوپنسورس PaliGemma نمیرسه. | 3 429 | 67 | Loading... |
20 در بلاگپست آموزشی زیر از تیم Roboflow مدل بینایی-زبان PaliGemma که بهتازگی توسط گوگل معرفی شده، قدم-به-قدم برای تشخیص شکستگی استخوان از روی تصویر X-Ray فاینتیون شدهست.
https://blog.roboflow.com/how-to-fine-tune-paligemma/ | 2 497 | 54 | Loading... |
21 نسخهی جدید (۱/۵) از خانوادهی مدلهای Grounding DINO در دو سایز Pro و Edge منتشر شد.
مدل Grounding DINO یک مدل Open-Vocabulary Object Detection است که قادر به شناسایی اشیای موجود در تصویر، تنها بر اساس پرامپت متنی ارائهشده (بهصورت Zero-Shot Learning) است.
این نسخه از Backbone جدید استفاده کرده که از نسخهی قبلی سریعتر و دقیقترست.
نسخهی Edge نسخهی سبک و مختص اجرا روی دستگاههای لبهست.
این نسخه برای TensorRT بهینه شده و قادرست روی دستگاههای NVIDIA Jetson تعداد ۷۵/۲ فریم را در هر ثانیه پردازش کند.
گیتهاب:
https://github.com/IDEA-Research/Grounding-DINO-1.5-API | 2 334 | 53 | Loading... |
22 هشدار بعد از دیدن این ویدئو سعی کنید خونسردی خودتون رو حفظ کنید
این فیچر جدید ChatGPT تقریبا یکی از عظیم ترین پیشرفت ها AI
*Gratomic AI Bot | هوش مصنوعی گراتومیک*
@sut_tw | 1 819 | 115 | Loading... |
23 بخیهزدن پوست دانهی ذرت توسط جدیدترین روبات ریزجراح ساخت شرکت Sony | 2 556 | 48 | Loading... |
24 استفاده از تکنیک Speculative Decoding برای افزایش سرعت Inference در مدل OpenAI Whisper | 1 785 | 29 | Loading... |
25 روش Speculative Decoding برای افزایش سرعت مدلها در زمان Inference:
در یادگیری ماشین، هر زمان که یک مدل با پیچیدگی زمانی بسیار بالا داریم که قرارست از بین یک مجموعه بسیار بزرگ نامزدها، یک یا چندتا را انتخاب کند، این کار را در دو فاز انجام میدهیم. مثلا در ساخت سامانههای پیشنهاددهنده، ابتدا در فازی به نام Retrieval یا Candidate Generation، یک مدل بسیار سادهتر (مثلا رگرسیون لاجستیک)که میتواند اقلام بهدردنخور را با دقت خوبی تشخیص دهد، مجموعهی بسیار بزرگ نامزدها را فیلتر کرده و به یک مجموعهی بسیار کوچکتر از نامزدها میرسد. حال، مدل اصلی (که پیچیدگ بالایی دارد) در فازی بهنام Ranking با تعداد ورودی کمتری روبهروست و در زمان قابل قبولی این تعداد کم را مرتب و از بین آنّا انتخاب میکند.
در LLM ها نیز، میتوان از یک مدل زبانی سادهتر (Assistant Model) به عنوان دستیار LLM اصلی (Main Model) کمک گرفت. این مدل، از بین واژهگان موجود در واژهنامه (Vocabulary)، بیربطها را حذف کرده و تعداد بسیار محدودتری واژهی نامزد را در اختیار LLM اصلی قرار میدهد. به این تکنیک Speculative Decoding گفته میشود.
بلاگپست زیر، استفاده از تکنیک Speculative Decoding برای افزایش دوبرابری سرعت مدل Whisper را نشان میدهد. مدل Whisper یک مدل اوپن-سورس تشخیص گفتار (ASR) است که توسط OpenAI منتشر شده و علیرقم دقت بالا، سرعت پایینی دارد. در این پست، ابتدا یک مدل دستیار سادهتر از مدل اصلی Whisper واچکانی (Distill) شده که وظیفهی تبدیل صوت به متن را انجام میدهد. هرجا که ضریب اطمینان این مدل پایین باشد، مدل اصلی دستبهکار شده و تصحیح را انجام میدهد.
بلاگپست:
https://huggingface.co/blog/whisper-speculative-decoding
نوتبوک:
https://colab.research.google.com/github/sanchit-gandhi/notebooks/blob/main/speculative_decoding.ipynb | 2 154 | 51 | Loading... |
26 مدل ChatPose توسط موسسهی Max Planck در سمینار CVPR 2024 ارائه شده که قادرست posture سهبعدی بدن انسان را از روی یک تکتصویر و یا متن درک کرده و در مورد آن صحبت کند.
https://yfeng95.github.io/ChatPose/ | 2 118 | 39 | Loading... |
27 یکی از مهمترین چالشها هنگام آموزش مدلهای زبانی بزرگ، تحت کنترل داشتن نوشتارهای ساختهشده توسط مدلست. تولید یک پاسخ نادقیق یا دارای سوگیریهای اجتماعی، نژادی، سیاسی یا مذهبی، و یا تولید نوشتارهای ناهنجار یا غیراخلاقی ممکنست اپلیکیشنها را با چالشهایی روبهرو کند.
ازهمینرو، معمولا دادههای آموزشی در ابتدا تا جای ممکن فیلتر شده و بعد از آموزش هم، خروجی مدل بهکمک بازخوردهای انسانی (RLHF) و همینطور مدلهای فیلترینگ، تحت کنترل در میآیند.
با اینحال، مدلهای بدون سانسوری مثل Wizard-Vicuna-30B-Uncensored-GGML هم وجود دارند که تستکردنشون جالبه اما استفاده از اونها در اپلیکیشنهای تجاری توصیه نمیشه.
هاگینگفیس:
https://huggingface.co/TheBloke/Wizard-Vicuna-30B-Uncensored-GGML
ویدئوی آموزشی استفاده از مدل Wizard Vicuna:
https://youtu.be/7hoQ7XpWwOI?si=00EkMwKdLyQw-Wi5 | 2 222 | 43 | Loading... |
28 اگه از خوراکهای تکراری خسته شدی میتونی به کمک هوش مصنوعی جدید گوگل دستور پخت خوراکهای ترکیبی از دو کشور مختلف رو امتحان کنی!
https://artsandculture.google.com/ | 5 657 | 168 | Loading... |
29 پژوهشگرها (و دانشجوها) همیشه دلشون میخواد که یه نفر باشه که هر مقالهای رو که میگن بره بخونه، بیاد خلاصهشو بهشون بگه و انقدری خوب مقاله رو فهمیده باشه که پرسشهاشون رو هم پاسخ بده و خلاصه یه پارتنری باشه که بشینن در مورد مقاله با هم صحبت کنن.
خوب گوگل زحمت این رو هم کشید ☺️
https://illuminate.withgoogle.com/ | 6 567 | 683 | Loading... |
30 همونطور که میدونید، استارتاپ Neuralink بهتازگی تایید FDA برای کاشت ایمپلنت خود در مغز انسان رو گرفت و اون رو در مغز اولین انسان قرار داد.
این ایمپلنت تعداد ۶۴ نخ (نازکتر از مو) دارد که روی هر کدام از آنها ۱۶ عدد الکترود نصب شده که قادرند سیگنالهای الکتریکی ناشی از فعالشدن یاختههای عصبی را اندازهگیری کنند.
این نخها توسط یک روبات جراح، وارد بخش Motor Cotex مغز که مسئول تبدیل فکر به عمل و حرکتدادن اندامهاست، میشود. بنابراین در هر لحظه که شخص به عملی فکر میکند، ۱۰۲۴ سیگنال از سلولهای motor cortex خوانده شده و با بلوتوث به اپلیکیشن موبایل ارسال میشود.
پردازش این سیگنالها و آموزش مدلهای یادگیری ماشین روی آنها امکان کنترل کامپیوتر توسط ذهن (Brain-Computer Interface) را میدهد.
با اینکه در اولین آزمایش انسانی، تعدادی از نخها خودبهخود از مغز بیمار خارج شده، اما پژوهشگران همچنان مشغول جمعآوری داده از سایر الکترودها اند و امروز اطلاع دادند که بیمار توانسته بازی Webgrid رو با امتیاز ۸/۰۱ (که بسیار نزدیک به انجام با دست است) انجام دهد.
شما هم میتونید از لینک زیر این بازی رو انجام بدید:
https://neuralink.com/webgrid/
به نظر شما هدف Neuralink از انتشار این بازی چیست؟ جمع آوری داده از بازیهای انجام شده یا تبلیغات؟! | 5 065 | 51 | Loading... |
31 اگر دموهای GPT-4o براتون جذاب بود، احتمالا تا الان به مدلهای بینایی-زبان (Vision-Language Models) هم علاقهمند شدهاید. مدلهایی که تصویر و نوشتار را بهصورت همزمان دریافت و درک کرده و متنی مرتبط را در خروجی تولید میکنند.
امروز گوگل خانوادهای از مدلهای VLM اوپنسورس به نام PaliGemma معرفی کرد.
این مدل از کدکنندهی تصویر موجود در مدل SigLip-So400m برای کدکردن تصویر ورودی استفاده کرده و بهکمک مدل Gemma-2B که یک مدل decoder-only است، متن خروجی را تولید میکند.
این مدل single-turn است و برای استفاده به صورت مکالمهای مناسب نیست.
دمو:
https://huggingface.co/spaces/google/paligemma
استفاده از مدل:
https://colab.research.google.com/drive/1gOhRCFyt9yIoasJkd4VoaHcIqJPdJnlg?usp=sharing
فاینتیون کردن مدل:
https://colab.research.google.com/github/google-research/big_vision/blob/main/big_vision/configs/proj/paligemma/finetune_paligemma.ipynb
گیتهاب:
https://github.com/google-research/big_vision/blob/main/big_vision/configs/proj/paligemma/README.md
هاگینگفیس:
https://huggingface.co/blog/paligemma | 5 412 | 189 | Loading... |
32 اپلیکیشن دسکتاپ ChatGPT برای سیستم عامل macOS معرفی شد.
کاربران Plus از امروز و کاربران نسخهی رایگان از چند هفتهی دیگر میتوانند این اپلیکیشن رو دانلود کنند.
برای استفاده از چتجیپیتی روی مک خود، کافیست کلیدهای Option + Space را زده و در باکس باز شده، شبیه به Spotlight خود مک، با چتجیپیتی ارتباط برقرار کنید. | 2 521 | 37 | Loading... |
33 توسعهدهندگان از همین امروز میتوانند در فریمورک LangChain از مدل GPT-4o از طریق API استفاده کنند.
در این کد نمونه، آدرس یک تصویر به مدل داده شده و از مدل خواسته شده محتوای تصویر را شرح دهد.
https://python.langchain.com/v0.1/docs/integrations/chat/openai/ | 6 009 | 173 | Loading... |
34 یک دموی جذاب از مدل GPT-4o | 2 274 | 102 | Loading... |
35 شرکت OpenAI مدل هوش مصنوعی جدید خود بهنام GPT-4o را معرفی کرد. این مدل، یک شبکهی عصبی multimodal یا omni است. بهعبارتی میتواند پذیرای دادهی ورودی از نوع متن، صوت، تصویر و یا ویدئو باشد. خروجی مدل نیز میتواند از هر نوعی باشد.
این هوش مصنوعی، جایگزینی برای دستیارهای صوتی سنتی مثل Apple Siri یا Amazon Alexa یا Google Assistant است که به مدلهای بنیادین مانند LLM ها مجهز شدهست و میتواند تعامل واقعا هوشمندانهای شبیه به سامانهی سامانثا در فیلم Her ارائه دهد.
پیش از این، ChatGPT قابلیتی بهنام Voice Mode داشت که به کاربران اجازهی تعامل از طریق صوت بهجای نوشتار را میداد. اما در این حالت، ابتدا صدای کاربر به مدل OpenAI Whisper که یک مدل ASR است داده میشد و متن معادل آن صدا بهدست میآمد. سپس این متن به مدل GPT-4 که یک LLM است داده شده و پاسخ مورد نظر در قالب متنی دیگر بهدست میآمد. در نهایت، این پاسخ متنی به کمک یک مدل سادهی TTS به صوت تبدیل و به کاربر ارائه میشد.
این پایپلاین، اگرچه در نوع خود بینظیر بود اما طبیعتا latency قابل توجهی (حدود ۵/۴ ثانیه) داشت که هرگز نمیتوانست حس یک گپوگفت طبیعی را به کاربر منتقل کند. از طرفی کاربر باید منتظر پردازش کامل صحبت قبلی میماند و برخلاف یک گپوگفت طبیعی، نمیتوانست صحبت دستیار را قطع کند. به علاوه اطلاعات مهمی از صحبت کاربر (مانند تون صدا، احساس، نویز محیط و …) به مدل زبانی منتقل نمیشد و صدای خروجی نیز عاری از هرگونه ابراز احساسات، خنده، آواز و … بود.
اما مدل GPT-4o یک مدل end-to-end است یعنی از سه مدل مجزا تشکیل نشده و همهی انواع ورودیها از طریق یک شبکهی عصبی یکتا، پردازش میشوند.
کیفیت عملکرد این مدل برروی benchmark های متداول برای نوشتار انگلیسی، کدزنی و استدلال، مشابه با مدل GPT-4 Turbo است اما برای تسکهای چندزبانی، پردازش صوت و همچنین بینایی، عملکرد بهتری دارد.
قابلیت پردازش متن و تصویر به کمک مدل GPT-4o از امروز به نسخهی رایگان ChatGPT اضافه شده اما قابلیت پردازش صوت از چندهفته دیگر برای کابران نسخهی Plus در دسترس خواهد بود. توسعهدهندهگان نیز از امروز میتوانند به قابلیتهای پردازش متن و تصویر از طریق API با نصف هزینهی GPT-4 Turbo دسترسی داشته باشند.
نکتهی انگیزشی برای اعضای کانال اینکه در بین سازندگان اصلی این مدل نام تعداد زیادی از هممیهنان عزیزمون به چشم میخوره. آقایان علی کمالی، امین توتونچیان، بهروز قربانی، فرزاد خراسانی، هادی سلمان، رضا زمانی و …
https://openai.com/index/hello-gpt-4o/ | 3 977 | 111 | Loading... |
36 فردا OpenAI خبرهای هیجانانگیزی دارد…
منتظر باشید 😍 | 2 134 | 8 | Loading... |
37 فردا OpenAI خبرهای هیجانانگیزی دارد… | 3 | 0 | Loading... |
38 فریمورک FeatUp بهطور مشترک توسط پژوهشگران MIT و Microsoft و Berkeley و Google در سمینار ICLR 2024 معرفی شده.
این فریمورک فارق از تسک یا مدل، ویژگیهای ازدسترفتهی دادهی بینایی (تصویر) در ژرفای مدل را بدون تاثیر در semantic مدل، با دقت قابلتوجهی بازسازی میکند.
سایت:
https://mhamilton.net/featup.html
مقاله:
https://arxiv.org/pdf/2403.10516
کد:
https://github.com/mhamilton723/FeatUp | 4 978 | 128 | Loading... |
Фото недоступноПоказать в Telegram
خواندن اطلاعات قبض و تبدیل آن به فایل JSON استاندارد، بهکمک دو VLM محبوب این روزها.
با استفاده از مدل PaliGemma:
https://github.com/NielsRogge/Transformers-Tutorials/blob/master/PaliGemma/Fine_tune_PaliGemma_for_image_%3EJSON.ipynb
با استفاده از مدل Idefics2:
❤ 8
00:14
Видео недоступноПоказать в Telegram
در این ویدئوی ۱۴ ثانیهای با رزولوشن ۶۴۰x۶۴۰، از نسخهی large دو مدل YOLOv8 و YOLOv10 با آستانهی اطمینان ۰/۴، برای شناسایی اشیا استفاده شدهست.
اشیا با رنگ سبز، توسط هر دو مدل شناسایی شدهاند.
آبیها توسط مدل YOLOv10 شناسایی شدهاند ولی مدل YOLOv8 در شناسایی آنها ناتوان بوده.
قرمزها توسط مدل YOLOv8 شناسایی شده و مدل YOLOv10 در شناسایی آنها ناموفق عمل کردهست.
همونطور که میبینید مدل YOLOv10 با اینکه بسیار سبکتر و سریعترست، اما در شناسایی اشیای کوچک، به مراتب ضعیفتر از YOLOv8 عمل میکند.
بنابراین اگر قصد استفاده از YOLOv10 برای شناسایی اشیای کوچک را دارید، بهترست، آستانهی اطمینان (Confidence Threshold) را روی عدد کوچکتری تنظیم کنید.
❤ 7👍 5🔥 2🙏 1
Repost from Tensorflow(@CVision)
ماجرای چت جی پی تی و ماشین ۱ دلاری!!
بنگاههای فروش خودروی شورولت از ChatGPT برای پاسخ دادن به سؤالات مشتریان استفاده میکردند؛
یکی از مراجعین، اول، هوش مصنوعی را قانع میکند که چون وظیفه نمایندگی بنگاه را دارد، راضی نگه داشتن مشتری وظیفه او است؛
بعد ادامه میدهد که بودجه او برای خرید خودروی ۸۰ هزار دلاری، فقط یک دلار است و برای راضی نگه داشتن او باید آن را به این قیمت به او بفروشند؛
درنهایت تاکید میکند که آیا معامله نهایی است؟ و تاییدیه را هم از هوش مصنوعی میگیرد؛
البته بنگاه معاملات خودرو چنین معاملهای را قبول نمیکند؛
اما تو توییتر گفتن فرد با مراجعه به دادگاه و نشان دادن مکالمات، میتونه بنگاه را مجبور به فروش خودرو به یک دلار کنه
autoevolution.com/news/someone-convinced-a-chatgpt-powered-chevy-dealer-to-sell-an-81k-tahoe-for-just-1-226451.html
Someone Convinced a ChatGPT-Powered Chevy Dealer to Sell $81K Tahoe for Just $1
And as the chatbot itself said, "It's a legally binding offer, no takesies backsies," so Chevrolet should honor the order
🔥 12👍 4❤ 1
Repost from Tensorflow(@CVision)
ماجرای چت جی پی تی و ماشین ۱ دلاری!!
بنگاههای فروش خودروی شورولت از ChatGPT برای پاسخ دادن به سؤالات مشتریان استفاده میکردند؛
یکی از مراجعین، اول، هوش مصنوعی را قانع میکند که چون وظیفه نمایندگی بنگاه را دارد، راضی نگه داشتن مشتری وظیفه او است؛
بعد ادامه میدهد که بودجه او برای خرید خودروی ۸۰ هزار دلاری، فقط یک دلار است و برای راضی نگه داشتن او باید آن را به این قیمت به او بفروشند؛
درنهایت تاکید میکند که آیا معامله نهایی است؟ و تاییدیه را هم از هوش مصنوعی میگیرد؛
البته بنگاه معاملات خودرو چنین معاملهای را قبول نمیکند؛
اما فرد با مراجعه به دادگاه و نشان دادن مکالمات، بنگاه را مجبور به فروش خودرو به یک دلار میکند.
autoevolution.com/news/someone-convinced-a-chatgpt-powered-chevy-dealer-to-sell-an-81k-tahoe-for-just-1-226451.html
Someone Convinced a ChatGPT-Powered Chevy Dealer to Sell $81K Tahoe for Just $1
And as the chatbot itself said, "It's a legally binding offer, no takesies backsies," so Chevrolet should honor the order
👍 19👏 3🔥 1😍 1
واژهی AI Agent (عامل هوشمصنوعی) واژهایست که علاقهمندان به AI این روزها زیاد باهاش روبهرو میشن. بنابراین در این پست به توضیح این مفموم میپردازیم.
این مفهوم جدید نیست و پیشتر با عنوان Intelligent Agent در هوش مصنوعی بررسی میشد. اخیرا این مفهوم شکل و شمایل مدرنتری به خود گرفته و تحت نام AI Agent پوستاندازی کردهست.
در تعریف قدیمی، Intelligent Agent سامانهای (نرمافزاری یا سختافزاری یا ترکیبی) است که محیط (Environment) پیرامون خود را از طریق حسگرها (Sensors) ها، مشاهده و درک کرده (Perception)، بر اساس یک هدفی که برای او تعریف شده (Agent Goal) و اجرای یک برنامهی تصمیمگیری (Agent Function) عملی (Action) را از میان اعمال ممکن انتخاب کرده و توسط عملگرهای خود (Actuators) آن عمل را در محیط انجام میدهد. انجام آن عمل در محیط، وضعیت (State) را تغییر داده و تمامی این مراحل در یک حلقه، تکرار میشوند تا درنهایت عامل به هدف خود برسد.
این مفهوم، از ابتدا یک ایدهی مناسب برای مدلکردن سامانههای هوشمند مثل انواع روباتها، اتومبیلهای خودران، برنامههای هوش مصنوعی و … بود.
با پیدایش مدلهای بنیادین مثل LLM ها، دنیای نرمافزار هم دچار انقلاب شده و علاقه به توسعهی نرمافزارها، سرویسها و دستیارهای هوشمند و خودمختار افزایش یافتهست.
در توسعهی نرمافزار کلاسیک، همهیکارها روی دوش توسعهدهنده است، توسعهدهنده، هدف برنامه رو مشخص میکند، این هدف رو به تعدادی task کوچکتر میشکند، خروجی هر task را مشخص میکند و منطق ترتیب انتخاب task ها را در برنامه مینویسد.
با همهگیرشدن LLMها، خیلی از برنامهها LLM-powered شدند، در این برنامهها همچنان توسعهدهنده هدف برنامه رو مشخص میکند، این هدف رو به تعدادی task کوچکتر میشکند و منطق ترتیب انتخاب task ها را در برنامه مینویسد. اما خروجی هر task بر اساس یک پرامپت ورودی به یک LLM به دست میآید.
این سبک طراحی و توسعهی محصول، خیلی سریع جای خود رو به RAG-based application ها داد. در اپلیکیشنهای RAG، برای یافتن خروجی هر task فقط به دانشی که LLM موقع آموزش دیدهست بسنده نمیشود و دانش بهروزتر و کاملتری همراه با پرامپت به LLM داده میشود تا با توجه به آن دانش، خروجی task را مشخص کند.
با افزایش توان استدلال LLM ها، منطق اجرایی برنامهها نیز به LLM ها سپرده شد (توسعه نرمافزارهای مبتنی بر Chain و Router). به عبارت دیگر توسعهدهنده، هدف برنامه رو مشخص میکند و این هدف رو به تعدادی task کوچکتر میشکند، اما خروجی هر task و منطق ترتیب انتخاب task ها توسط LLM انجام میشود.
و اما ترند این روزها در توسعهی سرویسهای نرمافزاری ظاهرا به سمت AI Agent ها در حرکتست. در این نرمافزارها، توسعهدهنده، فقط هدف برنامه رو مشخص میکند، یک LLM سعی میکند آن هدف را بررسی و درک کرده، آن را به دنبالهای از task های کوچک و قابل دسترسی بشکند، با توجه به هدف، و اطلاعات جانبی که از محیط (پایگاههای دادهای، RAG، فایلها، سرچ، APIها و …) دریافت میکند، منطق و اولویت اجرای این task ها را مشخص کرده و در نهایت به ابزارها و Actuator های مربوطه دستور انجام task را میدهد. این عمل در یک حلقه، تکرار شده تا AI Agent به هدف خود برسد.
👍 14❤ 5
Фото недоступноПоказать в Telegram
مدل YOLOv10 منتشر شد!
نسخهی جدیدی از مدل You Only Look Once که مشهورترین مدل شناسایی اشیا (Object Detection) است توسط THU-MIG منتشر شد.
این مدل در ۶ سایز زیر معرفی شدهست:
نانو (n): ۲/۳ میلیون پارامتر
کوچک (s): ۷/۲ میلیون پارامتر
متوسط (m): ۱۵/۴ میلیون پارامتر
بزرگ (b): ۱۹/۱ میلیون پارامتر
بزرگ (l): ۲۴/۴ میلیون پارامتر
خیلی بزرگ (x): ۲۹/۵ میلیون پارامتر
این مدل دقت (mAP) بهتری روی مجموعهدادهی COCO داشته و بهخاطر عدم استفاده از NMS به مراتب سریعترست. طوری که نسخهی نانو هر تصویر را در ۱ میلیثانیه پردازش میکند (1000 fps)
مقاله:
https://arxiv.org/pdf/2405.14458
گیتهاب:
https://github.com/THU-MIG/yolov10/
❤ 11👍 3🙏 1
Фото недоступноПоказать в Telegram
شاید شنیده باشید که در هنگام آموزش شبکههای عصبی، وقتی اندازهی batch ها را x برابر میکنید، بهترست نرخ آموزش را نیز x برابر (اگر الگوریتم آموزش SGD است) و یا x√ (اگر الگوریتم آموزش Adam است) کنید.
مثلا در LLM ها که بیشتر از الگوریتم آموزشی Adam استفاده میشود، اندازهی batch ها را تا حدی که GPU شما خطای Out-Of_Memory نمیدهد (به صورت توانی از ۲) افزایش دهید. هر بار که اندازه batch را ۲ برابر میکنید، نرخ آموزش را ۱/۴ برابر کنید.
این مقالهی جالب از دانشگاه پرینستون، به کمک معادلات دیفرانسیل تصادفی، الگوی کارایی برای تغییر هایپرپارامترها (مثل learning rate) با افزایش batch size ارائه میدهد.
https://www.cs.princeton.edu/~smalladi/blog/2024/01/22/SDEs-ScalingRules/
پینوشت:
معمولا در عمل، نرخ آموزش هرچقدر هم که باشد، در طی epoch ها، ابتدا از 0.1 نرخ آموزش شروع کرده و در ده درصد ابتدایی مسیر آموزش، این نرخ را بهصورت خطی زیاد کرده تا وقتی ده درصد epoch ها طی شد، به نرخ اصلی رسیده باشیم. از آنجا به بعد (۹۰ درصد باقی epoch ها) نرخ آموزش بهصورت کسینوسی کم میشود.
👍 15❤ 3
Фото недоступноПоказать в Telegram
یکی دیگه از VLM ها که بهتازگی توسط HuggingFace معرفی شده، Idefics2 است.
این مدل نیز مانند PalGemma ۸ میلیارد پارامتر دارد.
قابلیت دریافت دنبالهای از تصاویر (مثلا تکهای از یک ویدئو) را دارد.
تصاویر با رزولوشن و aspect ratio خودشان پردازش میشوند.
قابلیت OCR بسیار خوبی دارد.
این مدل تحت مجوز Apache 2.0 منتشر شده و استفاده از آن برای هر منظوری بلامانعست.
بلاگپست معرفی:
https://huggingface.co/blog/idefics2
مقاله:
https://arxiv.org/pdf/2405.02246
مستندات:
https://huggingface.co/docs/transformers/main/en/model_doc/idefics2
فاینتیون کردن برای استخراج اطلاعات از قبض:
https://github.com/NielsRogge/Transformers-Tutorials/blob/master/Idefics2/Fine_tune_Idefics2_for_JSON_extraction_use_cases_(PyTorch_Lightning).ipynb
👍 9❤ 2