cookie

Мы используем файлы cookie для улучшения сервиса. Нажав кнопку «Принять все», вы соглашаетесь с использованием cookies.

avatar

Агенты ИИ | AGI_and_RL

Про ии, RL и в целом @tokarev_i_v

Больше
Рекламные посты
2 661
Подписчики
Нет данных24 часа
-17 дней
+2730 дней

Загрузка данных...

Прирост подписчиков

Загрузка данных...

Фото недоступноПоказать в Telegram
🚀 @SBERLOGASCI webinar on data science: 👨‍🔬 Сергей Фиронов "Обзор идей АльфаГо, АльфаЗеро" ⌚️ Понедельник, 10 июня, 19.00 (по Москве) АльфаГо, АльфаЗеро революционизировали подходы на основе машинного обучения к сложным комбинаторным задачам. То, что казалось недостижимым в ближайшие десятилетия - было достигнуто DeepMind. В данном докладе один лучших дата-сайнтистов, Каггл грагдмастер Сергей Фиронов, расскажет обзор этих работ. Разберем репозиторий и практическое применение AlphaZero от DeepMind к своим задачам на конкретном примере, как и что надо имплементировать и учесть, а так же попробуем подумать на тему применения к сборке рубиков. В работах АльфаГо, АльфаЗеро произошел отказ от идей Q-алгоритма, и происходит прямое обучение сетки предсказывающей ходы и позиции. Однако, таргеты для сетки рассчитываются на основе MCTS алгоритма, что является принципиально новым подходом в области. Тот же MCTS используется и для инференса , в сочетании с расчетом сетки. В исходной работе использовалась сверточная сетка из 40 слоев. Обучение в АльфаЗеро идет только на основе игры с собой, без использования каких-либо внешних знаний. AlphaGo: "To efficiently combine MCTS with deep neural networks, AlphaGo uses an asynchronous multi-threaded search that executes simulations on CPUs, and computes policy and value networks in parallel on GPUs. The final version of AlphaGo used 40 search threads, 48 CPUs, and 8 GPUs. We also implemented a distributed version of AlphaGo that exploited multiple machines, 40 search threads, 1202 CPUs and 176 GPUs. The Methods section provides full details of asynchronous and distributed MCTS." Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
Показать все...
🔥 8
Фото недоступноПоказать в Telegram
🎓 — Семинар 34. Обзор конференции ICLR | Александр Панов, Алексей Ковалёв, Алексей Скрынник, Леонид Угадяров С 7 по 11 мая в Вене (Австрия) прошла конференция ICLR, которая является одной из ключевых конференций в области глубокого обучения и искусственного интеллекта в целом. В этом году на конференции были представлены две работы, авторами которых являются сотрудники Центра: первая про эффективные объектно-центричные модели SMM, а также работа про активное обучения для поиска конформаций молекул GOLF. Доклад на семинаре будет посвящён обзору конференции, а также обсуждению статей, вызвавших интерес у докладчиков. 📹 Трансляция Youtube Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех! #семинары #конференции #RL #DL
Показать все...
🔥 6
pov: скопил деняк купил робота, он с утра до вечера бэкфлипает 🚬 RL сделал все что мог. $150,000.00 USD вдруг кто хочет https://www.unitree.com/h1/ PS шутко, я робота не покупал
Показать все...
Unitree H1 The World's First Full-size Motor Drive Humanoid Robot Flips on Ground

Unitree H1 Deep Reinforcement Learning In-place Flipping Parameters: Weight: about 50kg Height: about 1.8m Actuator: electric motor #Unitree #UnitreeRobotics #AI #Robotics #Humanoidrobots #Worldmodel #Worldrecord #Flips #EmbodiedAI #ArtificialIntelligence #Technology #Innovation #futureoftech

🔥 6👍 1
Repost from BOGDANISSSIMO
Мечтает ли GPT-4o о сегментации картинок...? Рассказал на Habr найденный способ как заставить GPT-4o работать с детекцией объектов на картинке и выдавать координаты (bounding boxes), с которыми можно работать. Внутри много деталей о том, с какими препятствиями и нюансами мы сталкиваемся в Vibe AI при парсинге сообщений со скриншотов переписки. Приятного прочтения, буду благодарен вашей обратной связи, лайкам, репостам ❤️
Показать все...
Мечтает ли GPT-4o о сегментации картинок...?

Всем привет, Меня зовут Богдан Печёнкин. Многие Меня знают как соавтора Симулятора DS на Karpov.Courses. Сейчас Я фаундер стартапа Vibe AI – это AI Dating Copilot для парней и девушек, который...

🤔 3 1
Фото недоступноПоказать в Telegram
Кучу наших любимых ллмок потестили на вопросиках вида: "Alice has N brothers and she also has M sisters. How many sisters does Alice’s brother have?" Ответ С = 1+M (Алиса + её сестры) Назвали такую задачку AIW Problem. Всего выделили 4 варианта задачи AIW: AIW Variation 1, N = 3, M = 6, C = 7; AIW Variation 2, N = 4, M = 2, C = 3; AIW Variation 3, N = 1, M = 4, C = 5; AIW Variation 4, N = 4, M = 1, C = 2 Еще сделали 3 варианта промтов: STANDARD, THINKING, RESTRICTED (в статейке) Также сформулировали задачку в более сложном виде:
Alice has 3 sisters. Her mother has 1 sister who does not have children - she has 7 nephews and nieces and also 2 brothers. Alice’s father has a brother who has 5 nephews and nieces in total, and who has also 1 son. How many cousins does Alice’s sister have?
Назвали ее AIW+ и ответы на нее просматривали вручную. 30+ раз закидывали комбинации AIW задачи + разные варианты промтов. Собственно результаты по корректным ответам на скрине. mistral-medium-2312 на AIW+ прям машина 🦾 Так понял. В статейке можно посмотреть сильно больше статистики Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models https://arxiv.org/abs/2406.02061 На серьезных жду AGI в следующем году. Илон Маск в твиттере писал что будет Ну а по результатам выше либо от OpenAI либо от Мистраля взял туть https://t.me/j_links/7525
Показать все...
🔥 9🤔 2👍 1 1
Фото недоступноПоказать в Telegram
Интересная выжимка по алайнменту + обзоры важных статей (есть и вполне свежие статьи) читать, сохранять. https://aman.ai/primers/ai/llm-alignment/
Показать все...
🔥 10🤩 4👍 2
Я обожаю Google! Нет ничего качественнее Гугла!
Смотрим туть https://www.youtube.com/watch?v=XEzRZ35urlk Говорят у Gemini 1.5 Pro теперь будет 2м контекст
Показать все...
Google Keynote (Google I/O ‘24)

It’s time to I/O! Tune in to learn the latest news, announcements, and AI updates from Google.To watch this keynote with American Sign Language (ASL) interpr...

👍 9 2😁 2🔥 1
Repost from black_samorez
И еще апдейты по AQLM: Новые модели: мы квантизовали и выложили Llama-3 и Command-R. Последнюю сжали так сильно, что влезает в 3090 без оффлодинга. Актуальные чекпоинты и новые модели добавляются сюда: HF hub. Деплой в прод: мы помогли интегрировать AQLM в vLLM. Теперь можно легко и непринужденно разворачивать endpoint с автоматическим батчинком и эффективными кернелами. Llama-3-70b так генерит со скоростью 6.8 Tok/s на 3090. Более быстрые кернелы для больших батчей тоже прикрутили, чтобы высоконагруженные эндпоинты были эффективнее. Краткая вводная на колабе. 3 borderline accept из 4: AQLM взяли на ICML, так что я теперь официально undergrad со статьей 1* автором на ICML💃💃💃
Показать все...
AQLM - a ISTA-DASLab Collection

AQLM quantized LLMs

👍 8🔥 6
Интересный ресурс по RLю и оптимальному управлению от Dimitri P. Bertsekas Для тех кто готов сильно вникать. https://web.mit.edu/dimitrib/www/RLbook.html Автор 4 года ведет курс по RLю в Университете Аризоны, и за это время скомпилил большую книжку на 400+ страничек. Также в книжке есть и приложения типа TSP. На инглише, конечно. + там много видеолекций и отдельно книжечка Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive Control https://web.mit.edu/dimitrib/www/LessonsfromAlphazero.pdf
Показать все...

👍 14💯 4 3
Repost from rizzearch
Offline Actor-Critic Reinforcement Learning Scales to Large Models В основном ресерч в сфере рл происходит на маленьких моделях пушто - и небольшие модели способны решить задачи при грамотном обучении и грамотной архитектуре (эмпирический факт), в основном это млп с релу/лики_релу и леернормой и все - есть много проблем в сетапе рл, которые надо решать до того, как задумываешься о модельке и ее размерах - если увеличивать размер модели, то это доп проблемы, потому что увеличиваются риски для нестабильности, вырожденности и всего такого Но дипмаинд решил разнести и эту парадигму и отскейлить рл модели до больших размеров Как оказывается, актор-критик в совокупности с perceiver'ом, который здесь может обрабатывать разные стейты для разных роботов (или симулякров роботов) + постепенно отходить от бихевиор клонинга, и выбивать высокий скор как на средах, где данные собраны хорошо, так и плохо!! И это все на 132 тасках с непрерывными действиями🥸 👀LINK #rl #offlinerl #multitask #behaviorcloning #largemodels #scalinglaws
Показать все...
11👍 3