cookie

ما از کوکی‌ها برای بهبود تجربه مرور شما استفاده می‌کنیم. با کلیک کردن بر روی «پذیرش همه»، شما با استفاده از کوکی‌ها موافقت می‌کنید.

avatar

Агенты ИИ | AGI_and_RL

Про ии, RL и в целом @tokarev_i_v

نمایش بیشتر
پست‌های تبلیغاتی
2 659
مشترکین
+324 ساعت
+37 روز
+4330 روز

در حال بارگیری داده...

معدل نمو المشتركين

در حال بارگیری داده...

Я обожаю Google! Нет ничего качественнее Гугла!
Смотрим туть https://www.youtube.com/watch?v=XEzRZ35urlk Говорят у Gemini 1.5 Pro теперь будет 2м контекст
نمایش همه...
Google Keynote (Google I/O ‘24)

It’s time to I/O! Tune in to learn the latest news, announcements, and AI updates from Google.To watch this keynote with American Sign Language (ASL) interpr...

👍 9 2😁 2🔥 1
Repost from black_samorez
И еще апдейты по AQLM: Новые модели: мы квантизовали и выложили Llama-3 и Command-R. Последнюю сжали так сильно, что влезает в 3090 без оффлодинга. Актуальные чекпоинты и новые модели добавляются сюда: HF hub. Деплой в прод: мы помогли интегрировать AQLM в vLLM. Теперь можно легко и непринужденно разворачивать endpoint с автоматическим батчинком и эффективными кернелами. Llama-3-70b так генерит со скоростью 6.8 Tok/s на 3090. Более быстрые кернелы для больших батчей тоже прикрутили, чтобы высоконагруженные эндпоинты были эффективнее. Краткая вводная на колабе. 3 borderline accept из 4: AQLM взяли на ICML, так что я теперь официально undergrad со статьей 1* автором на ICML💃💃💃
نمایش همه...
AQLM - a ISTA-DASLab Collection

AQLM quantized LLMs

👍 8🔥 6
Интересный ресурс по RLю и оптимальному управлению от Dimitri P. Bertsekas Для тех кто готов сильно вникать. https://web.mit.edu/dimitrib/www/RLbook.html Автор 4 года ведет курс по RLю в Университете Аризоны, и за это время скомпилил большую книжку на 400+ страничек. Также в книжке есть и приложения типа TSP. На инглише, конечно. + там много видеолекций и отдельно книжечка Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive Control https://web.mit.edu/dimitrib/www/LessonsfromAlphazero.pdf
نمایش همه...

👍 14💯 4 3
Repost from N/a
Offline Actor-Critic Reinforcement Learning Scales to Large Models В основном ресерч в сфере рл происходит на маленьких моделях пушто - и небольшие модели способны решить задачи при грамотном обучении и грамотной архитектуре (эмпирический факт), в основном это млп с релу/лики_релу и леернормой и все - есть много проблем в сетапе рл, которые надо решать до того, как задумываешься о модельке и ее размерах - если увеличивать размер модели, то это доп проблемы, потому что увеличиваются риски для нестабильности, вырожденности и всего такого Но дипмаинд решил разнести и эту парадигму и отскейлить рл модели до больших размеров Как оказывается, актор-критик в совокупности с perceiver'ом, который здесь может обрабатывать разные стейты для разных роботов (или симулякров роботов) + постепенно отходить от бихевиор клонинга, и выбивать высокий скор как на средах, где данные собраны хорошо, так и плохо!! И это все на 132 тасках с непрерывными действиями🥸 👀LINK #rl #offlinerl #multitask #behaviorcloning #largemodels #scalinglaws
نمایش همه...
11👍 3
Photo unavailableShow in Telegram
Тут недавно статья выходила Can Language Models Solve Olympiad Programming? https://arxiv.org/abs/2404.10952v1 В работе авторы представили бенчмарк USACO из 307 задачек https://princeton-nlp.github.io/USACOBench/ В GPT-4 в 0-shot с COT смогла решить 8.7% задачек. После добавления self-reflection и retrieval поверх книги по олимп программированию https://cp-algorithms.com/ и базы решенных задачек GPT-4 смогла решить 20.2%. ❗️Под базой понимаются те же задачи и решения (и кодом) из USACO датасета, за исключением задачи, которая сейчас решается. (да, выглядит подозрительно). Хотелось бы чтобы оно работало и для новых задачек, но это надо тестить. Этот подход для ленгчейна, которым многие пользуются, поэтому мб будет полезно: https://langchain-ai.github.io/langgraph/tutorials/usaco/usaco/
نمایش همه...
👍 5🔥 2
Photo unavailableShow in Telegram
🎓 — Семинар 29. Curriculum Learning: выбор последовательности задач для обучения с подкреплением | Мария Нестерова Завтра на семинаре выступит выпускница нашей магистерской программы МТИИ и ныне аспирантка нашего Центра, у которой уже 2 статьи на А*! Если перед агентом стоит сложная задача, то для её освоения с нуля может потребоваться много времени. Один из способов решить эту проблему — рассмотреть сначала более простые задачи. Расписание обучения (Curriculum) позволяет автоматически выбрать задачи и определить порядок их изучения, что ускоряет процесс освоения сложных задач. В первой части доклада будут рассмотрены существующие подходы к составлению расписания обучения. В рамках нашего исследования расписание обучения представлено в виде мета-агента, который выбирает задачи на основе анализа способностей обучающегося агента. Вторая часть доклада будет посвящена нашему методу и текущим результатам 📹 Трансляция Youtube Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех! #семинары #RL
نمایش همه...
6👍 3👏 1
Photo unavailableShow in Telegram
Случайно наткнулся на прикольную либку, где авторы вкручивают разные механизмы для улучшения рассуждений с ллмками: реварды, поиск и в каком-то виде ворлд моделсы. Не уверен, что это можно просто взять и использовать, но оно развивается и поразбирать отдельные механизмы можно. Как понял из последних апдейтов туда и лламу 3 вкрутили. https://www.llm-reasoners.net/ https://github.com/maitrix-org/llm-reasoners И лидерборд ведут: https://www.llm-reasoners.net/leaderboard
نمایش همه...
👍 11
Photo unavailableShow in Telegram
DeepMindы подогнали интересную тулу для визуализации и анализа LLMок - Penzai https://github.com/google-deepmind/penzai Вроде как можно работать с архитектурой модельки, модифицировать уже натрейненые нейронки, визуализировать слои, ну и всякое interpretibility делать Подготовлены несколько ноутбуков (для колаба и гегла) с примерами: https://github.com/google-deepmind/penzai/tree/main/notebooks Все примеры пока крутятся вокруг работы с гугловой Gemma. ну и доку читать надо: https://penzai.readthedocs.io/en/stable/index.html
نمایش همه...
👍 8🔥 4
Нашел на ютубе интервью с Ричардом Саттоном вышедшее пару месяцев назад. Ричард - один из создателей современного обучения с подкреплением и автор популярной книги "Reinforcement learning: An Introduction". https://www.youtube.com/watch?v=zZuh8YUBeDY Статьи: https://scholar.google.com/citations?hl=ru&user=6m4wv6gAAAAJ На самом деле получилось достаточно базовое интервью, по 5 минуток пообсуждали планы Ричарда и разные ИИ-темы. *Про то, что для ИИ важна цель; *про The Alberta Plan; *про коллабу с Кармаком; ну и другие. The Alberta Plan - это в общем-то реальный план по ресерчу и созданию агентов, "которые взаимодействуют с гораздо более сложным миром и способны предсказывать и контролировать свои сенсорные входные сигналы". И там реально описана roadmap по созданию прототипа такого агента. Выпустили его в 2022 году: The Alberta Plan https://arxiv.org/abs/2208.11173 Ричард Саттон и Джон Кармак заколлабились в 2023, для совместной работы над ИИ в Keen Technologies: https://www.amii.ca/latest-from-amii/john-carmack-and-rich-sutton-agi/
نمایش همه...
Richard Sutton on Pursuing AGI Through Reinforcement Learning

Join host Craig Smith on episode #170 of Eye on AI, for a riveting conversation with Richard Sutton, currently serving as a professor of computing science at the University of Alberta and a research scientist at Keen Technologies. Sutton is considered one of the founders of modern computational reinforcement learning, having several significant contributions to the field, including temporal difference learning and policy gradient methods. In this episode, we go through the Alberta Plan for AI development, the transformative potential of reinforcement learning, and the future of AI in augmenting human intelligence. Richard Sutton shares insights on the importance of computational power, the impact of large language models, and the vision for AI that interacts with the world through goals and learning from its environment. We also explore the challenges and opportunities in making AI more embodied and goal-oriented, and how this approach could revolutionize our interaction with technology. A must-listen for anyone interested in the cutting-edge advancements in AI and its societal implications. Don't forget to rate us on Apple Podcast and Spotify if you enjoyed this episode! This episode is sponsored by Netsuite by Oracle, the number one cloud financial system, streamlining accounting, financial management, inventory, HR, and more. Download NetSuite’s popular KPI Checklist, designed to give you consistently excellent performance - absolutely free at

https://netsuite.com/EYEONAI

Stay Updated: Craig Smith Twitter:

https://twitter.com/craigss

Eye on A.I. Twitter:

https://twitter.com/EyeOn_AI

(00:00) Preview and Introduction (02:15) AI’s Evolution: Insights from Richard Sutton (07:08) Breaking Down AI: From Algorithms to AGI (10:50) The Alberta Experiment: A New Approach to AI Learning (18:27) The Horde Architecture Explained (21:23) Power Collaboration: Carmack, Keen, and the Future of AI (25:04) Expanding AI's Learning Capabilities (31:34) Is AI the Future of Technology? (35:29) The Next Step in AI: Experiential Learning and Embodiment (40:00) AI's Building Blocks: Algorithms for a Smarter Tomorrow (45:59) The Strategy of AI: Planning and Representation (49:27) Learning Methods Face-Off: Reinforcement vs. Supervised (53:10) Navigating AI Ethics and Safety Debates (54:53) The 2030 Vision: Aiming for True AI Intelligence? (56:39) Wrapping Up: Reflections and Looking Ahead

👍 6🔥 4😁 2
Photo unavailableShow in Telegram
Недавняя лекция от Яна ЛеКуна про Objective-Driven AI на 97 страничек Про авторегрессионные модели (и их ограничения), Energy-Based Models, про Self-Supervised Learning, World Models, JEPA https://drive.google.com/file/d/1Ymx_LCVzy7vZXalrVHPXjX9qbpd9k_bo/view
نمایش همه...
👍 8🤔 4🔥 2