Анализ данных (Data analysis)

50 257

27 и 28 апреля приглашаем специалистов робототехники и reinforcement learning на ROS Meetup в Москве 📅 Это возможность для робототехников всех уровней: от новичков до экспертов, — посвятить выходные практическому обучению и нетворкингу. Вы получите советы и рекомендации экспертов, сможете поделиться идеями с другими разработчиками. Доклады охватывают весь спектр тем: от ROS до reinforcement learning и антропоморфных роботов. Инженеры и руководители компаний поделятся реальным опытом использования ROS в исследовательских и коммерческих проектах. В этот раз мы решили разбавить технические доклады большим количеством тематических дискуссий и нетворкинга. На какие темы будем общаться: ✔️Антропоморфные роботы ✔️ Reinforcement learning ✔️ Large Language Models, Deep learning ✔️ Беспилотные автомобили и мобильные роботы ✔️ Манипуляторы и алгоритмы в манипуляции, в том числе MOVEit ✔️ ROS-пакеты и другие темы в робототехнике Локация: г. Москва, Кутузовский проспект 32к1, офис Сбера. Регистрируйтесь по ссылке 👈

50 257

🦾 Dataset of 15 trillion tokens Только что был опубликован датасет из 15 триллионов токенов (столько же, сколько было использовано для обучения Llama 3)!!! Скачайте его, пока он не был удален из-за авторских прав. https://huggingface.co/datasets/HuggingFaceFW/fineweb

50 257

🔥 Модель Metals Segment Anything (SAM) теперь может работать в вашем браузере с WebGPU (+ fp16), что означает скорость обработки изображений выросла в 8 раз (10 секунд = 1,25 секунды)! 🤯 ⚡️ Сегментация видео работает с прежней скоростью! Все работает на 100% локально благодаря 🤗 Transformers.js и onnxruntime-web! 🔗 Demo: https://hf.co/spaces/Xenova/segment-anything-webgpu

50 257

⁉️ Как следить за жизненным циклом ML-моделей, чтобы вовремя их корректировать? 💻 Узнайте на бесплатном практическом уроке «MLFlow и переобучение ML-моделей» от OTUS. На вебинаре вы узнаете: - как экспериментировать сразу с несколькими ML-моделями с разными гиперпараметрами; - как, проводя регулярное переобучение, сравнивать качество работы моделей и выбирать лучший результат; - как не потерять накопленный опыт и воспроизводить более ранние эксперименты. 👉 Встречаемся 24 апреля в 20:00 мск в рамках курса «MLOps». Все участники вебинара получат специальную цену на обучение и консультацию от менеджеров OTUS! 🔥 Пройдите короткий тест прямо сейчас, чтобы посетить бесплатный урок: https://otus.pw/4c4t/?erid=LjN8KAkvC

50 257

📌Функции потерь в Python — простая реализация Функции потерь Python являются важной частью ML-моделей. Эти функции показывают, насколько сильно предсказанный моделью результат отличается от фактического. Существует несколько способов вычислить эту разницу. В этом материале мы рассмотрим некоторые из наиболее распространенных функций потерь, а именно: 🟡Среднеквадратическая ошибка 🟡Средняя абсолютная ошибка 🟡Кросс-энтропийные потери 📎 Поехали @data_analysis_ml

50 257

🔥 Дайджест полезных материалов из мира Машинного обучения за неделю Полезные инструменты недели • LLaMa 3 - главный релиз недели: Новая SOTA в open-source! LLM с открытым исходным кодом, которая превосходит Claude 3 Opus... и дышит в спину GPT-4.Скорость работы составляет почти 300 токенов в секунду. LLAMA-3 - самая загружаемая модельна HF.🚀 • Torchtune - новая PyTorch-библиотека для файнтюнинга LLM. Библиотека сделана на базе PyTorch и и поддерживает LLama2 7B/13B, Mistral 7B и Gemma 2B. • LLM Reka Core - новая передовая нейросеть способна обрабатывать текст, изображения, аудио и видео, чем выделяется среди других технологий в своем классе. • Microsoft Research анонсировала VASA-1 -ИИ генератор видео, который выглядит очень реалистично. • AutoCodeRover - это полностью автоматизированный инструмент для исправления ошибок на GitHub (исправление ошибок в разделе issues и генерации новых функций в проект). • Tkinter Designer — инструмент, который автоматически конвертирует дизайны Figma в код Tkinter GUI. • OmniFusion 1.1. - гибридная LLM для работы с картинками • VoiceCraft: Zero-Shot - мощный редактор речи и преобразователь Text2Speech 📚 Бесплатные книги недели: ▪ Учебник, где собрана коллекция задачек о нейросетях, параллельно даётся необходимая теория с объяснением ▪Google выпустила крутой бесплатный учебник по промпт-инжинирингу! ▪Foundation of c omputer Vision ▪ Бесплатня книга научная визуализация: Python + Matplotlib 📄Статьи: — Простейшая нейронная сеть, мой опыт и выводы — LOCOST и SPECTRUM, два подхода к суммаризации — Prepacking - простой метод, позволяющий увеличить скорость работы LLM в 6 раз и эффективность использования памяти в 16 раз . — Scaling Instructable Agents Across Many Simulated Worlds — Не DeepL-ом единым. Нейросетевой переводчик для ваших проектов в VS Code за пару кликов — На чем программируют суровый ML в Гугле — Заменят ли LLM людей в разметке данных для AI? — Как мы тестировали большие языковые модели для модерации отзывов — Распознавание лиц на микрокомпьютерах — Книга «Разработка приложений на базе GPT-4 и ChatGPT» — Что такое Charmed Kubeflow? — Linux of AI : Why Open Interpreter poised to completely disrupt how we interact with Technology? — The Optimal Choice of Hypothesis Is the Weakest, Not the Shortest — From Words to Numbers: Your Large Language Model Is Secretly A Capable Regressor When Given In-Context Examples — From Model-centered to Human-Centered: Revision Distance as a Metric for Text Evaluation in LLMs-based Applications — The Topos of Transformer Networks — Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement Learning — Impact of Extensions on Browser Performance: An Empirical Study on Google Chrome — Increased LLM Vulnerabilities from Fine-tuning and Quantization — The Use of Generative Search Engines for Knowledge Work and Complex Tasks — 94% on CIFAR-10 in 3.29 Seconds on a Single GPU 👨‍🎓 Бесплатные курсы недели ▪ Машинное обучение на графах - бесплатный продвинутый курс: Машинное обучение на графах. Курс регулярно дополняется практическими задачками и слайдами. Автор Ксавье Брессон - профессор национального университета ▪ Основы квантования - Новый краткий курс, созданный в сотрудничестве DeepLearning.AI с Hugging ▪ Курс Геопространственный анализ данных - Первый открытый русскоязычный курс по геоаналитике. Материалы курса будут полезны специалистам в области Data Scientist, поскольку позволят решать геопространственные задачи, а также проводить исследования в области Geospatial Data Science. @data_analysis_ml

50 257

🔥 Дайджест полезных материалов из мира Машинного обучения за неделю Полезные инструменты недели • LLaMa 3 - главный релиз недели: Новая SOTA в open-source! LLM с открытым исходным кодом, которая превосходит Claude 3 Opus... и дышит в спину GPT-4.Скорость работы составляет почти 300 токенов в секунду. LLAMA-3 - самая загружаемая модельна HF.🚀 • Torchtune - новая PyTorch-библиотека для файнтюнинга LLM. Библиотека сделана на базе PyTorch и и поддерживает LLama2 7B/13B, Mistral 7B и Gemma 2B. • LLM Reka Core - новая передовая нейросеть способна обрабатывать текст, изображения, аудио и видео, чем выделяется среди других технологий в своем классе. • Microsoft Research анонсировала VASA-1 -ИИ генератор видео, который выглядит очень реалистично. • AutoCodeRover - это полностью автоматизированный инструмент для исправления ошибок на GitHub (исправление ошибок в разделе issues и генерации новых функций в проект). • Tkinter Designer — инструмент, который автоматически конвертирует дизайны Figma в код Tkinter GUI. • OmniFusion 1.1. - гибридная LLM для работы с картинками • VoiceCraft: Zero-Shot - мощный редактор речи и преобразователь Text2Speech 📚 Бесплатные книги недели: ▪ Учебник, где собрана коллекция задачек о нейросетях, параллельно даётся необходимая теория с объяснением ▪Google выпустила крутой бесплатный учебник по промпт-инжинирингу! ▪Foundation of c omputer Vision ▪ Бесплатня книга научная визуализация: Python + Matplotlib 📄Статьи: — Простейшая нейронная сеть, мой опыт и выводы — LOCOST и SPECTRUM, два подхода к суммаризации — Prepacking - простой метод, позволяющий увеличить скорость работы LLM в 6 раз и эффективность использования памяти в 16 раз . — Scaling Instructable Agents Across Many Simulated Worlds — Не DeepL-ом единым. Нейросетевой переводчик для ваших проектов в VS Code за пару кликов — На чем программируют суровый ML в Гугле — Заменят ли LLM людей в разметке данных для AI? — Как мы тестировали большие языковые модели для модерации отзывов — Распознавание лиц на микрокомпьютерах — Книга «Разработка приложений на базе GPT-4 и ChatGPT» — Что такое Charmed Kubeflow? — Linux of AI : Why Open Interpreter poised to completely disrupt how we interact with Technology? — The Optimal Choice of Hypothesis Is the Weakest, Not the Shortest — From Words to Numbers: Your Large Language Model Is Secretly A Capable Regressor When Given In-Context Examples — From Model-centered to Human-Centered: Revision Distance as a Metric for Text Evaluation in LLMs-based Applications — The Topos of Transformer Networks — Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement Learning — Impact of Extensions on Browser Performance: An Empirical Study on Google Chrome — Increased LLM Vulnerabilities from Fine-tuning and Quantization — The Use of Generative Search Engines for Knowledge Work and Complex Tasks — 94% on CIFAR-10 in 3.29 Seconds on a Single GPU 👨‍🎓 Бесплатные курсы недели ▪ Машинное обучение на графах - бесплатный продвинутый курс: Машинное обучение на графах. Курс регулярно дополняется практическими задачками и слайдами. Автор Ксавье Брессон - профессор национального университета ▪ Основы квантования - Новый краткий курс, созданный в сотрудничестве DeepLearning.AI с Hugging ▪ Курс Геопространственный анализ данных - Первый открытый русскоязычный курс по геоаналитике. Материалы курса будут полезны специалистам в области Data Scientist, поскольку позволят решать геопространственные задачи, а также проводить исследования в области Geospatial Data Science. @data_analysis_ml

50 257

📊 Хотите углубиться в Machine Learning или Data Science? Начните с изучения базовых методов парсинга и работы с html! Приходите на бесплатный практический урок от OTUS. Спикер Мария Тихонова — PhD Computer Science, Senior Data Scientist в SberDevices и преподаватель ВШЭ. 💻 На вебинаре вы: — освоите основные принципы работы c html в Python; — изучите основные инструменты парсинга; — научитесь скачивать различные типы данных с сайтов на сайты. 👉 Встречаемся 22 апреля в 18:00 мск в рамках курса «Machine Learning. Professional». Все участники вебинара получат специальную цену на обучение и консультацию от менеджеров OTUS! 🟢 Пройдите короткий тест прямо сейчас, чтобы посетить бесплатный урок: https://otus.pw/GNtS/

50 257

Google выпустила крутой учебник по промпт-инжинирингу! Руководство на 45 страницах содержатся ценные советы для работы с Gemini, которые также применимы к другим нейронным сетям. Это полноценное учебное пособие — понятное, доступное и красиво оформленное. В каждой главе вы найдете примеры использования, советы и понятные инструкции. Достаем максимум возможностей из нейронных сетей 📚 Книга @data_analysis_ml

50 257

+2

💡Теперь у нас есть модель с открытым исходным кодом, которая превосходит Claude 3 Opus... и дышит в спину GPT-4. Скорость работы составляет почти 300 токенов в секунду. LLAMA-3 - самая загружаемая модель, которую я когда-либо видел на HF.🚀 За 24 часа его скачали более 36 200 раз!!! Вангую: GPT-5 будет анонсирован до релиза Llama-3-400B. Релизы OpenAI определяются внешними факторами 🤣 🖇 Тесты LLaMA3 @data_analysis_ml

50 257

Российские студенты стали победителями ICPC Это самые крупные международные соревнования по программированию в мире. В этом году финал проходил за два года — 2022 и 2023. Студенты факультета компьютерных наук, основанного ВШЭ и Яндексом, заняли призовые места в сразу двух соревнованиях. За 2023 год абсолютными чемпионами стала команда FFTilted. Ее участники — Фёдор Ромашов, Александр Бабин и Кирилл Кудряшов — студенты программы Прикладной математики и информатики (ПМИ), разработанной Яндексом в момент основания факультета. За 2022 год третье место в абсолютном зачете заняла команда Undertrained+Overpressured. Ее представляли Максим Гороховский, Иван Сафонов и Тимофей Федосеев. Обе команды показали лучшие результаты среди всех российских вузов. Всего в ICPC приняли участие команды из 170 университетов и 50 стран мира.

50 257

+2

📌Экстраполяция и интерполяция нейронных сетей 🟡Искусственные нейронные сети — это мощные инструменты логического вывода. Однако это не означает, что они могут изучать правила так, как это делают люди. Например, мы можем применять арифметику к произвольно большим числам. Это ключевое понимание, на котором основана арифметика. Может ли нейронная сеть делать обобщения на случаи, которые далеки от тренировочных данных? В общем, держите полезную статью о том, где затрагиваются детали внутренней реализации нейросетей 📎 Статья @data_analysis_ml

50 257

+6

📌Сверхполезный открытый учебник по Machine Learning Здесь собрана коллекция задачек о нейросетях, параллельно даётся необходимая теория с объяснением Очень годно, рекомендую Что внутри? ├╼ всего лишь функция ├╼ градиентный спуск ├╼ алгоритм обратного распространения ошибки ├╼ что выплёвывает нейросеть ├╼ свёрточные сети ├╼ нейросети – конструктор LEGO ├╼ рекуррентные сети ╰╼ матричное дифференцирование 📎 Учебник @data_analysis_ml

50 257

Repost from Machinelearning

👑Llama 3 is here, with a brand new tokenizer! 🦙 Вышла Llama 3 Сегодня вышла новая SOTA Llama 3 в двух версиях на 8B и 70B параметров. Длина контекста 8К, поддержка 30 языков. •HF: https://huggingface.co/spaces/ysharma/Chat_with_Meta_llama3_8b •Blog: https://ai.meta.com/blog/meta-llama-3/ Вы можете потестить 🦙 MetaLlama 3 70B и 🦙 Meta Llama 3 8B с помощью 🔥 бесплатного интерфейса: https://llama3.replicate.dev/ P.S. В процессе обучения находится модель на 400В+ параметров. @ai_machinelearning_big_data

50 257

🧔 Microsoft Research анонсировала VASA-1. ИИ генератор видео, который выглядит очень реалистично. Для создания гиперреалистичного видео с изображением говорящего лица, требуется всего одна портретная фотография, чтобы создать видео с точной синхронизацией движения губ, реалистичным выражением лица и естественным движениями головы в режиме реального времени. https://www.microsoft.com/en-us/research/project/vasa-1/ @data_analysis_ml

50 257

📌На чем программируют суровый ML в Гугле Годная информация от Романа Ворушина, который работает в Google. Дальше от его лица В 2015 году Гугл выпустил TensorFlow — супер-современный фреймворк для машинного обучения, созданный с участием самого Jeff Dean. Но если почитать статьи за последние несколько лет из Google/DeepMind, то можно заметить что эксперименты реализованы с использованием совсем другого малоизвестного фреймворка JAX и лишь в самом конце портированы на TensorFlow/PyTorch. Именно с помощью JAX тренируют гигантские нейронные сети: текстовые, computer vision, мультимодальные. JAX невероятно популярен внутри Гугла, но малоизвестен за его пределами. Исследователям это на руку - никто не принуждает делать фреймфорк доступным для всех, да и вице-президенты не терзают команду туманными целями и прочими синергиями. У JAX есть отличная документация на Readthedocs. Я перепечатывал примеры оттуда в Google Colab, изменял их, пробовал их запускать на бесплатных Colab kernels with CPU/GPU/TPU. Основные строительные блоки 🟡NumPy interface Некоторые курсы по машинному обучению показывали как можно реализовать тренировку нейронных сетей умножением векторов/матриц NumPy, как вычислять производные цепочеатк функций. JAX - это в первую очередь невероятно ускоренный NumPy (see JAX As Accelerated NumPy). Все операции jax.numpy оптимизированы для выполнения на GPU/TPU. К этому добавлены возможности автоматической векторизации и параллелизации вычислений (как в курсе ml-class.org можно было векторизовать вычисления в Octave, ускоряя их в десятки-сотни раз). 🟡Just-in time compilation Функции без побочных эффектов можно легко скомпилировать, обернув их в функцию jax.jit. Компиляция осуществляется методом трассировки - в качестве параметров передаются специальные объекты, которые запоминают все операции, которые с ними производятся. По результатам трассировки строится граф вычислений “входные параметры” - ??? - “выходные параметры”. Потом этот граф компилируется с использованием XLA (её когда-то написали для TensorFlow). 🟡Автоматическая дифферециация Производные больше считать не нужно. Оборачиваешь loss function в функцию grad и получаешь градиенты. Вообще очень многое в JAX решается композицией функций. Опыт функционального программирования (Haskell, Erlang, ваши варианты) будет очень к стати. 🟡Flax - библиотека для нейронок Flax — самая популярная библиотека для моделирования нейронных сетей. Отличная документация, есть много примеров, в том числе реальных исследовательских проектов из Гугла. Еще со всем недавно с ней конкурировала библиотека Haiku, но в конце концов Flax стал более популярен и Haiku перевели в режим поддержки. У Flax офигенная философия. Чего только стоит “Prefer duplicating code over a bad abstraction.” Не всем такая философия подходит, но мне очень резонирует. 📎 Подробнее @data_analysis_ml

50 257

Как понять, что вы уже мидл? Какая конкуренция за вакансии по сравнению с джунами? Какие зарплаты и что на них влияет? Решили задать эти вопросы опытным разработчикам, которые сами нанимают мидлов. Присоединяйтесь к вебинару — будем вместе разбираться в рынке труда для программистов с опытом. → Бесплатно, 25 апреля в 19:00 Мск Вы узнаете: — как понять, что вы уже не джун, а скорее мидл; — как сегодня выглядит рынок вакансий; — сколько платят на средних позициях и как влиять на свой доход; — что лучше: расширять стек или идти в специализацию; — как правильно проходить собеседования. → Зарегистрироваться на вебинар

50 257

🔥 Новые модели CodeQwen1.5-7B занимают очень высокие позиции в таблице лидеров Big Code, превосходя гораздо более крупные модели 🚀 ▪8 моделей, в том числе модели с 0,5 B, 1,8 B, 4B, 7B, 14B, 32B и 72B ▪Многоязычная поддержка как базовых моделей, так и моделей чата; ▪Поддержка контекста длиной 32 КБ для моделей всех размеров https://huggingface.co/spaces/Qwen/CodeQwen1.5-7b-Chat-demo data_analysis_ml

50 257

Repost from Big Data AI

🔥 Анонс альфа-релиза torch tune от Pytorch! torchtune - это библиотека, созданная на базе PyTorch для файнтюнинга LLM. Она сочетает в себе рецепты тонкой настройки, которые можно взломать, экономят память и интегрируются в ваши любимые инструменты. Начните файнтюнить уже сегодня! ▪Github ▪Анонс @bigdatai

50 257

🚀 Prepacking: A Simple Method for Fast Prefilling and Increased Throughput in Large Language Models Хотите бесплатно увеличить скорость и эффективность использования памяти для вашего HuggingFace ✅ LLM без снижения качества генерации? Представляем Prepacking - простой метод, позволяющий увеличить скорость работы LLM в 6 раз и эффективность использования памяти в 16 раз . http://arxiv.org/pdf/2404.09529.pdf

📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览

📊 受众指标与增长动态

📝 描述与内容策略