Анализ данных (Data analysis)
前往频道在 Telegram
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp
显示更多📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览
频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 50 254 名订阅者,在 技术与应用 类别中位列第 2 668,并在 俄罗斯 地区排名第 12 512 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 50 254 名订阅者。
根据 21 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 39,过去 24 小时变化为 -7,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 8.79%。内容发布后 24 小时内通常能获得 6.66% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 4 415 次浏览,首日通常累积 3 346 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 31。
- 主题关注点: 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“Data science, наука о данных.
@haarrp - админ
РКН: clck.ru/3FmyAp”
凭借高频更新(最新数据采集于 22 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
50 254
订阅者
-724 小时
+977 天
+3930 天
帖子存档
27 и 28 апреля приглашаем специалистов робототехники и reinforcement learning на ROS Meetup в Москве 📅
Это возможность для робототехников всех уровней: от новичков до экспертов, — посвятить выходные практическому обучению и нетворкингу. Вы получите советы и рекомендации экспертов, сможете поделиться идеями с другими разработчиками. Доклады охватывают весь спектр тем: от ROS до reinforcement learning и антропоморфных роботов.
Инженеры и руководители компаний поделятся реальным опытом использования ROS в исследовательских и коммерческих проектах.
В этот раз мы решили разбавить технические доклады большим количеством тематических дискуссий и нетворкинга.
На какие темы будем общаться:
✔️Антропоморфные роботы
✔️ Reinforcement learning
✔️ Large Language Models, Deep learning
✔️ Беспилотные автомобили и мобильные роботы
✔️ Манипуляторы и алгоритмы в манипуляции, в том числе MOVEit
✔️ ROS-пакеты и другие темы в робототехнике
Локация: г. Москва, Кутузовский проспект 32к1, офис Сбера.
Регистрируйтесь по ссылке 👈
🦾 Dataset of 15 trillion tokens
Только что был опубликован датасет из 15 триллионов токенов (столько же, сколько было использовано для обучения Llama 3)!!!
Скачайте его, пока он не был удален из-за авторских прав.
https://huggingface.co/datasets/HuggingFaceFW/fineweb
🔥 Модель Metals Segment Anything (SAM) теперь может работать в вашем браузере с WebGPU (+ fp16), что означает скорость обработки изображений выросла в 8 раз (10 секунд = 1,25 секунды)! 🤯 ⚡️
Сегментация видео работает с прежней скоростью!
Все работает на 100% локально благодаря 🤗 Transformers.js и onnxruntime-web!
🔗 Demo: https://hf.co/spaces/Xenova/segment-anything-webgpu
⁉️ Как следить за жизненным циклом ML-моделей, чтобы вовремя их корректировать?
💻 Узнайте на бесплатном практическом уроке «MLFlow и переобучение ML-моделей» от OTUS.
На вебинаре вы узнаете:
- как экспериментировать сразу с несколькими ML-моделями с разными гиперпараметрами;
- как, проводя регулярное переобучение, сравнивать качество работы моделей и выбирать лучший результат;
- как не потерять накопленный опыт и воспроизводить более ранние эксперименты.
👉 Встречаемся 24 апреля в 20:00 мск в рамках курса «MLOps». Все участники вебинара получат специальную цену на обучение и консультацию от менеджеров OTUS!
🔥 Пройдите короткий тест прямо сейчас, чтобы посетить бесплатный урок: https://otus.pw/4c4t/?erid=LjN8KAkvC
📌Функции потерь в Python — простая реализация
Функции потерь Python являются важной частью ML-моделей. Эти функции показывают, насколько сильно предсказанный моделью результат отличается от фактического.
Существует несколько способов вычислить эту разницу.
В этом материале мы рассмотрим некоторые из наиболее распространенных функций потерь, а именно:
🟡Среднеквадратическая ошибка
🟡Средняя абсолютная ошибка
🟡Кросс-энтропийные потери
📎 Поехали
@data_analysis_ml
🔥 Дайджест полезных материалов из мира Машинного обучения за неделю
Полезные инструменты недели
• LLaMa 3 - главный релиз недели: Новая SOTA в open-source! LLM с открытым исходным кодом, которая превосходит Claude 3 Opus... и дышит в спину GPT-4.Скорость работы составляет почти 300 токенов в секунду. LLAMA-3 - самая загружаемая модельна HF.🚀
• Torchtune - новая PyTorch-библиотека для файнтюнинга LLM. Библиотека сделана на базе PyTorch и и поддерживает LLama2 7B/13B, Mistral 7B и Gemma 2B.
• LLM Reka Core - новая передовая нейросеть способна обрабатывать текст, изображения, аудио и видео, чем выделяется среди других технологий в своем классе.
• Microsoft Research анонсировала VASA-1 -ИИ генератор видео, который выглядит очень реалистично.
• AutoCodeRover - это полностью автоматизированный инструмент для исправления ошибок на GitHub (исправление ошибок в разделе issues и генерации новых функций в проект).
• Tkinter Designer — инструмент, который автоматически конвертирует дизайны Figma в код Tkinter GUI.
• OmniFusion 1.1. - гибридная LLM для работы с картинками
• VoiceCraft: Zero-Shot - мощный редактор речи и преобразователь Text2Speech
📚 Бесплатные книги недели:
▪ Учебник, где собрана коллекция задачек о нейросетях, параллельно даётся необходимая теория с объяснением
▪Google выпустила крутой бесплатный учебник по промпт-инжинирингу!
▪Foundation of computer Vision
▪ Бесплатня книга научная визуализация: Python + Matplotlib
📄Статьи:
— Простейшая нейронная сеть, мой опыт и выводы
— LOCOST и SPECTRUM, два подхода к суммаризации
— Prepacking - простой метод, позволяющий увеличить скорость работы LLM в 6 раз и эффективность использования памяти в 16 раз .
— Scaling Instructable Agents Across Many Simulated Worlds
— Не DeepL-ом единым. Нейросетевой переводчик для ваших проектов в VS Code за пару кликов
— На чем программируют суровый ML в Гугле
— Заменят ли LLM людей в разметке данных для AI?
— Как мы тестировали большие языковые модели для модерации отзывов
— Распознавание лиц на микрокомпьютерах
— Книга «Разработка приложений на базе GPT-4 и ChatGPT»
— Что такое Charmed Kubeflow?
— Linux of AI : Why Open Interpreter poised to completely disrupt how we interact with Technology?
— The Optimal Choice of Hypothesis Is the Weakest, Not the Shortest
— From Words to Numbers: Your Large Language Model Is Secretly A Capable Regressor When Given In-Context Examples
— From Model-centered to Human-Centered: Revision Distance as a Metric for Text Evaluation in LLMs-based Applications
— The Topos of Transformer Networks
— Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement Learning
— Impact of Extensions on Browser Performance: An Empirical Study on Google Chrome
— Increased LLM Vulnerabilities from Fine-tuning and Quantization
— The Use of Generative Search Engines for Knowledge Work and Complex Tasks
— 94% on CIFAR-10 in 3.29 Seconds on a Single GPU
👨🎓 Бесплатные курсы недели
▪ Машинное обучение на графах - бесплатный продвинутый курс: Машинное обучение на графах. Курс регулярно дополняется практическими задачками и слайдами. Автор Ксавье Брессон - профессор национального университета
▪ Основы квантования - Новый краткий курс, созданный в сотрудничестве DeepLearning.AI
с Hugging
▪ Курс Геопространственный анализ данных - Первый открытый русскоязычный курс по геоаналитике. Материалы курса будут полезны специалистам в области Data Scientist, поскольку позволят решать геопространственные задачи, а также проводить исследования в области Geospatial Data Science.
@data_analysis_ml
🔥 Дайджест полезных материалов из мира Машинного обучения за неделю
Полезные инструменты недели
• LLaMa 3 - главный релиз недели: Новая SOTA в open-source! LLM с открытым исходным кодом, которая превосходит Claude 3 Opus... и дышит в спину GPT-4.Скорость работы составляет почти 300 токенов в секунду. LLAMA-3 - самая загружаемая модельна HF.🚀
• Torchtune - новая PyTorch-библиотека для файнтюнинга LLM. Библиотека сделана на базе PyTorch и и поддерживает LLama2 7B/13B, Mistral 7B и Gemma 2B.
• LLM Reka Core - новая передовая нейросеть способна обрабатывать текст, изображения, аудио и видео, чем выделяется среди других технологий в своем классе.
• Microsoft Research анонсировала VASA-1 -ИИ генератор видео, который выглядит очень реалистично.
• AutoCodeRover - это полностью автоматизированный инструмент для исправления ошибок на GitHub (исправление ошибок в разделе issues и генерации новых функций в проект).
• Tkinter Designer — инструмент, который автоматически конвертирует дизайны Figma в код Tkinter GUI.
• OmniFusion 1.1. - гибридная LLM для работы с картинками
• VoiceCraft: Zero-Shot - мощный редактор речи и преобразователь Text2Speech
📚 Бесплатные книги недели:
▪ Учебник, где собрана коллекция задачек о нейросетях, параллельно даётся необходимая теория с объяснением
▪Google выпустила крутой бесплатный учебник по промпт-инжинирингу!
▪Foundation of computer Vision
▪ Бесплатня книга научная визуализация: Python + Matplotlib
📄Статьи:
— Простейшая нейронная сеть, мой опыт и выводы
— LOCOST и SPECTRUM, два подхода к суммаризации
— Prepacking - простой метод, позволяющий увеличить скорость работы LLM в 6 раз и эффективность использования памяти в 16 раз .
— Scaling Instructable Agents Across Many Simulated Worlds
— Не DeepL-ом единым. Нейросетевой переводчик для ваших проектов в VS Code за пару кликов
— На чем программируют суровый ML в Гугле
— Заменят ли LLM людей в разметке данных для AI?
— Как мы тестировали большие языковые модели для модерации отзывов
— Распознавание лиц на микрокомпьютерах
— Книга «Разработка приложений на базе GPT-4 и ChatGPT»
— Что такое Charmed Kubeflow?
— Linux of AI : Why Open Interpreter poised to completely disrupt how we interact with Technology?
— The Optimal Choice of Hypothesis Is the Weakest, Not the Shortest
— From Words to Numbers: Your Large Language Model Is Secretly A Capable Regressor When Given In-Context Examples
— From Model-centered to Human-Centered: Revision Distance as a Metric for Text Evaluation in LLMs-based Applications
— The Topos of Transformer Networks
— Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement Learning
— Impact of Extensions on Browser Performance: An Empirical Study on Google Chrome
— Increased LLM Vulnerabilities from Fine-tuning and Quantization
— The Use of Generative Search Engines for Knowledge Work and Complex Tasks
— 94% on CIFAR-10 in 3.29 Seconds on a Single GPU
👨🎓 Бесплатные курсы недели
▪ Машинное обучение на графах - бесплатный продвинутый курс: Машинное обучение на графах. Курс регулярно дополняется практическими задачками и слайдами. Автор Ксавье Брессон - профессор национального университета
▪ Основы квантования - Новый краткий курс, созданный в сотрудничестве DeepLearning.AI
с Hugging
▪ Курс Геопространственный анализ данных - Первый открытый русскоязычный курс по геоаналитике. Материалы курса будут полезны специалистам в области Data Scientist, поскольку позволят решать геопространственные задачи, а также проводить исследования в области Geospatial Data Science.
@data_analysis_ml
📊 Хотите углубиться в Machine Learning или Data Science?
Начните с изучения базовых методов парсинга и работы с html! Приходите на бесплатный практический урок от OTUS. Спикер Мария Тихонова — PhD Computer Science, Senior Data Scientist в SberDevices и преподаватель ВШЭ.
💻 На вебинаре вы:
— освоите основные принципы работы c html в Python;
— изучите основные инструменты парсинга;
— научитесь скачивать различные типы данных с сайтов на сайты.
👉 Встречаемся 22 апреля в 18:00 мск в рамках курса «Machine Learning. Professional». Все участники вебинара получат специальную цену на обучение и консультацию от менеджеров OTUS!
🟢 Пройдите короткий тест прямо сейчас, чтобы посетить бесплатный урок: https://otus.pw/GNtS/
Google выпустила крутой учебник по промпт-инжинирингу!
Руководство на 45 страницах содержатся ценные советы для работы с Gemini, которые также применимы к другим нейронным сетям.
Это полноценное учебное пособие — понятное, доступное и красиво оформленное. В каждой главе вы найдете примеры использования, советы и понятные инструкции.
Достаем максимум возможностей из нейронных сетей
📚 Книга
@data_analysis_ml
💡Теперь у нас есть модель с открытым исходным кодом, которая превосходит Claude 3 Opus... и дышит в спину GPT-4.
Скорость работы составляет почти 300 токенов в секунду.
LLAMA-3 - самая загружаемая модель, которую я когда-либо видел на HF.🚀
За 24 часа его скачали более 36 200 раз!!!
Вангую: GPT-5 будет анонсирован до релиза Llama-3-400B. Релизы OpenAI определяются внешними факторами 🤣
🖇 Тесты LLaMA3
@data_analysis_ml
Российские студенты стали победителями ICPC
Это самые крупные международные соревнования по программированию в мире. В этом году финал проходил за два года — 2022 и 2023. Студенты факультета компьютерных наук, основанного ВШЭ и Яндексом, заняли призовые места в сразу двух соревнованиях.
За 2023 год абсолютными чемпионами стала команда FFTilted. Ее участники — Фёдор Ромашов, Александр Бабин и Кирилл Кудряшов — студенты программы Прикладной математики и информатики (ПМИ), разработанной Яндексом в момент основания факультета.
За 2022 год третье место в абсолютном зачете заняла команда Undertrained+Overpressured. Ее представляли Максим Гороховский, Иван Сафонов и Тимофей Федосеев.
Обе команды показали лучшие результаты среди всех российских вузов. Всего в ICPC приняли участие команды из 170 университетов и 50 стран мира.
📌Экстраполяция и интерполяция нейронных сетей
🟡Искусственные нейронные сети — это мощные инструменты логического вывода. Однако это не означает, что они могут изучать правила так, как это делают люди. Например, мы можем применять арифметику к произвольно большим числам. Это ключевое понимание, на котором основана арифметика.
Может ли нейронная сеть делать обобщения на случаи, которые далеки от тренировочных данных?
В общем, держите полезную статью о том, где затрагиваются детали внутренней реализации нейросетей
📎 Статья
@data_analysis_ml
📌Сверхполезный открытый учебник по Machine Learning
Здесь собрана коллекция задачек о нейросетях, параллельно даётся необходимая теория с объяснением
Очень годно, рекомендую
Что внутри?
├╼ всего лишь функция
├╼ градиентный спуск
├╼ алгоритм обратного распространения ошибки
├╼ что выплёвывает нейросеть
├╼ свёрточные сети
├╼ нейросети – конструктор LEGO
├╼ рекуррентные сети
╰╼ матричное дифференцирование
📎 Учебник
@data_analysis_mlRepost from Machinelearning
👑Llama 3 is here, with a brand new tokenizer! 🦙
Вышла Llama 3
Сегодня вышла новая SOTA Llama 3 в двух версиях на 8B и 70B параметров.
Длина контекста 8К, поддержка 30 языков.
•HF: https://huggingface.co/spaces/ysharma/Chat_with_Meta_llama3_8b
•Blog: https://ai.meta.com/blog/meta-llama-3/
Вы можете потестить 🦙 MetaLlama 3 70B и 🦙 Meta Llama 3 8B с помощью 🔥 бесплатного интерфейса: https://llama3.replicate.dev/
P.S. В процессе обучения находится модель на 400В+ параметров.
@ai_machinelearning_big_data
🧔 Microsoft Research анонсировала VASA-1.
ИИ генератор видео, который выглядит очень реалистично.
Для создания гиперреалистичного видео с изображением говорящего лица, требуется всего одна портретная фотография, чтобы создать видео с точной синхронизацией движения губ, реалистичным выражением лица и естественным движениями головы в режиме реального времени.
https://www.microsoft.com/en-us/research/project/vasa-1/
@data_analysis_ml
📌На чем программируют суровый ML в Гугле
Годная информация от Романа Ворушина, который работает в Google. Дальше от его лица
В 2015 году Гугл выпустил TensorFlow — супер-современный фреймворк для машинного обучения, созданный с участием самого Jeff Dean.
Но если почитать статьи за последние несколько лет из Google/DeepMind, то можно заметить что эксперименты реализованы с использованием совсем другого малоизвестного фреймворка JAX и лишь в самом конце портированы на TensorFlow/PyTorch. Именно с помощью JAX тренируют гигантские нейронные сети: текстовые, computer vision, мультимодальные.
JAX невероятно популярен внутри Гугла, но малоизвестен за его пределами. Исследователям это на руку - никто не принуждает делать фреймфорк доступным для всех, да и вице-президенты не терзают команду туманными целями и прочими синергиями.
У JAX есть отличная документация на Readthedocs. Я перепечатывал примеры оттуда в Google Colab, изменял их, пробовал их запускать на бесплатных Colab kernels with CPU/GPU/TPU.
Основные строительные блоки
🟡NumPy interface
Некоторые курсы по машинному обучению показывали как можно реализовать тренировку нейронных сетей умножением векторов/матриц NumPy, как вычислять производные цепочеатк функций. JAX - это в первую очередь невероятно ускоренный NumPy (see JAX As Accelerated NumPy). Все операции jax.numpy оптимизированы для выполнения на GPU/TPU. К этому добавлены возможности автоматической векторизации и параллелизации вычислений (как в курсе ml-class.org можно было векторизовать вычисления в Octave, ускоряя их в десятки-сотни раз).
🟡Just-in time compilation
Функции без побочных эффектов можно легко скомпилировать, обернув их в функцию jax.jit. Компиляция осуществляется методом трассировки - в качестве параметров передаются специальные объекты, которые запоминают все операции, которые с ними производятся. По результатам трассировки строится граф вычислений “входные параметры” - ??? - “выходные параметры”. Потом этот граф компилируется с использованием XLA (её когда-то написали для TensorFlow).
🟡Автоматическая дифферециация
Производные больше считать не нужно. Оборачиваешь loss function в функцию grad и получаешь градиенты. Вообще очень многое в JAX решается композицией функций. Опыт функционального программирования (Haskell, Erlang, ваши варианты) будет очень к стати.
🟡Flax - библиотека для нейронок
Flax — самая популярная библиотека для моделирования нейронных сетей. Отличная документация, есть много примеров, в том числе реальных исследовательских проектов из Гугла. Еще со всем недавно с ней конкурировала библиотека Haiku, но в конце концов Flax стал более популярен и Haiku перевели в режим поддержки.
У Flax офигенная философия. Чего только стоит “Prefer duplicating code over a bad abstraction.” Не всем такая философия подходит, но мне очень резонирует.
📎 Подробнее
@data_analysis_ml
Как понять, что вы уже мидл? Какая конкуренция за вакансии по сравнению с джунами? Какие зарплаты и что на них влияет?
Решили задать эти вопросы опытным разработчикам, которые сами нанимают мидлов. Присоединяйтесь к вебинару — будем вместе разбираться в рынке труда для программистов с опытом.
→ Бесплатно, 25 апреля в 19:00 Мск
Вы узнаете:
— как понять, что вы уже не джун, а скорее мидл;
— как сегодня выглядит рынок вакансий;
— сколько платят на средних позициях и как влиять на свой доход;
— что лучше: расширять стек или идти в специализацию;
— как правильно проходить собеседования.
→ Зарегистрироваться на вебинар
🔥 Новые модели CodeQwen1.5-7B занимают очень высокие позиции в таблице лидеров Big Code, превосходя гораздо более крупные модели 🚀
▪8 моделей, в том числе модели с 0,5 B, 1,8 B, 4B, 7B, 14B, 32B и 72B
▪Многоязычная поддержка как базовых моделей, так и моделей чата;
▪Поддержка контекста длиной 32 КБ для моделей всех размеров
https://huggingface.co/spaces/Qwen/CodeQwen1.5-7b-Chat-demo
data_analysis_ml
Repost from Big Data AI
🔥 Анонс альфа-релиза torch tune от Pytorch!
torchtune - это библиотека, созданная на базе PyTorch для файнтюнинга LLM.
Она сочетает в себе рецепты тонкой настройки, которые можно взломать, экономят память и интегрируются в ваши любимые инструменты.
Начните файнтюнить уже сегодня!
▪Github
▪Анонс
@bigdatai
🚀 Prepacking: A Simple Method for Fast Prefilling and Increased Throughput in Large Language Models
Хотите бесплатно увеличить скорость и эффективность использования памяти для вашего HuggingFace ✅ LLM без снижения качества генерации?
Представляем Prepacking - простой метод, позволяющий увеличить скорость работы LLM в 6 раз и эффективность использования памяти в 16 раз .
http://arxiv.org/pdf/2404.09529.pdf
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
