Анализ данных (Data analysis)

Open in Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Network:Machinelearning Russia12 512 Technologies & Applications2 668...

📈 Analytical overview of Telegram channel Анализ данных (Data analysis)

Channel Анализ данных (Data analysis) (@data_analysis_ml) in the Russian language segment is an active participant. Currently, the community unites 50 257 subscribers, ranking 2 668 in the Technologies & Applications category and 12 512 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 50 257 subscribers.

According to the latest data from 22 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by 45 over the last 30 days and by 6 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 9.24%. Within the first 24 hours after publication, content typically collects 6.54% reactions from the total number of subscribers.
Post reach: On average, each post receives 4 645 views. Within the first day, a publication typically gains 3 285 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 31.
Thematic interests: Content is focused on key topics such as llm, контекст, openai, архитектура, deepseek.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Thanks to the high frequency of updates (latest data received on 23 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

50 257

Subscribers

+624 hours

+787 days

+4530 days

4 645

Post views

~ 3 28524 hours

~ 4 28448 hours

9.24%

Engagement rate

~ 5

Posts per day

Ads index

beta

Posts Archive

50 257

А/Б тестирование на маленьких выборках. Построение собственного критерия Держите полезный контент) В этой статье мы: ⏩рассмотрим кейс, в котором классические статистические критерии не работают ⏩разберёмся, почему так происходит ⏩научимся строить свои собственные критерии по историческим данным ⏩обсудим плюсы и минусы такого подхода. 📎 Статья @data_analysis_ml

50 257

Приглашаем в Гостиную к Алисе! «Гостиная Алисы. Не один дома» — это митап от команды Яндекса для middle+ бэкендеров: доклады о том, как устроена Алиса, Умные устройства, Беспилотные технологии и нетворкинг в неформальной обстановка 🔸 Павел Капля, руководитель продуктовой разработки Алисы. Расскажет, как запускали Новые возможности — и что пришлось изменить в нашем помощнике, чтобы заставить её думать по новому 🔸 Марат Мавлютов, руководитель службы разработки роботов-доставщиков. Объяснит, как наши роботы-доставщики видят мир вокруг себя, строят маршрут, ориентируются в толпе и проезжают светофоры 18 апреля, 19:00 Москва Зарегистрироваться можно здесь. Реклама ООО "Яндекс" ИНН 7736207543

50 257

💛 Visualizing Attention, a Transformer's Heart Внимание - ключевой механизм в трансформерах и LLM. Новый крутой разбор от 3Blue1Brown ▪ Видео @data_analysis_ml

50 257

🔥 Дайджест полезных материалов из мира Data Science за неделю Инструменты •Command R+ - Новая модель с открытым исходным кодом показывает крутые результаты на уровне с GPT-4 и Claude 3. 104 миллиарда параметров, 128к контекста • LLocalSearch - полностью локально работающая система метапоиска, использующая LLM-агентов. • DINO-Tracker: Новая SOTA для отслеживания объектов. • Stable Audio 2.0 — Stability AI представили нейросеть Stable Audio 2.0 для генерации треков с вокалом. • MagicLens: новое семейство моделей для поиска изображений от Google. • SV3D - еще один проект от Stability AI- новая модель для реконструкции изображения в 3D в хорошем качетсве. • Gaussian Head Avatar - качественная генерация ваш 3D-аватаров сразу с нескольких ракурсов. • Financial Datasets - это библиотека Python с открытым исходным кодом, которая позволяет разработчикам создавать синтетические наборы финансовых данных с использованием больших языковых моделей Почитать: — Как OpenAI создавали бота, который победил проигроков в Dota 2 — Огромный список лучших бесплатных курсов Data Science. — Аппаратные требования больших языковых моделей ИИ сокращаются вдвое каждые восемь месяцев — Fashion is ML profession! Материалы митапа — Как обнаружить галлюцинации в LLM? — Браузерная интерактивная игра от tensorflow, которая позволяет настраивать и обучать нейросеть — Mixture-of-Depths: распределение вычислений в LLM на основе трансформеров — Как мы реализовали текстовый поиск за 48 часов — Большая подборка вопросов для собеседования по DS, AI, ML, DL, NLP, компьютерному зрению — Open Source в российском ИИ: исследование ландшафта — Размышления о высококачественных данных, собранных людьми — Идеи улучшения точности, удобства и скорости языковых моделей — Введение в нейросети: что, зачем и как? — Как я стал специалистом по машинному обучению. Open AI и Dota 2 — Introduction to LLM Ops: Reliable and Scalable LLM Integration — JRDB-PanoTrack: An Open-world Panoptic Segmentation and Tracking Robotic Dataset — Machine Learning in Application Development — Let's detect flowers! (with SageMaker and DeepLens) — FiftyOne Computer Vision Tips and Tricks - April 5, 2024 — Trustworthy AI: Navigating the Ethical Challenges of AI Deployment and Decision-Making — SVM and Kernels: The Math that Makes Classification Magic — Get Hired Faster: How to use Lyzr-Automata to draft personalised cold emails — AI: The new Frontier Of War — Auto-Merging: RAG Retrieval Technique — Sentence Window Retrieval: Optimizing LLM Performance Посмотреть: 🌐 Введение в Трансформеры от 3Blue1Brown. Неповторимый стиль автора, красивая анимация и подробное разъяснение сложных тем простыми словами (⏱ 27:13) 🌐 Эндрю Ын рассказывает о том, как будут развиваться ИИ-агенты (⏱ 13:39) 🌐 100 вопросов с собеседований Data Science (⏱ 36:48) 🌐 Continual Learning of Natural Language Processing Tasks with Bing Liu, PhD (⏱ 46:38) 🌐 Navigating the GENAI Frontier: Empowering Data Scientists as Ethical Innovators with Alison Cossette (⏱ 35:19) 🌐 Vision To Make 1% Top Data Data Scientist (⏱ 09:08) 🌐 ИИ против ИИ в Street Fighter III (⏱ 09:01) Хорошего дня! @data_analysis_ml

50 257

🖥 Задачи ML на Swift без Python, нейронных сетей и библиотек ⏩Для решения задач ML большинство разработчиков предпочитают интегрировать библиотеки Python в свой язык/среду, вместо рассмотрения альтернативных решений (а они есть). ⏩В статье предлагается решить классическую задачу ML, используя язык Swift без использования библиотек. ⏩Статья не является руководством по написанию на Swift, а показывает, что ML задачи можно решать не только с помощью Python, и в этом даже есть плюсы 📎 Статья @data_analysis_ml

50 257

🚀 Альфа-Банк приглашает системных аналитиков на One Day Offer. 13 апреля пройдите все этапы собеседования и получите оффер за один день. Принять участие: https://cnrlink.com/alfaododataanalysis Альфа-Банк ищет специалистов, которые возьмут на себя разработку архитектуры взаимодействия внутренних учётных систем банка. На первом этапе – обучение и погружение, затем – постепенное усложнение задач. Ожидания от кандидатов: 1️⃣ Опыт работы системным аналитиком от 2 лет. 2️⃣ Умение писать базовые SQL-запросы. 3️⃣ Понимание принципов межсистемной интеграции. 4️⃣ Опыт написания документации и описания функциональности. Формат работы – на выбор: полная удалёнка, гибрид или офис в Москве, Санкт-Петербурге или Екатеринбурге с гибким графиком. ⏰ One Day Offer Альфа-Банка пройдёт в онлайн-формате 13 апреля. Успейте подать заявку до 11 апреля, чтобы принять участие в мини-игре с призами и получить приглашение на собеседование: https://cnrlink.com/alfaododataanalysis Реклама. АО "АЛЬФА-БАНК". ИНН 7728168971. erid: LjN8KBTnL

50 257

📌Mixture-of-Depths: распределение вычислений в LLM на основе трансформеров Это совершенно гениальная идея сделать модели на основе трансформеров более эффективными. Немного деталей: ⏩Mixture-of-Depths уменьшает объем внимания, доступного каждому уровню, и заставляет нейронную сеть обращать внимание на важную информацию. ⏩Использование Mixture-of-Depths минимизирует потери вычислений и обеспечивает динамическое распределение вычислений на основе входной последовательности. ⏩Mixture-of-Depths ограничивает количество токенов, которые могут участвовать в вычислениях self-attention и MLP на данном уровне. ⏩Токены, подлежащие обработке, определяются сетью с использованием механизма маршрутизации top-k. ⏩Метод Mixture-of-Depths использует статический граф вычислений с известными размерами тензора. ⏩Вычислительные затраты в целом предсказуемы, но динамичны и зависят от контекста на уровне токенов. 📎 Исследование, посвящённое Mixture-of-Depths @data_analysis_ml

50 257

⚡️Компания Аванпост в поисках Системного аналитика уровня (middle+) 🚀Какие задачи предстоит решать? - Собирать и вести реестр функциональных и нефункциональных требований заказчиков - Анализировать требования технических и бизнес-заказчиков на предмет соответствия концепции продуктов - Участвовать в планировании разработки продукта - Готовить функциональные требования и постановки к реализации для разработчиков (в Confluence/Jira) - Участвовать в подготовке документации по продуктам в кооперации с техническими писателями 👨‍💻Какие требования к кандидатам? - Технический бэкграунд с пониманием процесса разработки программного обеспечения - Понимание сетевых технологий и протоколов на верхнем уровне; - Понимание технической документации (RFC и т.д.) на английском и русском языке, умение выделять ключевые аспекты, важные для решения поставленной задачи - Навык подготовки диаграмм и схем в любом инструменте и любой нотации для донесения смысла и идей - Навык описания требований в любом формате 🔥Что мы предлагаем: - Конкурентную заработную плату - Интересные задачи - Условия работы в соответствии с ТК РФ + социальный пакет - Формат работы — удаленно или в офисе (возможен гибридный) - Классную команду и корпоративные мероприятия - Гибкий рабочий график Узнал себя? Принимай участие в One Day Offer и становись частью крупной IT-компании! Отправь резюме, пройди собеседование и получи предоффер в Аванпост за пару дней! 📆Даты: 19 Апреля 2024 📍Формат: Гибридный ⏳Дедлайн регистрации: 16 Апреля 2024 Подробности и регистрация: https://www.zavodit.ru/ru/vacancy/item/35

Реклама. ООО "Акселератор Возможностей".
ИНН 9704005146.
erid 2Vtzquk8u1G

50 257

📌Machine learning pipeline — основы. Cookiecutter и Hydra ⏩Простые проекты по Data Science делаются в Jupyter Notebooks и это нормально. Но с увеличением сложности начинаются проблемы; например, вы строите несколько типов моделей с несколькими вариантами заполнения пропусков (среднее, медиана), генерируете набор feature engineering и применяете разные варианты разбиения выборки. Можно разместить весь этот код в один Jupyter Notebooks и логгировать метрики и конфиги. Код получится громоздкий и не поворотливый. Для запуска экспериментов надо будет или перескакивать или комментировать ячейки, которые не нужно запускать. ⏩Для решения этих проблем рекомендую использовать pipeline для автоматизации рабочих процессов машинного обучения. Основная цель создания пайплайна — это контроль. Хорошо организованный пайплайн делает реализацию более гибкой. Об этом и идёт речь в статье, а также о Cookiecutter и Hydra, которые помогают строить пайплайны. 📎 Статья @data_analysis_ml

50 257

Обучайтесь бесплатно на магистерской программе от Альфа-Банка и МФТИ и получите прикладную специализацию в Data Science. На программе «Машинный интеллект в финансах» вас ждут: — бесплатное обучение с ежемесячной стипендией; — возможность получить оффер в IT-команду банка; — практические задачи и стажировка в Альфа-Банке с первого семестра; — полное погружение в Data Science — вы научитесь создавать и обучать модели, анализировать данные с помощью Python и защищать свои идеи. Подайте заявку на программу до 7 апреля, чтобы освоить востребованную профессию и начать карьеру в банке: https://u.to/d5uTIA

50 257

👨‍🎓 AIDE стала первым агентом искусственного интеллекта человеческого уровня для работы с данными! AIDE превосходит половину специалистов по обработке данных в широком спектре конкурсов Kaggle, превосходя обычных агентов AutoML, LangChain и ChatGPT 🏆 ▪Статья ▪Github @data_analysis_ml

50 257

🔥 Компания Anthropic только что выпустила метод джейлбрейка, позволяющий обойти все меры безопасности LLMs. ""manyshot jailbreaking" использует преимущества больших контекстных окон, добавляя в промпты сотни вредоносных диалогов между человеком и искусственным интеллектом. Простого включения очень большого количества фальшивых диалогов, предшествующих последнему вопросу, было достаточно, чтобы обойти меры безопасности. 🔥 Подробнее @data_analysis_ml

50 257

🌐 Не пропусти митап по работе с каталогами данных! X5 Tech совместно с сообществом dbt & modern data stack собирают экспертов, чтобы обсудить, как в мире, перегруженном данными, систематизировать их так, чтобы это работало. 👨🏻‍💻Спикеры из X5 Tech, Beeline и Tele2 рассмотрят успешные внедрения открытых каталогов данных на базе OpenMetadata и DataHub с месячной аудиторией от десятков специалистов машинного обучения до тысяч бизнес пользователей. 🛎 Добавь в календарь! Х5 Tech Talk: Наводим порядок в данных 11 апреля, 19:00 Зарегистрироваться

50 257

📌Основные типы распределений вероятностей в примерах ⏩Статистические исследования и эксперименты являются краеугольным камнем развития любой компании. Особенно это касается интернет-проектов, где учёт количества пользователей в день, времени нахождения на сайте, нажатий на целевые кнопки, покупок товаров является обычным и необходимым явлением. Любые изменения в пользовательском опыте на сайте компании (внешний вид, структура, контент) приводят к изменениям в работе пользователя и, как результат, изменения наблюдаются в собираемых данных. Важным элементом анализа изменений данных и его фундаментом является использование основных типов распределений случайных величин, от понимания которых напрямую зависит качество оценки значимости наблюдаемого изменения. ⏩В данной статье автор делает упор не на функции и формулы, которые обычно сопутствуют распределениям (функции вероятности, распределения, PMF, PDF, CDF). Скорее он пытается показать, как генерируются те или иные распределения на конкретных примерах. ⏩Отличная статья для понимания сути этих распределений и того, как они в итоге применяются на практике для решения конкретных задач анализа. Enjoy) 📎 Статья @data_analysis_ml

50 257

Считаешь себя экспертом в IT? Участвуй в «Цифровом марафоне» от Сбера и «Школы 21» и будь на код впереди! Миллион рублей уже ждёт тебя. В этом масштабном конкурсе ты будешь соревноваться со специалистами по всей России. Тройка лучших поделит в финале в Москве призовой фонд в 1,8 миллионов рублей. Но сначала нужно пройти онлайн-игру, тестирование и цифровой диктант. Начнёшь с «разминки» и покажешь свои аналитические и мягкие навыки. Далее — ответь на вопросы теста согласно своему уровню подготовки. Прослушай на диктанте техническое задание и напиши код решения. Поспеши: 20 апреля — твой последний шанс нажать на кнопку «Хочу участвовать». Переходи на сайт и регистрируйся прямо сейчас!

50 257

🔥 Большая подборка вопросов для собеседования по DS, AI, ML, DL, NLP, компьютерному зрению. Подборка вопросов для собеседования поможет вам на собеседовании в области науки о данных, искусственного интеллекта, машинного обучения, глубинного обучения, обработки естественного языка, компьютерного зрения. ▪100 вопросов для собеседования по машинному обучению в 2024 году ▪50 вопросов для собеседования по компьютерному зрению в 2024 году ▪50 вопросов для интервью по глубинному обучению в 2024 году ▪50 вопросов для интервью по НЛП (обработке естественного языка) в 2024 году ▪100 вопросов с собеседований Data Science @machinelearning_interview

50 257

💲 Financial Datasets - это библиотека Python с открытым исходным кодом, которая позволяет разработчикам создавать синтетические наборы финансовых данных с использованием больших языковых моделей (LLM). С помощью этой библиотеки вы можете генерировать реалистичные наборы финансовых данных за 5 строк кода, на основе отчетов SEC, таких как 10-Ks, 10-Qs и других финансовых отчетов. Такие датасеты полезны для: • оценки LLM • точной настройки LLM • тестирования финансовых инструментов • и многого другого Проект полностью открытым исходным кодом. pip financial-datasets. ▪GitHub: https://github.com/virattt/financial-datasets ▪Пример с кодом: https://colab.research.google.com/gist/virattt/f9b5a0ae82cc0caab57df5dedc2927c9/intro-financial-datasets.ipynb#scrollTo=K-b_1BPtJsS1 @data_analysis_ml

50 257

📌Подборка полезных материалов по Data Science Держите, здесь ссылки на шпаргалки, полезные статьи, курсы на Stepik и ещё много всего Enjoy) 📎 Ссылка @data_analysis_ml

50 257

Хотите учиться у экспертов в области IT? Школа анализа данных Яндекса принимает заявки до 12 мая, успейте зарегистрироваться. ШАД для вас, если вы: · интересуетесь Machine Learning · имеете хорошую математическую подготовку · уверенно владеете каким-либо языком программирования Программа длится два года, обучение бесплатное. Можно выбрать одно из направлений: Data Science, инфраструктура больших данных, разработка машинного обучения или анализ данных и ИИ в прикладных науках. Больше об учёбе в ШАД и возможностях для выпускников расскажем на днях открытых дверей. Узнать даты и зарегистрироваться можно по ссылке.

50 257

🔥 Сегодня выпущены два самых больших открытых набора данных для распознавания текста за всю историю 📜 📜 Набор данных содержит миллионы реальных документов, изображений и текстов для задач распознавания текста, анализа и разбора документов VQA.: https://huggingface.co/datasets/pixparse/idl-wds Датасет дополнен аннотациями из проекта idl_data Бриттена и др. (https://arxiv.org/abs/2202.12985 ) PDFA: https://huggingface.co/datasets/pixparse/pdfa-eng-wds @data_analysis_ml