Анализ данных (Data analysis)

前往频道在 Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

显示更多

网络:Machinelearning 俄罗斯12 512 技术与应用2 668...

📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览

频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语语言赛道中的是活跃参与者。目前社区聚集了 50 257 名订阅者，在 技术与应用 类别中位列第 2 668，并在 俄罗斯 地区排名第 12 512 位。

📊 受众指标与增长动态

自 невідомо 创建以来，项目保持高速增长，吸引了 50 257 名订阅者。

根据 22 六月, 2026 的最新数据，频道保持稳定运转。过去 30 天订阅人数变化为 45，过去 24 小时变化为 6，整体触达仍然可观。

认证状态： 未认证
互动率 (ER)： 平均受众互动率为 9.24%。内容发布后 24 小时内通常能获得 6.54% 的反应，占订阅者总量。
帖子覆盖： 每篇帖子平均可获得 4 645 次浏览，首日通常累积 3 285 次浏览。
互动与反馈： 受众积极参与，单帖平均反应数为 31。
主题关注点： 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。

📝 描述与内容策略

作者将该频道定位为表达主观观点的平台：
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

凭借高频更新（最新数据采集于 23 六月, 2026），频道始终保持新鲜度与高覆盖。分析显示受众积极互动，使其成为 技术与应用 类别中的关键影响点。

50 257

订阅者

+624 小时

+787 天

+4530 天

4 645

帖子浏览量

~ 3 28524 小时

~ 4 28448 小时

9.24%

参与率

~ 5

每日帖子数

Ads index

beta

帖子存档

50 257

А/Б тестирование на маленьких выборках. Построение собственного критерия Держите полезный контент) В этой статье мы: ⏩рассмотрим кейс, в котором классические статистические критерии не работают ⏩разберёмся, почему так происходит ⏩научимся строить свои собственные критерии по историческим данным ⏩обсудим плюсы и минусы такого подхода. 📎 Статья @data_analysis_ml

50 257

Приглашаем в Гостиную к Алисе! «Гостиная Алисы. Не один дома» — это митап от команды Яндекса для middle+ бэкендеров: доклады о том, как устроена Алиса, Умные устройства, Беспилотные технологии и нетворкинг в неформальной обстановка 🔸 Павел Капля, руководитель продуктовой разработки Алисы. Расскажет, как запускали Новые возможности — и что пришлось изменить в нашем помощнике, чтобы заставить её думать по новому 🔸 Марат Мавлютов, руководитель службы разработки роботов-доставщиков. Объяснит, как наши роботы-доставщики видят мир вокруг себя, строят маршрут, ориентируются в толпе и проезжают светофоры 18 апреля, 19:00 Москва Зарегистрироваться можно здесь. Реклама ООО "Яндекс" ИНН 7736207543

50 257

💛 Visualizing Attention, a Transformer's Heart Внимание - ключевой механизм в трансформерах и LLM. Новый крутой разбор от 3Blue1Brown ▪ Видео @data_analysis_ml

50 257

🔥 Дайджест полезных материалов из мира Data Science за неделю Инструменты •Command R+ - Новая модель с открытым исходным кодом показывает крутые результаты на уровне с GPT-4 и Claude 3. 104 миллиарда параметров, 128к контекста • LLocalSearch - полностью локально работающая система метапоиска, использующая LLM-агентов. • DINO-Tracker: Новая SOTA для отслеживания объектов. • Stable Audio 2.0 — Stability AI представили нейросеть Stable Audio 2.0 для генерации треков с вокалом. • MagicLens: новое семейство моделей для поиска изображений от Google. • SV3D - еще один проект от Stability AI- новая модель для реконструкции изображения в 3D в хорошем качетсве. • Gaussian Head Avatar - качественная генерация ваш 3D-аватаров сразу с нескольких ракурсов. • Financial Datasets - это библиотека Python с открытым исходным кодом, которая позволяет разработчикам создавать синтетические наборы финансовых данных с использованием больших языковых моделей Почитать: — Как OpenAI создавали бота, который победил проигроков в Dota 2 — Огромный список лучших бесплатных курсов Data Science. — Аппаратные требования больших языковых моделей ИИ сокращаются вдвое каждые восемь месяцев — Fashion is ML profession! Материалы митапа — Как обнаружить галлюцинации в LLM? — Браузерная интерактивная игра от tensorflow, которая позволяет настраивать и обучать нейросеть — Mixture-of-Depths: распределение вычислений в LLM на основе трансформеров — Как мы реализовали текстовый поиск за 48 часов — Большая подборка вопросов для собеседования по DS, AI, ML, DL, NLP, компьютерному зрению — Open Source в российском ИИ: исследование ландшафта — Размышления о высококачественных данных, собранных людьми — Идеи улучшения точности, удобства и скорости языковых моделей — Введение в нейросети: что, зачем и как? — Как я стал специалистом по машинному обучению. Open AI и Dota 2 — Introduction to LLM Ops: Reliable and Scalable LLM Integration — JRDB-PanoTrack: An Open-world Panoptic Segmentation and Tracking Robotic Dataset — Machine Learning in Application Development — Let's detect flowers! (with SageMaker and DeepLens) — FiftyOne Computer Vision Tips and Tricks - April 5, 2024 — Trustworthy AI: Navigating the Ethical Challenges of AI Deployment and Decision-Making — SVM and Kernels: The Math that Makes Classification Magic — Get Hired Faster: How to use Lyzr-Automata to draft personalised cold emails — AI: The new Frontier Of War — Auto-Merging: RAG Retrieval Technique — Sentence Window Retrieval: Optimizing LLM Performance Посмотреть: 🌐 Введение в Трансформеры от 3Blue1Brown. Неповторимый стиль автора, красивая анимация и подробное разъяснение сложных тем простыми словами (⏱ 27:13) 🌐 Эндрю Ын рассказывает о том, как будут развиваться ИИ-агенты (⏱ 13:39) 🌐 100 вопросов с собеседований Data Science (⏱ 36:48) 🌐 Continual Learning of Natural Language Processing Tasks with Bing Liu, PhD (⏱ 46:38) 🌐 Navigating the GENAI Frontier: Empowering Data Scientists as Ethical Innovators with Alison Cossette (⏱ 35:19) 🌐 Vision To Make 1% Top Data Data Scientist (⏱ 09:08) 🌐 ИИ против ИИ в Street Fighter III (⏱ 09:01) Хорошего дня! @data_analysis_ml

50 257

🖥 Задачи ML на Swift без Python, нейронных сетей и библиотек ⏩Для решения задач ML большинство разработчиков предпочитают интегрировать библиотеки Python в свой язык/среду, вместо рассмотрения альтернативных решений (а они есть). ⏩В статье предлагается решить классическую задачу ML, используя язык Swift без использования библиотек. ⏩Статья не является руководством по написанию на Swift, а показывает, что ML задачи можно решать не только с помощью Python, и в этом даже есть плюсы 📎 Статья @data_analysis_ml

50 257

🚀 Альфа-Банк приглашает системных аналитиков на One Day Offer. 13 апреля пройдите все этапы собеседования и получите оффер за один день. Принять участие: https://cnrlink.com/alfaododataanalysis Альфа-Банк ищет специалистов, которые возьмут на себя разработку архитектуры взаимодействия внутренних учётных систем банка. На первом этапе – обучение и погружение, затем – постепенное усложнение задач. Ожидания от кандидатов: 1️⃣ Опыт работы системным аналитиком от 2 лет. 2️⃣ Умение писать базовые SQL-запросы. 3️⃣ Понимание принципов межсистемной интеграции. 4️⃣ Опыт написания документации и описания функциональности. Формат работы – на выбор: полная удалёнка, гибрид или офис в Москве, Санкт-Петербурге или Екатеринбурге с гибким графиком. ⏰ One Day Offer Альфа-Банка пройдёт в онлайн-формате 13 апреля. Успейте подать заявку до 11 апреля, чтобы принять участие в мини-игре с призами и получить приглашение на собеседование: https://cnrlink.com/alfaododataanalysis Реклама. АО "АЛЬФА-БАНК". ИНН 7728168971. erid: LjN8KBTnL

50 257

📌Mixture-of-Depths: распределение вычислений в LLM на основе трансформеров Это совершенно гениальная идея сделать модели на основе трансформеров более эффективными. Немного деталей: ⏩Mixture-of-Depths уменьшает объем внимания, доступного каждому уровню, и заставляет нейронную сеть обращать внимание на важную информацию. ⏩Использование Mixture-of-Depths минимизирует потери вычислений и обеспечивает динамическое распределение вычислений на основе входной последовательности. ⏩Mixture-of-Depths ограничивает количество токенов, которые могут участвовать в вычислениях self-attention и MLP на данном уровне. ⏩Токены, подлежащие обработке, определяются сетью с использованием механизма маршрутизации top-k. ⏩Метод Mixture-of-Depths использует статический граф вычислений с известными размерами тензора. ⏩Вычислительные затраты в целом предсказуемы, но динамичны и зависят от контекста на уровне токенов. 📎 Исследование, посвящённое Mixture-of-Depths @data_analysis_ml

50 257

⚡️Компания Аванпост в поисках Системного аналитика уровня (middle+) 🚀Какие задачи предстоит решать? - Собирать и вести реестр функциональных и нефункциональных требований заказчиков - Анализировать требования технических и бизнес-заказчиков на предмет соответствия концепции продуктов - Участвовать в планировании разработки продукта - Готовить функциональные требования и постановки к реализации для разработчиков (в Confluence/Jira) - Участвовать в подготовке документации по продуктам в кооперации с техническими писателями 👨‍💻Какие требования к кандидатам? - Технический бэкграунд с пониманием процесса разработки программного обеспечения - Понимание сетевых технологий и протоколов на верхнем уровне; - Понимание технической документации (RFC и т.д.) на английском и русском языке, умение выделять ключевые аспекты, важные для решения поставленной задачи - Навык подготовки диаграмм и схем в любом инструменте и любой нотации для донесения смысла и идей - Навык описания требований в любом формате 🔥Что мы предлагаем: - Конкурентную заработную плату - Интересные задачи - Условия работы в соответствии с ТК РФ + социальный пакет - Формат работы — удаленно или в офисе (возможен гибридный) - Классную команду и корпоративные мероприятия - Гибкий рабочий график Узнал себя? Принимай участие в One Day Offer и становись частью крупной IT-компании! Отправь резюме, пройди собеседование и получи предоффер в Аванпост за пару дней! 📆Даты: 19 Апреля 2024 📍Формат: Гибридный ⏳Дедлайн регистрации: 16 Апреля 2024 Подробности и регистрация: https://www.zavodit.ru/ru/vacancy/item/35

Реклама. ООО "Акселератор Возможностей".
ИНН 9704005146.
erid 2Vtzquk8u1G

50 257

📌Machine learning pipeline — основы. Cookiecutter и Hydra ⏩Простые проекты по Data Science делаются в Jupyter Notebooks и это нормально. Но с увеличением сложности начинаются проблемы; например, вы строите несколько типов моделей с несколькими вариантами заполнения пропусков (среднее, медиана), генерируете набор feature engineering и применяете разные варианты разбиения выборки. Можно разместить весь этот код в один Jupyter Notebooks и логгировать метрики и конфиги. Код получится громоздкий и не поворотливый. Для запуска экспериментов надо будет или перескакивать или комментировать ячейки, которые не нужно запускать. ⏩Для решения этих проблем рекомендую использовать pipeline для автоматизации рабочих процессов машинного обучения. Основная цель создания пайплайна — это контроль. Хорошо организованный пайплайн делает реализацию более гибкой. Об этом и идёт речь в статье, а также о Cookiecutter и Hydra, которые помогают строить пайплайны. 📎 Статья @data_analysis_ml

50 257

Обучайтесь бесплатно на магистерской программе от Альфа-Банка и МФТИ и получите прикладную специализацию в Data Science. На программе «Машинный интеллект в финансах» вас ждут: — бесплатное обучение с ежемесячной стипендией; — возможность получить оффер в IT-команду банка; — практические задачи и стажировка в Альфа-Банке с первого семестра; — полное погружение в Data Science — вы научитесь создавать и обучать модели, анализировать данные с помощью Python и защищать свои идеи. Подайте заявку на программу до 7 апреля, чтобы освоить востребованную профессию и начать карьеру в банке: https://u.to/d5uTIA

50 257

👨‍🎓 AIDE стала первым агентом искусственного интеллекта человеческого уровня для работы с данными! AIDE превосходит половину специалистов по обработке данных в широком спектре конкурсов Kaggle, превосходя обычных агентов AutoML, LangChain и ChatGPT 🏆 ▪Статья ▪Github @data_analysis_ml

50 257

🔥 Компания Anthropic только что выпустила метод джейлбрейка, позволяющий обойти все меры безопасности LLMs. ""manyshot jailbreaking" использует преимущества больших контекстных окон, добавляя в промпты сотни вредоносных диалогов между человеком и искусственным интеллектом. Простого включения очень большого количества фальшивых диалогов, предшествующих последнему вопросу, было достаточно, чтобы обойти меры безопасности. 🔥 Подробнее @data_analysis_ml

50 257

🌐 Не пропусти митап по работе с каталогами данных! X5 Tech совместно с сообществом dbt & modern data stack собирают экспертов, чтобы обсудить, как в мире, перегруженном данными, систематизировать их так, чтобы это работало. 👨🏻‍💻Спикеры из X5 Tech, Beeline и Tele2 рассмотрят успешные внедрения открытых каталогов данных на базе OpenMetadata и DataHub с месячной аудиторией от десятков специалистов машинного обучения до тысяч бизнес пользователей. 🛎 Добавь в календарь! Х5 Tech Talk: Наводим порядок в данных 11 апреля, 19:00 Зарегистрироваться

50 257

📌Основные типы распределений вероятностей в примерах ⏩Статистические исследования и эксперименты являются краеугольным камнем развития любой компании. Особенно это касается интернет-проектов, где учёт количества пользователей в день, времени нахождения на сайте, нажатий на целевые кнопки, покупок товаров является обычным и необходимым явлением. Любые изменения в пользовательском опыте на сайте компании (внешний вид, структура, контент) приводят к изменениям в работе пользователя и, как результат, изменения наблюдаются в собираемых данных. Важным элементом анализа изменений данных и его фундаментом является использование основных типов распределений случайных величин, от понимания которых напрямую зависит качество оценки значимости наблюдаемого изменения. ⏩В данной статье автор делает упор не на функции и формулы, которые обычно сопутствуют распределениям (функции вероятности, распределения, PMF, PDF, CDF). Скорее он пытается показать, как генерируются те или иные распределения на конкретных примерах. ⏩Отличная статья для понимания сути этих распределений и того, как они в итоге применяются на практике для решения конкретных задач анализа. Enjoy) 📎 Статья @data_analysis_ml

50 257

Считаешь себя экспертом в IT? Участвуй в «Цифровом марафоне» от Сбера и «Школы 21» и будь на код впереди! Миллион рублей уже ждёт тебя. В этом масштабном конкурсе ты будешь соревноваться со специалистами по всей России. Тройка лучших поделит в финале в Москве призовой фонд в 1,8 миллионов рублей. Но сначала нужно пройти онлайн-игру, тестирование и цифровой диктант. Начнёшь с «разминки» и покажешь свои аналитические и мягкие навыки. Далее — ответь на вопросы теста согласно своему уровню подготовки. Прослушай на диктанте техническое задание и напиши код решения. Поспеши: 20 апреля — твой последний шанс нажать на кнопку «Хочу участвовать». Переходи на сайт и регистрируйся прямо сейчас!

50 257

🔥 Большая подборка вопросов для собеседования по DS, AI, ML, DL, NLP, компьютерному зрению. Подборка вопросов для собеседования поможет вам на собеседовании в области науки о данных, искусственного интеллекта, машинного обучения, глубинного обучения, обработки естественного языка, компьютерного зрения. ▪100 вопросов для собеседования по машинному обучению в 2024 году ▪50 вопросов для собеседования по компьютерному зрению в 2024 году ▪50 вопросов для интервью по глубинному обучению в 2024 году ▪50 вопросов для интервью по НЛП (обработке естественного языка) в 2024 году ▪100 вопросов с собеседований Data Science @machinelearning_interview

50 257

💲 Financial Datasets - это библиотека Python с открытым исходным кодом, которая позволяет разработчикам создавать синтетические наборы финансовых данных с использованием больших языковых моделей (LLM). С помощью этой библиотеки вы можете генерировать реалистичные наборы финансовых данных за 5 строк кода, на основе отчетов SEC, таких как 10-Ks, 10-Qs и других финансовых отчетов. Такие датасеты полезны для: • оценки LLM • точной настройки LLM • тестирования финансовых инструментов • и многого другого Проект полностью открытым исходным кодом. pip financial-datasets. ▪GitHub: https://github.com/virattt/financial-datasets ▪Пример с кодом: https://colab.research.google.com/gist/virattt/f9b5a0ae82cc0caab57df5dedc2927c9/intro-financial-datasets.ipynb#scrollTo=K-b_1BPtJsS1 @data_analysis_ml

50 257

📌Подборка полезных материалов по Data Science Держите, здесь ссылки на шпаргалки, полезные статьи, курсы на Stepik и ещё много всего Enjoy) 📎 Ссылка @data_analysis_ml

50 257

Хотите учиться у экспертов в области IT? Школа анализа данных Яндекса принимает заявки до 12 мая, успейте зарегистрироваться. ШАД для вас, если вы: · интересуетесь Machine Learning · имеете хорошую математическую подготовку · уверенно владеете каким-либо языком программирования Программа длится два года, обучение бесплатное. Можно выбрать одно из направлений: Data Science, инфраструктура больших данных, разработка машинного обучения или анализ данных и ИИ в прикладных науках. Больше об учёбе в ШАД и возможностях для выпускников расскажем на днях открытых дверей. Узнать даты и зарегистрироваться можно по ссылке.

50 257

🔥 Сегодня выпущены два самых больших открытых набора данных для распознавания текста за всю историю 📜 📜 Набор данных содержит миллионы реальных документов, изображений и текстов для задач распознавания текста, анализа и разбора документов VQA.: https://huggingface.co/datasets/pixparse/idl-wds Датасет дополнен аннотациями из проекта idl_data Бриттена и др. (https://arxiv.org/abs/2202.12985 ) PDFA: https://huggingface.co/datasets/pixparse/pdfa-eng-wds @data_analysis_ml