Анализ данных (Data analysis)
前往频道在 Telegram
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp
显示更多📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览
频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 50 254 名订阅者,在 技术与应用 类别中位列第 2 668,并在 俄罗斯 地区排名第 12 512 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 50 254 名订阅者。
根据 21 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 39,过去 24 小时变化为 -7,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 8.79%。内容发布后 24 小时内通常能获得 6.66% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 4 415 次浏览,首日通常累积 3 346 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 31。
- 主题关注点: 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“Data science, наука о данных.
@haarrp - админ
РКН: clck.ru/3FmyAp”
凭借高频更新(最新数据采集于 22 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
50 254
订阅者
-724 小时
+977 天
+3930 天
帖子存档
+3
📌Вопросы и ответы к собеседованию по Data Science
Держите, полезная подборка ответов на распространенные вопросы из собеседований по Data Science и немного по ML
🔗 Вопросы/ответы
🔗 14 типичных вопросов с собеседования по ML
🔗 Большая подборка вопросов для собеседования по DS
🔗 Подготовка к собеседованию по ML: ответы на основные вопросы
🔗 Вопросы для собеседования на позицию ML-инженера
🔗 Вопросы с собеседований статистика
🔗 Вопросы по теории вероятности
🔗Материалы для подготовки к интервью по направлению
🔗Задачи с собеседований SQL
@data_analysis_ml
Эффективный способ быстрого освоения ChatGPT.
Создание правильных промптов и обучение нейронной сети - это долгий процесс, требующий значительных временных затрат.
Здесь разработан краткий курс из 5 уроков по ChatGPT. После его прохождения вы сможете создать 9 нейронных сетей, которые помогут вам:
▪️ найти ошибки и оптимизировать код
▪️ генерировать посты в Телеграме
▪️ создавать заголовки для рекламы
* отдать всю рутину на выполнение нейронке
Вы также сможете разработать своих нейро-помощников для продаж, маркетинга и других целей.
Бесплатный доступ доступен сразу после регистрации.
Реклама. ООО "ТЕРРА ЭЙАЙ". ИНН 9728019395. erid: LjN8KYXR3
⚡️ Snowflake только что запустила самую крупную модель с открытым исходным кодом на сегодняшний день.
482 млрд параметр MoE.
17 млрд. активных параметров и 128 экспертов, обученных на 3,5 Т токенов.
Даже описание данных с открытым исходным кодом!
pip install git+https://github.com/Snowflake-Labs/transformers.git@arctic
https://huggingface.co/Snowflake/snowflake-arctic-instruct
⚡️ Quix Streams - это облачная нативная библиотека для обработки данных в Kafka с использованием Python.
Инструмент разработан, чтобы предоставить возможности распределенной системы в виде легкой библиотеки, сочетая низкоуровневую масштабируемость и отказоустойчивость функций Kafka с простым в использовании интерфейсом Python.
Отлично подходит для новичков, которые хотят познакомиться с потоковой обработкой.
python -m pip install quixstreams
• Github
• Docs
@data_analysis_mlПробный ЕГЭ по информатике: бесплатно!
Центральный университет приглашает 11-классиков, которые хотят:
– потренироваться в написании ЕГЭ и проверить свой уровень знаний в баллах ЕГЭ
– повысить свои шансы на успех
– разобрать ошибки и понять, как не потерять баллы на экзамене
– подготовиться морально к экзамену, снизив стресс
📅 Когда: 28 апреля, 10:00 МСК
📍 Где: Центральный университет, Москва, ул. Гашека, 7 или онлайн на платформе edu.tinkoff.ru
📚 Что: ты получишь: диагностику знаний, опыт сдачи ЕГЭ, экспертные комментарии, разбор ошибок
Регистрируйся до 25 апреля 23:59
erid:2VtzqwXpLcQ
Реклама, АНО ВО «Центральный университет», ИНН 7743418023
+2
🖥 Обнаружение статистических выбросов в Python
Выбросы — значения или наблюдения, отклоняющиеся от других данных. Всегда нужно сравнивать наблюдение с другими значениями, полученными тем же способом, прежде чем называть их выбросами.
Имеет смысл формально выделять два класса выбросов: экстремальные значения и ошибки. Экстремальные значения интереснее, потому что они возможны, но маловероятны.
В этой статье — несколько подходов к обнаружению выбросов в Python; от простых методов, таких как описательная статистика (включая минимальные, максимальные значения, гистограмму, прямоугольную диаграмму и процентили), до более формальных методов, таких как фильтр Хэмпеля, тесты Граббса, Диксона и Рознера.
📎 Поехали
📎 Кстати, по анализу выбросов в R
#junior
@data_analysis_ml
Tarantool Column Store — это новая российская in-memory колоночная СУБД для гибридной транзакционно-аналитической обработки данных (HTAP) в реальном времени.
Позволяет анализировать данные в real-time, ускорять аналитические расчеты. Обладает высокой производительностью благодаря многопоточности.
Где можно применять новую СУБД:
• Формирование финансовой отчетности в real-time;
• Ускорение и повышение точности антифрод-систем — обнаружение подозрительных транзакций практически с нулевой задержкой;
• Повышение производительности системы выдачи кредитов. Tarantool Columnstore в реальном времени анализирует матрицы, в которых содержится более 100 000 вариантов кредитных предложений и дополнительных услуг.
Попробуйте высокую производительность и скорость — 1,6 млн. сканирований и 200 тыс. агрегаций в секунду на ядро, <200 микросекунд на запрос.
➡️ Оставить заявку
🔥 С Transformers.js, теперь вы можете запускать CLIP в своем браузере со скоростью более 20 кадров в секунду с использованием WebGPU для классификации изображений в режиме реального времени!
Как всегда, все работает на 100% локально, что означает, что вам не нужноAPI! 🔥
🔗 Демо: https://hf.co/spaces/Xenova/webgpu-clip
@data_analysis_ml
Repost from Machinelearning
+4
🍏 OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework by Apple
Сегодня Apple выпустили Openly.
- Новое семейство LM с открытым исходным кодом для обучения моделей и логического вывода
- Работает наравне с OLMo, но требует в 2 раза меньше токенов для обучения
- Модели для различных задач, включая базовые модели (например, CLIP и LLM), классификацию объектов, обнаружение объектов и семантическую сегментацию.
Cписок моделей и подробная информации о каждой из них:
- OpenELM-270M
- OpenELM-450M
- OpenELM-1_1B
- OpenELM-3B
- OpenELM-270M-Instruct
- OpenELM-450M-Instruct
- OpenELM-1_1B-Instruct
- OpenELM-3B-Instruct
• gitHub: https://github.com/apple/corenet
• hf: https://huggingface.co/apple/OpenELM
• abs: https://arxiv.org/abs/2404.14619
@ai_machinelearning_big_data
❓Как писать User Story на минималках по канонам и что у них под капотом? В каких кейсах польза от историй будет максимальная?
Расскажем на бесплатном практическом уроке «User Story по шаблону и даже лучше» от OTUS. На вебинаре разберем:
- User Story и беклог продукта;
- расширение историй: сценарии использования и критерии приемки;
- в каких командах и проектах они работают.
Урок идеально подойдет тем, кто планирует стать системным аналитиком и оценивает курсы, а также начинающим аналитикам.
Встречаемся 26 апреля в 20:00 мск в рамках курса «Специализация Системный аналитик». Все участники вебинара получат специальную цену на обучение и персональную консультацию от менеджеров OTUS!
Регистрируйтесь прямо сейчас, чтобы не пропустить бесплатный урок и получить запись: https://otus.pw/b0ky/
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8Jz6Nt
+2
⭐ IDM-VON - модель, которая превосходит другие подходы, основанные на диффузии и GAN, для переноса любых деталей одежды на фотографии,
Только посмотрите на примеры выше)
• Github: https://github.com/yisol/IDM-VTON
• Demo: https://huggingface.co/spaces/yisol/IDM-VTON
• Paper: https://arxiv.org/abs/2403.05139
• Project: https://idm-vton.github.io/
@data_analysis_ml
Ozon Tech приглашает на ML&DS митап
📍26 апреля | 19:00 мск | онлайн
Ребята научили машины полезному и докладывают, как они справляются.
Какие темы в программе:
1. Как команда адаптировала LLM под задачи Ozon — от разметки до генерации изображений.
2. Развитие генеративного ИИ, продуктовые разработки в генеративном дизайне и языковых моделях.
3. Кейс Ozon Tech: создание медиаконтента в карточке товара за 5 минут при помощи StableDiffusion, ControlNet и адаптеров.
Зарегистрируйтесь, чтобы присоединиться к трансляции.
Реклама. Рекламодатель ООО «Озон Технологии».
erid: LjN8KBPSq
+2
📌L1 и L2 регуляризация в ML
Регуляризация - подход, который позволяет снизить сложность модели за счет "штрафования" вектора параметров θ.
Это один из эфективных методов борьбы с "переобучением", наряду с кросс-валидацией и уменьшением количества фичей, о которых мы поговорим позже. Регуляризация дает возможность выделить фичи,которые вносят наибольший вклад в принятия решения, и снизить влияние фич создающих "шум".
Существует два вида регуляризации - L1 и L2, выбор вида регуляризации отвечает на вопрос "как штрафовать". Рассмотрим различия между ними.
📎 О L1 и L2
📎 Ещё статья (en)
@data_analysis_ml
GitVerse – теперь и для малого и среднего бизнеса
На онлайн-презентации «GitVerse: открой вселенную кода» СберТех рассказал про новые фичи платформы. Cреди них – CI/CD-инструменты, ускоряющие разработку, и новые функции GigaCode – персонального AI-ассистента разработчика (AI, artificial intelligence — искусственный интеллект).
Но это еще не все: теперь возможности GitVerse доступны не только индивидуальным разработчикам, но и малому и среднему бизнесу. Это очень удобно: можно организовывать совместную работу команды с GitVerse и управлять доступами к своим репозиториям.
Готовы попробовать? Присоединяйтесь.
🌟 С большой долей вероятности GPT-5 появится уже этим летом и будет значительно лучше прошлых моделей
🟡GPT-5, следующая LLM от OpenAI, находится в процессе разработки и должна быть запущена в течение нескольких месяцев, как сообщают независимые источники.
🟡GPT-5, скорее всего, будет ориентирован на корпоративных клиентов OpenAI, которые обеспечивают большую часть доходов компании. Потенциально, с запуском новой модели компания может создать систему уровней, подобную уровню Google Gemini LLM, с различными версиями моделей для разных целей и клиентов. В настоящее время модели GPT-4 и GPT-4 Turbo известны тем, что на них работает платный потребительский продукт ChatGPT Plus, а на модели GPT-3.5 – оригинальный и все еще бесплатный чатбот ChatGPT.
📎 Подробнее
@data_analysis_ml
erid: 2RanynkawgU
CodeFest — это ежегодная тёплая ламповая айтишная конференция, на которую слетаются русскоговорящие айтишники с разных уголков страны, чтобы встретиться с коллегами, поделиться новостями и обсудить последние тенденции в мире разработки.
Ключевые направления программы: Backend, Frontend, Management, QA, Data Science, Mobile, Design, Web 3, System Аnalysis, а также дискуссионный народный поток Kvartirniki и вдохновляющие Keynote выступления от айти-звёзд.
Изюминка CodeFest — неформальное общение, которого много, которое невероятно дружелюбное, и зачином для которого служат те самые выступления в ключевых секциях. Начали с доклада в зале — закончили спонтанным митапом в холле.
Присоединяйтесь к невероятной атмосфере конференции:
■ 25-26 мая, Новосибирск, Экспоцентр.
■ 1800 участников на одной площадке.
■ Участие офлайн и онлайн.
■ Более 120 докладов.
■ Насыщенная программа от партнёров конференции.
Приезжайте командой, участвуйте лично.
Регистрация 👉 https://l.codefest.ru/data_analysis_ml
Реклама. АО "Тинькофф Банк", ИНН 7710140679, лицензия ЦБ РФ № 2673
⚡️ Phi-3 7B только что был выпущен и уверенно превосходит Llama-3 7B.
С MLU 75,3 модель приближается к 70-B моделям SOTA!! 🤯
Я не удивлюсь, если к концу года у нас появится модель 7B, которая превзойдет GPT-4.
https://arxiv.org/pdf/2404.14219.pdf
@data_analysis_ml
+4
📌Генерация и отбор признаков в ML
Невероятно полезный и практический notebook на тему генерации и отбора признаков.
Здесь обсуждается очень много полезных вещей, освежить которые перед собеседованием не будет лишним
Вот некоторые из обсуждаемых тем:
🟡Типы признаков: вещественные, категориальные
🟡Преобразования категориальных признаков: label encoding, one-hot encoding, count encoding, кодирование по вещественному признаку, Target encoding, embedding, кодирование циклических категориальных признаков
🟡Преобразования вещественных признаков: бинаризация, округление, binning
🟡Отбор признаков: полный перебор, одномерный отбор признаков
📎 Notebook
@data_analysis_ml
27 и 28 апреля приглашаем специалистов робототехники и reinforcement learning на ROS Meetup в Москве 📅
Это возможность для робототехников всех уровней: от новичков до экспертов, — посвятить выходные практическому обучению и нетворкингу. Вы получите советы и рекомендации экспертов, сможете поделиться идеями с другими разработчиками. Доклады охватывают весь спектр тем: от ROS до reinforcement learning и антропоморфных роботов.
Инженеры и руководители компаний поделятся реальным опытом использования ROS в исследовательских и коммерческих проектах.
В этот раз мы решили разбавить технические доклады большим количеством тематических дискуссий и нетворкинга.
На какие темы будем общаться:
✔️Антропоморфные роботы
✔️ Reinforcement learning
✔️ Large Language Models, Deep learning
✔️ Беспилотные автомобили и мобильные роботы
✔️ Манипуляторы и алгоритмы в манипуляции, в том числе MOVEit
✔️ ROS-пакеты и другие темы в робототехнике
Локация: г. Москва, Кутузовский проспект 32к1, офис Сбера.
Регистрируйтесь по ссылке 👈
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
