Анализ данных (Data analysis)
前往频道在 Telegram
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp
显示更多📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览
频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 50 251 名订阅者,在 技术与应用 类别中位列第 2 653,并在 俄罗斯 地区排名第 12 492 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 50 251 名订阅者。
根据 24 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 38,过去 24 小时变化为 -6,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 9.10%。内容发布后 24 小时内通常能获得 6.25% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 4 571 次浏览,首日通常累积 3 142 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 29。
- 主题关注点: 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“Data science, наука о данных.
@haarrp - админ
РКН: clck.ru/3FmyAp”
凭借高频更新(最新数据采集于 25 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
50 251
订阅者
-624 小时
+447 天
+3830 天
帖子存档
⚡️ Python совет
При объединении двух датафреймов Pandas с одинаковыми именами столбцов по умолчанию к именам столбцов добавляются суффиксы
"_x" и "_y".
Чтобы улучшить читаемость кода, вы можете указать собственные суффиксы.
#Python
@data_analysis_mlУлучшение нейросетей, рекомендаций и медицинская диагностика — только часть решений, где могут пригодиться ML-исследования. Авторов самых перспективных из них отметил Яндекс на Yandex ML Prize.
Yandex ML Prize — международная премия, которая уже пятый год поддерживает учёных-новичков и мотивирует их заниматься наукой. Участники изучают подходы и алгоритмы, которые позже могут лечь в основу разных технологий и продуктов. Например, поисковых сервисов или компьютерной графики. А ещё способны улучшить медицину: помогать изучать клетки живых организмов или находить редкие болезни на ранних этапах.
В этом году 11 лауреатов получили от Яндекса премии от 500 тысяч до 1 миллиона рублей, грант на использование платформы Yandex Cloud для экспериментов и больших вычислений и другие призы.
@data_analysis_ml
Аналитики, отзовитесь! 👋
Прямо сейчас в Авито требуются опытные специалисты, которые хотят работать с сильной командой амбициозных коллег с высокой профессиональной экспертизой:
➡️ Старший BI аналитик
➡️ Старший аналитик данных в команду прайсинга
➡️ Аналитик данных в направление инцидент и проблем менеджмент
Конкурентная заработная плата (обсуждается на собеседовании).
Что касается бенефитов:
– прозрачная система премий;
– классный офис в 2-х минутах от метро «Белорусская»;
– забота о здоровье: ДМС со стоматологией с первого дня, в офисе ведут приём терапевт, психолог и массажист, два зала с тренажёрами, занятия йогой и скидки на абонементы;
– самые передовые IT-инструменты для эффективного выполнения задач;
– личный бюджет на обучение, который можно тратить на книги, курсы и конференции;
– масштабные корпоративы, онлайн-вечеринки, командные тимбилдинги.
Скорее откликайтесь на вакансии и присоединяйтесь к крутой аналитической культуре 💪
🎉 Лучшие Open Source проекты 2023 года.
Выбрана вторая группа победителей программы Google Open Source Peer Bonus Program 2023 года
138 победителей были выбраны за влияние их вклада в проект с открытым исходным кодом, качество их работы и преданность открытому исходному коду.
👉 https://opensource.googleblog.com/2023/12/google-open-source-peer-bonus-program-announces-second-group-of-2023-winners.html
@data_analysis_ml
Специалисты по Data Science работают везде, где нужно обрабатывать и хранить данные. Они решают самые разные задачи: от планирования маршрутов в логистике до прогнозирования спроса на наличные в банкомате.
Плюсы профессии «Специалист по Data Science»:
— вы сможете работать почти в любой отрасли, от промышленности и до коммерции;
— решения специалистов по DS напрямую влияют на планирование и деятельность компаний;
— никакой рутины — чем сильнее и опытнее специалист, тем сложнее и интереснее его задачи;
— высокая заработная плата: младшие специалисты получают в среднем 60 000 рублей, специалисты с опытом — 120 000 рублей, а старшие специалисты — от 210 000 рублей.
За 8 месяцев обучения в Практикуме вы освоите востребованную профессию, а дальше — начнёте работать, улучшать навыки и расти в зарплате. Начните курс бесплатно и большими данными двигайтесь в сферу IT.
→ Начать курс бесплатно
📈 PromptBench: A Unified Library for Evaluating and Understanding Large Language Models.
PromptBench - это основанный на Pytorch пакет Python для оценки больших языковых моделей (LLM). Он предоставляет удобные API для исследователей, чтобы проводить оценку LLM.
🖥 Code: https://github.com/microsoft/promptbench
🌟 Docs: https://promptbench.readthedocs.io/en/latest/
📚 Paper: https://arxiv.org/abs/2312.07910v1
⚡️ Dataset: https://paperswithcode.com/dataset/mmlu
@data_analysis_ml
Как обработать большое количество данных в несколько десятков петабайт? Как проанализировать и выявить полезные инструменты?
Дмитрий, руководитель направления аналитики в команде mail.ru в VK в статье рассказывает о своём подходе к работе с большим количеством данных.
В статье вы ознакомитесь с self-сервисом Metida и какие две крупные задачи решает данный сервис;
- станет более понятен интерфейс Metida и из чего он состоит;
- как данные из реестра попадают в колоночную базу данных;
Об этом и других тонкостях работы с данными вы узнаете здесь.
@data_analysis_ml
📈 SlimSAM: 0.1% Data Makes Segment Anything Slim
Внушительный размер модели и высокие вычислительные требования модели Segment Anything Model (SAM) сделали ее громоздкой для развертывания на устройствах с ограниченными ресурсами.
Существующие подходы к сжатию SAM обычно предполагают обучение новой сети с нуля, что ставит перед разработчиками сложную задачу компромисса между степенью сжатия и производительностью модели.
Для решения этой проблемы представлен SlimSAM - новый метод сжатия SAM, который обеспечивает превосходную производительность при значительно меньших затратах на обучение.
Это достигается за счет эффективного повторного использования предварительно обученных моделей с помощью единой системы обрезки и дистилляции.
В отличие от предыдущих методов обрезки, мы тщательно обрезаем и дистиллируем разрозненные структуры моделей поочередно.
SlimSAM обеспечивает значительный прирост производительности и требует в 10 раз меньше затрат на обучение, чем другие существующие методы.
Даже по сравнению с оригинальным SAM-H, SlimSAM достигает приближающейся производительности при сокращении количества параметров всего до
0,9% (5,7M), MAC до 0,8% (21G) и требуя всего 0,1% (10k) обучающих данных SAM.
🖥 Code: https://github.com/czg1225/SlimSAM
🌟 Colab: http://modelslab.com
📚 Paper: https://arxiv.org/abs/2312.05284
⚡️ Dataset: https://tianxingwu.github.io/pages/FreeInit/
@ai_machinelearning_big_dataСкажите что-то на карьерном
Тинькофф в поиске крутых ИТ-спецов. С компании — профессиональный рост, интересные финтех-задачи, решение бытовых забот и работа там, где вы живете. С вас — выбрать вакансию и откликнуться тут
АО «Тинькофф Банк», ИНН 7710140679
🔥 Новый беспланый курс по Reinforcement Learning from Human Feedback!
RLHF - это одна из ключевых техник, которая привела к появлению современных LLM.
В этом курсе, который ведет Никита Намджоши, разработчик из
GenAI в
Google cloud, вы узнаете, как работает RLHF, в том числе как применить его для настройки LLM в собственных приложениях.
Вы также воспользуетесь библиотекой с открытым исходным кодом для настройки базового LLM и оцените настроенную модель, сравнив ее ответы до и после RLHF-настройки.
deeplearning.ai/short-courses/reinforcement-learning-from-human-feedback/
@data_analysis_mlВсегда мечтал быть айтишником? Освой новую профессию промт-инженера! Гарантия трудоустройства и низкая конкуренция!
Приходи на бесплатный вебинар и узнай как:
- Повысить свой доход на рабочем месте, создавая нейро-сотрудников
- Получить новую специальность и увеличить доход на 30-40%
- Создавать нейронки и продавать на заказ от 1 млн за проект
- Зарабатывать на фрилансе от 300 000 рублей
- Найти хобби, которое прокачает твой мозг и сделает жизнь ярче
Обо всем ты узнаешь на бесплатном вебинаре от AI University.
Вот ссылка, жми СЮДА
Реклама. ООО "ТЕРРА ЭЙАЙ". ИНН 9728019395. erid: LjN8KGQNL
💡 Сейчас происходит слишком много событий, так что вот просто сымые интересные проекты за последние дни со ссылоками
▪GPT-4 + Medprompt -> SOTA MMLU
https://microsoft.com/en-us/research/blog/steering-at-the-frontier-extending-the-power-of-prompting/
▪Mixtral 8x7B @ MLX
https://github.com/ml-explore/mlx-examples/tree/main/mixtral
▪За пределами человеческих данных: Масштабирование самообучения для решения проблем с помощью языковых моделей
https://arxiv.org/abs/2312.06585
▪Phi-2 (2.7B), самая маленькая и самая впечатляющая модель
https://microsoft.com/en-us/research/blog/phi-2-the-surprising-power-of-small-language-models/
▪LLM360: На пути к полностью прозрачным LLM с открытым исходным кодом
https://arxiv.org/abs/2312.06550
@data_analysis_ml
🖥 Одна из самых глубоких статей объяняющих LLM.
Автор, показывает что понимание и сжатие данных для llm- это две стороны одной медали.🪙
И что интересно, когда мы имеем дело с предсказанием слов, cжатие данных с потерями, выглядит умнее, чем сжатие без потерь! 💡
Ниже приводится объяснение того, почему ChatGPT дает нам иллюзию понимания:
"Тот факт, что ChatGPT перефразирует материал из Сети, а не цитирует его слово в слово... создает иллюзию, что ChatGPT понимает материал".
У людей заучивание не является показателем подлинного обучения, поэтому неспособность ChatGPT выдавать точные цитаты сайтов, как раз и заставляет нас думать, что он чему-то научился.
Когда мы имеем дело с последовательностями слов, сжатие с потерями выглядит умнее, чем сжатие без потерь".
Полный текст статьи читайте здесь: https://newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web
@data_analysis_ml
Новогодние подарки от karpovꓸcourses для тех, кто хочет сильно прокачать свою карьеру
Только в декабре можно выгодно приобрести комбо «курс + один из двух симуляторов на выбор»:
▪️Курс Аналитик данных научит всем необходимым инструментам, позволит начать карьеру или внедрить все актуальные навыки аналитика в свои проекты.
▪️Симуляторы дадут более глубокое погружение и еще больше опыта решения задач:
1. В Симуляторе аналитика вы получите практику на реальных задачах в формате настоящей рабочей стажировки
2. В Симуляторе А/В-тестов еще глубже освоите А/В-тесты и станете в них настоящим экспертом
Записаться можно до конца декабря
[Забронировать скидку]
🔥 100 слайдов о внутреннем устройстве PyTorch 2 с упором на последние нововведения (Dynamo, Inductor и ExecuTorch).
📚 PDF: https://drive.google.com/file/d/1XBox0G3FI-71efQQjmqGh0-VkCd-AHPL/view?usp=drive_link
💻 Slideshare: https://slideshare.net/perone/pytorch-2-internals
@data_analysis_ml
Внимание всем продуктовым аналитикам!
12 декабря Авито проведет онлайн-митап, на котором можно узнать о продуктовых кейсах, которые принесли компаниям реальный результат:
▫️ Эксперт компании Анна Москаленко расскажет, как ее команда работает над пользовательским негативом от CRM-коммуникаций.
▫️ Продуктовый аналитик Samokat.tech Илья Лоладзе объяснит, как его компания провела эксперимент, который позволил увеличить зону экспресс-доставки.
▫️ Леонид Медников, ведущий аналитик Яндекс Карт, поделится, как строить метрики качества данных на основе информации о миллионах компаний.
Только реальные кейсы, никакой воды. Начало в 18:00, а регистрация — по ссылке.
Реклама.ООО "КЕХ ЕКОММЕРЦ" ИНН 7710668349 erid: 2SDnjdRGxXa
⚡️ Если вы ищете открыте датасетов для работы - вот 7 бесплатных источников данных, где вы можете найти данные для любых задач.
1. Репозиторий Awesome Data Github
В этом репозитории вы найдете ссылки на открыте наборы данных, которые содержат изображения, текст, аудио и табличные данные.
https://github.com/awesomedata/awesome-public-datasets
2. Kaggle
Более 1000 датасетов, которые можно легко скачать и работать с ними, совершенно бесплатно.
https://www.kaggle.com/datasets
3. Открытый реестр данных на AWS
Поиск и обмен датасетами х с помощью ресурсов AWS.
4. Open ML
Более 20K+ наборов данных на Open ML
https://openml.org
5. Papers with Code
Papers with Code содержит более 7000 открытыз наборов данных по всем возможным тематикам.
https://paperswithcode.com/datasets
6. Hugging Face
На Hugging Face вы можете найти 80K+ наборов данных.
https://huggingface.co/datasets
7. Dagshub
Много бесплатных даатсетов можно найти на Dagshub:
https://dagshub.com/datasets/
@data_analysis_ml
Оффер за выходной в Big Data.МегаФон для Data-специалистов!
Зарплата от 250 до 450 тысяч рублей в зависимости от грейда, уютный офис или полная удаленка на территории РФ, а также ДМС со стоматологией и страховкой. На этом бонусы не заканчиваются: оплата связи, компенсация фитнеса, обучение за счет компании и многое другое.
Вам предстоит работать с масштабными проектами:
— разрабатывать аналитические сервисы на базе AI;
— анализировать бизнес-процессы и внедрять языковые модели для облегчения рутины в LLM;
— тестировать продуктовые и ML-гипотезы.
Мегафон — оператор №1 по покрытию сети и скорости мобильного интернета. Оставляйте заявку и меняйте рынок телекома: https://u.to/C24sIA
🎞️Reenact Any Character in Movie🎞️
SMPLer-X первая открытая модель для монокулярного 4D захвата движения. Объеденив MPLerX и Propainter можно создать свой ЛА-ЛА Ленд!
🖥 (SMPLer-X): https://github.com/caizhongang/SMPLer-X
🖥 Код (Propainter): https://github.com/sczhou/ProPainter
🏆 Website: http://caizhongang.com/projects/SMPLer-X/
🥩 Demo: http://caizhongang.com/projects/SMPLer-X/
#NeurIPS2023
@data_analysis_ml⚡️X-MAS HACK 2023
Примите участие в уникальном новогоднем мероприятии, которое охватит популярные направления для разработки инновационных решений: Финтех, Информационная безопасность, Искусственный интеллект, Data Science, Legal Tech, Электронная коммерция.
🔷 Хакатон — это шанс проявить себя перед топ-менеджерами. Добавь успешный кейс в свое портфолио. Отправляй отклик на вакансии от партнеров и получи оффер в крутую компанию.
🔷 Идеатон - это секция, в которой ты можешь предложить свою идею, проработанную по определенным критериям, обсудить ее с экспертом и побороться за денежный приз.
🏆 Призовой фонд: 1 000 000 рублей и подарки самым активным участникам!
📆 Дата проведения: 22 - 24 декабря
📍 Формат: онлайн + офлайн в г. Москва
Подробная информация и регистрация: https://tglink.io/a9fabbd340da?erid=LjN8K1PUs
Реклама. ООО "АКСЕЛЕРАТОР ВОЗМОЖНОСТЕЙ". ИНН 9704005146.
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
