Анализ данных (Data analysis)
前往频道在 Telegram
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp
显示更多📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览
频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 50 250 名订阅者,在 技术与应用 类别中位列第 2 662,并在 俄罗斯 地区排名第 12 489 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 50 250 名订阅者。
根据 23 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 44,过去 24 小时变化为 -1,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 9.18%。内容发布后 24 小时内通常能获得 6.54% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 4 612 次浏览,首日通常累积 3 286 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 31。
- 主题关注点: 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“Data science, наука о данных.
@haarrp - админ
РКН: clck.ru/3FmyAp”
凭借高频更新(最新数据采集于 24 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
50 250
订阅者
-124 小时
+587 天
+4430 天
帖子存档
⚡️ Awesome-polars
Большой полезный кураторский список примеров с кодом, инструментов, бенчмарков и статей о Polars.
▪Github
▪Docs
@data_analysis_ml
Центральный университет проводит день открытых дверей Академии Data Science!
С лекциями выступят эксперты из ИТ-индустрии и профессоры Центрального университета, чтобы рассказать о карьере в Data Science и перспективах работы:
— Константин Маркелов, вице-президент Тинькофф — «Об университете и вызовах современного образования»;
— Иван Стельмах, CPO Центрального университета — «Зачем аналитикам и продактам искусственный интеллект»;
— Ярослав Гаврилов, руководитель отдела бизнес-анализа в МТС — «Как живут бизнес-аналитики в МТС»;
— Александр Дьяконов, академический руководитель программы — «Современные специальности и направления исследований: анализ данных, искусственный интеллект и большие данные — что выбрать и как стать лучшим?».
День открытых дверей пройдет 6 февраля в новом офисе Тинькофф, но можно подключиться онлайн. Актуально для студентов 3-4 курсов бакалавриата, выпускников, а также всех, кому интересно обучение и карьера в ИТ!
Регистрируйтесь здесь.
erid:2VtzqvQicto
Реклама. АО "Тинькофф Банк", ИНН 7710140679, лицензия ЦБ РФ № 2673
🖥 Совет Pandas!
Используйте параметр
parse_dates для указания столбцов с датами при создании даатфрейма из CSV, вместо pd.to_datetime.
Это делает код более кратким и удобным для чтения.
@data_analysis_mlGigaChat обгоняет ChatGPT по всем характеристикам — к таким результатам пришли разработчики отечественной нейросетевой модели. В последнем исследовании разрабы решили сравнить модели от Сбера и OpenAI, результаты можно посмотреть здесь.
Не зря на сегодняшний день нейросетью от Сбера пользуется более 2,5 млн человек.Теперь ждем, когда Яндекс проведет такое же исследование.
@data_analysis_ml
⚡️ SUPIR - новая высокоточная модель восстановления изображений!
▪Код: https://github.com/Fanghua-Yu/SUPIR
▪Проект: http://supir.xpixel.group
▪Статья: https://arxiv.org/abs/2401.13627
@data_analysis_ml
11 марта Newprolab запускает уже 14-й поток программы Data-Engineer
Программа будет полезна junior и middle дата-инженерам, аналитикам данных, бэкенд-разработчикам, техлидам и менеджерам, работающим с дата-командой
- 7 недель (11 марта – 27 апреля)
- 20 занятий с преподавателями в зуме
- 6 лаб с реальными данными
- чат с участниками и поддержка координаторов
📌Что дает программа:
1) научитесь решать типичные задачи DE и реально станете дата-инженером на время программы
2) структурируете ваши знания и познакомитесь с новыми инструментами
3) поработаете с облачным кластером для решения лаб с реальными данными
4) видеозаписи и другие материалы программы останутся у вас навсегда
📌Преподаватели – практики из ведущих компаний, рассказывают о сложном простым языком и ответят на все ваши вопросы
📌Промокод DEFRIENDS дает скидку 20%
[Подробная информация и регистрация]
⚡️ Новая лекция Ян Лекуна : «Объектно-ориентированный ИИ: на пути к машинам, которые могут учиться, рассуждать и планировать»
Слайды: https://drive.google.com/file/d/1e6EtQPQMCreP3pwi5E9kKRsVs2NbWPrY/view?usp=drivesdk
Видео: https://www.youtube.com/watch?si=UeLf0MhMzjXcSCAb&v=d_bdU3LsLzE&feature=youtu.be
@data_analysis_ml
Вышел PyTorch 2.2 🎉
С Новые фичи:
- Поддержка SDPA FlashAttention-2.
- Новое расширение TorchInductor.
- device_mesh, новая абстракция для инициализации и представления групп процессов.
- Стандартизированный управляемый механизм логирования под названием
TORCH_LOGS.
и др.
➡️ Полный список обновлений
@data_analysis_ml🖥 Примеры генеративного ИИ от NVIDIA
Современные примеры генеративного ИИ, которые легко развертывать, тестировать и адптировать под ваши задачи.
Все примеры работают на высокопроизводительном стеке NVIDIA CUDA-X и графических процессорах NVIDIA.
▪Github
@data_analysis_ml
💡 Проблема: ваш код,, содержит много скопированного чужого кода, но его трудно найти.
Решение: jscpd
jscpd — это инструмент командной строки, который находит скопированный код и сообщает о конкретных повторяющихся строках.
Работает более чем на 150 языках.
Пример отчета на картинке.
Github
@data_analysis_ml
🖥 Nxs-data-anonymizer - это инструмент для анонимизации дампа баз данных
PostgreSQL и MySQL/MariaDB/Percona.
▪Поддерживаемые базы данных и версии:
PostgreSQL (9/10/11/12/13/14/15/все версии)
MySQL/MariaDB/Percona (5.7/8.0/8.1/все версии)
▪Гибкая генерация фейковых данных на основе шаблонов Go и библиотеки шаблонов Sprig.
▪Потоковая обработка данных. Это означает, что вы можете перенаправлять дамп из исходной БД в любую другую БД с преобразованиями
▪Легко интегрируется в CI/CD
➡️ Github
@data_analysis_ml⚠️ С чего начать, если хотите работать в ML?
С бесплатного практического урока «Кластерный анализ данных» от OTUS. Спикер Мария Тихонова – Senior Data Scientist в «SberDevices» и преподаватель ВШЭ.
• В результате вебинара вы узнаете общие принципы кластеризации данных в ML
• Изучите ряд алгоритмов, в том числе k-means и примените их на практике
Встречаемся 7 февраля в 18:00 мск в рамках курса «Machine Learning. Professional».
Пройдите короткий тест прямо сейчас, чтобы посетить бесплатный урок и получить список вопросов и ответов для прохождения интервью
👉Регистрация
https://otus.pw/jSCz/?erid=LjN8KFCpE
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
🖥 SQL-metadata
Если вы хотите извлечь определенные компоненты #SQL-запроса для последующей работы с нмим на #Python, используйте sql_metdata.
Извлекает имена столбцов и таблиц, используемых в запросе. Автоматически выполняет разрешение псевдонимов столбцов, разрешение псевдонимов подзапросов, а также разрешение псевдонимов таблиц.
Также предоставляет полезные функции для нормализации
SQL-запросов.
pip install sql-metadata
▪Github
▪Docs🖥 Google-Colab-Selenium
Лучший способ использовать Selenium в блокнотах Google Colab!
▪Простая настройка Selenium и ChromeDriver.
▪Бесшовная интеграция с Google Colab.
▪Поддержка ChromeDriver для сложных случаев парсинга.
%pip install google-colab-selenium
import google_colab_selenium as gs
from selenium.webdriver.chrome.options import Options
# Instantiate options
options = Options()
# Add extra options
options.add_argument("--window-size=1920,1080") # Set the window size
options.add_argument("--disable-infobars") # Disable the infobars
options.add_argument("--disable-popup-blocking") # Disable pop-ups
options.add_argument("--ignore-certificate-errors") # Ignore certificate errors
options.add_argument("--incognito") # Use Chrome in incognito mode
driver = gs.Chrome(options=options)
driver.get('https://uproger.com')
print(driver.title)
driver.quit()
➡️Github
➡️Colab
@data_analysis_ml🎮 Build a Large Language Model (From Scratch)
Еще один замечательный ресурс, который подходит для начинающих, чтобы построить ChatGPT-подобный LLM с нуля, шаг за шагом
▪Github
@data_analysis_ml
⚡ RoMa: простая в использовании, стабильная и эффективная библиотека для работы с кватернионами, векторами вращения, пространственными преобразованиями в PyTorch.
pip install roma
▪Github
▪Docs
@data_analysis_ml🔊 Делимся «вредными советами» по работе с ClickHouse®
ClickHouse® — быстрая и масштабируемая колоночная база данных. Она известна своей высокой производительностью, возможностью обрабатывать аналитические запросы в режиме онлайн и строить аналитические витрины. Как и у любой другой технологии, у ClickHouse® есть свои особенности и нюансы, которые необходимо учитывать при работе.
В видео архитекторы Yandex Cloud поделятся распространёнными ошибками при использовании базы данных ClickHouse®, а также рекомендациями, как избежать этих ошибок и достичь максимально производительности БД ClickHouse.
🗣 Подробнее по ссылке.
🚀 LLMLingua: Enhancing Large Language Model Inference via Prompt Compression
LLMLingua использует компактную, хорошо обученную языковую модель (например, LaMA-7B) для поиска и удаления несущественных лексем в промптах.
Этот подход обеспечивает эффективный вывод с использованием больших языковых моделей (LLM), достигая 20-кратного сжатия при минимальной потере качества генерации.
▪Github
▪Документация
@data_analysis_ml
🚀 Одна из распространенных привычек Pandas, от которой полезно отказаться в Polars:
В Pandas датасаентисты часто добавляют/преобразуют столбцы в отдельных строках.
В Polars наоборот удобно добавляют много выражений в однну функцию with_columns.
Почему?
Ответ в производительности. Потому что Polars может выполнять все выражения параллельно.
@data_analysis_ml
🌟 При работе с файлами Parquet в pandas обычно сначала загружают данные в pandas DataFrame, а затем применяют фильтры.
Чтобы увеличить скорость выполнения запросов, переместите фильтры в движок PyArrow и воспользуйтесь оптимизацией обработки PyArrow.
@data_analysis_ml
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
