Анализ данных (Data analysis)
前往频道在 Telegram
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp
显示更多📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览
频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 50 224 名订阅者,在 技术与应用 类别中位列第 2 666,并在 俄罗斯 地区排名第 12 538 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 50 224 名订阅者。
根据 18 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 10,过去 24 小时变化为 7,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 8.77%。内容发布后 24 小时内通常能获得 6.56% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 4 404 次浏览,首日通常累积 3 295 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 30。
- 主题关注点: 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“Data science, наука о данных.
@haarrp - админ
РКН: clck.ru/3FmyAp”
凭借高频更新(最新数据采集于 19 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
50 224
订阅者
+724 小时
+227 天
+1030 天
帖子存档
Тренажёр-практикум Python и SQL
(от NumPy и OpenCV до PostgreSQL) в аналитике данных и ML
Откройте карьерные возможности в машинном обучении и аналитике данных
- Научитесь проводить анализ больших объёмов данных.
- Создавайте интерактивные и 3D-визуализации для представления данных.
- Освойте работу с SQL-базами для хранения, модификации и извлечения данных.
Для кого будет полезен этот тренажёр?
Аналитикам данных, бизнес-аналитикам и продуктовым специалистам:
Новичкам и продолжающим в области анализа и визуализации данных, которые хотят освоить ключевые инструменты для эффективного анализа и машинного обучения на практике.
Тем, кто уже знаком с Python и стремится развиваться в аналитике данных и ML:
Разработчикам и специалистам по данным, стремящимся углубить навыки обработки данных и визуализации.
Инженерам данных и всем заинтересованным:
Тем, кто сталкивается с трудностями при предобработке данных для моделей машинного обучения и хочет выстроить системный подход к работе с ними.
Тем, кто стремится автоматизировать процессы и управлять данными:
После курса вы научитесь эффективно работать с NumPy и Pandas, создавать визуализации через Matplotlib и Seaborn, а также управлять базами данных с PostgreSQL.
🎓 Попробуйте первые уроки бесплатно!
В демо-версии курса вы познакомитесь с основами библиотек NumPy, Pandas и Matplotlib, научитесь создавать и редактировать массивы, работать с изображениями и решать практические задачи.
Пройдите 6 практических заданий сразу!
PS. В демо также доступен ИИ-бот Ду-Ду с code review 24/7.
👉 Регистрация на демо-доступ
OmniVision-968M: новый локальный VLM для периферийных устройств, быстрый и компактный, но производительный 👏
Основан на Siglap-so-400M и Qwen-2.5-0.5B
💨 Требует в 9 раз меньше токенов для обработки изображений, суперэффективен.
✅ Cогласован с SFT и DPO для уменьшения галлюцинаций
✅ Лицензия Apache 2.0
▪ Модель: huggingface.co/NexaAIDev/omnivision-968M
▪ Демо: https://huggingface.co/spaces/NexaAIDev/omnivlm-dpo-demo
@data_analysis_ml
🔥 Chonkie — легковесная библиотека на Python для текстовой сегментации (или "chunking") в задачах Retrieval-Augmented Generation (RAG)!
💡 Цель этой библиотеки — обеспечить высокую производительность и удобство в обработке больших текстов, разбивая их на сегменты для использования в чат-ботах и других NLP-приложениях. Chonkie поддерживает различные методы сегментации, включая разделение по токенам, словам, предложениям и даже по семантическому признаку, что делает её универсальной и эффективной для задач анализа текста и обработки естественного языка.
🖥 Github
@data_analysis_ml
Кому в корпоративном мире нужна BI-аналитика?
⤵️ Приглашаем вас на открытый вебинар 21 ноября в 20:00 мск, где вы узнаете, как аналитика помогает бизнесу принимать взвешенные решения и кто нуждается в этих данных для успеха компании.
Сегодня BI-аналитика — один из ключевых факторов успеха в бизнесе. На вебинаре мы обсудим, кому и зачем она нужна, какие задачи она решает и как ее внедрение помогает компаниям на практике.
✔️ В программе вебинара — полезные примеры использования аналитики на реальных кейсах: от IT до ритейла.
✔️ Узнайте, как BI помогает формировать Data Driven подходы и в чем ее польза для ваших проектов.
Особенно полезно для аналитиков данных и специалистов, которые хотят внедрить аналитику в проекты.
🔗 Регистрируйтесь прямо сейчас и получите скидку на курс «BI-аналитика»: https://otus.pw/5A7M/?erid=LjN8Kbucg
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
🔥Полезный репозиторий, который содержит список ПО, позволяющего осуществлять серфинг и дата майнинг в сети с помощью ИИ.
🔐 Лицензия: CC0-1.0
🖥 Github
@data_analysis_ml
Repost from Machinelearning
+2
🌟 Контекстуальные эмбединги для повышения эффективности поиска.
Contextual Document Embeddings (CDE) - это метод векторных эмбедингов, разработанный в Cornell University, который учитывает дополнительный контекст из "соседних" документов целевого набора данных.
Метод CDE предлагает добавить к функции встраивания зависимость не только от запроса или документа, но и от всех других документов в наборе данных. Чтобы создать такую функцию с осведомленностью о своем окружении, предлагаются две взаимодополняющих техники:
🟢Контекстуальное обучение, которое основано на кластеризации документов и запросов для формирования групп тематически схожих псевдообластей данных. Обучение на этих группах позволяет эмбединг-модели различать документы в сложных контекстах.
🟠Контекстуальная архитектура. Дополняет стандартный BERT-подобный энкодер дополнительными токенами из агрегированной информации о соседних документах. Эта информация позволяет модели учитывать относительную частоту терминов в контексте, аналогично тому, как это делается в статистических моделях поиска.
Тестирование CDE показало, что обе техники улучшают производительность в задачах поиска вне предметной области, а контекстуальная архитектура эффективнее традиционных эмбедингов в специализированных областях: финансах, юриспруденции и медицине.
Для практических экспериментов предлагается блокнот ipynb (или его версия для Google Collab) в котором используется эмбединг-модель cde-small-v1 с 281 млн. параметров, получившая средний балл 65.00 в бенчмарке MTEB leaderboard в категории моделей до 400 млн. параметров. Этот блокнот научит создавать свои собственные эмбединги в контексте вашего набора данных или просто использовать модель как есть.
🟡Модель
🟡Arxiv
🟡Ipynb блокнот
🟡Google Collab
🖥Github
@ai_machinelearning_big_data
#AI #ML #Embeddings #Retrieval #CDE
🔥 Полезный репозиторий-руководство по работе с LLM!
⭐️ Здесь собраны различные инструменты, данные и методы для обучения и оценки LLM, адаптированных под написание программного кода!
🔐 Лицензия: MIT
🖥 GitHub
@data_analysis_ml
⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:
МАШИННОЕ ОБУЧЕНИЕ: t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Python: t.me/pythonl
Linux: t.me/linuxacademiya
Хакинг: t.me/linuxkalii
Devops: t.me/DevOPSitsec
АНАЛИЗ Данных: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/javatg
Базы данных: t.me/sqlhub
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Docker: t.me/DevopsDocker
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
Разработка игр: https://t.me/gamedev
💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.me/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.me/addlist/mzMMG3RPZhY2M2Iy
😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.me/addlist/BkskQciUW_FhNjEy
🔥 Laminar — это открытая платформа с набором инструментов для разработки продуктов в области искусственного интеллекта, предоставляющая возможности работы с трассировкой (traces), оценкой моделей (evals), датасетами и разметкой данных!
⭐️ Разработанная с учетом потребностей как исследователей, так и разработчиков, платформа облегчает процесс создания и мониторинга моделей ИИ на основе большого количества данных. Laminar включает поддержку SDK для языков, таких как TypeScript и Python, и использует подходы наблюдаемости для упрощения отладки и мониторинга, особенно при работе с LLM.
🔐 Лицензия: Apache-2.0
🖥 GitHub
@data_analysis_ml
+1
🎮 "Добро пожаловать в City 17!"
В честь 20-летия Half-Life 2, NVIDIA разыгрывают крутые кастомные GeForce RTX 4080 SUPER, которая вдохновлена культовым Гордоном Фримеменом.
🔗 Новость: https://www.nvidia.com/en-us/geforce/news/half-life-2-20th-anniversary-rtx-wishlist/?linkId=100000308511356
🔗 Условия конкурса тут: https://www.nvidia.com/en-us/geforce/contests/halflife2-anniversary-official-rules/
@data_analysis_ml
🌐 WebRL — это проект, предназначенный для создания интеллектуальных веб-агентов, способных выполнять задачи по навигации на веб-сайтах с использованием LLM!
⭐️ Основная цель WebRL — дать агентам способность понимать и интерпретировать HTML-страницы и адаптироваться к различным задачам, таким как сбор информации или взаимодействие с элементами интерфейса.
📖 Читать: *клик*
@machinelearning_ru
Repost from Machinelearning
+3
⚡️ JanusFlow: унифицированная MMLM понимания и генерации изображений от DeepSeekAI.
JanusFlow - уникальная комбинация LLM с Rectified Flow и SDXL-VAE для задач понимания и генерации изображений.
Архитектура JanusFlow построена на улучшенной версии DeepSeek-LLM-1.3B, дополненной двумя специализированными энкодерами изображений: SigLIP для задач понимания и ConvNeXt для задач генерации. Разделение энкодеров предотвращает интерференцию задач и повышает эффективность модели.
JanusFlow обучалась в 3 этапа. На первом этапе адаптировались линейные слои, энкодер и декодер генерации.
На втором этапе - унифицированное предварительное обучение всей модели, за исключением визуального энкодера.
На третьем этапе - SFT с использованием инструкций, диалогов и примеров генерации изображений.
В тестах генерации изображений MJHQ FID-30k, GenEval и DPG-Bench, JanusFlow превосходит SD1.5 и SDXL. В тестах понимания MMBench, SeedBench и GQA, JanusFlow превосходит LLaVA-v1.5 и Qwen-VL-Chat.
Локальный запуск возможен в CLI на Transformers и с webUI на Gradio. Примеры CLI-инференса для задач понимания и генерации можно найти в репозитории проекта.
▶️Установка и запуск с GradioUI:
# install the necessary dependencies
pip install -e .
pip install diffusers[torch]
# run local gradio demo
pip install -e .[gradio]
python demo/app_janusflow.py
📌Лицензирование кода : MIT License.
📌Лицензирование модели: DeepSeek Model License.
🟡Модель
🟡Arxiv
🟡Demo
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #MMLM #Deepseek #JanusFlow🤗 Watermarking with Gradio: Example
Gradio demo упрощает использование генерации водяных знаков для отслеживания происхождения генераций🚀
Протестируйте здесь: https://huggingface.co/spaces/meg/watermark_demo
#AIEthics #Машинноеобучение
@data_analysis_ml
Как большие данные помогают повысить операционную эффективность?
Работа с big data стала уже необходимостью для тех, кто стремится к эффективности и оптимизации бизнес-процессов. Однако на этом пути компании сталкиваются с множеством препятствий — от высоких операционных затрат до перехода на отечественные аналитические big data-платформы.
21 ноября в 16:00 на онлайн-митапе разберем, как большие данные решают конкретные задачи в бизнесе.
Темы митапа
🔹Оценка окупаемости проектов в big data и запуск пилотов для достижения конкретных бизнес-целей
🔹От Excel к корпоративному хранилищу данных: как мы переводим компании на платформу Greenplum и локализуем big data на отечественных продуктах
🔹Практический кейс из FMCG: задачи, решения и полезные лайфхаки для оптимизации процессов.
Спикеры
Александр Фикс
Менеджер продукта K2 Cloud
Руслан Султанов
Архитектор аналитических систем K2Тех
Регистрация по ссылке>>
🔥 Полезный репозиторий-руководство по работе с LLM!
⭐️ Здесь собраны различные инструменты, данные и методы для обучения и оценки LLM, адаптированных под написание программного кода!
🔐 Лицензия: MIT
🖥 GitHub
@data_analysis_ml
Металлургия и ИТ – что может их объединить? Ответ прост: хакатон ЕВРАЗа 3.0 🔥
🦾 Создай будущее Code Review с ИИ!
Участвуйте в нашем уникальном хакатоне по созданию ИИ-чатбота, который станет незаменимым помощником для разработчиков ЕВРАЗа! Выберите одно из направлений — Python, TypeScript или C#, и разработайте решение для анализа кода на соответствие нашим стандартам.
Дата: 29 ноября – 1 декабря 2024.
Формат: гибридный (онлайн и офлайн).
Призовой фонд: 500.000 рублей.
🧑💻 Присоединяйся к хакатону, если ты:
– AI-специалист;
– Frontend / Backend-разработчик;
– Студент или выпускник технического вуза.
⚡️ Зачем участвовать?
– Прокачаешь скиллы и получишь обратную связь от ведущих экспертов отрасли.
– Прикоснешься к ИТ в ЕВРАЗе.
– Получишь возможность стать частью масштабной и амбициозной команды ЕВРАЗа.
Если нет команды — поможем ее собрать!
🔸 Регистрация уже открыта! Подай заявку до 25 ноября 23:59 МСК по ссылке.
⚡️ RuQwen2.5-3B-Instruct-AWQ — это улучшенная версия серии моделей Qwen2.5 на 3млрд параметров, адаптированная для русскоязычных задач.
Что сделано
Полностью решена проблема генерации иероглифов. Проблема часто возникала в кейсах генерации ответов, содержащих смесь русского и английского текста, терминов, сокращений (модель по сути сбивалась).
Применен алгоритм FRT, который позволяет добиваться русификации иностранных моделей.
Благодаря оптимизациям, модель обеспечивает бОльшую связность текста на русском языке, делая её отличным выбором для различных приложений, требующих работы с русскоязычным контентом.
Модель разработана командой FractalGPT специально для генерации текста на русском языке, сохраняя широкую поддержку и для других языков. Cвободно доступна для скачивания на HF
🤗 Карточка модели на HF
@data_analysis_ml
Как BI аналитика влияет на рост продаж в розничной сети
14 ноября в 14:00
Покажем как визуализацию данных по торговой точке трансформировать в процесс принятия решений:
⚡Объективная оценка работы вашего персонала с помощью системы рейтингов
⚡Ежемесячное отслеживание динамики продаж и мотивации ваших сотрудников
⚡Автоматическое формирование задач и прогнозирование результатов
⚡Управленческий импульс (UI) для предотвращения отклонений от плана
Участие бесплатное. Требуется регистрация по ссылке.
Вебинар от команды BI-платформы Insight
🔥 Laminar — это открытая платформа с набором инструментов для разработки продуктов в области искусственного интеллекта, предоставляющая возможности работы с трассировкой (traces), оценкой моделей (evals), датасетами и разметкой данных!
⭐️ Разработанная с учетом потребностей как исследователей, так и разработчиков, платформа облегчает процесс создания и мониторинга моделей ИИ на основе большого количества данных. Laminar включает поддержку SDK для языков, таких как TypeScript и Python, и использует подходы наблюдаемости для упрощения отладки и мониторинга, особенно при работе с LLM.
🔐 Лицензия: Apache-2.0
🖥 GitHub
@data_analysis_ml
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
