Анализ данных (Data analysis)

رفتن به کانال در Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

نمایش بیشتر

شبکه:Machinelearning روسيا12 538 فناوری و برنامه‌ها2 666...

📈 تحلیل کانال تلگرام Анализ данных (Data analysis)

کانال Анализ данных (Data analysis) (@data_analysis_ml) در بخش زبانی روسی بازیگری فعال است. در حال حاضر جامعه شامل 50 224 مشترک است و جایگاه 2 666 را در دسته فناوری و برنامه‌ها و رتبه 12 538 را در منطقه روسيا دارد.

📊 شاخص‌های مخاطب و پویایی

از زمان ایجاد در невідомо، پروژه رشد سریعی داشته و 50 224 مشترک جذب کرده است.

بر اساس آخرین داده‌ها در تاریخ 18 ژوئن, 2026، کانال فعالیت پایداری دارد. در ۳۰ روز گذشته تغییر اعضا برابر 10 و در ۲۴ ساعت گذشته برابر 7 بوده و همچنان دسترسی گسترده‌ای حفظ شده است.

وضعیت تأیید: تأیید نشده
نرخ تعامل (ER): میانگین تعامل مخاطب 8.77% است و در ۲۴ ساعت نخست پس از انتشار، محتوا معمولاً 6.56% واکنش نسبت به کل مشترکان کسب می‌کند.
دسترسی پست‌ها: هر پست به طور میانگین 4 404 بازدید دریافت می‌کند. در اولین روز معمولاً 3 295 بازدید جمع‌آوری می‌شود.
واکنش‌ها و تعامل: مخاطبان به‌طور فعال حمایت می‌کنند؛ میانگین واکنش به هر پست 30 است.
علایق موضوعی: محتوا بر موضوعات کلیدی مانند llm, контекст, openai, архитектура, deepseek تمرکز دارد.

📝 توضیح و سیاست محتوایی

نویسنده این فضا را محل بیان دیدگاه‌های شخصی توصیف می‌کند:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

به لطف به‌روزرسانی‌های پرتکرار (آخرین داده در تاریخ 19 ژوئن, 2026)، کانال همواره به‌روز و دارای دسترسی بالاست. تحلیل‌ها نشان می‌دهد مخاطبان به‌طور فعال با محتوا تعامل دارند و آن را به نقطه اثرگذاری مهم در دسته فناوری و برنامه‌ها تبدیل کرده‌اند.

50 224

مشترکین

+724 ساعت

+227 روز

+1030 روز

4 404

نمایش های پست

~ 3 29524 ساعت

~ 4 33648 ساعت

8.77%

نرخ مشارکت

~ 5

پست های در روز

Ads index

beta

آرشیو پست ها

50 230

Тренажёр-практикум Python и SQL (от NumPy и OpenCV до PostgreSQL) в аналитике данных и ML Откройте карьерные возможности в машинном обучении и аналитике данных - Научитесь проводить анализ больших объёмов данных. - Создавайте интерактивные и 3D-визуализации для представления данных. - Освойте работу с SQL-базами для хранения, модификации и извлечения данных. Для кого будет полезен этот тренажёр? Аналитикам данных, бизнес-аналитикам и продуктовым специалистам: Новичкам и продолжающим в области анализа и визуализации данных, которые хотят освоить ключевые инструменты для эффективного анализа и машинного обучения на практике. Тем, кто уже знаком с Python и стремится развиваться в аналитике данных и ML: Разработчикам и специалистам по данным, стремящимся углубить навыки обработки данных и визуализации. Инженерам данных и всем заинтересованным: Тем, кто сталкивается с трудностями при предобработке данных для моделей машинного обучения и хочет выстроить системный подход к работе с ними. Тем, кто стремится автоматизировать процессы и управлять данными: После курса вы научитесь эффективно работать с NumPy и Pandas, создавать визуализации через Matplotlib и Seaborn, а также управлять базами данных с PostgreSQL. 🎓 Попробуйте первые уроки бесплатно! В демо-версии курса вы познакомитесь с основами библиотек NumPy, Pandas и Matplotlib, научитесь создавать и редактировать массивы, работать с изображениями и решать практические задачи. Пройдите 6 практических заданий сразу! PS. В демо также доступен ИИ-бот Ду-Ду с code review 24/7. 👉 Регистрация на демо-доступ

50 230

OmniVision-968M: новый локальный VLM для периферийных устройств, быстрый и компактный, но производительный 👏 Основан на Siglap-so-400M и Qwen-2.5-0.5B 💨 Требует в 9 раз меньше токенов для обработки изображений, суперэффективен. ✅ Cогласован с SFT и DPO для уменьшения галлюцинаций ✅ Лицензия Apache 2.0 ▪ Модель: huggingface.co/NexaAIDev/omnivision-968M ▪ Демо: https://huggingface.co/spaces/NexaAIDev/omnivlm-dpo-demo @data_analysis_ml

50 230

🔥 Chonkie — легковесная библиотека на Python для текстовой сегментации (или "chunking") в задачах Retrieval-Augmented Generation (RAG)! 💡 Цель этой библиотеки — обеспечить высокую производительность и удобство в обработке больших текстов, разбивая их на сегменты для использования в чат-ботах и других NLP-приложениях. Chonkie поддерживает различные методы сегментации, включая разделение по токенам, словам, предложениям и даже по семантическому признаку, что делает её универсальной и эффективной для задач анализа текста и обработки естественного языка. 🖥 Github @data_analysis_ml

50 230

Кому в корпоративном мире нужна BI-аналитика? ⤵️ Приглашаем вас на открытый вебинар 21 ноября в 20:00 мск, где вы узнаете, как аналитика помогает бизнесу принимать взвешенные решения и кто нуждается в этих данных для успеха компании. Сегодня BI-аналитика — один из ключевых факторов успеха в бизнесе. На вебинаре мы обсудим, кому и зачем она нужна, какие задачи она решает и как ее внедрение помогает компаниям на практике. ✔️ В программе вебинара — полезные примеры использования аналитики на реальных кейсах: от IT до ритейла. ✔️ Узнайте, как BI помогает формировать Data Driven подходы и в чем ее польза для ваших проектов. Особенно полезно для аналитиков данных и специалистов, которые хотят внедрить аналитику в проекты. 🔗 Регистрируйтесь прямо сейчас и получите скидку на курс «BI-аналитика»: https://otus.pw/5A7M/?erid=LjN8Kbucg Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

50 230

🔥Полезный репозиторий, который содержит список ПО, позволяющего осуществлять серфинг и дата майнинг в сети с помощью ИИ. 🔐 Лицензия: CC0-1.0 🖥 Github @data_analysis_ml

50 230

Repost from Machinelearning

🌟 Контекстуальные эмбединги для повышения эффективности поиска. Contextual Document Embeddings (CDE) - это метод векторных эмбедингов, разработанный в Cornell University, который учитывает дополнительный контекст из "соседних" документов целевого набора данных. Метод CDE предлагает добавить к функции встраивания зависимость не только от запроса или документа, но и от всех других документов в наборе данных. Чтобы создать такую функцию с осведомленностью о своем окружении, предлагаются две взаимодополняющих техники: 🟢Контекстуальное обучение, которое основано на кластеризации документов и запросов для формирования групп тематически схожих псевдообластей данных. Обучение на этих группах позволяет эмбединг-модели различать документы в сложных контекстах. 🟠Контекстуальная архитектура. Дополняет стандартный BERT-подобный энкодер дополнительными токенами из агрегированной информации о соседних документах. Эта информация позволяет модели учитывать относительную частоту терминов в контексте, аналогично тому, как это делается в статистических моделях поиска. Тестирование CDE показало, что обе техники улучшают производительность в задачах поиска вне предметной области, а контекстуальная архитектура эффективнее традиционных эмбедингов в специализированных областях: финансах, юриспруденции и медицине. Для практических экспериментов предлагается блокнот ipynb (или его версия для Google Collab) в котором используется эмбединг-модель cde-small-v1 с 281 млн. параметров, получившая средний балл 65.00 в бенчмарке MTEB leaderboard в категории моделей до 400 млн. параметров. Этот блокнот научит создавать свои собственные эмбединги в контексте вашего набора данных или просто использовать модель как есть. 🟡Модель 🟡Arxiv 🟡Ipynb блокнот 🟡Google Collab 🖥Github @ai_machinelearning_big_data #AI #ML #Embeddings #Retrieval #CDE

50 230

🔥 Полезный репозиторий-руководство по работе с LLM! ⭐️ Здесь собраны различные инструменты, данные и методы для обучения и оценки LLM, адаптированных под написание программного кода! 🔐 Лицензия: MIT 🖥 GitHub @data_analysis_ml

50 230

⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь: МАШИННОЕ ОБУЧЕНИЕ: t.me/ai_machinelearning_big_data C++ t.me/cpluspluc Python: t.me/pythonl Linux: t.me/linuxacademiya Хакинг: t.me/linuxkalii Devops: t.me/DevOPSitsec АНАЛИЗ Данных: t.me/data_analysis_ml Javascript: t.me/javascriptv C#: t.me/csharp_ci Java: t.me/javatg Базы данных: t.me/sqlhub Python собеседования: t.me/python_job_interview Мобильная разработка: t.me/mobdevelop Docker: t.me/DevopsDocker Golang: t.me/Golang_google React: t.me/react_tg Rust: t.me/rust_code ИИ: t.me/vistehno PHP: t.me/phpshka Android: t.me/android_its Frontend: t.me/front Big Data: t.me/bigdatai Собеседования МЛ: t.me/machinelearning_interview МАТЕМАТИКА: t.me/data_math Kubernets: t.me/kubernetc Разработка игр: https://t.me/gamedev 💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy Папка ML: https://t.me/addlist/2Ls-snqEeytkMDgy Папка FRONTEND: https://t.me/addlist/mzMMG3RPZhY2M2Iy 😆ИТ-Мемы: t.me/memes_prog 🇬🇧Английский: t.me/english_forprogrammers 🧠ИИ: t.me/vistehno 🎓954ГБ ОПЕНСОРС КУРСОВ: @courses 📕Ит-книги бесплатно: https://t.me/addlist/BkskQciUW_FhNjEy

50 230

🔥 Laminar — это открытая платформа с набором инструментов для разработки продуктов в области искусственного интеллекта, предоставляющая возможности работы с трассировкой (traces), оценкой моделей (evals), датасетами и разметкой данных! ⭐️ Разработанная с учетом потребностей как исследователей, так и разработчиков, платформа облегчает процесс создания и мониторинга моделей ИИ на основе большого количества данных. Laminar включает поддержку SDK для языков, таких как TypeScript и Python, и использует подходы наблюдаемости для упрощения отладки и мониторинга, особенно при работе с LLM. 🔐 Лицензия: Apache-2.0 🖥 GitHub @data_analysis_ml

50 230

🎮 "Добро пожаловать в City 17!" В честь 20-летия Half-Life 2, NVIDIA разыгрывают крутые кастомные GeForce RTX 4080 SUPER, которая вдохновлена культовым Гордоном Фримеменом. 🔗 Новость: https://www.nvidia.com/en-us/geforce/news/half-life-2-20th-anniversary-rtx-wishlist/?linkId=100000308511356 🔗 Условия конкурса тут: https://www.nvidia.com/en-us/geforce/contests/halflife2-anniversary-official-rules/ @data_analysis_ml

50 230

🌐 WebRL — это проект, предназначенный для создания интеллектуальных веб-агентов, способных выполнять задачи по навигации на веб-сайтах с использованием LLM! ⭐️ Основная цель WebRL — дать агентам способность понимать и интерпретировать HTML-страницы и адаптироваться к различным задачам, таким как сбор информации или взаимодействие с элементами интерфейса. 📖 Читать: *клик* @machinelearning_ru

50 230

Repost from Machinelearning

⚡️ JanusFlow: унифицированная MMLM понимания и генерации изображений от DeepSeekAI. JanusFlow - уникальная комбинация LLM с Rectified Flow и SDXL-VAE для задач понимания и генерации изображений. Архитектура JanusFlow построена на улучшенной версии DeepSeek-LLM-1.3B, дополненной двумя специализированными энкодерами изображений: SigLIP для задач понимания и ConvNeXt для задач генерации. Разделение энкодеров предотвращает интерференцию задач и повышает эффективность модели. JanusFlow обучалась в 3 этапа. На первом этапе адаптировались линейные слои, энкодер и декодер генерации. На втором этапе - унифицированное предварительное обучение всей модели, за исключением визуального энкодера. На третьем этапе - SFT с использованием инструкций, диалогов и примеров генерации изображений. В тестах генерации изображений MJHQ FID-30k, GenEval и DPG-Bench, JanusFlow превосходит SD1.5 и SDXL. В тестах понимания MMBench, SeedBench и GQA, JanusFlow превосходит LLaVA-v1.5 и Qwen-VL-Chat. Локальный запуск возможен в CLI на Transformers и с webUI на Gradio. Примеры CLI-инференса для задач понимания и генерации можно найти в репозитории проекта. ▶️Установка и запуск с GradioUI:

# install the necessary dependencies
pip install -e .
pip install diffusers[torch]

# run local gradio demo
pip install -e .[gradio]

python demo/app_janusflow.py

📌Лицензирование кода : MIT License. 📌Лицензирование модели: DeepSeek Model License. 🟡Модель 🟡Arxiv 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI #ML #MMLM #Deepseek #JanusFlow

50 230

🤗 Watermarking with Gradio: Example Gradio demo упрощает использование генерации водяных знаков для отслеживания происхождения генераций🚀 Протестируйте здесь: https://huggingface.co/spaces/meg/watermark_demo #AIEthics #Машинноеобучение @data_analysis_ml

50 230

Как большие данные помогают повысить операционную эффективность? Работа с big data стала уже необходимостью для тех, кто стремится к эффективности и оптимизации бизнес-процессов. Однако на этом пути компании сталкиваются с множеством препятствий — от высоких операционных затрат до перехода на отечественные аналитические big data-платформы. 21 ноября в 16:00 на онлайн-митапе разберем, как большие данные решают конкретные задачи в бизнесе. Темы митапа 🔹Оценка окупаемости проектов в big data и запуск пилотов для достижения конкретных бизнес-целей 🔹От Excel к корпоративному хранилищу данных: как мы переводим компании на платформу Greenplum и локализуем big data на отечественных продуктах 🔹Практический кейс из FMCG: задачи, решения и полезные лайфхаки для оптимизации процессов. Спикеры Александр Фикс Менеджер продукта K2 Cloud Руслан Султанов Архитектор аналитических систем K2Тех Регистрация по ссылке>>

50 230

Металлургия и ИТ – что может их объединить? Ответ прост: хакатон ЕВРАЗа 3.0 🔥 🦾 Создай будущее Code Review с ИИ! Участвуйте в нашем уникальном хакатоне по созданию ИИ-чатбота, который станет незаменимым помощником для разработчиков ЕВРАЗа! Выберите одно из направлений — Python, TypeScript или C#, и разработайте решение для анализа кода на соответствие нашим стандартам. Дата: 29 ноября – 1 декабря 2024. Формат: гибридный (онлайн и офлайн). Призовой фонд: 500.000 рублей. 🧑‍💻 Присоединяйся к хакатону, если ты: – AI-специалист; – Frontend / Backend-разработчик; – Студент или выпускник технического вуза. ⚡️ Зачем участвовать? – Прокачаешь скиллы и получишь обратную связь от ведущих экспертов отрасли. – Прикоснешься к ИТ в ЕВРАЗе. – Получишь возможность стать частью масштабной и амбициозной команды ЕВРАЗа. Если нет команды — поможем ее собрать! 🔸 Регистрация уже открыта! Подай заявку до 25 ноября 23:59 МСК по ссылке.

50 230

⚡️ RuQwen2.5-3B-Instruct-AWQ — это улучшенная версия серии моделей Qwen2.5 на 3млрд параметров, адаптированная для русскоязычных задач. Что сделано Полностью решена проблема генерации иероглифов. Проблема часто возникала в кейсах генерации ответов, содержащих смесь русского и английского текста, терминов, сокращений (модель по сути сбивалась). Применен алгоритм FRT, который позволяет добиваться русификации иностранных моделей. Благодаря оптимизациям, модель обеспечивает бОльшую связность текста на русском языке, делая её отличным выбором для различных приложений, требующих работы с русскоязычным контентом. Модель разработана командой FractalGPT специально для генерации текста на русском языке, сохраняя широкую поддержку и для других языков. Cвободно доступна для скачивания на HF 🤗 Карточка модели на HF @data_analysis_ml

50 230

🔥 firecrawl-simple — урезанная и оптимизированная версия библиотеки firecrawl! Она позволяет вам быстро конвертировать веб-сайты в готовый для чтения LLM текст. 🔐 Лицензия: AGPL-3.0 🖥 GitHub @bigdatai

50 230

Как BI аналитика влияет на рост продаж в розничной сети 14 ноября в 14:00 Покажем как визуализацию данных по торговой точке трансформировать в процесс принятия решений: ⚡Объективная оценка работы вашего персонала с помощью системы рейтингов ⚡Ежемесячное отслеживание динамики продаж и мотивации ваших сотрудников ⚡Автоматическое формирование задач и прогнозирование результатов ⚡Управленческий импульс (UI) для предотвращения отклонений от плана Участие бесплатное. Требуется регистрация по ссылке. Вебинар от команды BI-платформы Insight

50 230