Анализ данных (Data analysis)

Открыть в Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Больше

Сеть:Machinelearning Россия12 532 Технологии и приложения2 673...

📈 Аналитический обзор Telegram-канала Анализ данных (Data analysis)

Канал Анализ данных (Data analysis) (@data_analysis_ml) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 50 246 подписчиков, занимая 2 673 место в категории Технологии и приложения и 12 532 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 50 246 подписчиков.

Согласно последним данным от 19 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило 12, а за последние 24 часа — 11, при этом общий охват остаётся высоким.

Статус верификации: Не верифицирован
Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 8.88%. В первые 24 часа после публикации контент обычно набирает 6.13% реакций от общего числа подписчиков.
Охват публикаций: В среднем каждый пост получает 4 458 просмотров. В течение первых суток публикация набирает 3 081 просмотров.
Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 31.
Тематические интересы: Контент сосредоточен на ключевых темах, таких как llm, контекст, openai, архитектура, deepseek.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Благодаря высокой частоте обновлений (последние данные получены 20 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

50 246

Подписчики

+1124 часа

+637 дней

+1230 день

4 458

Просмотры поста

~ 3 08124 часа

~ 4 01248 часов

8.88%

Коэффициент вовлеченности

~ 5

Постов в день

Ads index

beta

Архив постов

50 254

🔥 Огромный список литературы по теме Генерации синтетических данных для Больших Языковых моделей. 🔗 Ссылка на Github: *клик* @data_analysis_ml

50 254

Зачем тестировать торговую стратегию? ✅ Разберемся в теме на практическом уроке — Тестирование торговых стратегий с помощью инструмента Backtrading Урок посвящен курсу «ML для финансового анализа» по окончанию которого вы создадите торгового робота для автоматического проведения операций с оценкой уровня риска Регистрация на урок 👇 https://otus.pw/s5V4o/?erid=LjN8KEqkb #реклама О рекламодателе

50 254

👩‍💻 Langfun — это библиотека с открытым исходным кодом, разработанная Google. В ней используется объектно-ориентированное программирование (ООП) для взаимодействия с LLM моделями, что упрощает создание и управление запросами через объекты и типы 🌟 Langfun поддерживает популярные LLM, такие как GPT, Claude и Llama, и легкоинтегрируется в Python-проекты. Простота использования и мощный функционал делают библиотеку полезным инструментом для разработки ИИ-агентов и работы с большими языковыми моделями 🔐 Лицензия: Apache-2.0 ▪️Github @data_analysis_ml

50 254

Послушать и посмотреть под кофе: новый эпизод подкаста «Деньги любят техно» про Data Science и ML в больших компаниях вышел на всех популярных платформах. В выпуске обсудили: ● С чего начинается путь в Data Science ● Какие задачи кажутся интересными на старте и по мере роста специалиста ● Как ML встраивается в бизнес-процессы и кто ставит задачи ● Без каких компетенций не обойтись ML-специалисту ● Какие задачи будут актуальны в следующие несколько лет Гость: старший директор по данным и аналитике «Авито» Андрей Рыбинцев. Ведущие: начальник управления моделирования партнерств и ИТ-процессов ВТБ Юлий Шамаев и технологический обозреватель Марина Эфендиева. -> Смотреть -> Слушать

50 254

🖥 Llama Assistant — это локальный AI-помощник на основе модели Llama 3.2, предназначенный для выполнения повседневных задач. Он поддерживает голосовые команды и обработку естественного языка, а также может выполнять различные команды: от резюмирования текста и написания электронных писем до решения задач. 🌟 Проект работает офлайн, и нацелен на сохранение конфиденциальности данных. Включает поддержку пользовательских моделей и различных языков, а также интеграцию с почтовыми сервисами и мультимедийными приложениями. 🔐 Лицензия: MIT ▪️Github @bigdatai

50 254

Познакомьтесь с одной из самых востребованных сфер IT — Python-разработкой. Сколько зарабатывают эти специалисты? Можно ли работать удалённо? Что нужно для старта? На все вопросы ответим на бесплатном мини-курсе по Python, регистрируйтесь: https://epic.st/ukJeX?erid=2VtzquxDrPB Что особенного в мини-курсе по Python: — Подходит даже новичкам — от вас не требуется знаний и опыта в IT — 4 крутых проекта для портфолио — Практические задания для проверки знаний — Живое общение со спикером — 5 статей для старта карьеры в Python-разработке — Бессрочный доступ к видео Спикер — Анастасия Борнева, руководитель направления по исследованию данных в «Сбере». Опыт в программировании — более 9 лет. С 2018 года — эксперт по автоматизации процессов с помощью искусственного интеллекта в «Сбере». Успейте записаться и получить подарки! Реклама. ЧОУ ДПО «Образовательные технологии «Скилбокс (Коробка навыков)», ИНН: 9704088880

50 254

⭐️ NLPAug – это библиотека на языке программирования Python, которая помогает улучшить работу нейросетей при решении задач обработки естественного языка (NLP) без необходимости изменять архитектуру этих сетей и проводить их тонкую настройку. NLPAug предлагает различные методы для расширения датасетов, улучшения обобщения и производительности моделей при работе с данными. Эта библиотека позволяет генерировать новый текст на основе существующих данных, заменяя некоторые слова синонимами, в том числе используя принцип косинусного сходства в векторных представлениях, аналогичный тому, который используется в моделях word2vec или GloVe. Кроме того, NLPAug может заменить слова на основе контекста с помощью моделей трансформеров, таких как BERT-сети, а также выполнять двойной перевод текста на другой язык и обратно. 🖥 Библиотека доступна на GitHub: https://github.com/makcedward/nlpaug @data_analysis_ml

50 254

Осень — время новых знаний! 👨‍🎓 И мы знаем, где будут прокачивать свои hard и soft skills IT-специалисты — на IT Community Day, который Сбер проведёт сразу в трёх городах: ✔️ В Санкт-Петербурге 5 октября обсудим искусственный интеллект, возможности фронтенда, новую среду разработки и мотивацию для айтишников. ✔️ В Казани 12 октября научимся управлять большими данными, укрощать искусственный интеллект, создавать успешное резюме и находить подход к карьере. ✔️ В Екатеринбурге 19 октября поговорим об интеграции LLM в приложение, методологии API-first и комбинации личного и профессионального развития. Во всех городах вас будут ждать топовые спикеры, а после докладов — afterparty. Регистрируйтесь на IT Community Day в Санкт-Петербурге, Казани и Екатеринбург е👌

50 254

✔️ YOLO11: новая эра в компьютерном зрении. Компания Ultralytics представила YOLO11, новейшую версию своей знаменитой модели искусственного интеллекта для компьютерного зрения. YOLO11 поддерживает широкий спектр задач CV: обнаружение объектов, сегментацию экземпляров, классификацию изображений, оценку позы, обнаружение ориентированных объектов (OBB) и отслеживание объектов. Модель получила улучшенное извлечение признаков. YOLO11m достигает более высокого балла средней средней точности (mAP) в наборе данных COCO, используя на 22% меньше параметров, чем YOLOv8m. YOLO11 вскоре будет доступна через Ultralytics HUB и пакет Ultralytics Python. ultralytics.com

50 254

🌟 TIPO: Оптимизация текстовых промптов для text-2-image моделей. TIPO (Text to Image with text presampling for Prompt Optimization) - метод, который улучшает качество и удобство использования моделей text-2-image. TIPO использует LLM для предварительной обработки текстовых запросов, делая их более точными и информативными. Он воспринимает как промпты на естественном языке , так и формат Danbooru тегов. Основная идея метода заключается в том, что более детальные и конкретные запросы приводят к более точной генерации изображений, тогда как неконкретные запросы приводят к более широкому спектру, но менее точным результатам. TIPO генерирует несколько подробных вариантов запроса из одного простого, тем самым расширяя пространство возможных результатов и повышая вероятность получения желаемого изображения. Представлены 2 модели TIPO, обе построены на базе LLaMA 400M, обученные на наборах Danbooru2023, GBC10M и Coyo-HD-11M с общим числом токенов 30 млррд. 🟢TIPO-200M; 🟢TIPO-500M. ▶️ Использование TIPO доступно в качестве расширения к stable-diffusion-webui, Forge UI и ComfyUI. Все подробности по установке расширений и использованию в ComfyUI можно найти в репозитории проектка Z-TIPO-extension. 📌Лицензирование : Kohaku License 1.0 🟡Коллекция моделей на HF 🟡Arxiv 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI #ML #T2I #TIPO #LLM

50 254

🖥 Репозиторий на Github, в котором собраны лучшие промпты для всевозможных задач, а также способы обхода цензуры LLM 🌟Списки постоянно обновляются, последнее обновление было 3 дня назад! Здесь можно найти запросы под всевозможные сферы: от IT до бизнес - советов. ▪️Github @data_analysis_ml

50 254

Repost from Machinelearning

🔥 Memory pinning для ускорения обучения моделей Если вы регулярно используете GPU для обучения моделей, то существует довольно простая техника, которая часто используется для ускорения обучения моделей.

...изменив всего две строки кода.

Рассмотрим стандартный цикл обучения модели в PyTorch (См Картинку 1) В этом коде: - Строка 5 передает данные в GPU из CPU. - Все выполняется на GPU после передачи данных, то есть в строках 7-15. 💡 Это означает, что когда работает GPU, CPU простаивает, а когда работает CPU, GPU простаивает, наглядно(См Картинку 2) ⚡️ Но вот что мы можем сделать, чтобы оптимизировать: - Когда модель обучается на 1-м батче, CPU может передать 2-й батч на GPU. - Таким образом, GPU не придется ждать следующего батча данных, как только он завершит обработку существующего батча. 👉 Иными словами, график использования ресурсов будет выглядеть примерно так (См Картинку 3) 💡 В то время, когда CPU будет простаивать, GPU (который является фактическим ускорителем для обучения модели) гарантированно будет иметь данные для работы. Формально этот процесс известен как memory pinning, и он используется для ускорения передачи данных от CPU к GPU, делая процесс обучения асинхронным. Это позволяет нам готовить следующий обучающий набор параллельно с обучением модели на текущих данных. 👉 Включить эту функцию в PyTorch довольно просто. Во-первых, при определении объекта DataLoader надо установить pin_memory=True и указать num_workers (См Картинку 4) Далее, на этапе передачи данных в шаге обучения укажите non_blocking=True (См Картинку 5) ⚡️ Готово! Вот как работает ускорение на примере набора данных MNIST в обучении простой нейронной сети (См Картинку 6) - Без memory pinning обучение модели на 5 эпохах занимает около 43 секунд: - а с использованием memory pinning та же модель обучается менее чем за 10 (!!!) секунд 🔥(См Картинку 7) 📌 Важные особенности использования memory pinning: - если несколько тензоров будут выделены в "привязанную" память, это приведет к резервированию значительной части оперативной памяти.

Поэтому, всякий раз, когда используете memory pinning - отслеживайте потребление RAM!

- когда набор данных относительно мал, memory pinning имеет незначительный эффект, поскольку передача данных от CPU к GPU все равно не занимает столько времени (См Картинку 7) 📌 Полная версия @ai_machinelearning_big_data

50 254

👩‍💻 Ускорь Pandas в 20 раз, изменив всего одну строчку кода! 🔥 💡 Pandas часто бывает медленным. Но есть простое решение: FireDucks — библиотека с таким же API, как у Pandas, которая решает значительно ускоряет обработку данных. ❓ Как ускорить Pandas? 🌟 Просто замените импорт библиотеки: ❌ Было:


import pandas as pd

✅ Стало:


import fireducks.pandas as pd

🌟Теперь ваш код работает быстрее без изменений логики! Попробуйте сами и убедитесь, как легко ускорить работу с большими данными! 🚀 @python_job_interview

50 254

📚 ebook2audiobook Инструмент, который позволяет конвертировать электронные книги в аудиокниги с главами и метаданными с помощью Calibre и Coqui XTTS. 📖 Преобразует электронные книги в текстовый формат с помощью Calibre. 📚 Разбивает электронную книгу на главы для упорядоченного воспроизведения. 🎙️ Высококачественное преобразование текста в речь с помощью Coqui XTTS. 🗣️ Клонирование голоса с помощью вашего собственного голосового кончика. ⭐ Поддерживает несколько языков (по умолчанию английский, русский поддерживается). pip install tts==0.21.3 pydub nltk beautifulsoup4 ebooklib tqdm ▪Github @data_analysis_ml

50 254

🌟 LLaMa 3.2 Multimodal Web UI — это удобный интерфейс для работы с LLaMa 3.2 на базе Ollama. Он поддерживает различные типы данных, включая текстовые и графические и позволяет пользователям задавать вопросы и получать ответы в различных форматах: текстовом, кодовом и визуальном. Этот интерфейс адаптирован под использование на настольных компьютерах и мобильных устройствах и был тщательно протестирован на Ubuntu. git clone https://github.com/iamgmujtaba/llama3.2-webUI ▪ Github @data_analysis_ml

50 254

⚡️ Screenpipe записывает ваш экран и обрабатывает эти записи с помощью Ollama. Инструмент написан на Rust. Он позволяет автоматически собирать данные с вашего пк во всех форматах (текст, аудио, видео) и обрабатывать с помощью LLM. Особое внимание уделено безопасности данных, с фокусом на локальное хранение в базе данных SQLite. Исходный код доступен на GitHub : https://github.com/mediar-ai/screenpipe ▪ Github @data_analysis_ml

50 254

Учитесь в универе и давно хотите попробовать свои силы в решении реальных кейсов по машинному обучению и нейросетям? Международные олимпиады — отличный способ проверить свои знания и выйти на новый уровень! Одна из таких олимпиад — AIDAO от Яндекса и НИУ ВШЭ. Участникам предстоит решать IT-задачи в команде из 2-3 человек, а победители получат денежные призы до 600 тысяч рублей! Выполнять задания олимпиады нужно на английском, но разрешено пользоваться переводчиком. Если у вас нет команды, то вам помогут её найти во время регистрации. Чтобы принять участие, надо: - быть студентом бакалавриата или магистратуры в российском или зарубежном вузе; - разбираться в ML, алгоритмах и работе с данными; - подать заявку на сайте до 5 октября. Не упустите шанс применить свои навыки на практике и посоревноваться со студентами со всего мира!

50 254

📊 FinanceDatabase для Python — мощный инструмент для работы с финансовыми данными! ❓Этот репозиторий предоставляет удобный доступ к более чем 300 000 финансовых инструментов: акции, ETF, криптовалюты, облигации и многое другое. Можно легко находить информацию по каждому активу и использовать ее в своих проектах. 💡 Установка:


pip install financedatabase -U

💡 Использование:


import financedatabase as fd

🔐 Лицензия: MIT ▪️Github @data_analysis_ml

50 254

Оффер в дата-аналитику за выходные? Легко — для опытных специалистов на Data Weekend Offer от Авито! Пройдите ускоренный отбор, изучайте поведение пользователей и ищите точки роста бизнеса. Вас ждет: — конкурентная зарплата, удаленка и дополнительные дни отпуска; — возможность прокачать свой стек – проверять бизнес-модели, тестить гипотезы, запускать фичи и улучшать пользовательский опыт; — участие в разработке новых продуктов крупнейшего в мире сервиса объявлений; — сильное IT-комьюнити, которое любит опенсорс. Авито – это про карьерное развитие и комфортные условия. Регистрируйтесь до 15 октября: https://u.to/Z-bkIA

50 254

🐐Oryx🐐 - унифицированная мультимодальная архитектура для генераций изображений, видео и 3D-сцен с разными ракурсами. - Проект: https://oryx-mllm.github.io - Github: https://github.com/Oryx-mllm/Oryx - Демо: https://huggingface.co/spaces/THUdyh/Oryx @data_analysis_ml