Анализ данных (Data analysis)
前往频道在 Telegram
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp
显示更多📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览
频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 50 246 名订阅者,在 技术与应用 类别中位列第 2 673,并在 俄罗斯 地区排名第 12 532 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 50 246 名订阅者。
根据 19 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 12,过去 24 小时变化为 11,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 8.88%。内容发布后 24 小时内通常能获得 6.13% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 4 458 次浏览,首日通常累积 3 081 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 31。
- 主题关注点: 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“Data science, наука о данных.
@haarrp - админ
РКН: clck.ru/3FmyAp”
凭借高频更新(最新数据采集于 20 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
50 246
订阅者
+1124 小时
+637 天
+1230 天
帖子存档
🔥 Огромный список литературы по теме Генерации синтетических данных для Больших Языковых моделей.
🔗 Ссылка на Github: *клик*
@data_analysis_ml
Зачем тестировать торговую стратегию?
✅ Разберемся в теме на практическом уроке — Тестирование торговых стратегий с помощью инструмента Backtrading
Урок посвящен курсу «ML для финансового анализа» по окончанию которого вы создадите торгового робота для автоматического проведения операций с оценкой уровня риска
Регистрация на урок 👇
https://otus.pw/s5V4o/?erid=LjN8KEqkb
#реклама
О рекламодателе
👩💻 Langfun — это библиотека с открытым исходным кодом, разработанная Google.
В ней используется объектно-ориентированное программирование (ООП) для взаимодействия с LLM моделями, что упрощает создание и управление запросами через объекты и типы
🌟 Langfun поддерживает популярные LLM, такие как GPT, Claude и Llama, и легкоинтегрируется в Python-проекты.
Простота использования и мощный функционал делают библиотеку полезным инструментом для разработки ИИ-агентов и работы с большими языковыми моделями
🔐 Лицензия: Apache-2.0
▪️Github
@data_analysis_ml
Послушать и посмотреть под кофе: новый эпизод подкаста «Деньги любят техно» про Data Science и ML в больших компаниях вышел на всех популярных платформах.
В выпуске обсудили:
● С чего начинается путь в Data Science
● Какие задачи кажутся интересными на старте и по мере роста специалиста
● Как ML встраивается в бизнес-процессы и кто ставит задачи
● Без каких компетенций не обойтись ML-специалисту
● Какие задачи будут актуальны в следующие несколько лет
Гость: старший директор по данным и аналитике «Авито» Андрей Рыбинцев.
Ведущие: начальник управления моделирования партнерств и ИТ-процессов ВТБ Юлий Шамаев и технологический обозреватель Марина Эфендиева.
-> Смотреть
-> Слушать
🖥 Llama Assistant — это локальный AI-помощник на основе модели Llama 3.2, предназначенный для выполнения повседневных задач. Он поддерживает голосовые команды и обработку естественного языка, а также может выполнять различные команды: от резюмирования текста и написания электронных писем до решения задач.
🌟 Проект работает офлайн, и нацелен на сохранение конфиденциальности данных.
Включает поддержку пользовательских моделей и различных языков, а также интеграцию с почтовыми сервисами и мультимедийными приложениями.
🔐 Лицензия: MIT
▪️Github
@bigdatai
Познакомьтесь с одной из самых востребованных сфер IT — Python-разработкой. Сколько зарабатывают эти специалисты? Можно ли работать удалённо? Что нужно для старта? На все вопросы ответим на бесплатном мини-курсе по Python, регистрируйтесь: https://epic.st/ukJeX?erid=2VtzquxDrPB
Что особенного в мини-курсе по Python:
— Подходит даже новичкам — от вас не требуется знаний и опыта в IT
— 4 крутых проекта для портфолио
— Практические задания для проверки знаний
— Живое общение со спикером
— 5 статей для старта карьеры в Python-разработке
— Бессрочный доступ к видео
Спикер — Анастасия Борнева, руководитель направления по исследованию данных в «Сбере». Опыт в программировании — более 9 лет. С 2018 года — эксперт по автоматизации процессов с помощью искусственного интеллекта в «Сбере».
Успейте записаться и получить подарки!
Реклама. ЧОУ ДПО «Образовательные технологии «Скилбокс (Коробка навыков)», ИНН: 9704088880
⭐️ NLPAug – это библиотека на языке программирования Python, которая помогает улучшить работу нейросетей при решении задач обработки естественного языка (NLP) без необходимости изменять архитектуру этих сетей и проводить их тонкую настройку.
NLPAug предлагает различные методы для расширения датасетов, улучшения обобщения и производительности моделей при работе с данными.
Эта библиотека позволяет генерировать новый текст на основе существующих данных, заменяя некоторые слова синонимами, в том числе используя принцип косинусного сходства в векторных представлениях, аналогичный тому, который используется в моделях word2vec или GloVe.
Кроме того, NLPAug может заменить слова на основе контекста с помощью моделей трансформеров, таких как BERT-сети, а также выполнять двойной перевод текста на другой язык и обратно.
🖥 Библиотека доступна на GitHub: https://github.com/makcedward/nlpaug
@data_analysis_ml
Осень — время новых знаний! 👨🎓
И мы знаем, где будут прокачивать свои hard и soft skills IT-специалисты — на IT Community Day, который Сбер проведёт сразу в трёх городах:
✔️ В Санкт-Петербурге 5 октября обсудим искусственный интеллект, возможности фронтенда, новую среду разработки и мотивацию для айтишников.
✔️ В Казани 12 октября научимся управлять большими данными, укрощать искусственный интеллект, создавать успешное резюме и находить подход к карьере.
✔️ В Екатеринбурге 19 октября поговорим об интеграции LLM в приложение, методологии API-first и комбинации личного и профессионального развития.
Во всех городах вас будут ждать топовые спикеры, а после докладов — afterparty. Регистрируйтесь на IT Community Day в Санкт-Петербурге, Казани и Екатеринбурге👌
✔️ YOLO11: новая эра в компьютерном зрении.
Компания Ultralytics представила YOLO11, новейшую версию своей знаменитой модели искусственного интеллекта для компьютерного зрения.
YOLO11 поддерживает широкий спектр задач CV: обнаружение объектов, сегментацию экземпляров, классификацию изображений, оценку позы, обнаружение ориентированных объектов (OBB) и отслеживание объектов. Модель получила улучшенное извлечение признаков.
YOLO11m достигает более высокого балла средней средней точности (mAP) в наборе данных COCO, используя на 22% меньше параметров, чем YOLOv8m.
YOLO11 вскоре будет доступна через Ultralytics HUB и пакет Ultralytics Python.
ultralytics.com
+3
🌟 TIPO: Оптимизация текстовых промптов для text-2-image моделей.
TIPO (Text to Image with text presampling for Prompt Optimization) - метод, который улучшает качество и удобство использования моделей text-2-image.
TIPO использует LLM для предварительной обработки текстовых запросов, делая их более точными и информативными. Он воспринимает как промпты на естественном языке , так и формат Danbooru тегов.
Основная идея метода заключается в том, что более детальные и конкретные запросы приводят к более точной генерации изображений, тогда как неконкретные запросы приводят к более широкому спектру, но менее точным результатам.
TIPO генерирует несколько подробных вариантов запроса из одного простого, тем самым расширяя пространство возможных результатов и повышая вероятность получения желаемого изображения.
Представлены 2 модели TIPO, обе построены на базе LLaMA 400M, обученные на наборах Danbooru2023, GBC10M и Coyo-HD-11M с общим числом токенов 30 млррд.
🟢TIPO-200M;
🟢TIPO-500M.
▶️ Использование TIPO доступно в качестве расширения к stable-diffusion-webui, Forge UI и ComfyUI. Все подробности по установке расширений и использованию в ComfyUI можно найти в репозитории проектка Z-TIPO-extension.
📌Лицензирование : Kohaku License 1.0
🟡Коллекция моделей на HF
🟡Arxiv
🟡Demo
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #T2I #TIPO #LLM
🖥 Репозиторий на Github, в котором собраны лучшие промпты для всевозможных задач, а также способы обхода цензуры LLM
🌟Списки постоянно обновляются, последнее обновление было 3 дня назад!
Здесь можно найти запросы под всевозможные сферы: от IT до бизнес - советов.
▪️Github
@data_analysis_ml
Repost from Machinelearning
+7
🔥 Memory pinning для ускорения обучения моделей
Если вы регулярно используете GPU для обучения моделей, то существует довольно простая техника, которая часто используется для ускорения обучения моделей.
...изменив всего две строки кода.Рассмотрим стандартный цикл обучения модели в PyTorch (См Картинку 1) В этом коде: - Строка 5 передает данные в GPU из CPU. - Все выполняется на GPU после передачи данных, то есть в строках 7-15. 💡 Это означает, что когда работает GPU, CPU простаивает, а когда работает CPU, GPU простаивает, наглядно(См Картинку 2) ⚡️ Но вот что мы можем сделать, чтобы оптимизировать: - Когда модель обучается на 1-м батче, CPU может передать 2-й батч на GPU. - Таким образом, GPU не придется ждать следующего батча данных, как только он завершит обработку существующего батча. 👉 Иными словами, график использования ресурсов будет выглядеть примерно так (См Картинку 3) 💡 В то время, когда CPU будет простаивать, GPU (который является фактическим ускорителем для обучения модели) гарантированно будет иметь данные для работы. Формально этот процесс известен как memory pinning, и он используется для ускорения передачи данных от CPU к GPU, делая процесс обучения асинхронным. Это позволяет нам готовить следующий обучающий набор параллельно с обучением модели на текущих данных. 👉 Включить эту функцию в PyTorch довольно просто. Во-первых, при определении объекта
DataLoader надо установить pin_memory=True и указать num_workers (См Картинку 4)
Далее, на этапе передачи данных в шаге обучения укажите non_blocking=True (См Картинку 5)
⚡️ Готово!
Вот как работает ускорение на примере набора данных MNIST в обучении простой нейронной сети (См Картинку 6)
- Без memory pinning обучение модели на 5 эпохах занимает около 43 секунд:
- а с использованием memory pinning та же модель обучается менее чем за 10 (!!!) секунд 🔥(См Картинку 7)
📌 Важные особенности использования memory pinning:
- если несколько тензоров будут выделены в "привязанную" память, это приведет к резервированию значительной части оперативной памяти.
Поэтому, всякий раз, когда используете memory pinning - отслеживайте потребление RAM!- когда набор данных относительно мал, memory pinning имеет незначительный эффект, поскольку передача данных от CPU к GPU все равно не занимает столько времени (См Картинку 7) 📌 Полная версия @ai_machinelearning_big_data
👩💻 Ускорь Pandas в 20 раз, изменив всего одну строчку кода! 🔥
💡 Pandas часто бывает медленным. Но есть простое решение: FireDucks — библиотека с таким же API, как у Pandas, которая решает значительно ускоряет обработку данных.
❓ Как ускорить Pandas?
🌟 Просто замените импорт библиотеки:
❌ Было:
import pandas as pd
✅ Стало:
import fireducks.pandas as pd
🌟Теперь ваш код работает быстрее без изменений логики! Попробуйте сами и убедитесь, как легко ускорить работу с большими данными! 🚀
@python_job_interview📚 ebook2audiobook
Инструмент, который позволяет конвертировать электронные книги в аудиокниги с главами и метаданными с помощью Calibre и Coqui XTTS.
📖 Преобразует электронные книги в текстовый формат с помощью Calibre.
📚 Разбивает электронную книгу на главы для упорядоченного воспроизведения.
🎙️ Высококачественное преобразование текста в речь с помощью
Coqui XTTS.
🗣️ Клонирование голоса с помощью вашего собственного голосового кончика.
⭐ Поддерживает несколько языков (по умолчанию английский, русский поддерживается).
pip install tts==0.21.3 pydub nltk beautifulsoup4 ebooklib tqdm
▪Github
@data_analysis_ml+1
🌟 LLaMa 3.2 Multimodal Web UI — это удобный интерфейс для работы с LLaMa 3.2 на базе Ollama.
Он поддерживает различные типы данных, включая текстовые и графические и позволяет пользователям задавать вопросы и получать ответы в различных форматах: текстовом, кодовом и визуальном.
Этот интерфейс адаптирован под использование на настольных компьютерах и мобильных устройствах и был тщательно протестирован на Ubuntu.
git clone https://github.com/iamgmujtaba/llama3.2-webUI
▪ Github
@data_analysis_ml⚡️ Screenpipe записывает ваш экран и обрабатывает эти записи с помощью Ollama.
Инструмент написан на Rust.
Он позволяет автоматически собирать данные с вашего пк во всех форматах (текст, аудио, видео) и обрабатывать с помощью LLM.
Особое внимание уделено безопасности данных, с фокусом на локальное хранение в базе данных SQLite. Исходный код доступен на GitHub : https://github.com/mediar-ai/screenpipe
▪ Github
@data_analysis_ml
Учитесь в универе и давно хотите попробовать свои силы в решении реальных кейсов по машинному обучению и нейросетям? Международные олимпиады — отличный способ проверить свои знания и выйти на новый уровень!
Одна из таких олимпиад — AIDAO от Яндекса и НИУ ВШЭ. Участникам предстоит решать IT-задачи в команде из 2-3 человек, а победители получат денежные призы до 600 тысяч рублей!
Выполнять задания олимпиады нужно на английском, но разрешено пользоваться переводчиком. Если у вас нет команды, то вам помогут её найти во время регистрации.
Чтобы принять участие, надо:
- быть студентом бакалавриата или магистратуры в российском или зарубежном вузе;
- разбираться в ML, алгоритмах и работе с данными;
- подать заявку на сайте до 5 октября.
Не упустите шанс применить свои навыки на практике и посоревноваться со студентами со всего мира!
📊 FinanceDatabase для Python — мощный инструмент для работы с финансовыми данными!
❓Этот репозиторий предоставляет удобный доступ к более чем 300 000 финансовых инструментов: акции, ETF, криптовалюты, облигации и многое другое. Можно легко находить информацию по каждому активу и использовать ее в своих проектах.
💡 Установка:
pip install financedatabase -U
💡 Использование:
import financedatabase as fd
🔐 Лицензия: MIT
▪️Github
@data_analysis_mlОффер в дата-аналитику за выходные? Легко — для опытных специалистов на Data Weekend Offer от Авито! Пройдите ускоренный отбор, изучайте поведение пользователей и ищите точки роста бизнеса.
Вас ждет:
— конкурентная зарплата, удаленка и дополнительные дни отпуска;
— возможность прокачать свой стек – проверять бизнес-модели, тестить гипотезы, запускать фичи и улучшать пользовательский опыт;
— участие в разработке новых продуктов крупнейшего в мире сервиса объявлений;
— сильное IT-комьюнити, которое любит опенсорс.
Авито – это про карьерное развитие и комфортные условия. Регистрируйтесь до 15 октября: https://u.to/Z-bkIA
🐐Oryx🐐 - унифицированная мультимодальная архитектура для генераций изображений, видео и 3D-сцен с разными ракурсами.
- Проект: https://oryx-mllm.github.io
- Github: https://github.com/Oryx-mllm/Oryx
- Демо: https://huggingface.co/spaces/THUdyh/Oryx
@data_analysis_ml
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
