Data Science

Open in Telegram

DS По всем вопросам- @haarrp @ai_machinelearning_big_data - machine learning @pythonl - Python @itchannels_telegram - 🔥 best it channels @ArtificialIntelligencedl - AI @pythonlbooks-📚 @programming_books_it -📚 Реестр РКН: https://clck.ru/3Fk3zS

Network:Machinelearning Russia15 299 Technologies & Applications3 241...

📈 Analytical overview of Telegram channel Data Science

Channel Data Science (@datascienceiot) is an active participant. Currently, the community unites 41 885 subscribers, ranking 3 241 in the Technologies & Applications category and 15 299 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 41 885 subscribers.

According to the latest data from 18 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -32 over the last 30 days and by -12 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 8.85%. Within the first 24 hours after publication, content typically collects 2.90% reactions from the total number of subscribers.
Post reach: On average, each post receives 3 709 views. Within the first day, a publication typically gains 1 213 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 0.
Thematic interests: Content is focused on key topics such as llm, агентов, api, октября, разработчиков.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“DS По всем вопросам- @haarrp @ai_machinelearning_big_data - machine learning @pythonl - Python @itchannels_telegram - 🔥 best it channels @ArtificialIntelligencedl - AI @pythonlbooks-📚 @programming_books_it -📚 Реестр РКН: https://clck.ru/3...”

Thanks to the high frequency of updates (latest data received on 19 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

41 885

Subscribers

-1224 hours

-157 days

-3230 days

3 709

Post views

~ 1 21324 hours

~ 1 51848 hours

8.85%

Engagement rate

No data

Posts per day

Ads index

beta

Posts Archive

41 885

Сегодня не можешь найти стажировку. Завтра — открываешь с ноги дверь в топовые компании и претендуешь на зп выше рынка. Как так? Очень просто со знанием SQL. Как работать с данными на профессиональном уровне, рассказывают на курсе Нетологии «SQL и получение данных». За 2 месяца вы узнаете, как создавать собственные базы данных, станете асом в создании сложных запросов и сможете с первого раза находить нужную информацию в огромных таблицах. Всё обучение построено с упором на практику: вы выполните 6 работ, а в конце самостоятельно развернёте и проанализируете базу данных. Как минимум — будет повод похвастаться друзьям, как максимум — добавить новый скилл в резюме и получить крутую работу. Регистрируйтесь Реклама. ООО "Нетология". Erid 2VSb5wTxP5A

41 885

📚 Машинное и глубокое обучение ОНЛАЙН-УЧЕБНИК 📖 Книга @datascienceiot

41 885

SLAck: Semantic, Location, and Appearance Aware Open-Vocabulary Tracking 📖 Arxiv @datascienceiot

41 885

Repost from Machinelearning

📌Туториал по файнтюну Qwen2-VL-7B с использованием экосистемы Hugging Face. Статья на HF из цикла Open-Source AI Cookbook c подробным пошаговым описанием и примерами кода процесса тонкой настройки VLM Qwen2-VL-7B в области ответов на вопросы по изображениям с использованием библиотеки Transformer Reinforcement Learning (TRL). В качестве целевого датасета используется ChartQA, который содержит диаграммы разных типов в паре с вопросами и ответами. Для обучения модели демонстрируется методы Supervised Fine-Tuning (SFT) с использованием библиотеки TRL, QLoRA, которая квантует веса LoRA, обеспечивая более низкие требования к памяти и повышенную эффективность обучения. Отдельным разделом выделен процесс подготовки данных к обучению с помощью функции collate_fn, которая выполняет корректное извлечение и пакетную обработку данных и их форматирование для модели. Обучение модели осуществляется с помощью класса SFTTrainer. В результате модель научилась отвечать на вопросы в соответствии с используемым датасетом. Оценить готовый файнтюн можно в демо на HF Space. Дополнительно, в качестве альтернативы тонкой настройке, рассматривается использование промтинга с добавлением системного сообщения для контекстуализации ввода для модели, чтобы улучшить точность ее ответов. ▶️ Блокнот на Google Collab для практических экспериментов. Для его запуска понадобится платный тариф с GPU А100. ▶️Структура туториала по разделам: 🟢Установка среды 🟢Загрузка датасета 🟢Загрузка модели и проверка производительности 🟢Файнтюн модели с помощью TRL 🟠Загрузка квантованной модели для обучения 🟠Настройка QLoRA и SFTConfig 🟠Обучение модели 🟢Тестирование готовой модели 🟢Сравнение обученной модели с базовой + промптинг 🟢Дополнительные ресурсы для более глубокого изучения VLM 🔜 Статья на HuggingFace @ai_machinelearning_big_data #AI #ML #VLM #HuggingFace #Tutorial

41 885

⚡️Всероссийский Хакатон ФИЦ 2024 🚀Попробуйте себя в одном из предложенных кейсов: 1. Семантический делитель текстов: Разработать алгоритм, который сможет обеспечить точное разделение текста на блоки. 2. Контекстный перевод названий научных работ: Разработать переводчик, который будет переводить названия научных работ. 3. Прогнозирование бизнес драйверов: Разработать решение для задачи прогнозирования временных рядов бизнес-драйверов. 4. Система контроля и управления доступом: Разработка системы контроля и управления доступом. И др. 16 кейсов смотрите на сайте: https://фиц2024.рф/hackathon Хакатон пройдет в 2 этапа: Отборочный этап в Онлайн, Финал в Офлайн. 🏆Призовой фонд: 6 000 000 руб. 🔥Дедлайн регистрации: 26 ноября, 23:59 📅Даты отборочного этапа: 29 ноября - 2 декабря 🦾Даты финала: 3 - 4 декабря Зарегистрируйтесь для участия в хакатоне: https://фиц2024.рф/hackathon #реклама О рекламодателе

41 885

Problem Solving with Algorithms and Data Structures 🔗 Book @datascienceiot

41 885

Machine Learning for Hackers 📖 книга @datascienceiot

41 885

Что инженер данных должен уметь в Kubernetes? ➡️ Запускать Apache Spark ➡️ Деплоить распределенные файловые системы и базы данных ➡️ Разворачивать сервинг ML-моделей на KServe, Seldon Core, Bento+Yatai 9 декабря учебный центр Слёрм запускает новый поток курса «Kubernetes для разработчиков». Внутри — глубокий разбор куба с точки зрения приложения. В программе: 🔸 Внутреннее устройство куба 🔸 Управление сервисами 🔸 Работа с кластером и управление кластером ОБНОВИЛИ ПРАКТИКУ в августе 2024 года 🔸7 недель обучения 🔸7 встреч со спикерами 🔸76 часов практики и работы со стендами 🔸Итоговая сертификация 🎁 Видеокурс по основам Docker в подарок Старт потока: 9 декабря Изучить программу курса и занять место ➡️ по ссылке Реклама ООО «Слёрм» ИНН 3652901451

41 885

Introduction to Statistical Thought 📖 book @datascienceiot

41 885

Repost from Machinelearning

🌟 OpenCoder - модели для кодинга, cookbook обучения и датасеты. OpenCoder - это открытое и воспроизводимое семейство LLM для программирования, включающее 1,5B и 8B базовые и instruct версии, поддерживающее английский и китайский языки. Семейство моделей OpenCoder обучалось с нуля на 2,5 трлн. лексем, состоящих на 90 % из сырого кода и на 10 % из веб-данных, связанных с кодом, и прошло отладку на более чем 4,5 млн. высококачественных примеров SFT, в итоге достигнув производительности топовых LLM с похожей специализацией. В открытый доступ опубликованы не только веса моделей и код для инференса, но и датасеты, полный цикл обработки данных, результаты экспериментальной абляции и подробные протоколы обучения. OpenCoder тщательно протестирован с помощью исследований абляции на различных стратегиях очистки данных и процессах обучения, включая эксперименты по дедупликации на уровне файлов и репозиториев, что обеспечило семейству тщательную проверку производительности моделей. OpenCoder достигает высокой производительности в различных бенчмарках, что ставит их в ряд SOTA-моделей с открытым исходным кодом для задач программирования. ▶️ Семейство моделей OpenCoder : 🟢OpenCoder-1.5B-Base, 4 тыс. токенов контекста; 🟢OpenCoder-8B-Base, 8 тыс. токенов контекста; 🟠OpenCoder-1.5B-Instruct, 4 тыс. токенов контекста; 🟠OpenCoder-8B-Instruct, 8 тыс. токенов контекста; ▶️ Датасеты: 🟢OpenCoder-SFT-Stage1, 4.21 млн. строк; 🟠OpenCoder-SFT-Stage2, 375 тыс.строк. ▶️ Пример инференса на HF Transformers:

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "infly/OpenCoder-8B-Instruct"
model = AutoModelForCausalLM.from_pretrained(model_name,
                                             torch_dtype=torch.bfloat16,
                                             device_map="auto",
                                             trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

messages=[
    { 'role': 'user', 'content': "write a quick sort algorithm in python."}
]

inputs = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")

outputs = model.generate(inputs, max_new_tokens=512, do_sample=False)

result = tokenizer.decode(outputs[0][len(inputs[0]):], skip_special_tokens=True)

🟡Страница проекта 🟡Набор моделей 🟡Arxiv 🟡Набор датасетов 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #OpenCoder #Datasets

41 885

Stanford “Probability Theory” lecture notes (PhD level) 📖 Lectures @datascienceiot

41 885

Collection of resources in the form of eBooks related to Data Science, Machine Learning, and similar topics 📖 Github @datascienceiot

41 885

Вот что ждет в Т-Банке аналитиков DWH, кроме ДМС, крутых офисов и других плюшек: ▪️Актуальный стек. Здесь следят за трендами и быстро внедряют новое. ▪️Улучшения может предложить каждый. Здесь знают, как устроен продукт, и влияют на его развитие. ▪️Прозрачная система роста. Вы всегда будете знать, какие навыки нужно подтянуть и как получить повышение. ▪️Вы окажетесь среди профессионалов, у которых можно многому научиться. А если захотите — можете стать ментором для младших коллег. Устраивайтесь в Т-Банк на позицию аналитика DWH до 23 декабря 2024 года и получайте приветственный бонус в размере одного оклада.

41 885

The hitchhikers guide to python 📖 Book @datascienceiot

41 885

Тренажёр-практикум Python и SQL (от NumPy и OpenCV до PostgreSQL) в аналитике данных и ML Откройте карьерные возможности в машинном обучении и аналитике данных - Научитесь проводить анализ больших объёмов данных. - Создавайте интерактивные и 3D-визуализации для представления данных. - Освойте работу с SQL-базами для хранения, модификации и извлечения данных. Для кого будет полезен этот тренажёр? Аналитикам данных, бизнес-аналитикам и продуктовым специалистам: Новичкам и продолжающим в области анализа и визуализации данных, которые хотят освоить ключевые инструменты для эффективного анализа и машинного обучения на практике. Тем, кто уже знаком с Python и стремится развиваться в аналитике данных и ML: Разработчикам и специалистам по данным, стремящимся углубить навыки обработки данных и визуализации. Инженерам данных и всем заинтересованным: Тем, кто сталкивается с трудностями при предобработке данных для моделей машинного обучения и хочет выстроить системный подход к работе с ними. Тем, кто стремится автоматизировать процессы и управлять данными: После курса вы научитесь эффективно работать с NumPy и Pandas, создавать визуализации через Matplotlib и Seaborn, а также управлять базами данных с PostgreSQL. 🎓 Попробуйте первые уроки бесплатно! В демо-версии курса вы познакомитесь с основами библиотек NumPy, Pandas и Matplotlib, научитесь создавать и редактировать массивы, работать с изображениями и решать практические задачи. Пройдите 6 практических заданий сразу! PS. В демо также доступен ИИ-бот Ду-Ду с code review 24/7. 👉 Регистрация на демо-доступ

41 885

FRONTIERMATH: A BENCHMARK FOR EVALUATING ADVANCED MATHEMATICAL REASONING IN AI 📚 Read @datascienceiot

41 885

Освойте универсальные навыки в мире цифровых профессий — научитесь работать с SQL, Python, Power BI и DataLens на бесплатном курсе от Нетологии. В результате вы: — разберётесь в основах Python для анализа данных и узнаете, как извлекать информацию. — научитесь делать запросы и отчёты с помощью SQL. — сможете строить интерактивные дашборды в Power BI и DataLens. Курс подойдёт новичкам и тем, кто хочет расширить свои навыки. Также после бесплатного курса вы получите карьерную консультацию и скидку до 50% для продолжения обучения на курсах-профессиях в Нетологии. Присоединяйтесь бесплатно Реклама. ООО "Нетология". Erid 2VSb5xxJ9Zi

41 885

OPENCODER: THE OPEN COOKBOOK FOR TOP-TIER CODE LARGE LANGUAGE MODELS 📚 Книга @datascienceiot

41 885

Яндекс Игры пришли к нам с запросом:

SELECT * 
FROM subscribers 
WHERE channel_name = 'datascienceiot'
AND technical_skills IN ('SQL', 'Airflow', 'MapReduce', 'DataLens') 
AND data_driven_approach = true 
AND analytical_mindset = true 
AND years_of_experience >= 2 
AND fit = true;

Ребята ищут аналитика в свою команду. Яндекс Игры посещают более 40 млн пользователей в месяц, поэтому можно проверять кучу гипотез на крупных выборках и экспериментировать. ВАЖНО. Проверенные гипотезы не пойдут «в стол», а будут помогать команде принимать взвешенные решения и влиять на развитие продукта. Если у тебя есть опыт работы с продуктами, аналитический склад ума и необходимые навыки, — это отличный шанс быстро вырасти и прокачаться на интересных задачах. Описание вакансии здесь, но лучше сразу пишите рекрутеру и договаривайтесь о собеседовании: @danny_md1

41 885

How to Build Your Career in AI 📚 Book @datascienceiot