Data Science | Machinelearning [ru]

Open in Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Network:Frontender's notes [ru]Russia33 730 Technologies & Applications6 734...

📈 Analytical overview of Telegram channel Data Science | Machinelearning [ru]

Channel Data Science | Machinelearning [ru] (@devsp) in the Russian language segment is an active participant. Currently, the community unites 20 036 subscribers, ranking 6 734 in the Technologies & Applications category and 33 730 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 20 036 subscribers.

According to the latest data from 15 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -82 over the last 30 days and by -1 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 7.88%. Within the first 24 hours after publication, content typically collects 4.47% reactions from the total number of subscribers.
Post reach: On average, each post receives 1 580 views. Within the first day, a publication typically gains 896 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 7.
Thematic interests: Content is focused on key topics such as llm, nvidia, контекст, openai, архитектура.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

Thanks to the high frequency of updates (latest data received on 16 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

20 036

Subscribers

-124 hours

+307 days

-8230 days

1 580

Post views

~ 89624 hours

~ 1 08548 hours

7.88%

Engagement rate

~ 1

Posts per day

Ads index

beta

Posts Archive

20 039

👩‍💻 Удаление выбросов из набора данных Напишите функцию, которая принимает pandas.DataFrame и название столбца, а затем возвращает новый DataFrame, в котором выбросы (значения, выходящие за пределы 1.5 межквартильного размаха) удалены. Пример:

import pandas as pd

data = pd.DataFrame({
    "values": [10, 12, 15, 100, 14, 13, 11, 102, 16]
})

cleaned_data = remove_outliers(data, "values")
print(cleaned_data)
# Ожидаемый результат:
#    values
# 0      10
# 1      12
# 2      15
# 4      14
# 5      13
# 6      11
# 8      16

Решение задачи🔽

import pandas as pd def remove_outliers(df, column): Q1 = df[column].quantile(0.25) Q3 = df[column].quantile(0.75) IQR = Q3 - Q1 lower_bound = Q1 - 1.5 * IQR upper_bound = Q3 + 1.5 * IQR return df[(df[column] >= lower_bound) & (df[column] <= upper_bound)] # Пример использования: data = pd.DataFrame({ "values": [10, 12, 15, 100, 14, 13, 11, 102, 16] }) cleaned_data = remove_outliers(data, "values") print(cleaned_data)

20 039

🤖 Как мы сделали клиентскую поддержку интернет-магазина действительно умной: опыт внедрения RAG-бота Статья описывает разработку «умного» помощника для клиентской поддержки интернет-магазина. Рассматриваются проблемы, с которыми сталкивался клиент, и пути их решения с помощью ИИ. Читать...

20 039

🔎 Подборка зарубежных вакансий Product Analyst 🟢Metabase, Grafana, SQL, Python, A/B тесты, PostgreSQL, Google BigQuery 🟢от 3 500 $ | 3–6 лет Data Quality Analyst (Financial Data) 🟢SQL, Python, REST API, JSON, интерпретация данных 🟢от 200 000 до 500 000 ₽ | 3–6 лет Senior Python Developer 🟢Python, Django, MySQL, Redis, Kafka, ClickHouse, Grafana 🟢от 3 000 $ | 6+ лет

20 039

⚙️ Работай с ошибками, а не просто чини их Когда исправляешь баг, проверь, не скрывается ли за ним системная проблема. 👉 Совет: если баг появился — подумай, почему он вообще стал возможен. Можно ли было предотвратить его тестами? Нужно ли пересмотреть архитектуру? Хорошие разработчики не просто чинят ошибки, а учатся на них.

20 039

🗣️ «Будущее за узкой специализацией»: судьбоносное интервью Ляна Вэньфэна, основателя DeepSeek, посвящённое v2 Интервью с основателем DeepSeek о том, как их модель v2 бросила вызов OpenAI, сделав Китай лидером в гонке ИИ. Как стартапу удалось обойти гигантов и что ждёт индустрию дальше? Читать...

20 039

☝ Машинное обучение для начинающих: Введение в нейронные сети Этот пост предназначен для абсолютных новичков и предполагает НУЛЕВЫЕ предварительные знания машинного обучения. Мы разберемся, как работают нейронные сети, и реализуем одну из них с нуля на Python. Читать...

20 039

⚙️ Что такое argparse в Python? argparse — это стандартный модуль Python для работы с аргументами командной строки. Он позволяет удобно разбирать, валидировать и документировать входные параметры. ➡️ Пример:

import argparse

# Создаём парсер аргументов
parser = argparse.ArgumentParser(description="Пример работы с argparse")
parser.add_argument("--name", type=str, help="Имя пользователя")
parser.add_argument("--age", type=int, help="Возраст пользователя")

# Разбираем аргументы
args = parser.parse_args()

# Используем аргументы
print(f"Привет, {args.name}! Тебе {args.age} лет.")

🗣️ В этом примере argparse разбирает аргументы --name и --age, переданные через командную строку. Это упрощает создание CLI-приложений.

🖥 Подробнее тут

20 039

➡️ DeepSeek AI: От инъекции промпта до захвата аккаунта Статья рассказывает о новой AI-модели DeepSeek-R1-Lite, созданной для логических рассуждений. Рассматриваются её возможности, тестирование и перспективы применения в задачах анализа и вычислений. Читать...

20 039

Repost from Технологические конкурсы Up Great

🚗 Еще несколько лет назад лидары были громоздкими приборами, которые произвели революцию в беспилотном транспорте. Как любая технология, LiDar прошла стадии от НИОКР до массового внедрения и снижения стоимости. Сегодня лидары используются в большинстве видов беспилотного транспорта: от автомобилей и самолетов до роботов-доставщиков. 📈 Компания Hesai сообщила о взрывном росте производительности: в декабре 2024 года Hesai стала первым в мире производителем лидаров, который выпускает 100 000 устройств в месяц. За месяц Hesai выпустила 10 тыс. флагманских лидаров AT128. Такой производительности удалось достичь после запуска автоматизированной линии, объединившей 100 технологических процессов, 90% из которых выполняют роботы. Это только начало роста компании, лидера на рынке «бытовых» лидаров. Весной прошлого года компания представила первый в истории компактный лидар для автомобилей — модель ET25, толщина которого составляет всего 48 мм, вдвое меньше габаритов флагманского AT128. Главное преимущество новинки в том, что ET25 располагается за лобовым стеклом и не портит экстерьер автомобиля внешним модулем, что является недостатком предыдущих моделей. Такое решение стало возможным благодаря сотрудничеству Hesai с производителем высокопрозрачных автомобильных стекол Fuyao: эффективность прибора снизилась всего на 10%, несмотря на возможные помехи от лобового стекла, а дальность действия по-прежнему составляет 225 м, что достаточно для мониторинга дорожной обстановки. Наконец, на середину 2025 года намечен старт производства модели ATX. Это компактный лидар, который фильтрует естественные помехи (дождь, туман, смог и т.д.) с точностью до 99,9%. Дальность его действия составляет 300 м. Подписывайтесь 👉Технологические конкурсы НТИ Up Great #Зарубежный_опыт

20 039

📈 Подборка статей для вашей карьеры • Как продакт-менеджеру учить английский: план, сроки, советы • Иллюзия прогресса: почему мне не удалось дать студентам-айтишникам реальный опыт • Interview copilots: как кандидаты используют ChatGPT на интервью • Моя история входа в IT: как я ломал стены своих ограничений • Как мы разработали систему грейдинга для системных аналитиков

20 039

📝 Подборка вакансий для сеньоров Инженер по данным / Data Scientist (Senior Data Engineer, удалённо) • Git, SQL, Python, PostgreSQL, Docker, Nginx, Elasticsearch • от 300 000 до 450 000 ₽ | 3+ года Data Engineer • MongoDB, SQL, Python, Pandas • Уровень дохода не указан | 5+ лет Senior Data analyst • SQL, Apache Airflow, Python, BI • Уровень дохода не указан | 3+ года

20 039

➡️ Машинное обучение: Линейная регрессия. Теория и реализация. С нуля. На чистом Python В этой статье я рассказываю про линейную регрессию, свойства, которыми должны обладать данные для модели, процесс обучения, регуляризацию, метрики качества. Кроме чистой теории я показываю как это все реализовать. Я рассказываю все в своем стиле и понимании - с инженерной точки зрения, с точки зрения того, как реализовывать с нуля. Читать...

20 039

⚙️ Physics-based и data-driven моделирование Статья объясняет различия между физически обоснованными моделями и моделями, основанными на данных, с примерами задач машинного обучения. Рассматривается подход к обработке данных, выбору моделей и их обучению. Читать...

20 039

🤔 Deep learning в определении адреса по описанию: опыт API Яндекс Карт На Хабре вышла статья о том, как команда API Яндекс Карт применила современные методы машинного обучения в задаче геокодирования. Новая архитектура Геокодера построена на базе active learning и contrastive learning, что позволяет быстро адаптировать инструмент для разных стран. Он способен конвертировать текстовые запросы из поисковой строки в координаты, даже если в них есть ошибки, опечатки или народные названия. Инструмент показал существенное улучшение метрик в Казахстане: +14% rel@1 и −18% has-irrel@10. Читать...

20 039

➡️ Машинное обучение: общие принципы и концепции В этой статье я рассказываю про основные концепции, типы обучения, типы задач в машинном обучении и также делаю постановку задачи машинного обучения (МО). Все это я рассказываю в своем стиле и понимании. Читать...

20 039

Совет IT-спецам на 2025 год - чаще посещайте тематические мероприятия Зачем тратить время на Ютубчик, когда можно интересно проводить время, при этом развивая свои навыки! А чтобы не гуглить афиши и не подписываться на сотню разных каналов, IT-мероприятия России уже собрали все самые топовые события в одном месте. Оффлайн и онлайн, для разных специальностей и уровней знаний. 👨🏻‍💻 В этом канале ты найдешь самые актуальные и интересные события: анонсы форумов, конференций, митапов, вебинаров, хакатонов, олимпиад и многое другое. Присоединяйся к комьюнити лучших спецов и заново влюбись в свою работу: IT мероприятия России / ITMeeting / IT events

20 039

📝 Подборка вакансий для мидлов Аналитик SQL / Data Analyst • SQL, Python, MySQL, PostgreSQL, Yandex DataLens • от 100 000 ₽ | 1+ год ML-инженер • Python, PyTorch, TensorFlow, Linux, Git, Bash • от 100 000 ₽ | 3+ года Machine Learning Engineer / Media AI Agents • Python, PyTorch, TensorFlow, Hugging Face, Docker, RESTful API, Pandas • от 2 500 до 5 000 $ | 3+ года

20 039

❓ Что такое Overfitting и как его избежать в моделях машинного обучения? Overfitting (переобучение) возникает, когда модель слишком хорошо запоминает обучающие данные, включая шум, и теряет способность обобщать информацию на новых данных. Это приводит к высокому качеству на обучающем наборе, но плохим результатам на тестовых данных. ➡️ Основные способы предотвращения Overfitting:

1. Регуляризация: • L1 и L2-регуляризация добавляют штраф к сложным моделям. • Уменьшают коэффициенты модели, предотвращая избыточное подстраивание. 2. Dropout (для нейронных сетей): • Исключение случайных нейронов на этапе обучения. 3. Снижение сложности модели: • Использование меньшего числа признаков или более простых алгоритмов. 4. Увеличение данных: • Генерация новых данных или увеличение объёма обучающей выборки.

➡️ Пример:

from sklearn.linear_model import Ridge from sklearn.model_selection import train_test_split from sklearn.datasets import load_diabetes # Загружаем данные data = load_diabetes() X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2, random_state=42) # Создаём модель с регуляризацией (Ridge) ridge = Ridge(alpha=1.0) ridge.fit(X_train, y_train) # Оцениваем качество train_score = ridge.score(X_train, y_train) test_score = ridge.score(X_test, y_test) print(f"Train Score: {train_score}, Test Score: {test_score}")

🗣️ В этом примере Ridge-регрессия с параметром регуляризации alpha=1.0 помогает предотвратить переобучение, улучшая обобщающую способность модели. 🖥 Подробнее тут

20 039

🤔 Почему DeepSeek Janus-7B — это нечто действительно невероятное В статье рассматриваются ключевые особенности новой мультимодальной модели DeepSeek Janus-7B, которая, по заявлениям, превосходит популярные AI-инструменты, такие как DALL-E 3 и Stable Diffusion. Подробно анализируются её уникальные технические решения и возможности. Читать...

20 039

⚡Внимание, ученые и исследователи в области ИИ! До 31 января 2025 года вы можете подать заявку на участие в премии Data Fusion Awards. Номинация «Научный прорыв года в ИИ» создана специально для авторов научных статей по искусственному интеллекту, опубликованных в 2024 году. 🔥Призовой фонд — 3 000 000 рублей, три победителя получат по 1 000 000 рублей каждый. Награждение пройдет 16-17 апреля в рамках конференции Data Fusion в Москве. Подробности — по ссылке.