Data Science | Machinelearning [ru]

Відкрити в Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Сітка:Frontender's notes [ru]Росія33 730 Технології та додатки6 734...

📈 Аналітичний огляд Telegram-каналу Data Science | Machinelearning [ru]

Канал Data Science | Machinelearning [ru] (@devsp) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 20 042 підписників, посідаючи 6 734 місце в категорії Технології та додатки та 33 730 місце у регіоні Росія.

📊 Показники аудиторії та динаміка

З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 20 042 підписників.

За останніми даними від 15 червня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на -82, а за останні 24 години на -1, загальне охоплення залишається високим.

Статус верифікації: Не верифікований
Рівень залученості (ER): Середній показник залученості аудиторії становить 7.88%. Протягом перших 24 годин після публікації контент зазвичай збирає 4.47% реакцій від загальної кількості підписників.
Охоплення публікацій: В середньому кожен допис отримує 1 580 переглядів. Протягом першої доби публікація в середньому набирає 896 переглядів.
Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 7.
Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як llm, nvidia, контекст, openai, архитектура.

📝 Опис та контентна політика

Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

Завдяки високій частоті оновлень (останні дані отримано 16 червня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.

20 042

Підписники

-124 години

+307 днів

-8230 день

1 580

Перегляди допису

~ 89624 години

~ 1 08548 годин

7.88%

Коефіцієнт залучення

~ 1

Дописів на день

Ads index

beta

Архів дописів

20 042

👩‍💻 Как работает __name__ == "__main__" в Python? Конструкция if __name__ == "__main__" определяет, выполняется ли скрипт как основная программа или импортируется в качестве модуля. Это позволяет запускать код только при непосредственном запуске скрипта, исключая его выполнение при импорте. ➡️ Пример:

def greet():
    print("Hello from greet!")

if __name__ == "__main__":
    greet()  # Этот вызов выполнится только при запуске скрипта напрямую

🗣 В этом примере greet() будет вызвана, если файл запускается напрямую. Если скрипт импортируется как модуль, greet() не вызовется, сохраняя модульную структуру кода.

🖥 Подробнее тут

20 042

✔️ Простой и быстрый тест LLM для прототипа: сравниваем 16 open-source-моделей на запросе с разной температурой В статье рассказывается, как быстро протестировать 16 LLM для создания текстовых прототипов, даже если вы не в теме ML. Берём несколько моделей, сравниваем результаты, оцениваем, подходит ли под задачу. Читать...

20 042

Приглашаем на конференцию Data Fusion 2025: ведущие специалисты в сфере науки, бизнеса и государства поделятся прикладными кейсами применения ML и DS и своим взглядом на будущее сферы на 70+ сессиях. 📌 Что в программе? — Новые подходы в ML — Кейс-стади от специалистов из различных индустрий: финтех, медицина, промышленность — Data Science для бизнеса — как применять ИИ для роста прибыли — Кейс-сессии и детальный разбор неочевидных проблем в ML 📅 Дата: 16-17 апреля 2025 📍 Место: Москва, технологический кластер «Ломоносов» 🚀 Бесплатная регистрация уже открыта: https://data-fusion.ru/ Ваша безопасность для нас приоритет, поэтому для участия в конференции мы просим заполнить развернутую форму. Благодарим за понимание! 🙌 — *ML — машинное обучение *Data science — наука о методах анализа данных

20 042

📝 Подборка вакансий для сеньоров Senior Data Analyst • Python, SQL, Tableau, Power BI • Уровень дохода не указан | 3–5 лет опыта Senior Data scientist (Recsys) • Python, PyTorch, Машинное обучение, Deep Learning • Уровень дохода не указан | Опыт не указан Senior Big Data Engineer • ClickHouse, Apache Hadoop, Apache Spark, Apache Kafka • Уровень дохода не указан | Опыт не указан

20 042

📈 Подборка статей для вашей карьеры • В какой момент профессия программиста свернула не туда? • Офис Intel в Израиле отменил бесплатный кофе • Войти в IT – в 37 и с дипломом филфака • Путь к мастерству: Как стать успешным разработчиком • Галера от HH или джуны по-дешевке

20 042

➡️ ИИ в логистике: отслеживаем транспортные средства на производственной территории с помощью нейросети В статье описан путь от пет-проекта до системы для трекинга транспорта: нейросети, компьютерное зрение и инструменты, позволяющие «видеть» и анализировать производственные процессы. Читать...

20 042

Обучение моделей занимает слишком много времени? Локальные ресурсы перегружены? На новую видеокарту не хватает денег? immers.cloud — это облачный GPU сервис, предоставляющий доступ к мощным видеокартам для самых различных задач. 💰 Экономия: тарифы от 23 рублей/час, оплата только за фактическое время использования. ⚡️ Быстрый старт: видеокарты и серверы готовы к работе за пару минут. 📈 Гибкость и масштабируемость: 11 видеокарт на выбор, быстрый старт и масштабирование 🔧 Удобство: готовые образы для ML задач, чтобы не тратить время на настройку 🎁 Подготовили приятный бонус для тебя: +10% к пополнению баланса

20 042

👀 Распознавание ж/д пикетных столбиков по фотографиям с беспилотника на основе PyTorch и YOLOv5 Статья раскрывает процесс использования БПЛА и нейросетей для точного распознавания объектов на ортофотопланах. Описаны этапы подготовки данных, разметки и обучения сети на примере поиска пикетных столбиков на ж/д перегонах. Исходный код доступен на GitHub. Читать...

20 042

👩‍💻 Задачка по Python Создайте Python-скрипт, который читает большой CSV-файл построчно, фильтрует строки по заданному критерию и подсчитывает агрегированные данные на основе указанного столбца. Скрипт должен эффективно обрабатывать файл, используя потоковое чтение (без загрузки файла целиком в память) и выводить итоговую статистику в консоль. ➡️ Пример: • python process_data.py data.csv age 30 — фильтрует строки, где значение в столбце age больше 30, и подсчитывает общее количество таких записей и среднее значение в другом числовом столбце, например, salary. Решение задачи ⬇️

import csv import sys def process_large_csv(file_path, filter_column, threshold, aggregate_column): count = 0 total_sum = 0.0 with open(file_path, 'r', encoding='utf-8') as file: reader = csv.DictReader(file) for row in reader: # Преобразование значений для фильтрации и агрегации try: filter_value = float(row[filter_column]) aggregate_value = float(row[aggregate_column]) except ValueError: continue # Пропускаем строки с некорректными данными # Фильтрация строк по заданному условию if filter_value > threshold: count += 1 total_sum += aggregate_value # Вывод итоговой статистики if count > 0: average = total_sum / count print(f"Обработано записей: {count}") print(f"Среднее значение {aggregate_column} для записей, где {filter_column} > {threshold}: {average:.2f}") else: print("Записи, соответствующие условиям фильтрации, не найдены.") if __name__ == "__main__": if len(sys.argv) < 5: print("Использование: python process_data.py <file_path> <filter_column> <threshold> <aggregate_column>") sys.exit(1) file_path = sys.argv[1] filter_column = sys.argv[2] threshold = float(sys.argv[3]) aggregate_column = sys.argv[4] process_large_csv(file_path, filter_column, threshold, aggregate_column)

20 042

🤖 42 секунды и 5 запросов: как взламывают генеративные ИИ-модели Ты знал, что злоумышленникам для взлома генеративных ИИ достаточно всего 42 секунды и пяти запросов? В этой статье мы разберем, как это происходит, какие уязвимости существуют и как защитить свои системы от подобных атак. Читать...

20 042

📍Геоданные и временные ряды в Spark: хаос или порядок? GPS-координаты, карты, временные метки — данные есть, но как с ними работать? Стандартные методы тормозят, запросы громоздкие, аналитика требует вечности. 💡Есть решение. На открытом вебинаре «Обработка геопространственных и временных данных на Spark» 11 марта в 20:00 (мск): - Разберём пространственные данные: координаты, маршруты, карты - Научимся анализировать временные ряды с трендами и предсказаниями - Проанализируем реальные кейсы: GPS-данные, сенсоры IoT, анализ движения 📢 Спикер Вадим Заигрин — опытный разработчик, Data Engineer и Data Scientist. Team Lead команд инженеров данных на разных проектах. Все участники получат скидку на большое обучение «Spark Developer». ➡️ Регистрируйтесь, чтобы не пропустить: https://vk.cc/cJipaN Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

20 042

📝 Подборка вакансий для мидлов Data Engineer • SQL, Python, bash, Airflow, NiFi, PostgreSQL, GreenPlum, Clickhouse, Redis, Kafka, Git, Linux • Уровень дохода не указан | Опыт работы: 3–6 лет Data аналитик (Виртуальные ассистенты) • SQL, Big Data, Python, библиотеки для анализа данных • Уровень дохода не указан | Опыт работы: 1–3 года Data Scientist (Скоринг/моделирование) • Python, SQL, Hadoop, методы машинного обучения • Уровень дохода не указан | Опыт работы: 1–3 года

20 042

❓ Как обработать пропущенные данные? Пропущенные данные — частая проблема в Data Science, особенно в реальных данных. Чтобы правильно обработать такие данные, можно использовать стратегии заполнения пропусков (например, средним значением или медианой) или удалить строки/столбцы с пропусками. ➡️ Пример:

import pandas as pd
import numpy as np

data = {'A': [1, 2, np.nan, 4], 'B': [5, np.nan, 7, 8]}
df = pd.DataFrame(data)

# Заполнение пропусков средним значением
df['A'].fillna(df['A'].mean(), inplace=True)

print(df)

🗣️ Пропущенные данные могут искажать результаты анализа, поэтому их нужно обрабатывать перед моделированием.

20 042

🤔 В чём различия между Data Science, машинным обучением, ИИ, глубоким обучением и Data Mining Эта статья поможет вам не только понять, какие исследования и опыт позволяют извлекать знания из данных, чтобы делать машины умнее, но и как конкретно это происходит. Читать...

20 042

💥 Почему ансамблирование — это must-have в ML? Даже лучшие ML-модели не идеальны. Но что если можно усилить их точность, объединив несколько алгоритмов? На открытом уроке разберём популярные методы ансамблирования: - Бэггинг снижает дисперсию модели, делая её устойчивее - Градиентный бустинг усиливает предсказания, обучая модели на ошибках Вы узнаете, как эти методы повышают точность прогнозов, и разберёте их на практике. 📅 Встречаемся онлайн 17 марта в 18:00 мск. Открытый урок пройдёт в преддверии старта курса «Специализация Machine Learning», а все участники получат скидку на обучение. ➡️ Ссылка для регистрации: https://vk.cc/cJip31 Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

20 042

🔎 Подборка вакансий для джунов Системный аналитик junior 🟢UML, BPMN, API, MongoDB 🟢от 60 000 ₽ | 1–3 года Junior Data Scientist \ Аналитик 🟢SQL, PostgreSQL, MariaDB, ClickHouse, Python, Pandas, Git 🟢от 50 000 до 60 000 ₽ | 1–3 года Data-аналитик в области временных рядов (Junior) 🟢Python, Pandas, NumPy, SciPy, Matplotlib, Seaborn, SQL 🟢от 247 000 ₽ | 1–3 года

20 042

👩‍💻 Задачка по Python Создайте Python-приложение, которое принимает набор данных с несколькими признаками и определяет наиболее важные признаки для предсказания целевой переменной с помощью модели RandomForest. Программа должна выводить результаты в виде списка признаков, отсортированных по важности. ➡️ Пример: • python app.py data.csv — выводит важные признаки. Решение задачи ⬇️

import pandas as pd from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import train_test_split def feature_importance(file): data = pd.read_csv(file) X = data.drop(columns=['target']) y = data['target'] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) model = RandomForestClassifier() model.fit(X_train, y_train) importance = pd.Series(model.feature_importances_, index=X.columns).sort_values(ascending=False) print("Важные признаки:\n", importance) if __name__ == "__main__": import sys if len(sys.argv) != 2: print("Использование: python app.py <файл.csv>") else: feature_importance(sys.argv[1])

20 042

☁️ Как обучить ИИ в облаке Сегодня мы хотим поделиться с вами нашим успешным кейсом, который наглядно демонстрирует, как облачные технологии могут значительно улучшить и ускорить процессы разработки и обучения ИИ. Читать...

20 042

Наши друзья из ecom.tech запустили видео-подкаст “AI в действии”. В нем они говорят о свежих новостях в мире DS, о трендах и о том, как наука может найти свое применение в бизнесе. Ведущий подкаста — Петр Лукьянченко, руководитель ML-департамента в eсom.teсh. Уже опубликовали два эпизода: в первом гостем был Алексей Масютин, руководитель Центра Искусственного интеллекта НИУ ВШЭ. Порассуждали о том, как сегодня начинать свой путь в data science, что представляет из себя DS в крупных IT-компаниях и даже успели немного погрузиться в специфику разработки и развития мультимодальных архитектур. Гостем второго выпуска стал Юрий Дорн, руководитель программы AI Masters в Институте ИИ МГУ. В этой части говорили о том, где заканчивается теория и начинается практика в DS. Когда нужно перестать читать книги и начать писать код? Что нужно знать, чтобы быть классным специалистом? А может быть, теория переоценена и нужно сразу идти соревноваться на kaggle? Постарались сформулировать набор советов для тех, кто думает, с какой стороны подступиться к изучению Data Science и как правильно найти учебный материал, подходящий под конкретную ситуацию. Первый эпизод: 🙂 Смотреть 🙂 Слушать Второй эпизод: 🙂 Смотреть 🙂 Слушать Реклама. ООО «Умное пространство», ИНН: 7811554010. Ерид: 2W5zFJ36FGU

20 042

🔝 Самые интересные статьи за последние дни: • Как я с помощью нейросетей обогнала инфляцию [4 кейса, скрины, никакой рекламы] • Сравнение роста заработных плат ректората МГТУ им. Н.Э. Баумана и остальных сотрудников • Pydantic 2: Полное руководство для Python-разработчиков — от основ до продвинутых техник • SOLID на котиках • Как переподписка по CPU в облаке снижает производительность Arenadata DB: результаты, которых не ждёшь