Data Science | Machinelearning [ru]

Открыть в Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Больше

Сеть:Frontender's notes [ru]Россия33 730 Технологии и приложения6 734...

📈 Аналитический обзор Telegram-канала Data Science | Machinelearning [ru]

Канал Data Science | Machinelearning [ru] (@devsp) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 20 042 подписчиков, занимая 6 734 место в категории Технологии и приложения и 33 730 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 20 042 подписчиков.

Согласно последним данным от 15 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило -82, а за последние 24 часа — -1, при этом общий охват остаётся высоким.

Статус верификации: Не верифицирован
Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 7.88%. В первые 24 часа после публикации контент обычно набирает 4.47% реакций от общего числа подписчиков.
Охват публикаций: В среднем каждый пост получает 1 580 просмотров. В течение первых суток публикация набирает 896 просмотров.
Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 7.
Тематические интересы: Контент сосредоточен на ключевых темах, таких как llm, nvidia, контекст, openai, архитектура.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

Благодаря высокой частоте обновлений (последние данные получены 16 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

20 042

Подписчики

-124 часа

+307 дней

-8230 день

1 580

Просмотры поста

~ 89624 часа

~ 1 08548 часов

7.88%

Коэффициент вовлеченности

~ 1

Постов в день

Ads index

beta

Архив постов

20 041

🎞 Как за 6 промтов к ChatGPT создать Python скрипт, скачивающий видео с YouTube для просмотра на телевизоре через Kodi Статья рассказывает, как с помощью Python и ChatGPT создать скрипт для автоматической загрузки видео с YouTube и генерации метаданных (описаний и обложек) для интеграции с медиацентром Kodi. Читать...

20 041

Нет опыта — нет работы. Как начинающему аналитику получить свой первый оффер? 🟠пилите уникальные пет-проекты для портфолио 🟠учите не только инструменты, но и развивайте понимание того, что и зачем вы делаете 🟠много много практикуйтесь А если хочется и всю базу освоить и закрыть все три пункта выше присмотритесь к курсу-симулятору «Аналитик данных» от Simulative. Симулятором он называется неспроста — там вы будете учиться и готовиться к реальной работе на огромном количестве проектов из реального бизнеса. Постановка задачи, данные и сами проекты — все будет как на реальной работе. Поэтому пройдя Симулятор вы будете на 100% готовы врываться в работу и приносить пользу бизнесу с первых дней. А работодатель точно оценит уникальные пет-проекты в портфолио, ваше резюме и развитое аналитическое мышление. Кстати, уже скоро стартует новый поток Симулятора Узнать подробности можно по ссылке По промокоду DEVSP дарят скидку 12% до конца недели

20 041

👩‍💻 Проверка, являются ли две строки анаграммами Напишите функцию, которая принимает две строки и проверяет, являются ли они анаграммами. Анаграммы — это слова, которые содержат одинаковые буквы в одинаковом количестве, но в разном порядке. Игнорируйте регистр и пробелы. Пример:

result1 = are_anagrams("listen", "silent")
print(result1)  # Ожидаемый результат: True

result2 = are_anagrams("hello", "world")
print(result2)  # Ожидаемый результат: False

Решение задачи🔽

def are_anagrams(str1, str2): # Удаляем пробелы и приводим к одному регистру str1 = ''.join(str1.lower().split()) str2 = ''.join(str2.lower().split()) # Проверяем, равны ли отсортированные символы return sorted(str1) == sorted(str2) # Пример использования: result1 = are_anagrams("listen", "silent") print(result1) # Ожидаемый результат: True result2 = are_anagrams("hello", "world") print(result2) # Ожидаемый результат: False

20 041

Алоха дата сайнтисты! У нас тут интересный вебинар скоро будет который будет интересен тем кто хочет стать топовым спецом в области ИИ. О чем пойдет речь: ⚫ Расскажут о различиях между учебными заведениями, кем становятся их выпускники и как успешно решают современные задачи ИИ. Ты также сможешь задать все интересующие вопросы и узнать, как поступить в выбранную школу. Кому подойдет: ⚫ Тем, кто стоит перед выбором школы и программы ⚫ Специалистам, кто уже работает в IT, но хочет перейти в сферу ИИ ⚫ Для тех, кто хочет узнать, какие школы по ИИ существуют Гости на встрече: ⚫️ Дорн Юрий - кандидат технических наук и академический руководитель программы AI Masters; ⚫️ Дьяконов Александр - доктор физико-математических наук и профессор РАН, академический руководитель направления Data Science в Центральном университете. Если ты стремишься реализовать свои амбиции и вдохновляешься успехами компаний, таких как OpenAI и DeepMind, этот вебинар точно для тебя. Регайся на вебинар и удачи!

20 041

⚙️ Нейросетевой апскейлинг дома: вторая молодость для классических мультфильмов Статья рассказывает, как с помощью нейросетей улучшить качество старых видеозаписей, включая VHS и DVD. Описываются инструменты, процесс и результаты с примерами, доступные каждому без глубоких технических знаний. Читать...

20 041

Бесплатный вебинар, который поможет начать изучение Spark с нуля! 👨‍💻🛠👨🏻‍💻 Кому будет полезно? - Data-инженерам и аналитикам, работающим с большими объемами данных - Программистам, переходящим с других технологий обработки данных на Spark Не пропустите прямой эфир, где мы начнем изучение Big Data фреймворка и подробно разберем обработку графов с помощью Spark: - ключевые понятия, включая структуру графов, а также алгоритмы, доступные в библиотеках GraphX и GraphFrames - создание и обработку графов на основе различных типов данных - эффективную работу с большими графами - 2 популярных алгоритма для анализа данных: PageRank и Connected Components - интеграцию графов в проекты - практические примеры построения графов и их анализ Все участники вебинара смогут продолжить обучение на курсе «Spark Developer» с выгодной скидкой. ➡️ Регистрация: https://vk.cc/cIJ23o Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

20 041

📝 Подборка вакансий для мидлов Data Analyst со знанием 1C / SQL / Python • 1C, PostgreSQL, Python, SQL, Tableau • от 150 000 до 200 000 ₽ | от 3 лет опыта Разработчик чатбота с интеграцией LLM/специалист по Data Science • Python, Обработка естественного языка, Машинное обучение, Pandas, Анализ данных • от 300 до 450 € | Опыт не указан Data Scientist • Python, SQL, Машинное обучение, Анализ данных, Математическая статистика • Уровень дохода не указан | от 2 лет опыта

20 041

⚙️ Что такое train_test_split в Scikit-learn и зачем он используется? train_test_split — это функция из библиотеки Scikit-learn, которая используется для разделения данных на тренировочный и тестовый наборы. Это необходимо для оценки качества модели на данных, которые она не видела во время обучения. ➡️ Пример:

from sklearn.model_selection import train_test_split
import numpy as np

# Данные
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([10, 20, 30, 40, 50])

# Разделение данных (80% на обучение, 20% на тест)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Тренировочные данные:", X_train, y_train)
print("Тестовые данные:", X_test, y_test)

🗣️ В этом примере данные разделяются на тренировочный и тестовый наборы в соотношении 80/20. Это позволяет модели обучаться на одной части данных и проверять точность на другой, что предотвращает переобучение.

🖥 Подробнее тут

20 041

🤔 До 5 % новых статей «Википедии» содержат тексты от ИИ Учёные из Принстона проанализировали новые статьи в «Википедии» и выяснили, что ИИ уже активно пишет энциклопедию. Около 5% англоязычных материалов содержат значительные объёмы текста, сгенерированного машинами. Читать...

20 041

Siam ML Hack – хакатон по применению методов машинного обучения в обработке и интерпретации гидродинамических исследований скважин. Хотите попробовать себя в нефтесервисной отрасли и поработать с реальными данными? Регистрируйтесь на соревнование до 27 февраля: https://cnrlink.com/siammlhackdevsp Организатор — нефтесервисная компания «СИАМ». Специализация — гидродинамические исследования скважин и пластов, поставка исследовательского оборудования, разработка программного обеспечения. Зачем участвовать? Нефтяная отрасль обладает большим потенциалом для применения методов машинного обучения в анализе данных. В этом секторе сконцентрированы огромные объемы информации, что открывает широкие возможности для автоматизации и оптимизации процессов. Гидродинамические исследования — небольшая, но важная часть нефтяной промышленности. Здесь используются данные о давлении, температуре, характеристиках скважин и другие свойства, которые служат основой для дальнейшего анализа. Задача ML-разработчиков – выделить ключевые паттерны, аномалии и границы полезных интервалов. В процессе вы научитесь понимать специфику данных и познакомитесь с реальными задачами нефтесервисной компании. Треки хакатона 1️⃣ Обнаружение бинарных характеристик в данных. Необходимо разработать модель для распознавания ключевых паттернов и их характеристик в дискретных данных, отображаемых на специализированном графике. 2️⃣ Выделение полезных данных для анализа. Цель — разработать алгоритм, который выявляет самые информативные участки временных рядов и четко определяет их начало и конец, чтобы в дальнейшем проводить более глубокий анализ. Почему это интересно? 🔹 Призовой фонд – 1 000 000 рублей. 🔹 Работа с реальными массивами инженерных данных, которые нефтесервисные компании используют для принятия решений. 🔹 Получение полезных навыков: обработка шума, разработка устойчивых моделей и решение задач на стыке инженерии и науки. 🔹 Получение опыта работы с инженерами-нефтяниками и экспертами компании «СИАМ» Таймлайн ▪️ 22 января – 27 февраля. Регистрация. ▪️ 21 февраля. Обзор задач, ответы на вопросы на митапе. ▪️ 28 февраля. Старт работы над решениями. ▪️ 19 марта. Награждение победителей. Примите участие в Siam ML Hack, регистрация открыта до 27 февраля: https://cnrlink.com/siammlhackdevsp Реклама. ООО "Сиам Мастер". ИНН 7017043407. erid: 2W5zFJpk4Fa

20 041

⚙️ Пишем свою Diffusion модель с нуля Статья предлагает разобраться в устройстве Diffusion моделей, их математике и принципах работы. Автор делится простыми объяснениями, примерами кода и результатами генерации изображений на собственной модели. Читать...

20 041

Хотите научиться решать одну из популярных задач ML-инженера? Кредитный скоринг, или возможность определять, сможет ли человек вовремя вернуть кредит – одна из задач, с которой часто сталкиваются в работе. Приходите на бесплатный вебинар , где Савелий Батурин, Senior ML-Engineer в Postgres Professional и преподаватель курса по ML школы Simulative в прямом эфире покажет как построить модель кредитного скоринга на Kaggle. Что будем делать на вебинаре: 🟠Вникнем в задачу классификации и кредитного скоринга 🟠Разберем имеющийся датасет 🟠Построим пайплайны обработки числовых и категориальных признаков 🟠Обучим и подберем параметры ML модели-классификатора 🟠Проведем расчет и анализ метрик на основе результатов работы модели 🕗Встречаемся 19 февраля 19:00 по мск Вебинар будет интересен как новичкам, так и уже опытным специалистам Зарегистрироваться на бесплатный вебинар

20 041

⚙️ Как устроена Лаборатория Инноваций СИБУРа и зачем она нужна Как применять ИИ и цифровизацию в гигантской промышленной компании с десятками заводов? Узнайте, как СИБУР реализует более 30 успешных кейсов и работает с сотнями гипотез в Лаборатории ИИ. Читать...

20 041

🔥 Самые интересные статьи за последние дни: • Что читали на Хабре в 2024 году: анализ статей с Node.js, Google Sheets и каплей ChatGPT • Поднимаем в облаке расшифровку речи в текст с помощью нейросетей. VPS на пределе возможностей • Стоит ли ChatGPT о1 Pro своих денег? Небольшой тест-драйв модели • Возможности LLM и RAG на примере реализации бота для поддержки клиентов • Гетерогенные вычисления: проектирование и разработка вычислительной системы для нейросетей

20 041

👩‍💻 Выявление тренда в временном ряде Напишите Python-скрипт, который принимает временной ряд в виде pandas.Series и определяет тренд: восходящий, нисходящий или отсутствие тренда. Решение должно быть простым и лаконичным. ➡️ Пример:

import pandas as pd
import numpy as np

# Генерация данных
date_range = pd.date_range(start="2020-01-01", periods=12, freq="M")
values = np.linspace(10, 20, 12) + np.random.normal(0, 0.5, 12)
time_series = pd.Series(data=values, index=date_range)

result = detect_trend(time_series)
print(result)  # Ожидаемый результат: "Восходящий тренд"

Решение задачи🔽

import numpy as np def detect_trend(series): x = np.arange(len(series)) slope = np.polyfit(x, series.values, 1)[0] if slope > 0: return "Восходящий тренд" elif slope < 0: return "Нисходящий тренд" else: return "Тренд отсутствует" # Пример использования import pandas as pd import numpy as np date_range = pd.date_range(start="2020-01-01", periods=12, freq="M") values = np.linspace(10, 20, 12) + np.random.normal(0, 0.5, 12) time_series = pd.Series(data=values, index=date_range) print(detect_trend(time_series))

20 041

➡️ Добро пожаловать в CAMELoT В статье рассказывается о новой архитектуре CAMELoT, которая помогает большим языковым моделям обрабатывать длинные последовательности, не требуя повторного обучения. Она использует ассоциативную память для улучшения производительности. Читать...

20 041

🔎 Подборка зарубежных вакансий AI Agent Engineer 🟢ElizaOS, AI, REST API, TypeScript, Python 🟢Уровень дохода не указан | 1–3 года опыта AI Engineer 🟢Python, FastAPI, MongoDB, GitLab CI/CD, Kubernetes, AWS, Azure, GCP 🟢Уровень дохода не указан | 1–3 года опыта Database Administrator 🟢PostgreSQL, MySQL, Zabbix, Prometheus, Linux, BigQuery, MongoDB, ClickHouse 🟢Уровень дохода не указан | более 6 лет опыта

20 041

🚀 Не останавливайся на «оно работает» Фича готова, тесты зелёные, код ревью пройдено. Кажется, что можно расслабиться? 👉 Совет: потрать ещё 10 минут на вопрос: «Можно ли сделать это лучше?». Оптимизируй, убери лишнее, подумай о будущем расширении. Хороший код — это не просто рабочий код, а код, который легко поддерживать.

20 041

⚙️ Автоматизация верификации кодовых датасетов подрядчиков с помощью LLM: снизили брак на 40% и сократили стоимость на 60% Статья рассказывает, как автоматизация на основе LLM ускорила верификацию данных и сократила ошибки в производственной цепочке. Узнаете, как это помогло заказчику сэкономить ресурсы и время. Читать...

20 041

📕Открытый урок по плану выполнения запросов в PostgreSQL для разработчиков баз данных, аналитиков данных и инженеров. На открытом уроке 18 февраля в 20:00 мск мы погрузимся в тему анализа планов выполнения запросов. 📗В результате вы: - Разберётесь, как читать и интерпретировать планы выполнения запросов, находить и устранять "узкие места" в запросах; - Узнаете лучшие практики оптимизации запросов; - Получите навыки анализа производительности запросов и их улучшения в реальных системах. Анастасия Чекушина — опытный разработчик и преподаватель, .net developer + lead. 👉 Регистрируйтесь прямо сейчас, чтобы не пропустить мероприятие: https://otus.pw/TDCg/ 📙 Все участники открытого урока получат скидку на курс "Базы данных" Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2Vtzqv6mi45