Data Science | Machinelearning [ru]

Открыть в Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Больше

Сеть:Frontender's notes [ru]Россия33 727 Технологии и приложения6 729...

📈 Аналитический обзор Telegram-канала Data Science | Machinelearning [ru]

Канал Data Science | Machinelearning [ru] (@devsp) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 20 047 подписчиков, занимая 6 729 место в категории Технологии и приложения и 33 727 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 20 047 подписчиков.

Согласно последним данным от 13 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило -68, а за последние 24 часа — -19, при этом общий охват остаётся высоким.

Статус верификации: Не верифицирован
Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 7.54%. В первые 24 часа после публикации контент обычно набирает 4.58% реакций от общего числа подписчиков.
Охват публикаций: В среднем каждый пост получает 1 513 просмотров. В течение первых суток публикация набирает 919 просмотров.
Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 7.
Тематические интересы: Контент сосредоточен на ключевых темах, таких как llm, nvidia, контекст, openai, архитектура.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

Благодаря высокой частоте обновлений (последние данные получены 14 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

20 047

Подписчики

-1924 часа

+337 дней

-6830 день

1 513

Просмотры поста

~ 91924 часа

~ 1 10748 часов

7.54%

Коэффициент вовлеченности

~ 1

Постов в день

Ads index

beta

Архив постов

20 047

💡 77% ИТ-руководителей уже знают, что такое Data Lakehouse. А вы? 🚀 TAdviser и DIS Group выпустили первое трендвотчинг-исследование рынка Data Lakehouse в России. 💧Data Lakehouse (озеро-хранилище данных) - это современная архитектура данных, объединяющая преимущества Data Lake (гибкость хранения любых типов данных) и Data Warehouse (высокая производительность и управляемость) Вот ключевые цифры: ✅ 77% ИТ-руководителей знакомы с концепцией Data Lakehouse ✅ 41% компаний уже мигрировали с классического Data Warehouse на Lakehouse ✅ 85% используют Data Lakehouse как основу для проектов ИИ 🔍 В исследовании: – Как меняется подход к данным в России – Зачем компаниям Lakehouse, а не просто DWH – Как Data Lakehouse становится базой для AI-проектов – Что говорят CIO крупнейших организаций 📈 Почему это важно?Data Lakehouse — это не просто тренд, а ответ на вызовы хранения, скорости доступа и масштабирования данных в бизнесе. 👉🏻 Скачать полное исследование по ссылке #реклама О рекламодателе

20 047

⚙️ Как все рынки мира оказались уязвимы конкуренции с любым умным айтишником История о том, как в текущем моменте истории, по сути любой разработчик может в одиночку задизраптить любой вертикальный рынок и даже отрасль. Читать...

20 047

👩‍💻 Предсказание уникальности пользователя У вас есть список действий пользователей на платформе. Каждое действие представлено словарём с полями "user_id", "action", и "timestamp". Нужно реализовать функцию, которая определит, является ли пользователь "уникальным". Уникальный пользователь — это тот, кто:

• совершал более 3 действий, • все действия происходили в разные дни, • не совершал одинаковые действия дважды.

Верните список user_id, соответствующих этому критерию. Решение задачи🔽

from collections import defaultdict from datetime import datetime def find_unique_users(logs): activity = defaultdict(lambda: {"actions": set(), "days": set(), "count": 0}) for log in logs: user = log["user_id"] action = log["action"] date = datetime.fromisoformat(log["timestamp"]).date() activity[user]["actions"].add(action) activity[user]["days"].add(date) activity[user]["count"] += 1 result = [] for user, data in activity.items(): if ( data["count"] > 3 and len(data["days"]) == data["count"] and len(data["actions"]) == data["count"] ): result.append(user) return result # Пример использования logs = [ {"user_id": 1, "action": "login", "timestamp": "2023-05-01T10:00:00"}, {"user_id": 1, "action": "view", "timestamp": "2023-05-02T11:00:00"}, {"user_id": 1, "action": "click", "timestamp": "2023-05-03T12:00:00"}, {"user_id": 1, "action": "logout", "timestamp": "2023-05-04T13:00:00"}, {"user_id": 2, "action": "login", "timestamp": "2023-05-01T10:00:00"}, {"user_id": 2, "action": "login", "timestamp": "2023-05-01T11:00:00"}, {"user_id": 2, "action": "click", "timestamp": "2023-05-01T12:00:00"}, ] print(find_unique_users(logs)) # Ожидаемый результат: [1]

20 047

⚙️ Где ИИ врёт и как с этим жить — мой гайд после фейлов Автор копает, почему ИИ фантазирует, как это мешает в работе и чем тут помогут промпты. В финале — гайд, как писать запросы без сюрпризов. Читать...

20 047

Открытые онлайн-уроки в Центральном университете! 🎓 Тебя ждут лекции от ведущих преподавателей Центрального университета, а также возможность попасть на буткемп, сертификат о прохождении и тиражный мерч. 💻 Последняя лекция 9 июля — можно подключиться в любой момент. Не упусти шанс — регистрируйся уже сейчас! Реклама. АНО ВО "Центральный университет", ИНН 7743418023, erid:2RanynR6Nmo

20 047

⚙️ Как алгоритм Recovering Difference Softmax (RDS) делает рекомендации и уведомления точнее и эффективнее RDS — это про то, как машинке выбрать лучший вариант уведомления или карточки, чтобы ты вернулся. Объясняем, как он усиливает ML-модели и растит вовлечённость пользователей. Читать...

20 047

⛓️ Обновление зависимости — это маленький рефакторинг Обновил библиотеку, всё сломалось, и теперь ты в дебаге на два часа? Классика. 👉 Совет: относись к обновлению зависимостей как к отдельной, полноценной задаче. Тесты, чеклисты, небольшие коммиты. Чем меньше сюрпризов ты оставишь себе на проде — тем крепче будешь спать.

20 047

⚙️ Как обойти детекторы текста, сгенерированного ИИ Автор исследует, почему нейросети пока плохо отличают ИИ-тексты от человеческих, и делится, что реально работает (или не очень), если вы вдруг решите их «перехитрить». Читать...

20 047

Из окон офисов VK — самые красивые закаты. А в самих офисах обитают самые любимые коллеги! Ребята не только делают сервисы VK быстрее и удобнее, но и любят делиться знаниями. Совсем скоро они проведут открытый Java AI-митап и расскажут о том, как мы масштабируем процессы, а ещё поделятся фишками, которые стоят за сервисами VK. Откликайтесь, если откликается!

20 047

🔥 Самые интересные статьи за последние дни: • Построение базы знаний компании и поиска документов на LLM и RAG • Что побуждает LLM врать и как этого избежать в своих продуктах • Ломаем капчу 4Chan • На чём учатся современные модели машинного перевода: опыт команды Яндекс Переводчика • Gemini вырывается вперед, Китай спамит моделями, в Minecraft запустили AI-агентов: главные события ноября в сфере ИИ

20 047

👩‍💻 Задачка по Python Создайте Python-скрипт, который читает большой CSV-файл построчно, фильтрует строки по заданному критерию и подсчитывает агрегированные данные на основе указанного столбца. Скрипт должен эффективно обрабатывать файл, используя потоковое чтение (без загрузки файла целиком в память) и выводить итоговую статистику в консоль. ➡️ Пример: • python process_data.py data.csv age 30 — фильтрует строки, где значение в столбце age больше 30, и подсчитывает общее количество таких записей и среднее значение в другом числовом столбце, например, salary. Решение задачи ⬇️

import csv import sys def process_large_csv(file_path, filter_column, threshold, aggregate_column): count = 0 total_sum = 0.0 with open(file_path, 'r', encoding='utf-8') as file: reader = csv.DictReader(file) for row in reader: # Преобразование значений для фильтрации и агрегации try: filter_value = float(row[filter_column]) aggregate_value = float(row[aggregate_column]) except ValueError: continue # Пропускаем строки с некорректными данными # Фильтрация строк по заданному условию if filter_value > threshold: count += 1 total_sum += aggregate_value # Вывод итоговой статистики if count > 0: average = total_sum / count print(f"Обработано записей: {count}") print(f"Среднее значение {aggregate_column} для записей, где {filter_column} > {threshold}: {average:.2f}") else: print("Записи, соответствующие условиям фильтрации, не найдены.") if __name__ == "__main__": if len(sys.argv) < 5: print("Использование: python process_data.py <file_path> <filter_column> <threshold> <aggregate_column>") sys.exit(1) file_path = sys.argv[1] filter_column = sys.argv[2] threshold = float(sys.argv[3]) aggregate_column = sys.argv[4] process_large_csv(file_path, filter_column, threshold, aggregate_column)

20 047

⚙️ Код, железо, стратегия: в чем секрет победителей ML-соревнований? Разбор отчёта о соревнованиях по ML за 2024 год: кто победил, как и почему. Без мотивационных цитат — только конкретные приёмы, модели и стратегии, которые реально приносят $22 млн. Читать...

20 047

👀 Stack Overflow умирает? Как ИИ вытесняет живые сообщества разработчиков Разбираемся, почему Stack Overflow теряет аудиторию: виноваты ли ИИ, UX или жадность? Плюс — что делает администрация и что ждёт разработчиков в пост-SO эпоху. Читать...

20 047

Работаете с ML? 19 июля в Москве пройдет Turbo ML Conf от группы Т-Технологий. Приходите за опытом и знаниями, которые обычно остаются внутри команд. Полезно тем, кто давно работает с AI-продуктами. Узнаете больше про NLP, Research, RnD, LLM Applications & Copilots, RecSys, CV, Speech от экспертов Т-Банка, Сбера, Яндекса и других компаний. Будет много общения, игр, активностей и даже создание комикса. Участие бесплатное. А подробности тут

20 047

🧠 Что делает train_test_split в ML и зачем он нужен Функция train_test_split() из библиотеки sklearn разбивает данные на обучающую и тестовую выборки. Это важно, чтобы проверить, как хорошо модель работает на невидимых данных. ➡️ Пример:

from sklearn.model_selection import train_test_split

X = [[1], [2], [3], [4], [5]]
y = [0, 0, 1, 1, 1]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=42)

print("Обучение:", X_train)
print("Тест:", X_test)

🗣️ Почему важно: • Модель не должна учиться на тех же данных, на которых её оценивают • test_size указывает, какой процент данных пойдёт на тест • random_state нужен для воспроизводимости Это один из самых базовых, но обязательных шагов в любом ML-проекте

🖥 Подробнее тут

20 047

⚙️ Нейро-дайджест: ключевые события мира AI за 12–19 мая 2025 В этом выпуске: Codex от OpenAI, GPT‑4.1, токсичный Grok, генератор от Tencent и агент DeepMind, который сам изобретает алгоритмы. ИИ неделя на максималках. Читать...

20 047

⚙️ Что такое токенизация в машинном обучении? Токенизация — это процесс разбиения текста на отдельные части: слова, подслова или символы. Часто используется на этапе предобработки текста для NLP-моделей. Каждый токен — это минимальная смысловая единица, которую модель будет анализировать. ➡️ Пример:

from sklearn.feature_extraction.text import CountVectorizer

texts = ["Я люблю машинное обучение", "Обучение — это интересно"]

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)

print(vectorizer.get_feature_names_out())
print(X.toarray())

# Вывод:
['интересно' 'люблю' 'машинное' 'обучение' 'это' 'я']
[[0 1 1 1 0 1]
 [1 0 0 1 1 0]]

🗣️ Токенизация превращает текст в числовую матрицу, понятную модели. Это первый шаг в обработке текста перед обучением моделей на естественном языке.

🖥 Подробнее тут

20 047

📈 Подборка статей для вашей карьеры • Мои Red-Flags при устройстве в IT-компании: Как не стать гребцом. Часть 2 • Как строить карьеру в корпорации • История: работа в чешском Red Hat • Циничные заметки о карьере в IT от «гейткипера» • Моя петиция EB-1A на грин-карту талантов, одобренная с первой попытки

20 047

⚙️ Что у меня за распределение Василий из Т-Банка объясняет, почему классические критерии согласия не всегда подходят для симуляции колл-центра. Покажет подводные камни и как не влететь в ловушку распределений. Читать...