ru
Feedback
Data Science | Machinelearning [ru]

Data Science | Machinelearning [ru]

Открыть в Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Больше

📈 Аналитический обзор Telegram-канала Data Science | Machinelearning [ru]

Канал Data Science | Machinelearning [ru] (@devsp) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 20 041 подписчиков, занимая 6 738 место в категории Технологии и приложения и 33 739 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 20 041 подписчиков.

Согласно последним данным от 14 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило -87, а за последние 24 часа — -13, при этом общий охват остаётся высоким.

  • Статус верификации: Не верифицирован
  • Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 7.71%. В первые 24 часа после публикации контент обычно набирает 4.62% реакций от общего числа подписчиков.
  • Охват публикаций: В среднем каждый пост получает 1 546 просмотров. В течение первых суток публикация набирает 926 просмотров.
  • Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 7.
  • Тематические интересы: Контент сосредоточен на ключевых темах, таких как llm, nvidia, контекст, openai, архитектура.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Благодаря высокой частоте обновлений (последние данные получены 15 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

20 041
Подписчики
-1324 часа
+257 дней
-8730 день
Архив постов
🕳 Не избегай «странных» багов — изучай их до конца Столкнулся с багом, который исчезает после перезапуска? Или ведёт себя непоследовательно? Проще списать на случайность. Но это ловушка. 👉 Совет: такие баги — твои лучшие учителя. Разбери их до основания, даже если потратишь на это день. Ты прокачаешься в логике, научишься работать с пограничными случаями и будешь увереннее в своём коде.

✔️ Простой и быстрый тест LLM для прототипа: сравниваем 16 open-source-моделей на запросе с разной температурой В статье рассказывается, как быстро протестировать 16 LLM для создания текстовых прототипов, даже если вы не в теме ML. Берём несколько моделей, сравниваем результаты, оцениваем, подходит ли под задачу. Читать...

👀 Распознавание ж/д пикетных столбиков по фотографиям с беспилотника на основе PyTorch и YOLOv5 Статья раскрывает процесс использования БПЛА и нейросетей для точного распознавания объектов на ортофотопланах. Описаны этапы подготовки данных, разметки и обучения сети на примере поиска пикетных столбиков на ж/д перегонах. Исходный код доступен на GitHub. Читать...

👩‍💻 Как работает __name__ == "__main__" в Python? Конструкция if __name__ == "__main__" определяет, выполняется ли скрипт как основная программа или импортируется в качестве модуля. Это позволяет запускать код только при непосредственном запуске скрипта, исключая его выполнение при импорте. ➡️ Пример:
def greet():
    print("Hello from greet!")

if __name__ == "__main__":
    greet()  # Этот вызов выполнится только при запуске скрипта напрямую
🗣 В этом примере greet() будет вызвана, если файл запускается напрямую. Если скрипт импортируется как модуль, greet() не вызовется, сохраняя модульную структуру кода.
🖥 Подробнее тут

⚙️ Под микроскопом: AI Product Hack Статья анализирует результаты AI Product Hack, рассматривая спорное судейство и кейс компании Raft по мониторингу токсичного контента в AI-продуктах. Исследуются риски и последствия неконтролируемого поведения LLM в реальных проектах. Читать...

Инженеры, которые участвуют в разработке платформ, — это для вас Есть планы на 23 апреля? Освободите вечер для Platform Engin
Инженеры, которые участвуют в разработке платформ, — это для вас Есть планы на 23 апреля? Освободите вечер для Platform Engineering Night — встречи с профессионалами, которые создают инженерные платформы. В программе — Productivity & AI: — Кейсы по автоматизации процессов и повышению продуктивности платформенных команд. — Ассистенты для кодинга и Observability. — Решения для безопасности и аналитики. А еще в программе — зона демонстрации AI-решений в платформах и нетворкинг. Встреча пройдет 23 апреля в 19:00 в T-Space по адресу Москва, Грузинский Вал, 7. Трансляция тоже будет. Мероприятие бесплатное, торопитесь занять место

Высшее на новом уровне: онлайн-магистратура от Яндекса и НИЯУ МИФИ для специалистов по работе с данными. Здесь фундаментальны
Высшее на новом уровне: онлайн-магистратура от Яндекса и НИЯУ МИФИ для специалистов по работе с данными. Здесь фундаментальные знания и практика для карьерного роста, а ещё — учёба, которую можно совмещать с работой и жизнью. Всё о программе — на дне открытых дверей: — Расскажем про разные траектории обучения и как после выпуска стать ML-инженером, CV-инженером, NLP-инженером, Data Scientist или Data Engineer. — Обсудим, какие навыки будут у выпускников, чтобы соответствовать рынку и требованиям работодателей. — Поговорим про поступление: сроки, экзамены, документы, оплата.
Спикеры: Станислав Павлов, директор по AI, Positive Technologies. Павел Рябов, академический руководитель программы, заместитель директора Института лазерных и плазменных технологий, НИЯУ МИФИ. Антон Моргунов, Senior инженер по компьютерному зрению, Базис. Центр, академический руководитель программы, Яндекс Практикум. Александр Югов, Curriculum Lead профессии «Инженер данных», Яндекс Практикум.
Ждём вас 9 апреля в 19:00 мск. Зарегистрироваться на встречу

🔎 Подборка вакансий для сеньоров Senior Data Engineer 🟢ClickHouse, Aerospike, TiDB, Grafana, Kafka 🟢до 5 000 $ | 3–6 лет​ Senior Data Engineer / Data Platform Architect 🟢S3, MinIO, Parquet, DeltaLake, PostgreSQL, ClickHouse, Python, Airflow, dbt, Docker, Kubernetes, Kafka, RabbitMQ 🟢до 350 000 ₽ | 3–6 лет​ Senior Data Scientist (LLM) 🟢Python, глубокое обучение, LLM, чат-боты 🟢от 350 000 до 450 000 ₽ | 3–6 лет

🤔 Насколько хороши LLM? Статья описывает создание и адаптацию бенчмарка для оценки русскоязычных LLM в российском контексте. Основное внимание уделено подбору вопросов, актуализации содержания и корректировке оценок для соответствия современным общественным реалиям. Читать...

🚀Прими участие в ML Cup 2025 от Авито и выиграй 1,2 миллиона рублей! Ты — специалист в области машинного обучения? Хочешь пр
🚀Прими участие в ML Cup 2025 от Авито и выиграй 1,2 миллиона рублей! Ты — специалист в области машинного обучения? Хочешь проверить свои силы в реальных задачах, с которыми ежедневно сталкиваются 1000+ специалистов Авито? Тогда не упусти шанс стать частью крупнейшего соревнования в этой области! Что тебя ждет: ☑️Денежный призовой фонд ☑️Автоматизированная оценка решений ☑️2 практические задачи: 1️⃣Персональные рекомендации — предскажи, какие товары вызовут интерес у миллионов пользователей → ссылка на регистрацию. 2️⃣Поиск дублей — как с помощью CV находить похожие объявления даже при разных текстах и ракурсах фото → ссылка на регистрацию. Выбирай одну или обе задачи, показывай лучшие результаты и получай шанс на победу! Участвовать можно как индивидуально, так и в команде до 4 человек. Загружай до 5 решений в день. Регистрация уже открыта! Подробности и анкета по ссылкам выше.

⚙️ Как мы создаём Visionatrix: упрощая ComfyUI В этой статье мы расскажем о нашем опыте работы с ComfyUI и разработке Visionatrix — надстройки, которая упрощает генерацию медиа. Мы обсудим ключевые проблемы, с которыми сталкиваются пользователи, наш подход к их решению, а также вкратце поделимся тем, как мы использовали ChatGPT и Claude для ускорения разработки в условиях ограниченного времени. Читать...

👩‍💻 Задачка по Python Создайте Python-скрипт для обработки данных. Задача состоит в том, чтобы построить ETL-процесс, который очищает и агрегирует данные из CSV-файлов о продажах, а затем сохраняет агрегированные данные в новом файле. Очистка данных: удаление записей с пустыми значениями в столбцах price или quantity. Агрегация: подсчет общего количества проданных товаров и общей суммы по каждому продукту. ➡️ Пример:python app.py sales_data.csv — создает новый файл aggregated_data.csv с общей суммой и количеством проданных товаров по каждому продукту. Решение задачи ⬇️
import pandas as pd import sys def clean_and_aggregate(file_path): # Загружаем данные data = pd.read_csv(file_path) # Удаляем строки с пустыми значениями в колонках 'price' и 'quantity' data.dropna(subset=['price', 'quantity'], inplace=True) # Преобразуем колонки в числовой формат, ошибки игнорируем data['price'] = pd.to_numeric(data['price'], errors='coerce') data['quantity'] = pd.to_numeric(data['quantity'], errors='coerce') # Удаляем строки с некорректными значениями data.dropna(subset=['price', 'quantity'], inplace=True) # Агрегируем данные aggregated_data = data.groupby('product_id').agg( total_quantity=('quantity', 'sum'), total_sales=('price', 'sum') ).reset_index() # Сохраняем в новый CSV aggregated_data.to_csv('aggregated_data.csv', index=False) print("Агрегация завершена. Данные сохранены в 'aggregated_data.csv'.") if __name__ == "__main__": if len(sys.argv) != 2: print("Использование: python app.py <путь к файлу CSV>") sys.exit(1) file_path = sys.argv[1] clean_and_aggregate(file_path)

⚙️ Оценка LLM: метрики, фреймворки и лучшие практики Статья объясняет, почему оценка LLM важна для бизнеса: модели ИИ не всегда достигают цели и нуждаются в доработке. Разбираются ключевые метрики, инструменты и лучшие практики для повышения надежности и точности. Читать...

🤖 Используем BERT для решения NLP задач 🗓 07 апреля в 18:00 МСК 🆓 Бесплатно. Урок в рамках старта курса «NLP / Natural Lan
🤖 Используем BERT для решения NLP задач 🗓 07 апреля в 18:00 МСК 🆓 Бесплатно. Урок в рамках старта курса «NLP / Natural Language Processing». Вебинар посвящен такой классической трансформерной модели BERT, которая в свое время совершила революцию в мире Natural Language Processing. На вебинаре вы узнаете, что представлет из себя модель BERT. И как с ее помощью можно легко и эффективно решать разнообразные NLP задачи. Данный вебинар будет особенно интересен: - Практикующим Data Scientist и ИТ-специалистам, которые хотят глубже погрузиться в область NLP - Тем, кто хочет узнать, что делает ChatGPT такой умной - Людям, освоившими основы машинного обучения, но желающими развиваться в области DS В результате урока вы: - Узнаете, устройство модели BERT - Научитесь дообучать предобученные трансформерные модели - Научитесь дообучать BERT и работать с ним на практике. 🔗 Ссылка на регистрацию: https://vk.cc/cKqpRa Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2VtzqxKZoHs

📝 Подборка вакансий для мидлов Бизнес-аналитик / Системный аналитик BPMN, Анализ данных, UML, Анализ требований, Проектирование, Разработка ТЗ, BI до 150 000 ₽ | от 3 лет​ Data Analyst Python, Apache Spark, SQL, Apache Hadoop Уровень дохода не указан | от 2 лет​ Data Scientist (риски) Машинное обучение, SQL, Python Уровень дохода не указан | от 3 лет

Как работает метод feature_importances_ в Python и зачем он нужен в Machine Learning? Метод feature_importances_ — это атрибут некоторых моделей машинного обучения в библиотеке scikit-learn, который позволяет определить, какие признаки (фичи) наиболее влияют на предсказания модели. Этот метод возвращает значение важности для каждого признака, показывая, как сильно он влияет на конечный результат. Его использование особенно полезно для деревьев решений и ансамблевых моделей, таких как RandomForest и GradientBoosting. ➡️ В примере ниже мы используем RandomForest для анализа важности признаков и визуализации результатов.
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
import pandas as pd

# Загрузка данных
data = load_iris()
X, y = data.data, data.target

# Создание и обучение модели
model = RandomForestClassifier()
model.fit(X, y)

# Получение и визуализация важности признаков
feature_importances = pd.Series(model.feature_importances_, index=data.feature_names)
feature_importances.sort_values(ascending=False).plot(kind='bar')
🗣 Использование feature_importances_ помогает определить, какие признаки стоит использовать, исключить малозначимые фичи и сделать модель более интерпретируемой.
🖥 Подробнее тут

🤔 Grok-2 в деле: Способен ли ИИ от Илона Маска превзойти конкурентов? В середине августа мы видели анонс бета-версий Grok-2 и Grok-2 mini от стартапа Илона Маска xAI. Что ж, на дворе осень, как пел Anacondaz "на улице дубак, на сердце тлен и мрак", так пусть же Grok 2 сегодня станет тем самым, кто укроет зацензуренным пледом наши тела. Предлагаю начинать. Читать...

Всем привет! Мы собираем команду для запуска AI-экспериментов в Екоме и Райдтехе Яндекса. Наша цель — создать пространство дл
Всем привет! Мы собираем команду для запуска AI-экспериментов в Екоме и Райдтехе Яндекса. Наша цель — создать пространство для инженеров и продактов, которые хотят запускать эксперименты и видеть быстрые бизнес-результаты. Откликайтесь, если вы хотите реализовать свои идеи в крупном бизнесе, и у вас есть успешный опыт в запуске проектов с искусственным интеллектом! Рассмотрим ваши идеи и найдем им лучшее применение в проектах. Присоединяйтесь к нам, чтобы вместе создавать будущее! 💡✨ Заполнить форму для отклика

👩‍💻 Задачка по Python Напишите Python-скрипт, который принимает путь к большому CSV-файлу и подсчитывает количество строк (записей) в файле без загрузки его целиком в память. Скрипт должен быть оптимизирован для работы с большими файлами. ➡️ Пример:
python count_rows.py large_file.csv
Количество строк: 3
Решение задачи ⬇️
import csv import sys def count_rows(file_path): with open(file_path, 'r', encoding='utf-8') as file: reader = csv.reader(file) # Используем enumerate для подсчёта строк, исключая заголовок row_count = sum(1 for _ in reader) - 1 # Минус 1 для исключения заголовка return row_count if __name__ == "__main__": if len(sys.argv) < 2: print("Использование: python count_rows.py <file_path>") sys.exit(1) file_path = sys.argv[1] try: result = count_rows(file_path) print(f"Количество строк: {result}") except Exception as e: print(f"Ошибка: {e}")