Data Science | Machinelearning [ru]

前往频道在 Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

显示更多

网络:Frontender's notes [ru]俄罗斯33 739 技术与应用6 738...

📈 Telegram 频道 Data Science | Machinelearning [ru] 的分析概览

频道 Data Science | Machinelearning [ru] (@devsp) 俄语语言赛道中的是活跃参与者。目前社区聚集了 20 045 名订阅者，在 技术与应用 类别中位列第 6 738，并在 俄罗斯 地区排名第 33 739 位。

📊 受众指标与增长动态

自 невідомо 创建以来，项目保持高速增长，吸引了 20 045 名订阅者。

根据 14 六月, 2026 的最新数据，频道保持稳定运转。过去 30 天订阅人数变化为 -87，过去 24 小时变化为 -13，整体触达仍然可观。

认证状态： 未认证
互动率 (ER)： 平均受众互动率为 7.71%。内容发布后 24 小时内通常能获得 4.62% 的反应，占订阅者总量。
帖子覆盖： 每篇帖子平均可获得 1 546 次浏览，首日通常累积 926 次浏览。
互动与反馈： 受众积极参与，单帖平均反应数为 7。
主题关注点： 内容集中在 llm, nvidia, контекст, openai, архитектура 等核心主题上。

📝 描述与内容策略

作者将该频道定位为表达主观观点的平台：
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

凭借高频更新（最新数据采集于 15 六月, 2026），频道始终保持新鲜度与高覆盖。分析显示受众积极互动，使其成为 技术与应用 类别中的关键影响点。

20 045

订阅者

-1324 小时

+257 天

-8730 天

1 546

帖子浏览量

~ 92624 小时

~ 1 11548 小时

7.71%

参与率

~ 1

每日帖子数

Ads index

beta

帖子存档

20 044

🧑🏻‍💻Как улучшить точность рекомендаций в своих проектах? На открытом вебинаре 12 мая в 20:00 МСК вы узнаете, как работает обучение ранжированию, что такое функции потерь и как они влияют на качество рекомендаций. Понимание этих функций — ключ к эффективному предсказанию предпочтений пользователей. Освойте практику на реальных данных с использованием модели BPRMF и получите ценные знания, которые помогут улучшить ваши результаты. ⚡️Присоединяйтесь к открытому уроку и получите скидку на программу обучения «Рекомендательные системы»: https://otus.pw/BECI8/ Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2VtzqxFS5mV

20 044

❓ Как обработать пропущенные данные? Пропущенные данные — частая проблема в Data Science, особенно в реальных данных. Чтобы правильно обработать такие данные, можно использовать стратегии заполнения пропусков (например, средним значением или медианой) или удалить строки/столбцы с пропусками. ➡️ Пример:

import pandas as pd
import numpy as np

data = {'A': [1, 2, np.nan, 4], 'B': [5, np.nan, 7, 8]}
df = pd.DataFrame(data)

# Заполнение пропусков средним значением
df['A'].fillna(df['A'].mean(), inplace=True)

print(df)

🗣️ Пропущенные данные могут искажать результаты анализа, поэтому их нужно обрабатывать перед моделированием.

20 044

📨 Пример использования программы для парсинга e-mail адресов с сайтов, созданный ИИ Сегодня делимся программой для парсинга e-mail с сайтов, созданной за 30 минут с помощью ИИ от Rokitok. Это показывает, как ИИ ускоряет задачи, на которые раньше уходили дни или большие бюджеты. Читать...

20 044

➡️ Что такое технология TTS, как устроена и каких сферах используется синтез речи Вместе с Григорием Стерлингом, лидом команды TTS в SberDevices, разбираемся, как устроена технология, как разрабатывают синтезаторы речи и что нужно знать, чтобы работать в этой сфере. Читать...

20 044

👩‍💻 Задачка по Python Создайте Python-приложение, которое принимает набор данных с несколькими признаками и определяет наиболее важные признаки для предсказания целевой переменной с помощью модели RandomForest. Программа должна выводить результаты в виде списка признаков, отсортированных по важности. ➡️ Пример: • python app.py data.csv — выводит важные признаки. Решение задачи ⬇️

import pandas as pd from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import train_test_split def feature_importance(file): data = pd.read_csv(file) X = data.drop(columns=['target']) y = data['target'] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) model = RandomForestClassifier() model.fit(X_train, y_train) importance = pd.Series(model.feature_importances_, index=X.columns).sort_values(ascending=False) print("Важные признаки:\n", importance) if __name__ == "__main__": import sys if len(sys.argv) != 2: print("Использование: python app.py <файл.csv>") else: feature_importance(sys.argv[1])

20 044

👩‍💻 Линейная регрессия и её регуляризация в Scikit-learn Линейная регрессия — это метод обучения с учителем, который предсказывает значение y на основе признаков X. Основное допущение — линейная зависимость y от Xi, что позволяет оценить y через математическое выражение. Читать...

20 044

True Tech Day 2025 — фестиваль технологий для ИТ-специалистов 6 июня в Москве соберутся эксперты из ведущих ИТ-компаний, чтобы обсудить кейсы внедрения ИИ в бигтехах и будущее разработки. В программе: — 40+ спикеров и 4 трека докладов об AI&ML, науке, архитектуре, облачных технологиях и бэкенд-разработке; — большой разговор о трансформации профессий и ИИ-революции; — взгляд на ИИ со стороны науки и бизнеса: тренды 2025 года; — опыт применения ИИ от зарубежных ИТ-экспертов; — нетворкинг и мастер-классы. Участвуй очно или онлайн, обменивайся опытом и знакомься с ведущими специалистами со всей страны. Ждем тебя и коллег 6 июня в МТС Live Холл. Участие бесплатное, но офлайн-места ограничены. Регистрируйтесь по ссылке: https://truetechday.ru/

20 044

🔥 Самые интересные статьи за последние дни: • Не бойтесь потоков в Python, они не кусаются • Рубрика: VPS на пределе возможностей. LLM на CPU с 12Gb RAM • Предвзятость русскоязычных LLM: кого машина считает «обычным человеком»? • Семантический веб: краткий обзор технологий и инструментов • Инструмент обеспечения качества данных: от теории к практике

20 044

👩‍💻 Предсказание цены дома по площади Напишите модель линейной регрессии, которая будет предсказывать цену дома на основе его площади в квадратных метрах. Сгенерируйте искусственные данные, обучите модель и сделайте предсказание для нового значения. Решение задачи🔽

import numpy as np from sklearn.linear_model import LinearRegression import matplotlib.pyplot as plt # Генерация данных np.random.seed(0) area = np.random.randint(30, 150, size=100).reshape(-1, 1) # площадь от 30 до 150 м² price = area * 1000 + np.random.normal(0, 10000, size=area.shape) # цена с шумом # Обучение модели model = LinearRegression() model.fit(area, price) # Предсказание new_area = np.array([[100]]) predicted_price = model.predict(new_area) print(f"Ожидаемая цена дома 100 м²: {predicted_price[0][0]:,.0f}₽") # Визуализация plt.scatter(area, price, label='Данные') plt.plot(area, model.predict(area), color='red', label='Линейная модель') plt.xlabel('Площадь (м²)') plt.ylabel('Цена (₽)') plt.legend() plt.show()

20 044

⚙️ Чёрный ящик раскрыт: как инъекция промта заставляет ИИ говорить всё и вытягивает системный запрос В статье показывают, как HiddenLayer обошли защиту топовых ИИ-моделей с помощью хитрой промт-инъекции и получили доступ к запрещённым темам и внутренним системным промтам. Читать...

20 044

⚙️ Бинарная классификация одним простым искусственным нейроном. Личный опыт Статья о том, как я обучал один простой искусственный нейрон проводить бинарную классификацию линейно-разделимого множества объектов. Рассуждения, результаты, выявленные особенности. Читать...

20 044

🧩 Строй собственную «библиотеку решений» Каждый раз искать, как настроить nginx или написать paginated API — это трата энергии. 👉 Совет: собирай свои удачные решения в одном месте: фрагменты кода, полезные настройки, готовые сниппеты. Через пару месяцев ты получишь личную базу готовых решений, которая будет экономить тебе часы работы на каждом проекте.

20 044

🌞 Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса В статье рассказывают, как в Яндексе развивали мультимодальную нейросеть для Алисы: от первых шагов в поиске по картинкам до живого распознавания объектов через камеру Читать...

20 044

🤔Машинное обучение и криптография: знакомимся с CipherGAN В этой статье мы рассмотрим генеративно‑состязательную сеть CipherGAN, используемую для определения базового шифровального отображения по банкам непарного зашифрованного текста и открытого текста. Читать...

20 044

❓ Как работает кросс-валидация в ML? Кросс-валидация — это техника оценки модели, которая помогает избежать переобучения и лучше оценить её обобщающую способность. В классической k-блочной кросс-валидации данные разбиваются на k равных частей, и модель обучается k раз, каждый раз используя одну часть для тестирования и остальные для обучения. ➡️ Пример применения кросс-валидации с использованием библиотеки scikit-learn:

from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris

data = load_iris()
X, y = data.data, data.target
clf = RandomForestClassifier()

scores = cross_val_score(clf, X, y, cv=5)
print(f'Средняя точность: {scores.mean()}')

Здесь модель обучается 5 раз (5-fold) на разных частях данных, и вычисляется средняя точность.

🗣️ Кросс-валидация помогает лучше понять, как модель будет работать на новых данных, улучшая её обобщение.

🖥 Подробнее тут

20 044

❓ Кто такой разметчик данных и сколько он зарабатывает? Все, что вам нужно знать о профессии Как нейросети распознают лица и управляют авто? Всё это благодаря разметчикам данных, которые учат ИИ видеть и понимать мир. Узнайте, сколько они зарабатывают и какие навыки нужны для работы. Читать...

20 044

📈 Подборка статей для вашей карьеры • Вся правда о еженедельных созвонах, или Зачем переливать из пустого в порожнее? • Тяжела и неказиста жизнь простого RnD. Часть первая: как работают с новыми технологиями в крупных компаниях • Прийти на внедренный проект на этапе развития системы: как аналитику быстро погрузиться в процессы • Как гуманитарию подойти к IT: из переводчика в технические писатели • Поздравляем, вы DevOps-инженер. Как найти себя в необъятном мире ИТ

20 044

📂 Мы делимся с вами папкой «IT», в которой собрали статьи с полезными советами от экспертов в сфере IT. ⚙️ Внутри вас ждет: 🟠 Статья "Экономика инференса LLM: локальный vs облако" 🟠 Вайб-кодинг что это ? 🟠 Качество требований в IT-проектах. 🟠 И еще 28 полезные статьи, которые прокачают ваши навыки. 🔗 А мы с вами делимся статьёй: «СЮДА ВСТАВИТЬ ТЕМУ СТАТЬИ / ПОСТА». ✔️ Сохраняйте папку « IT», чтобы быть в курсе всех новостей в мире IT и не только! ⚡️ ПОДПИСАТЬСЯ ⚡️

20 044

👩‍💻 Генератор случайных паролей с настройками Напишите функцию, которая генерирует случайный пароль заданной длины. Пароль должен быть сформирован на основе пользовательских требований: • Использовать ли цифры. • Использовать ли буквы верхнего и/или нижнего регистра. • Использовать ли специальные символы. ➡️ Пример:

password = generate_password(length=12, use_digits=True, use_uppercase=True, use_lowercase=True, use_specials=False)
print(password)
# Пример вывода: A1b2C3d4E5f6

Решение задачи🔽

import random import string def generate_password(length, use_digits=True, use_uppercase=True, use_lowercase=True, use_specials=True): if length < 1: raise ValueError("Длина пароля должна быть больше 0") # Формируем набор символов character_pool = "" if use_digits: character_pool += string.digits if use_uppercase: character_pool += string.ascii_uppercase if use_lowercase: character_pool += string.ascii_lowercase if use_specials: character_pool += "!@#$%^&*()-_=+[]{}|;:,.<>?/" if not character_pool: raise ValueError("Нужно выбрать хотя бы один тип символов") # Генерация пароля return ''.join(random.choice(character_pool) for _ in range(length)) # Пример использования password = generate_password(length=12, use_digits=True, use_uppercase=True, use_lowercase=True, use_specials=True) print(password)

20 044

➡️ Будущее LLM в XS, S, M и других размерах В статье обсуждаются подходы к обучению ИИ оптимально использовать свои ресурсы: от минимальной мощности для простых задач до максимума для сложных. Разбираем концепции «я не знаю» и запросов помощи. Читать...