ar
Feedback
Data Science | Machinelearning [ru]

Data Science | Machinelearning [ru]

الذهاب إلى القناة على Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

إظهار المزيد

📈 نظرة تحليلية على قناة تيليجرام Data Science | Machinelearning [ru]

تُعد قناة Data Science | Machinelearning [ru] (@devsp) في القطاع اللغوي الروسية لاعباً نشطاً. يضم المجتمع حالياً 20 045 مشتركاً، محتلاً المرتبة 6 738 في فئة التكنولوجيات والتطبيقات والمرتبة 33 739 في منطقة روسيا.

📊 مؤشرات الجمهور والحراك

منذ تأسيسه في невідомо، حقق المشروع نمواً سريعاً وجمع 20 045 مشتركاً.

بحسب آخر البيانات بتاريخ 14 يونيو, 2026، تحافظ القناة على نشاط مستقر. خلال آخر 30 يوماً تغيّر عدد الأعضاء بمقدار -87، وفي آخر 24 ساعة بمقدار -13، مع بقاء الوصول العام مرتفعاً.

  • حالة التحقق: غير موثّقة
  • معدل التفاعل (ER): يبلغ متوسط تفاعل الجمهور 7.71‎%. وخلال أول 24 ساعة من النشر يحصد المحتوى عادةً 4.62‎% من ردود الفعل نسبةً إلى إجمالي المشتركين.
  • وصول المنشورات: يحصل كل منشور على متوسط 1 546 مشاهدة. وخلال اليوم الأول يجمع عادةً 926 مشاهدة.
  • التفاعلات والاستجابة: يتفاعل الجمهور بانتظام؛ متوسط التفاعلات لكل منشور يبلغ 7.
  • الاهتمامات الموضوعية: يركز المحتوى على مواضيع رئيسية مثل llm, nvidia, контекст, openai, архитектура.

📝 الوصف وسياسة المحتوى

يصف المؤلف القناة بأنها مساحة للتعبير عن الآراء الذاتية:
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

بفضل وتيرة التحديث المرتفعة (أحدث البيانات بتاريخ 15 يونيو, 2026) تحافظ القناة على حداثتها ومستوى وصول مرتفع. وتُظهر التحليلات تفاعلاً نشطاً من الجمهور، ما يجعلها نقطة تأثير مهمة ضمن فئة التكنولوجيات والتطبيقات.

20 045
المشتركون
-1324 ساعات
+257 أيام
-8730 أيام
أرشيف المشاركات
🧑🏻‍💻Как улучшить точность рекомендаций в своих проектах? На открытом вебинаре 12 мая в 20:00 МСК вы узнаете, как работает
🧑🏻‍💻Как улучшить точность рекомендаций в своих проектах? На открытом вебинаре 12 мая в 20:00 МСК вы узнаете, как работает обучение ранжированию, что такое функции потерь и как они влияют на качество рекомендаций. Понимание этих функций — ключ к эффективному предсказанию предпочтений пользователей. Освойте практику на реальных данных с использованием модели BPRMF и получите ценные знания, которые помогут улучшить ваши результаты. ⚡️Присоединяйтесь к открытому уроку и получите скидку на программу обучения «Рекомендательные системы»: https://otus.pw/BECI8/ Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2VtzqxFS5mV

Как обработать пропущенные данные? Пропущенные данные — частая проблема в Data Science, особенно в реальных данных. Чтобы правильно обработать такие данные, можно использовать стратегии заполнения пропусков (например, средним значением или медианой) или удалить строки/столбцы с пропусками. ➡️ Пример:
import pandas as pd
import numpy as np

data = {'A': [1, 2, np.nan, 4], 'B': [5, np.nan, 7, 8]}
df = pd.DataFrame(data)

# Заполнение пропусков средним значением
df['A'].fillna(df['A'].mean(), inplace=True)

print(df)
🗣️ Пропущенные данные могут искажать результаты анализа, поэтому их нужно обрабатывать перед моделированием.

📨 Пример использования программы для парсинга e-mail адресов с сайтов, созданный ИИ Сегодня делимся программой для парсинга e-mail с сайтов, созданной за 30 минут с помощью ИИ от Rokitok. Это показывает, как ИИ ускоряет задачи, на которые раньше уходили дни или большие бюджеты. Читать...

➡️ Что такое технология TTS, как устроена и каких сферах используется синтез речи Вместе с Григорием Стерлингом, лидом команды TTS в SberDevices, разбираемся, как устроена технология, как разрабатывают синтезаторы речи и что нужно знать, чтобы работать в этой сфере. Читать...

👩‍💻 Задачка по Python Создайте Python-приложение, которое принимает набор данных с несколькими признаками и определяет наиболее важные признаки для предсказания целевой переменной с помощью модели RandomForest. Программа должна выводить результаты в виде списка признаков, отсортированных по важности. ➡️ Пример:python app.py data.csv — выводит важные признаки. Решение задачи ⬇️
import pandas as pd from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import train_test_split def feature_importance(file): data = pd.read_csv(file) X = data.drop(columns=['target']) y = data['target'] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) model = RandomForestClassifier() model.fit(X_train, y_train) importance = pd.Series(model.feature_importances_, index=X.columns).sort_values(ascending=False) print("Важные признаки:\n", importance) if __name__ == "__main__": import sys if len(sys.argv) != 2: print("Использование: python app.py <файл.csv>") else: feature_importance(sys.argv[1])

👩‍💻 Линейная регрессия и её регуляризация в Scikit-learn Линейная регрессия — это метод обучения с учителем, который предсказывает значение y на основе признаков X. Основное допущение — линейная зависимость y от Xi, что позволяет оценить y через математическое выражение. Читать...

True Tech Day 2025 — фестиваль технологий для ИТ-специалистов 6 июня в Москве соберутся эксперты из ведущих ИТ-компаний, чтоб
True Tech Day 2025 — фестиваль технологий для ИТ-специалистов 6 июня в Москве соберутся эксперты из ведущих ИТ-компаний, чтобы обсудить кейсы внедрения ИИ в бигтехах и будущее разработки. В программе: — 40+ спикеров и 4 трека докладов об AI&ML, науке, архитектуре, облачных технологиях и бэкенд-разработке; — большой разговор о трансформации профессий и ИИ-революции; — взгляд на ИИ со стороны науки и бизнеса: тренды 2025 года; — опыт применения ИИ от зарубежных ИТ-экспертов; — нетворкинг и мастер-классы. Участвуй очно или онлайн, обменивайся опытом и знакомься с ведущими специалистами со всей страны. Ждем тебя и коллег 6 июня в МТС Live Холл. Участие бесплатное, но офлайн-места ограничены. Регистрируйтесь по ссылке: https://truetechday.ru/

👩‍💻 Предсказание цены дома по площади Напишите модель линейной регрессии, которая будет предсказывать цену дома на основе его площади в квадратных метрах. Сгенерируйте искусственные данные, обучите модель и сделайте предсказание для нового значения. Решение задачи🔽
import numpy as np from sklearn.linear_model import LinearRegression import matplotlib.pyplot as plt # Генерация данных np.random.seed(0) area = np.random.randint(30, 150, size=100).reshape(-1, 1) # площадь от 30 до 150 м² price = area * 1000 + np.random.normal(0, 10000, size=area.shape) # цена с шумом # Обучение модели model = LinearRegression() model.fit(area, price) # Предсказание new_area = np.array([[100]]) predicted_price = model.predict(new_area) print(f"Ожидаемая цена дома 100 м²: {predicted_price[0][0]:,.0f}₽") # Визуализация plt.scatter(area, price, label='Данные') plt.plot(area, model.predict(area), color='red', label='Линейная модель') plt.xlabel('Площадь (м²)') plt.ylabel('Цена (₽)') plt.legend() plt.show()

⚙️ Чёрный ящик раскрыт: как инъекция промта заставляет ИИ говорить всё и вытягивает системный запрос В статье показывают, как HiddenLayer обошли защиту топовых ИИ-моделей с помощью хитрой промт-инъекции и получили доступ к запрещённым темам и внутренним системным промтам. Читать...

⚙️ Бинарная классификация одним простым искусственным нейроном. Личный опыт Статья о том, как я обучал один простой искусственный нейрон проводить бинарную классификацию линейно-разделимого множества объектов. Рассуждения, результаты, выявленные особенности. Читать...

🧩 Строй собственную «библиотеку решений» Каждый раз искать, как настроить nginx или написать paginated API — это трата энергии. 👉 Совет: собирай свои удачные решения в одном месте: фрагменты кода, полезные настройки, готовые сниппеты. Через пару месяцев ты получишь личную базу готовых решений, которая будет экономить тебе часы работы на каждом проекте.

🌞 Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса В статье рассказывают, как в Яндексе развивали мультимодальную нейросеть для Алисы: от первых шагов в поиске по картинкам до живого распознавания объектов через камеру Читать...

🤔Машинное обучение и криптография: знакомимся с CipherGAN В этой статье мы рассмотрим генеративно‑состязательную сеть CipherGAN, используемую для определения базового шифровального отображения по банкам непарного зашифрованного текста и открытого текста. Читать...

Как работает кросс-валидация в ML? Кросс-валидация — это техника оценки модели, которая помогает избежать переобучения и лучше оценить её обобщающую способность. В классической k-блочной кросс-валидации данные разбиваются на k равных частей, и модель обучается k раз, каждый раз используя одну часть для тестирования и остальные для обучения. ➡️ Пример применения кросс-валидации с использованием библиотеки scikit-learn:
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris

data = load_iris()
X, y = data.data, data.target
clf = RandomForestClassifier()

scores = cross_val_score(clf, X, y, cv=5)
print(f'Средняя точность: {scores.mean()}')
Здесь модель обучается 5 раз (5-fold) на разных частях данных, и вычисляется средняя точность.
🗣️ Кросс-валидация помогает лучше понять, как модель будет работать на новых данных, улучшая её обобщение.
🖥 Подробнее тут

Кто такой разметчик данных и сколько он зарабатывает? Все, что вам нужно знать о профессии Как нейросети распознают лица и управляют авто? Всё это благодаря разметчикам данных, которые учат ИИ видеть и понимать мир. Узнайте, сколько они зарабатывают и какие навыки нужны для работы. Читать...

📂 Мы делимся с вами папкой «IT», в которой собрали статьи с полезными советами от экспертов в сфере IT. ⚙️ Внутри вас ждет: 🟠 Статья "Экономика инференса LLM: локальный vs облако" 🟠 Вайб-кодинг что это ? 🟠 Качество требований в IT-проектах. 🟠 И еще 28 полезные статьи, которые прокачают ваши навыки. 🔗 А мы с вами делимся статьёй: «СЮДА ВСТАВИТЬ ТЕМУ СТАТЬИ / ПОСТА». ✔️ Сохраняйте папку « IT», чтобы быть в курсе всех новостей в мире IT и не только! ⚡️ ПОДПИСАТЬСЯ ⚡️

👩‍💻 Генератор случайных паролей с настройками Напишите функцию, которая генерирует случайный пароль заданной длины. Пароль должен быть сформирован на основе пользовательских требований: Использовать ли цифры. Использовать ли буквы верхнего и/или нижнего регистра. Использовать ли специальные символы. ➡️ Пример:
password = generate_password(length=12, use_digits=True, use_uppercase=True, use_lowercase=True, use_specials=False)
print(password)
# Пример вывода: A1b2C3d4E5f6
Решение задачи🔽
import random import string def generate_password(length, use_digits=True, use_uppercase=True, use_lowercase=True, use_specials=True): if length < 1: raise ValueError("Длина пароля должна быть больше 0") # Формируем набор символов character_pool = "" if use_digits: character_pool += string.digits if use_uppercase: character_pool += string.ascii_uppercase if use_lowercase: character_pool += string.ascii_lowercase if use_specials: character_pool += "!@#$%^&*()-_=+[]{}|;:,.<>?/" if not character_pool: raise ValueError("Нужно выбрать хотя бы один тип символов") # Генерация пароля return ''.join(random.choice(character_pool) for _ in range(length)) # Пример использования password = generate_password(length=12, use_digits=True, use_uppercase=True, use_lowercase=True, use_specials=True) print(password)

➡️ Будущее LLM в XS, S, M и других размерах В статье обсуждаются подходы к обучению ИИ оптимально использовать свои ресурсы: от минимальной мощности для простых задач до максимума для сложных. Разбираем концепции «я не знаю» и запросов помощи. Читать...