Data Science | Machinelearning [ru]

رفتن به کانال در Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

نمایش بیشتر

شبکه:Frontender's notes [ru]روسيا33 727 فناوری و برنامه‌ها6 729...

📈 تحلیل کانال تلگرام Data Science | Machinelearning [ru]

کانال Data Science | Machinelearning [ru] (@devsp) در بخش زبانی روسی بازیگری فعال است. در حال حاضر جامعه شامل 20 047 مشترک است و جایگاه 6 729 را در دسته فناوری و برنامه‌ها و رتبه 33 727 را در منطقه روسيا دارد.

📊 شاخص‌های مخاطب و پویایی

از زمان ایجاد در невідомо، پروژه رشد سریعی داشته و 20 047 مشترک جذب کرده است.

بر اساس آخرین داده‌ها در تاریخ 13 ژوئن, 2026، کانال فعالیت پایداری دارد. در ۳۰ روز گذشته تغییر اعضا برابر -68 و در ۲۴ ساعت گذشته برابر -19 بوده و همچنان دسترسی گسترده‌ای حفظ شده است.

وضعیت تأیید: تأیید نشده
نرخ تعامل (ER): میانگین تعامل مخاطب 7.54% است و در ۲۴ ساعت نخست پس از انتشار، محتوا معمولاً 4.58% واکنش نسبت به کل مشترکان کسب می‌کند.
دسترسی پست‌ها: هر پست به طور میانگین 1 513 بازدید دریافت می‌کند. در اولین روز معمولاً 919 بازدید جمع‌آوری می‌شود.
واکنش‌ها و تعامل: مخاطبان به‌طور فعال حمایت می‌کنند؛ میانگین واکنش به هر پست 7 است.
علایق موضوعی: محتوا بر موضوعات کلیدی مانند llm, nvidia, контекст, openai, архитектура تمرکز دارد.

📝 توضیح و سیاست محتوایی

نویسنده این فضا را محل بیان دیدگاه‌های شخصی توصیف می‌کند:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

به لطف به‌روزرسانی‌های پرتکرار (آخرین داده در تاریخ 14 ژوئن, 2026)، کانال همواره به‌روز و دارای دسترسی بالاست. تحلیل‌ها نشان می‌دهد مخاطبان به‌طور فعال با محتوا تعامل دارند و آن را به نقطه اثرگذاری مهم در دسته فناوری و برنامه‌ها تبدیل کرده‌اند.

20 047

مشترکین

-1924 ساعت

+337 روز

-6830 روز

1 513

نمایش های پست

~ 91924 ساعت

~ 1 10748 ساعت

7.54%

نرخ مشارکت

~ 1

پست های در روز

Ads index

beta

آرشیو پست ها

20 043

🎯 Хочешь стать уверенным специалистом в ИИ и машинном обучении? Открой дверь в профессию будущего вместе с магистратурой ИТМО «Проектирование и разработка систем искусственного интеллекта»! 🔍 Что тебя ждёт: Ты не просто изучишь теорию — ты научишься создавать полноценные ИИ-продукты, работать с современными ML-инструментами и станешь ключевым игроком в команде разработки сложных высоконагруженных систем. 🧠 В программе: • формирование и анализ бизнес-требований к ИИ-системам; • интеграция методов машинного обучения в реальные продукты; • проектирование архитектур ML-систем, включая инференс и мониторинг; • освоение инструментов MLFlow, Airflow, DVC, TensorBoard, ClearML и др. 👨‍🏫 Преподаватели — практики из индустрии, а среди партнёров программы — MTS, Ecom.Tech, Nexign, Россети, Росатом. 📈 Кем ты сможешь стать: • архитектором ИИ-систем (AI Architect); • тимлидом команды машинного обучения (ML Team Lead); • менеджером ИИ-проектов (ML Project Manager). 🎓 26 бюджетных мест и возможность поступить дистанционно — не упусти шанс! 📌 Подробнее о программе и подача документов по ссылке: https://abit.itmo.ru/program/master/ai_systems/

20 043

⚙️ ИИ-агенты в современных IT-решениях Разбирался, как ИИ «собирается» нас всех заменить. Спойлер: не спешит. Но уже сейчас кое-что делает лучше нас — и это не только котиков генерировать. Читать...

20 043

⚙️ От месяцев к минутам. Как мы применяем машинное обучение для поиска перспективных литий-ионных проводников Рассказываю, как мы с помощью ML искали литий-ионные проводники и покрытия для катодов. Материалы, потенциалы, немного науки и много практики — без занудства. Читать...

20 043

🔥 Самые интересные статьи за последние дни: • Реализация подобия Apple Vision Pro • Почему LLM так плохо играют в шахматы (и что с этим делать) • LLM будут врать вечно • Как мы создали LLM-модель Cotype Nano • Человек и LLM: как построить метрики для оценки моделей

20 043

👩‍💻 Удаление "псевдослучайных" признаков Вам дана матрица X — список списков с числовыми признаками. Один или несколько признаков были случайно сгенерированы, и не несут полезной информации (то есть, они не коррелируют ни с одним другим). Нужно реализовать функцию drop_random_features(X, threshold=0.05), которая вернёт индексы признаков, слабо коррелирующих со всеми остальными (по модулю корреляции Пирсона). Если признак не коррелирует ни с одним другим больше, чем на threshold, он считается псевдослучайным и подлежит удалению. Цель:

Найти признаки, которые не имеют статистической связи с другими и потенциально являются шумом. Возвращать нужно их индексы.

Решение задачи🔽

import numpy as np def drop_random_features(X, threshold=0.05): X = np.array(X) n_features = X.shape[1] to_drop = [] for i in range(n_features): max_corr = 0 for j in range(n_features): if i != j: corr = abs(np.corrcoef(X[:, i], X[:, j])[0, 1]) max_corr = max(max_corr, corr) if max_corr < threshold: to_drop.append(i) return to_drop # Пример использования np.random.seed(42) X = np.column_stack([ np.linspace(1, 10, 100), # линейный np.linspace(10, 1, 100), # обратный np.random.rand(100), # шум np.linspace(5, 50, 100) + np.random.rand(100) * 0.1 # почти линейный ]) print(drop_random_features(X, threshold=0.2)) # Ожидаемый результат: [2] — третий признак случайный

20 043

⚙️ Как проверять ИИ гипотезы быстро и дешево – гайд в CRISP-DM Light фреймворк Рассказывается про CRISP-DM Light — фреймворк, который помогает быстро проверять ML-гипотезы и не сливать бюджеты впустую. Меньше бюрократии, больше пользы — и шанс дойти до прода. Читать...

20 043

⚙️ Google представила Veo 3 Fast — более быструю и дешевую версию Veo 3. Что такое Veo 3 Fast и как ей пользоваться В этой статье я расскажу, что такое Veo 3 Fast, как получить к ней доступ и использовать, а также покажу примеры видео и выскажу свои соображения. Читать...

20 043

⚙️ Что такое PCA (Principal Component Analysis) в машинном обучении и зачем он используется? PCA — это метод снижения размерности, который преобразует исходные переменные в новый набор переменных (компонент), сохраняя как можно больше информации. Он помогает ускорить обучение моделей и уменьшить переобучение. ➡️ Пример:

import numpy as np
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris

# Загрузка данных
data = load_iris()
X = data.data

# Применение PCA для снижения размерности до 2 компонент
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

print(X_pca[:5])  # Преобразованные данные

🗣️ В этом примере PCA снижает размерность данных Iris с 4 до 2 компонент. Это позволяет визуализировать данные и ускорить работу моделей, сохраняя основную информацию.

🖥 Подробнее тут

20 043

⚙️ Опробовал новую Gemini 2.5 Pro в написании текстов: вот, что получилось Прогнал обновлённую Gemini 2.5 Pro через свои любимые промпты — пишет цепко, стройно, но местами логика буксует. Внутри — 3 примера и разбор полётов. Читать...

20 043

⚙️ RecSys + DSSM + FPSLoss is all you need Упрощать и искать похожие детали, очень полезный навык! Предлагаю быстро пробежаться и попробовать найти ту самую серебряную пулю в RecSys. Читать...

20 043

👩‍💻 Поиск оптимального разбиения признака по энтропии (ID3-style) У вас есть бинарная целевая переменная y (список из 0 и 1) и числовой признак x (такой же длины). Нужно реализовать функцию best_split(x, y), которая найдёт такое значение признака, при разделении по которому (меньше/больше) будет максимально уменьшена энтропия классов. Иными словами, нужно найти лучший threshold, при котором данные делятся на две группы по x, и у этих групп наименьшая средняя энтропия. Это базовая операция в построении деревьев решений, например, в алгоритме ID3. Цель:

Вернуть threshold, который даёт наилучшее (наименьшее) значение средневзвешенной энтропии.

Решение задачи🔽

import numpy as np def entropy(labels): if len(labels) == 0: return 0 p = np.bincount(labels) / len(labels) return -np.sum([pi * np.log2(pi) for pi in p if pi > 0]) def best_split(x, y): x = np.array(x) y = np.array(y) thresholds = sorted(set(x)) best_entropy = float('inf') best_thresh = None for t in thresholds: left_mask = x <= t right_mask = x > t left_entropy = entropy(y[left_mask]) right_entropy = entropy(y[right_mask]) w_left = np.sum(left_mask) / len(x) w_right = 1 - w_left avg_entropy = w_left * left_entropy + w_right * right_entropy if avg_entropy < best_entropy: best_entropy = avg_entropy best_thresh = t return best_thresh # Пример использования x = [2, 4, 6, 8, 10, 12] y = [0, 0, 1, 1, 1, 1] print(best_split(x, y)) # Ожидаемый результат: значение между 4 и 6 (например, 6), так как оно лучше всего делит классы

20 043

⚙️ Взлом AI Assistant через… философию? Разбирается философский джейлбрейк LLM: модель через саморефлексию перестаёт воспринимать фильтры как обязательные. Без багов, без хака — просто философия. Читать...

20 043

🔥 Самые интересные статьи за последние дни: • о3 теснит программистов? Как OpenAI снова всех удивила • AI, который всё за нас решит • Второе пришествие мейнфреймов. Всё больше компаний хотят запускать ИИ у себя в офисе • Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок

20 043

👩‍💻 Подсчёт количества слов в строке Напишите функцию, которая принимает строку и возвращает словарь, где ключами являются слова из строки, а значениями — количество их вхождений. Игнорируйте регистр и знаки препинания. Пример:

text = "Hello, world! Hello Python world."
result = count_words(text)
print(result)  
# Ожидаемый результат: {'hello': 2, 'world': 2, 'python': 1}

Решение задачи🔽

import re from collections import Counter def count_words(text): # Убираем знаки препинания и приводим к нижнему регистру words = re.findall(r'\b\w+\b', text.lower()) # Подсчитываем количество вхождений каждого слова return Counter(words) # Пример использования: text = "Hello, world! Hello Python world." result = count_words(text) print(result) # Ожидаемый результат: {'hello': 2, 'world': 2, 'python': 1}

20 043

⚙️ Подбираем лучший механизм аппаратной конкурентности для машинного обучения на ЦП Покажу, как в Firefox задействовать несколько потоков в логическом выводе с помощью SharedArrayBuffer и добиться параллельной обработки задач ИИ в WASM/JS. Читать...

20 043

👩‍💻 Парсинг и подсчёт количества слов в текстовом файле Напишите функцию на Python, которая принимает путь к текстовому файлу и возвращает словарь с подсчётом количества уникальных слов. Слова должны сравниваться без учёта регистра, а знаки препинания должны быть удалены. Пример:

# Содержимое файла example.txt:
# "Hello, world! This is a test. Hello again."

result = count_words_in_file("example.txt")
print(result)
# Ожидаемый результат:
# {'hello': 2, 'world': 1, 'this': 1, 'is': 1, 'a': 1, 'test': 1, 'again': 1}

Решение задачи🔽

import string from collections import Counter def count_words_in_file(file_path): with open(file_path, 'r', encoding='utf-8') as f: text = f.read().lower() text = text.translate(str.maketrans('', '', string.punctuation)) words = text.split() return dict(Counter(words)) # Пример использования result = count_words_in_file("example.txt") print(result)

20 043

📅 Заводи «дневник экспериментов» Пробуешь новую технологию, библиотеку или архитектурный подход — и спустя пару месяцев не можешь вспомнить, что из этого реально сработало. 👉 Совет: после каждого эксперимента фиксируй результат: что делал, какой был эффект, где пригодилось, где нет. Это твоя личная карта развития, а не хаотичный список «когда-то пробовал и вроде норм».

20 043

🧠 Как нейросети, RL и байесовскую оптимизацию стали использовать на ускорителях заряженных частиц Как машинное обучение помогает управлять ускорителями частиц? В статье раскрываются примеры применения нейронных сетей, обучения с подкреплением и байесовской оптимизации для стабилизации и настройки пучков частиц. Читать...

20 043

🤖 Возможности LLM и RAG на примере реализации бота для поддержки клиентов Техподдержка — важный контакт с клиентами, но небольшие отделы не всегда справляются с нагрузкой. В статье обсуждаются чат-боты и нейросети (LLM и RAG) для автоматизации процессов и улучшения работы поддержки. Читать...