Data Science | Machinelearning [ru]

前往频道在 Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

显示更多

网络:Frontender's notes [ru]俄罗斯33 728 技术与应用6 731...

📈 Telegram 频道 Data Science | Machinelearning [ru] 的分析概览

频道 Data Science | Machinelearning [ru] (@devsp) 俄语语言赛道中的是活跃参与者。目前社区聚集了 20 029 名订阅者，在 技术与应用 类别中位列第 6 731，并在 俄罗斯 地区排名第 33 728 位。

📊 受众指标与增长动态

自 невідомо 创建以来，项目保持高速增长，吸引了 20 029 名订阅者。

根据 17 六月, 2026 的最新数据，频道保持稳定运转。过去 30 天订阅人数变化为 -72，过去 24 小时变化为 -3，整体触达仍然可观。

认证状态： 未认证
互动率 (ER)： 平均受众互动率为 8.16%。内容发布后 24 小时内通常能获得 4.20% 的反应，占订阅者总量。
帖子覆盖： 每篇帖子平均可获得 1 634 次浏览，首日通常累积 842 次浏览。
互动与反馈： 受众积极参与，单帖平均反应数为 7。
主题关注点： 内容集中在 llm, nvidia, контекст, openai, архитектура 等核心主题上。

📝 描述与内容策略

作者将该频道定位为表达主观观点的平台：
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

凭借高频更新（最新数据采集于 18 六月, 2026），频道始终保持新鲜度与高覆盖。分析显示受众积极互动，使其成为 技术与应用 类别中的关键影响点。

20 029

订阅者

-324 小时

-77 天

-7230 天

1 634

帖子浏览量

~ 84224 小时

~ 1 02048 小时

8.16%

参与率

~ 1

每日帖子数

Ads index

beta

帖子存档

20 028

⚙️ Что такое functools.lru_cache в Python и зачем он используется? functools.lru_cache — это декоратор, который позволяет кэшировать результаты функции для повышения производительности. Он запоминает результаты вызовов функции с определёнными аргументами и возвращает их из кэша при повторных вызовах. ➡️ Пример:

from functools import lru_cache
import time

@lru_cache(maxsize=3)
def slow_function(n):
    time.sleep(2)
    return n * 2

print(slow_function(5))  # Выполняется медленно (2 секунды)
print(slow_function(5))  # Возвращает результат мгновенно из кэша

🗣️ В этом примере функция slow_function кэширует результаты для трёх последних аргументов. Повторный вызов с теми же аргументами возвращает результат мгновенно, ускоряя выполнение.

🖥 Подробнее тут

20 028

✅️ GitHub теперь в Telegram! Подписывайтесь: @GitHub

20 028

📈 Подборка статей для вашей карьеры • Эволюция архитектур нейросетей в компьютерном зрении: сегментация изображений • Заяц не вырастет в акулу. Или секреты гибкой инженерной культуры от Александра Бындю • Все, пора увольняться: что я поняла после работы в токсичных командах • Базовое программирование, или Почему джуны не могут пройти к нам собеседование • Я стал аналитиком, потому что не смог быть программистом

20 028

📝 Подборка вакансий для сеньоров Data Engineer (Golang) • Golang, ClickHouse, MySQL, MongoDB, Kubernetes, HTTP/gRPC API, Apache Kafka, Redis • Уровень дохода не указан | от 3 лет Data Scientist NLP (портал gosuslugi.ru) • Python 3, numpy, pandas, scipy, sklearn, PyTorch, NLTK, transformers, FastAPI, Docker, Spark/Hadoop • Уровень дохода не указан | от 1 года Senior Data Engineer • Apache Hadoop, Spark (batch/streaming), Scala, SQL, Parquet, Hive, Kafka, HBase, ClickHouse, PostgreSQL, Airflow, Zeppelin, Jupyter, S3 MinIO • Уровень дохода не указан | от 5 лет Senior Python Dev (AI, Big Data, LLM) • Python, PostgreSQL, Big Data, AI, ML, ClickHouse, Time Series, Go • от 3 000 $ | от 5 лет

20 028

🎁 Динамическая адаптация награды с помощью Pydantic Статья рассказывает, как Pydantic помогает бизнесу гибко управлять наградами для пользователей. Описаны преимущества Pydantic в валидации и преобразовании данных по сравнению с dataclass. Читать...

20 028

Погружаемся в ML вместе на Data Dojo! Собираемся уже 17 декабря, чтобы послушать три доклада от спикеров из разных сервисов Яндекса: 🔸 Илья Дьяков из команды Автономного транспорта разберёт задачку с Yandex ML Cup. Она связана с симуляторами, которые предсказывают дорожное движение и тестируют ML-модели до того, как они попадут в настоящие автомобили. 🔸 Артемий Вешкин из Яндекс Музыки тоже рассмотрит один из этапов Yandex ML Cup. И расскажет, как разработать решение, которое будет отличать кавер-версии от оригиналов песен. 🔸 Николай Карпачёв из команды Переводчика расскажет, как ребята поучаствовали в соревновании по качеству перевода на WMT24. В главном треке ребята попали в топ-5! 📅 Зарегистрироваться и узнать подробности можно тут. Ждём вас! Реклама. ООО "Яндекс", ИНН 7736207543.

20 028

⚙️ ML в промышленности: как построить систему управления процессом окомкования железорудных окатышей Статья расскажет, как машинное обучение помогает улучшить процесс производства железорудных окатышей, снизив зависимость от человеческого фактора, и о примерах, когда технологии сталкиваются с реальными проблемами. Читать...

20 028

👩‍💻 Поиск наиболее часто встречающегося слова в тексте Напишите функцию, которая принимает текстовую строку и возвращает наиболее часто встречающееся слово и количество его вхождений. Игнорируйте регистр и знаки препинания. Пример:

text = "Python is great, and Python is fun! Learning Python is rewarding."
result = most_common_word(text)
print(result)
# Ожидаемый результат: ('python', 3)

Решение задачи🔽

import re from collections import Counter def most_common_word(text): words = re.findall(r'\b\w+\b', text.lower()) counter = Counter(words) return counter.most_common(1)[0] # Пример использования: text = "Python is great, and Python is fun! Learning Python is rewarding." result = most_common_word(text) print(result)

20 028

👀 Sora от OpenAI: принцип работы, примеры видео и сравнение с Runway Компания OpenAI представила свою ИИ-модель для генерации видео — Sora. В статье обсуждаются ожидания, доступность и сравнительный анализ с конкурентами, такими как Kling AI и Runway Gen-3. Читать...

20 028

🎙️Алгоритмы и авторы: как это работает Слушал подкаст «Сквозь VK», где Андрей Зимовнов, ML-директор VK AI, озвучил интересную вещь. Улучшение алгоритмов рекомендаций в первую очередь замечают авторы: кто-то сразу выигрывает, а для кого-то это становится сигналом, что пора менять подход. Алгоритмы помогают авторам понять, куда двигаться дальше. Но это всегда диалог: авторы дают фидбэк, а платформа настраивает инструменты, чтобы поддерживать и развивать экосистему. Если интересно, то выпуск тут.

20 028

📝 Подборка вакансий для мидлов Data-аналитик 🟢SQL, базы данных, аналитика данных 🟢от 200 000 до 300 000 ₽ | от 2 лет Data Analyst (Middle) 🟢SQL, MySQL, Python, базы данных, алгоритмы и структуры данных, Tableau, анализ данных, PowerBI, визуализация 🟢от 200 000 до 250 000 ₽ | от 3 лет Data Scientist (Скоринг/моделирование) 🟢Python, SQL, Hadoop, машинное обучение 🟢Уровень дохода не указан | от 1 года Data Scientist (модели PD) 🟢SQL, Python, машинное обучение 🟢Уровень дохода не указан | от 1 года

20 028

⚙️ Что такое модуль shutil в Python и зачем он используется? Модуль shutil предоставляет функции для работы с файлами и директориями, такие как копирование, перемещение и удаление. Он полезен для автоматизации задач управления файлами. ➡️ Пример:

import shutil

# Копирование файла
shutil.copy('source.txt', 'destination.txt')

# Перемещение файла
shutil.move('destination.txt', 'folder/destination.txt')

🗣️ В этом примере shutil.copy копирует файл, а shutil.move перемещает его в другую директорию. Это облегчает выполнение операций с файлами и папками.

🖥 Подробнее тут

20 028

⚙️ Машинное обучение: Логистическая регрессия. Теория и реализация. С нуля В этой статье я привел базовые сведения о логистической регрессии и показал как сделать модель с нуля на чистом Python. Логистическая функция, обучение, метрики качества для модели классификации, реализация и небольшой разбор обучения весов. Читать...

20 028

⚡XMAS HACK к нам мчится! С 20 по 23 декабря под звон Jingle bells пройдет самый яркий и праздничный хакатон 2024 года - XMAS HACK. 🎁Дед Мороз и Снегурочка уже положили под елочку XMAS HACK особый подарок - 1 000 000 рублей! ✨Уникальный кейс от Blanc Labs: Cтартовый (профилактический) комплаенс: предотвращение рисков с помощью AI 👨‍💻Задача: Создать систему, которая на основе предоставленных данных о текущих клиентах банка, а также дополнительной информации из открытых источников, социальных сетей, сайтов и других параметров о компании, способна прогнозировать уровень риска нового клиента. 🚀Осталось собрать команду и до 19 декабря подать заявку на участие: https://tglink.io/6581fe7f7091?erid=LjN8KQEL3 🎅XMAS HACK к нам мчится, скоро все случится!🌟 #реклама О рекламодателе

20 028

🔎 Подборка вакансий для джунов Data Scientist в области языковых моделей (Junior) 🟢Python, pandas, numpy, matplotlib, обработка текстовых данных, машинное обучение, языковые модели (LLM), библиотека Hugging Face 🟢от 190 000 ₽ до вычета налогов | 1–3 года Data-аналитик в области временных рядов (Junior) 🟢Python, pandas, numpy, scipy, matplotlib, seaborn, анализ временных рядов, SQL 🟢от 190 000 ₽ до вычета налогов | 1–3 года Junior Data Engineer 🟢SQL, MS Excel, Access, ETL, OLAP, английский язык 🟢Уровень дохода не указан | 1–3 года Junior Data Analyst 🟢SQL, MS SQL Server, PostgreSQL, Python, Git, статистический анализ, A/B тестирование, машинное обучение 🟢Уровень дохода не указан | 1–3 года

20 028

👩‍💻 Заполнение пропущенных значений медианой в числовых столбцах Напишите функцию, которая принимает pandas.DataFrame и возвращает новый DataFrame, где все пропущенные значения (NaN) в числовых столбцах заменены на медиану соответствующего столбца. Пример:

import pandas as pd

data = pd.DataFrame({
    'age': [25, 30, None, 45, 50],
    'salary': [50000, 60000, 55000, None, 65000],
    'city': ['NY', 'LA', 'NY', 'SF', 'LA']
})

cleaned_data = fill_missing_with_median(data)
print(cleaned_data)

     age    salary city
0   25.0  50000.0   NY
1   30.0  60000.0   LA
2   37.5  55000.0   NY
3   45.0  57500.0   SF
4   50.0  65000.0   LA

Решение задачи🔽

import pandas as pd def fill_missing_with_median(df): df_filled = df.copy() for col in df_filled.select_dtypes(include='number').columns: median = df_filled[col].median() df_filled[col].fillna(median, inplace=True) return df_filled # Пример использования: data = pd.DataFrame({ 'age': [25, 30, None, 45, 50], 'salary': [50000, 60000, 55000, None, 65000], 'city': ['NY', 'LA', 'NY', 'SF', 'LA'] }) cleaned_data = fill_missing_with_median(data) print(cleaned_data)

20 028

⚙️ Как я взломал одну из самых топовых нейросетей (Claude 3.5 Sonnet) для студенческой научной статьи Статья раскрывает исследование по снятию защиты в современной языковой модели ИИ. Описан процесс автоматизации взлома модели и представлена программа, демонстрирующая успешный обход встроенных механизмов безопасности. Читать...

20 028

Салют от команды GigaChat! Приглашаем на конференцию по технологиям ИИ 📆 17 декабря, 12:30 (МСК, GMT+3) 📍 Офлайн в Москве. Для посещения в офлайне нужно дождаться приглашения от организаторов. 🌐 Онлайн-трансляция на сайте SberDevices В программе — 9 докладов о том, как ИИ учится говорить, слышать, фильтровать данные и помогать людям. Спикеры расскажут про создание ИИ-агентов и персонажей, эмбеддинги и навыки моделей. Поделятся способами фильтровать данные и быстро обучать мощные модели. Вас ждут новости разработки GigaChat и ассистента Салют, а также расскажут про open-source модели. Участвуйте в дискуссиях с другими участниками и задавайте вопросы спикерам во время докладов. А офлайн-участников ждут афтерпати и стенды с технологиями: можно будет протестировать GigaChain и технологии GigaChat Audio, а также поработать с гипотезами в GigaPlayground. Для участия нужно зарегистрироваться на сайте. Больше подробностей — в Telegram-канале конференции. Реклама. ПАО Сбербанк. ИНН 7707083893

20 028

🔥 Самые интересные статьи за последние дни: • Построение базы знаний компании и поиска документов на LLM и RAG • Что побуждает LLM врать и как этого избежать в своих продуктах • Ломаем капчу 4Chan • На чём учатся современные модели машинного перевода: опыт команды Яндекс Переводчика • Gemini вырывается вперед, Китай спамит моделями, в Minecraft запустили AI-агентов: главные события ноября в сфере ИИ

20 028

👩‍💻 Удаление выбросов из набора данных Напишите функцию, которая принимает pandas.DataFrame и название столбца, а затем возвращает новый DataFrame, в котором выбросы (значения, выходящие за пределы 1.5 межквартильного размаха) удалены. Пример:

import pandas as pd

data = pd.DataFrame({
    "values": [10, 12, 15, 100, 14, 13, 11, 102, 16]
})

cleaned_data = remove_outliers(data, "values")
print(cleaned_data)
# Ожидаемый результат:
#    values
# 0      10
# 1      12
# 2      15
# 4      14
# 5      13
# 6      11
# 8      16

Решение задачи🔽

import pandas as pd def remove_outliers(df, column): Q1 = df[column].quantile(0.25) Q3 = df[column].quantile(0.75) IQR = Q3 - Q1 lower_bound = Q1 - 1.5 * IQR upper_bound = Q3 + 1.5 * IQR return df[(df[column] >= lower_bound) & (df[column] <= upper_bound)] # Пример использования: data = pd.DataFrame({ "values": [10, 12, 15, 100, 14, 13, 11, 102, 16] }) cleaned_data = remove_outliers(data, "values") print(cleaned_data)