Data Science | Machinelearning [ru]

Open in Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Network:Frontender's notes [ru]Russia33 728 Technologies & Applications6 722...

📈 Analytical overview of Telegram channel Data Science | Machinelearning [ru]

Channel Data Science | Machinelearning [ru] (@devsp) in the Russian language segment is an active participant. Currently, the community unites 20 019 subscribers, ranking 6 722 in the Technologies & Applications category and 33 728 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 20 019 subscribers.

According to the latest data from 19 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -73 over the last 30 days and by -9 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 8.09%. Within the first 24 hours after publication, content typically collects 3.89% reactions from the total number of subscribers.
Post reach: On average, each post receives 1 619 views. Within the first day, a publication typically gains 779 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 8.
Thematic interests: Content is focused on key topics such as llm, nvidia, контекст, openai, архитектура.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

Thanks to the high frequency of updates (latest data received on 20 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

20 019

Subscribers

-924 hours

-557 days

-7330 days

1 619

Post views

~ 77924 hours

~ 94848 hours

8.09%

Engagement rate

~ 1

Posts per day

Ads index

beta

Posts Archive

20 019

🔎 Подборка вакансий для джунов ML\AI & Python Developer (Junior) 🟢Python, ML (scikit-learn, PyTorch, TensorFlow или аналоги), API, интеграции, Pandas, NumPy 🟢от 60 000 до 80 000 ₽ | 1–3 года Junior Data Analyst 🟢SQL, Microsoft Excel, Python (ETL), визуализация данных 🟢от 80 000 до 120 000 ₽ | 1–3 года Junior Data Analyst 🟢SQL, базы данных (MySQL, PostgreSQL), Python (pandas, numpy, matplotlib), инструменты визуализации данных (Looker Studio, Metabase, Power BI и др.) 🟢до 87 000 ₽ | 1–3 года

20 019

👩‍💻 Задачка по Python Напишите функцию, которая принимает список чисел и возвращает все значения, которые являются выбросами. Выбросы определяются как значения, которые находятся ниже первого квартиля (Q1) минус 1.5 * IQR или выше третьего квартиля (Q3) плюс 1.5 * IQR, где IQR — межквартильный размах. ➡️ Пример:

Входной список:
[10, 12, 14, 15, 15, 16, 16, 16, 17, 18, 19, 100]

Ожидаемый вывод:
[100]

Решение задачи ⬇️

import numpy as np def find_outliers(data): q1 = np.percentile(data, 25) q3 = np.percentile(data, 75) iqr = q3 - q1 lower_bound = q1 - 1.5 * iqr upper_bound = q3 + 1.5 * iqr return [x for x in data if x < lower_bound or x > upper_bound] # Пример использования: input_data = [10, 12, 14, 15, 15, 16, 16, 16, 17, 18, 19, 100] result = find_outliers(input_data) print(result) # Ожидаемый результат: [100]

20 019

🤔 Prompt Me One More Time. Учим LLM строить графы знаний из текстов Статья описывает метод, разработанный для автоматического наполнения графов знаний с помощью LLM, что снижает вероятность «галлюцинаций» и повышает точность ответов. Решение Prompt Me One More Time подробно представлено на TextGraphs-17 конференции ACL-2024. Читать...

20 019

🔥 Самые интересные статьи за последние дни: • KAN: Kolmogorov–Arnold Networks • Стандартное отклонение для полных чайников • Почему галлюцинируют нейросети [и что с этим делают] • Понимает ли Vision Llama импрессионистов? • Что ищет он в краю далёком? Как найти смысл жизни с PostgreSQL

20 019

👩‍💻 Задачка по Python Напишите функцию, которая принимает список email-адресов и возвращает уникальные домены из этого списка. Домен — это часть адреса после символа @. ➡️ Пример:

["user1@example.com", "user2@test.com", "user3@example.com", "user4@sample.com"]

#{"example.com", "test.com", "sample.com"}

Решение задачи ⬇️

def get_unique_domains(emails): domains = {email.split('@')[1] for email in emails} return domains # Пример использования: emails = ["user1@example.com", "user2@test.com", "user3@example.com", "user4@sample.com"] result = get_unique_domains(emails) print(result) # Ожидаемый результат: {'example.com', 'test.com', 'sample.com'}

20 019

👩‍💻 FlexiPrompt: Удобное создание динамических промптов в Python Статья знакомит с FlexiPrompt — лёгкой библиотекой для генерации промптов в Python при работе с языковыми моделями. Рассмотрены её преимущества: быстрая интеграция, гибкая настройка диалога и возможность создания нескольких агентов в одной LLM. Читать...

20 019

🚀 Развивай мышление архитектора Ты можешь быть отличным кодером, но без понимания архитектуры систем твои решения будут ограниченными. 👉 Совет: разбирайся в том, как строятся сложные системы. Читай про микросервисы, масштабирование, кэширование, распределённые базы данных. Даже если ты не архитектор, это сделает тебя сильнее как разработчика.

20 019

⚙️ Неувядающая классика или «чёрный ящик»: кто кого в битве за прогноз. Глава вторая. Продолжение Статья продолжает разбор моделирования температурного временного ряда с двойной сезонностью. Основное внимание уделено подбору оптимальных параметров сезонной модели САРПСС для точного описания данных. Читать...

20 019

🛍 Как базовые знания кодинга и нейросетей сэкономили нам больше 15 млн ₽ на Wildberries [скрины] Статья раскрывает процесс полной автоматизации создания карточек товаров для маркетплейсов, используя нейросети, Photoshop и немного креативного подхода. Описаны практические методы, которые экономят тысячи рублей на огромном ассортименте. Читать...

20 019

👩‍💻 Как работает __name__ == "__main__" в Python? Конструкция if __name__ == "__main__" определяет, выполняется ли скрипт как основная программа или импортируется в качестве модуля. Это позволяет запускать код только при непосредственном запуске скрипта, исключая его выполнение при импорте. ➡️ Пример:

def greet():
    print("Hello from greet!")

if __name__ == "__main__":
    greet()  # Этот вызов выполнится только при запуске скрипта напрямую

🗣 В этом примере greet() будет вызвана, если файл запускается напрямую. Если скрипт импортируется как модуль, greet() не вызовется, сохраняя модульную структуру кода.

🖥 Подробнее тут

20 019

✔️ Простой и быстрый тест LLM для прототипа: сравниваем 16 open-source-моделей на запросе с разной температурой В статье рассказывается, как быстро протестировать 16 LLM для создания текстовых прототипов, даже если вы не в теме ML. Берём несколько моделей, сравниваем результаты, оцениваем, подходит ли под задачу. Читать...

20 019

Приглашаем на конференцию Data Fusion 2025: ведущие специалисты в сфере науки, бизнеса и государства поделятся прикладными кейсами применения ML и DS и своим взглядом на будущее сферы на 70+ сессиях. 📌 Что в программе? — Новые подходы в ML — Кейс-стади от специалистов из различных индустрий: финтех, медицина, промышленность — Data Science для бизнеса — как применять ИИ для роста прибыли — Кейс-сессии и детальный разбор неочевидных проблем в ML 📅 Дата: 16-17 апреля 2025 📍 Место: Москва, технологический кластер «Ломоносов» 🚀 Бесплатная регистрация уже открыта: https://data-fusion.ru/ Ваша безопасность для нас приоритет, поэтому для участия в конференции мы просим заполнить развернутую форму. Благодарим за понимание! 🙌 — *ML — машинное обучение *Data science — наука о методах анализа данных

20 019

📝 Подборка вакансий для сеньоров Senior Data Analyst • Python, SQL, Tableau, Power BI • Уровень дохода не указан | 3–5 лет опыта Senior Data scientist (Recsys) • Python, PyTorch, Машинное обучение, Deep Learning • Уровень дохода не указан | Опыт не указан Senior Big Data Engineer • ClickHouse, Apache Hadoop, Apache Spark, Apache Kafka • Уровень дохода не указан | Опыт не указан

20 019

📈 Подборка статей для вашей карьеры • В какой момент профессия программиста свернула не туда? • Офис Intel в Израиле отменил бесплатный кофе • Войти в IT – в 37 и с дипломом филфака • Путь к мастерству: Как стать успешным разработчиком • Галера от HH или джуны по-дешевке

20 019

➡️ ИИ в логистике: отслеживаем транспортные средства на производственной территории с помощью нейросети В статье описан путь от пет-проекта до системы для трекинга транспорта: нейросети, компьютерное зрение и инструменты, позволяющие «видеть» и анализировать производственные процессы. Читать...

20 019

Обучение моделей занимает слишком много времени? Локальные ресурсы перегружены? На новую видеокарту не хватает денег? immers.cloud — это облачный GPU сервис, предоставляющий доступ к мощным видеокартам для самых различных задач. 💰 Экономия: тарифы от 23 рублей/час, оплата только за фактическое время использования. ⚡️ Быстрый старт: видеокарты и серверы готовы к работе за пару минут. 📈 Гибкость и масштабируемость: 11 видеокарт на выбор, быстрый старт и масштабирование 🔧 Удобство: готовые образы для ML задач, чтобы не тратить время на настройку 🎁 Подготовили приятный бонус для тебя: +10% к пополнению баланса

20 019

👀 Распознавание ж/д пикетных столбиков по фотографиям с беспилотника на основе PyTorch и YOLOv5 Статья раскрывает процесс использования БПЛА и нейросетей для точного распознавания объектов на ортофотопланах. Описаны этапы подготовки данных, разметки и обучения сети на примере поиска пикетных столбиков на ж/д перегонах. Исходный код доступен на GitHub. Читать...

20 019

👩‍💻 Задачка по Python Создайте Python-скрипт, который читает большой CSV-файл построчно, фильтрует строки по заданному критерию и подсчитывает агрегированные данные на основе указанного столбца. Скрипт должен эффективно обрабатывать файл, используя потоковое чтение (без загрузки файла целиком в память) и выводить итоговую статистику в консоль. ➡️ Пример: • python process_data.py data.csv age 30 — фильтрует строки, где значение в столбце age больше 30, и подсчитывает общее количество таких записей и среднее значение в другом числовом столбце, например, salary. Решение задачи ⬇️

import csv import sys def process_large_csv(file_path, filter_column, threshold, aggregate_column): count = 0 total_sum = 0.0 with open(file_path, 'r', encoding='utf-8') as file: reader = csv.DictReader(file) for row in reader: # Преобразование значений для фильтрации и агрегации try: filter_value = float(row[filter_column]) aggregate_value = float(row[aggregate_column]) except ValueError: continue # Пропускаем строки с некорректными данными # Фильтрация строк по заданному условию if filter_value > threshold: count += 1 total_sum += aggregate_value # Вывод итоговой статистики if count > 0: average = total_sum / count print(f"Обработано записей: {count}") print(f"Среднее значение {aggregate_column} для записей, где {filter_column} > {threshold}: {average:.2f}") else: print("Записи, соответствующие условиям фильтрации, не найдены.") if __name__ == "__main__": if len(sys.argv) < 5: print("Использование: python process_data.py <file_path> <filter_column> <threshold> <aggregate_column>") sys.exit(1) file_path = sys.argv[1] filter_column = sys.argv[2] threshold = float(sys.argv[3]) aggregate_column = sys.argv[4] process_large_csv(file_path, filter_column, threshold, aggregate_column)

20 019

🤖 42 секунды и 5 запросов: как взламывают генеративные ИИ-модели Ты знал, что злоумышленникам для взлома генеративных ИИ достаточно всего 42 секунды и пяти запросов? В этой статье мы разберем, как это происходит, какие уязвимости существуют и как защитить свои системы от подобных атак. Читать...

20 019

📍Геоданные и временные ряды в Spark: хаос или порядок? GPS-координаты, карты, временные метки — данные есть, но как с ними работать? Стандартные методы тормозят, запросы громоздкие, аналитика требует вечности. 💡Есть решение. На открытом вебинаре «Обработка геопространственных и временных данных на Spark» 11 марта в 20:00 (мск): - Разберём пространственные данные: координаты, маршруты, карты - Научимся анализировать временные ряды с трендами и предсказаниями - Проанализируем реальные кейсы: GPS-данные, сенсоры IoT, анализ движения 📢 Спикер Вадим Заигрин — опытный разработчик, Data Engineer и Data Scientist. Team Lead команд инженеров данных на разных проектах. Все участники получат скидку на большое обучение «Spark Developer». ➡️ Регистрируйтесь, чтобы не пропустить: https://vk.cc/cJipaN Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576