Data Science | Machinelearning [ru]

前往频道在 Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

显示更多

网络:Frontender's notes [ru]俄罗斯33 739 技术与应用6 738...

📈 Telegram 频道 Data Science | Machinelearning [ru] 的分析概览

频道 Data Science | Machinelearning [ru] (@devsp) 俄语语言赛道中的是活跃参与者。目前社区聚集了 20 041 名订阅者，在 技术与应用 类别中位列第 6 738，并在 俄罗斯 地区排名第 33 739 位。

📊 受众指标与增长动态

自 невідомо 创建以来，项目保持高速增长，吸引了 20 041 名订阅者。

根据 14 六月, 2026 的最新数据，频道保持稳定运转。过去 30 天订阅人数变化为 -87，过去 24 小时变化为 -13，整体触达仍然可观。

认证状态： 未认证
互动率 (ER)： 平均受众互动率为 7.71%。内容发布后 24 小时内通常能获得 4.62% 的反应，占订阅者总量。
帖子覆盖： 每篇帖子平均可获得 1 546 次浏览，首日通常累积 926 次浏览。
互动与反馈： 受众积极参与，单帖平均反应数为 7。
主题关注点： 内容集中在 llm, nvidia, контекст, openai, архитектура 等核心主题上。

📝 描述与内容策略

作者将该频道定位为表达主观观点的平台：
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

凭借高频更新（最新数据采集于 15 六月, 2026），频道始终保持新鲜度与高覆盖。分析显示受众积极互动，使其成为 技术与应用 类别中的关键影响点。

20 041

订阅者

-1324 小时

+257 天

-8730 天

1 546

帖子浏览量

~ 92624 小时

~ 1 11548 小时

7.71%

参与率

~ 1

每日帖子数

Ads index

beta

帖子存档

20 043

🤔 Прогнозирование продаж с использованием библиотеки Prophet Статья посвящена прогнозированию продаж FTTB-FMC для ежедневной отчетности. Рассматриваются подходы к анализу данных, ключевые KPI и методы, используемые для прогнозирования продаж в сегменте ШПД и конвергентных продуктов. Читать...

20 043

👩‍💻 Задачка по Python Напишите функцию, которая принимает строку и возвращает новую строку, из которой удалены все гласные буквы (a, e, i, o, u в любом регистре). ➡️ Пример:

print(remove_vowels("Hello World"))  # Ожидаемый результат: "Hll Wrld"
print(remove_vowels("Python is great"))  # Ожидаемый результат: "Pythn s grt"

Решение задачи ⬇️

def remove_vowels(s): vowels = "aeiouAEIOU" return ''.join(char for char in s if char not in vowels) # Пример использования: print(remove_vowels("Hello World")) # Ожидаемый результат: "Hll Wrld" print(remove_vowels("Python is great")) # Ожидаемый результат: "Pythn s grt"

20 043

✔️ 30k аудиозаписей: наводим порядок Статья рассказывает, как организовать и обработать огромный архив аудиозаписей дневников, созданных задолго до эпохи современных speech-to-text технологий. Рассматриваются инструменты и подходы для упорядочивания данных. Читать...

20 043

🚀 Самая мощная база экспертов в ИИ, бизнесе и IT — доступна уже сейчас! Знаешь, что ИИ уже генерирует миллиарды долларов в бизнесе, но не каждый эксперт умеет его внедрять так, чтобы это реально работало? Мы собрали тех, кто умеет: 🤖 ИИ-специалистов, которые делают решения, а не шум 📈 IT-разработчиков, которые не исчезают перед дедлайном 💡 Бизнес-экспертов, которые знают, как масштабироваться ⚡ Забирай доступ: 👉 https://t.me/addlist/dIy7Hza_1jgzYjFi 💼 Хочешь попасть в этот список? Оставь заявку здесь 👉 @RyabovaM https://t.me/addlist/dIy7Hza_1jgzYjFi

20 043

📝 Подборка вакансий для мидлов Скоринг Middle Data Scientist • Git, Python, базы данных • Уровень дохода не указан | от 1 года Data Scientist в команду RecSys (middle) • Машинное обучение, SQL, Python, PostgreSQL, Git, TensorFlow, ClickHouse, Apache Airflow, Pandas • Уровень дохода не указан | от 2 лет Аналитик данных в сфере HR, middle • SQL, Power BI, анализ данных, математическая статистика • Уровень дохода не указан | от 2 лет

20 043

👁Настройка dev-окружения для команды компьютерного зрения. Что будет на вебинаре? - Аренда и базовая настройка сервера для работы команды. - Установка и настройка инструментов для ML-экспериментов - Развертывание сервиса для разметки изображений CVAT. Узнаете, как арендовать и настроить сервер для командной работы, что позволит им быстро развертывать инфраструктуру для новых проектов. Научитесь настраивать MLFlow для отслеживания экспериментов, JupiterLab для удобной разработки и MinIO для создания общего файлового хранилища, что упростит совместную работу с датасетами и другими файлами. Сможете развернуть CVAT для разметки изображений, что пригодится в проектах, связанных с обработкой и анализом изображений, таких как распознавание объектов, сегментация и т.д. 👉 Регистрация и подробности вебинара https://vk.cc/cJPHvo Вебинар проходит в рамках подписки OTUS, благодаря которой можно приобрести 3 курса по цене одного! Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

20 043

✔️ Как нейросети меняют работу дизайнеров Статья раскрывает, как дизайнеры студии используют ИИ для усиления креативности в проектах. Обсуждаются инструменты и подходы, которые помогают сохранить индивидуальность и создать продуманный дизайн с помощью нейросетей. Читать...

20 043

🔎 Подборка вакансий для джунов Junior Data Analyst 🟢SQL, Python, опыт в медицине 🟢от 1 500 до 2 000 $ | 1–3 года Data Scientist 🟢GA4, Shopify, ClickFunnels, Klaviyo, Kajabi 🟢от 1 000 до 1 350 $ | 1–3 года Junior Data Scientist 🟢Python (pandas, numpy, scikit-learn), статистика, комбинаторика 🟢от 70 000 до 100 000 ₽ | 1–3 года

20 043

👩‍💻 Задачка по Python Напишите скрипт, который удаляет дублирующиеся строки из CSV-файла на основе указанного столбца и сохраняет результат в новый файл. ➡️ Пример:

python remove_duplicates.py input.csv output.csv column_name
id,name,age
1,John,30
2,Jane,25
4,Bob,35

Решение задачи ⬇️

import pandas as pd import sys if len(sys.argv) < 4: print("Использование: python remove_duplicates.py <input_file> <output_file> <column_name>") sys.exit(1) input_file = sys.argv[1] output_file = sys.argv[2] column_name = sys.argv[3] try: df = pd.read_csv(input_file) df = df.drop_duplicates(subset=[column_name]) df.to_csv(output_file, index=False) print(f"Дубликаты удалены. Результат сохранён в {output_file}") except Exception as e: print(f"Ошибка: {e}")

20 043

🤖 Как развернуть LLM с помощью vLLM и TorchServe Хочешь запустить большую языковую модель в продакшене, но не знаешь, как совместить простоту развертывания с промышленной надежностью? Комбинация vLLM и TorchServe решает эту задачу. Она обеспечивает как простой запуск, так и продвинутые возможности для масштабирования. Читать...

20 043

Repost from .ml

Ранее мы обсуждали с вами RoPE, а теперь поговорим о его модификациях. Собрали много интересного, поэтому будет целых три поста по этой теме. Enjoy!

Для начала напомним, что Positional Encoding (кодирование позиций слов/токенов) нужен, чтобы передать модели или трансформеру информацию о позициях слов — относительную или же абсолютную.

Как развивалось позиционное кодирование: 📆 2017 год С появлением ванильного трансформера позиции токенов кодировались тригонометрической функцией, значение которой зависело от позиции и просто прибавлялось к эмбеддингу соответсутвующего слова. Плюсы — мы умеем кодировать любую позицию, в том числе превосходящую максимальную длину, на которой тренировались. Минусы — не очень работает на длинных последовательностях, да и вообще не очень хорошо работает. 📆 2018 год Потом появился гугловский BERT, а вместе с ним новый подход позиционного кодирования: авторы предложиди выкинуть тригонометрию и вместо этого добавить в модель ещё один обучаемый слой nn.Embedding — такой же, как для получения эмбеддингов слов. Он должен кодировать — то есть, превращать в вектор — позицию токена. Итоговый вектор токена, который будет передан следующим слоям модели — это сумма векторов токена и его позиции. Работает лучше, чем тригонометрия, но при этом никак не экстраполируется: так как векторы выучиваемые, то для позиций, превосходящих максимальную тренировочную длину, мы кодировать не умеем — она вне ключей нашего словаря эмбеддингов, так же, как мы не можем закодировать и незнакомый модели токен. В это же время впервые появилась идея о том, что нам важны не столько абсолютные позиции слов, сколько относительные. Авторы статьи решили кодировать не абсолютную позицию, а только относительную (Relative Position Encoding, или RPE), то есть близость каждой пары токенов. Здесь же появилась идея, что позицонное кодирование стоит добавлять не в момент создания эмбеддингов слов, а на этапе Attention, добавляя знание о позициии в queries и keys.

20 043

Команда из финтех-компании Точка разобрала тему позиционного кодирования, чтобы понять, зачем оно нужно и как помогает увеличивать длину контекста в моделях обработки языков. Вопросы о позиционном кодировании часто возникают на собеседованиях по глубокому обучению, поэтому эта информация будет полезна, даже если вы не планируете реализовывать RoPE самостоятельно. В се рии из трёх статей рассматриваются все важные аспекты развития позиционного кодирования, включая RoPE, а также упоминаются такие модели, как BERT и LLM, даже Reddit. Если вас не устраивает текущая длина контекста в языковых моделях или энкодерах, рекомендуем почитать и попробовать внедрить предложенные решения. Если вам интересны анализ инструментов, обзоры фреймворков и краткие изложения статей, подписывайтесь на канал Точки .ml!

20 043

🔥 Самые интересные статьи за последние дни: • Не бойтесь потоков в Python, они не кусаются • Рубрика: VPS на пределе возможностей. LLM на CPU с 12Gb RAM • Предвзятость русскоязычных LLM: кого машина считает «обычным человеком»? • Семантический веб: краткий обзор технологий и инструментов • Инструмент обеспечения качества данных: от теории к практике

20 043

👩‍💻 Задачка по Python Напишите функцию, которая принимает DataFrame и заменяет отсутствующие значения (NaN) в каждом числовом столбце на среднее значение этого столбца. Если столбец содержит только NaN, оставьте его без изменений. ➡️ Пример:

   feature1  feature2  feature3
0       1.0      10.0       NaN
1       2.0       NaN       NaN
2       NaN      30.0       NaN
3       4.0      40.0       NaN

   feature1  feature2  feature3
0      1.00      10.0       NaN
1      2.00      26.7       NaN
2      2.33      30.0       NaN
3      4.00      40.0       NaN

Решение задачи ⬇️

import pandas as pd def fill_missing_with_mean(df): numeric_columns = df.select_dtypes(include=['float', 'int']) for column in numeric_columns: if df[column].notna().any(): # Проверяем, есть ли значения не NaN df[column] = df[column].fillna(df[column].mean()) return df # Пример использования: data = pd.DataFrame({ 'feature1': [1.0, 2.0, None, 4.0], 'feature2': [10.0, None, 30.0, 40.0], 'feature3': [None, None, None, None] }) result = fill_missing_with_mean(data) print(result)

20 043

⚙️ Умножение троичных матриц для нейросетей Статья исследует использование троичных значений (-1, 0, 1) в нейросетевых матрицах. Рассматриваются методы хранения тритов с использованием 32-битной арифметики и подходы к их быстрому умножению через оптимизацию памяти. Читать...

20 043

🔎 Подборка зарубежных вакансий ML Engineer / AI Data Scientist (AI Intent Marketing) 🟢Python, Trino/Spark 🟢от 3 000 до 7 000 $ | более 6 лет Game Data Analyst 🟢SQL, Python, R 🟢Уровень дохода не указан | 1–3 года Data Engineer 🟢AirFlow, Python, Linux 🟢Уровень дохода не указан | 3–6 лет

20 043

🧩 Работай с кодом, как с историей Читаешь старый код и не понимаешь, как он дошёл до жизни такой? 👉 Совет: анализируй коммиты, историю изменений и комментарии к задачам. Это поможет понять, почему код стал таким, а не просто принять его как данность. Иногда не код плохой — просто контекст утерян.

20 043

🖥 Руководство по созданию приложения для поиска данных на основе агента GraphRAG Статья описывает приложение, объединяющее GraphRAG и AutoGen-агентов с локальными LLM от Ollama для автономного встраивания и вывода. Рассмотрены ключевые аспекты: интеграция знаний, настройка LLM, вызов функций и интерактивный интерфейс. Читать...

20 043

➡️ Путь разметки данных для NER: от Open Source до Prodigy Статья посвящена созданию обучающей выборки для NER. Описан опыт разметки данных с использованием Open Source инструментов и Prodigy, профессионального решения для ускорения процесса создания наборов данных. Читать...

20 043

❓ Что такое Overfitting и как его избежать в моделях машинного обучения? Overfitting (переобучение) возникает, когда модель слишком хорошо запоминает обучающие данные, включая шум, и теряет способность обобщать информацию на новых данных. Это приводит к высокому качеству на обучающем наборе, но плохим результатам на тестовых данных. ➡️ Основные способы предотвращения Overfitting:

1. Регуляризация: • L1 и L2-регуляризация добавляют штраф к сложным моделям. • Уменьшают коэффициенты модели, предотвращая избыточное подстраивание. 2. Dropout (для нейронных сетей): • Исключение случайных нейронов на этапе обучения. 3. Снижение сложности модели: • Использование меньшего числа признаков или более простых алгоритмов. 4. Увеличение данных: • Генерация новых данных или увеличение объёма обучающей выборки.

➡️ Пример:

from sklearn.linear_model import Ridge from sklearn.model_selection import train_test_split from sklearn.datasets import load_diabetes # Загружаем данные data = load_diabetes() X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2, random_state=42) # Создаём модель с регуляризацией (Ridge) ridge = Ridge(alpha=1.0) ridge.fit(X_train, y_train) # Оцениваем качество train_score = ridge.score(X_train, y_train) test_score = ridge.score(X_test, y_test) print(f"Train Score: {train_score}, Test Score: {test_score}")

🗣️ В этом примере Ridge-регрессия с параметром регуляризации alpha=1.0 помогает предотвратить переобучение, улучшая обобщающую способность модели. 🖥 Подробнее тут