Data Science | Machinelearning [ru]

前往频道在 Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

显示更多

网络:Frontender's notes [ru]俄罗斯33 644 技术与应用6 685...

📈 Telegram 频道 Data Science | Machinelearning [ru] 的分析概览

频道 Data Science | Machinelearning [ru] (@devsp) 俄语语言赛道中的是活跃参与者。目前社区聚集了 19 949 名订阅者，在 技术与应用 类别中位列第 6 685，并在 俄罗斯 地区排名第 33 644 位。

📊 受众指标与增长动态

自 невідомо 创建以来，项目保持高速增长，吸引了 19 949 名订阅者。

根据 01 七月, 2026 的最新数据，频道保持稳定运转。过去 30 天订阅人数变化为 -97，过去 24 小时变化为 -3，整体触达仍然可观。

认证状态： 未认证
互动率 (ER)： 平均受众互动率为 6.61%。内容发布后 24 小时内通常能获得 4.18% 的反应，占订阅者总量。
帖子覆盖： 每篇帖子平均可获得 1 319 次浏览，首日通常累积 835 次浏览。
互动与反馈： 受众积极参与，单帖平均反应数为 5。
主题关注点： 内容集中在 llm, nvidia, контекст, openai, архитектура 等核心主题上。

📝 描述与内容策略

作者将该频道定位为表达主观观点的平台：
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

凭借高频更新（最新数据采集于 02 七月, 2026），频道始终保持新鲜度与高覆盖。分析显示受众积极互动，使其成为 技术与应用 类别中的关键影响点。

19 949

订阅者

-324 小时

-397 天

-9730 天

1 319

帖子浏览量

~ 83524 小时

~ 94448 小时

6.61%

参与率

~ 2

每日帖子数

Ads index

beta

帖子存档

19 949

IТ-индустрия - это рынок работников, а не работодателей. Это означает, что сотрудники могут диктовать условия. К тому же сегодня вам не нужно заканчивать IT-ВУЗ для написания кода. И если для того, чтобы стать программистом, достаточно нескольких месяцев, что помимо программирования имеет значение при приеме на работу?

19 949

map Это классная команда для простого преобразования данных. Сначала вы определяете словарь, в котором «ключами» являются старые значения, а «значениями» являются новые значения. level_map = {1: ‘high’, 2: ‘medium’, 3: ‘low’} df[‘c_level’] = df[‘c’].map(level_map) Например: True, False до 1, 0 (для моделирования); определение уровней; определяемые пользователем лексические кодировки.

19 949

Нужно больше данных? Интуитивно это покажется странным, но зачастую лучший способ начать анализ — работать с репрезентативной выборкой. Это позволяет ознакомиться с данными и построить конвейер, не дожидаясь их обработки и обучения модели. Но аналитикам, похоже, это не нравится: лучше больше данных. Решение: начните работу с небольшой репрезентативной выборкой и посмотрите, сможете ли вы получить из нее что-то полезное. Верните выборку конечным пользователям. Они могут её использовать? Это решает реальную проблему? Если нет, то проблема скорее всего не в количестве данных, а в подходе.

19 949

Сможет ли Julia занять место рядом с Python Julia и Python —языки программирования, которыми многие программисты очень дорожат. Использование Julia вместо Python обладает множеством преимуществ, таких как меньшее время написания кода и более быстрая компиляция. Однако на данный момент Julia проигрывает Python в популярности. В отличие от Python в Julia отсутствует критическая инфраструктура машинного обучения и выполнения скриптов, необходимых для того, чтобы стать отраслевым стандартом, особенно в машинном обучении...

19 949

Обратите внимание: @kaicode (5 сентября). Это первый в своём роде сбор на одной площадке авторов open source проектов, в Москве. Huawei спонсирует и организует. Отошлите им ссылку на свой GitHub проект, его рассмотрят и лучших пригласят на площадку для выступления и защиты. Три проекта получают в руки по $5000 каждый и возможность дальнейшей поддержки от Huawei. Пишите им в Телеграм группу за подробностями и бесплатным билетом на вход.

19 949

Переобучение Чем больше времени вы тратите на набор данных, тем вероятнее переобучение. Вы работали с функциями, оптимизировали параметры, использовали перекрёстную проверку, поэтому всё должно быть хорошо. Решение: закончив построение модели, попробуйте найти другую версию наборов данных. Она может быть суррогатом для настоящего набора вне выборки. Если вы менеджер, сознательно скрывайте данные, чтобы они не использовались для обучения. Пример: применение моделей, обученных на первом наборе данных ко второму набору, показывает: СКО более чем удвоилось. Это приемлемо? Решение за вами, но результаты #4 могут помочь. первый наборrf mse 0.261 ols mse 0.187новый наборrf mse 0.681 ols mse 0.495

19 949

сopy Это важная команда. Если вы сделаете: import pandas as pd df1 = pd.DataFrame({ ‘a’:[0,0,0], ‘b’: [1,1,1]}) df2 = df1 df2[‘a’] = df2[‘a’] + 1 df1.head() Вы обнаружите, что df1 изменен. Это потому, что df2 = df1 не делает копию df1 и присваивает ее df2, а устанавливает указатель, указывающий на df1. Таким образом, любые изменения в df2 приведут к изменениям в df1. Чтобы это исправить, вы можете сделать либо: df2 = df1.copy () или же: from copy import deepcopy df2 = deepcopy(df1)

19 949

Компания Apple купила канадский стартап-разработчика искусственного интеллекта и систем машинного обучения Inductiv для развития голосового помощника Siri. Сумма сделки и ее условия не раскрываются. В Apple изданию заявили, что «периодически покупают небольшие компании». Inductiv занимается созданием системы, с помощью которой искусственный интеллект используется для выявления и исправления ошибок в данных для машинного обучения. Инженерная команда Inductiv займется в Apple улучшением технологии Siri. За последние пять лет Apple приобрела несколько компаний, связанных с искусственным интеллектом и машинным обучением, например, Voysis, Xnor.ai, Turi, Perceptio, Tuplejump и другие.

19 949

@notboring_tech — лёгкий для чтения, приятный для досуга и просто уютный канал про технологии, ИИ и нейросети, VR и AR! Большое количество новостей и проектов из отрасли, к тому же канал без хлама и мусора, подписывайтесь! 🤖 💖

19 949

select_dtypes Если предварительная обработка данных должна выполняться в Python, то эта команда сэкономит ваше время. После чтения из таблицы типами данных по умолчанию для каждого столбца могут быть bool, int64, float64, object, category, timedelta64 или datetime64. Вы можете сначала проверить распределение с помощью df.dtypes.value_counts() чтобы узнать все возможные типы данных вашего фрейма, затем используйте df.select_dtypes(include=[‘float64’, ‘int64’]) чтобы выбрать субфрейм только с числовыми характеристиками.

19 949

Какие данные доступны при принятии решения? Когда вы запускаете модель в реальных условиях, она получает доступные именно в этот момент данные. Они могут отличаться от тех, что предполагалось использовать в обучении. Например, они опубликованы с задержкой, поэтому к моменту запуска другие входные данные изменились. Значит, вы делаете прогнозы с неверными данными или ваша истинная переменная y теперь ложна. Решение: проведите пошаговое тестирование вне выборки. Если бы модель испытывалась в реальных условиях, то как бы выглядел обучающий набор? Какие данные имеются для прогнозирования? Кроме того, подумайте вот о чём: если бы вы действовали на основании прогноза, то какой результат был бы в момент принятия решения?

19 949

Искусственный интеллект для оптимизированной мобильной связи В то время как многие европейские государства в настоящее время создают 5-е поколение мобильной связи, ученые уже работают над ее оптимизацией. Хотя 5G намного превосходит своих предшественников, даже в самом последнем стандарте мобильной связи все еще есть возможности для улучшения: особенно в городских районах, где прямая видимость между излучателем и приемопередатчиком затруднена, радиосвязь еще не работает надежно. В рамках недавно запущенного в ЕС проекта ARIADNE одиннадцать европейских партнеров изучают, как можно разработать передовую системную архитектуру «за пределами 5G» с использованием высокочастотных полос и искусственного интеллекта...

19 949

Мастерская инноваций Liquid Studio компании Accenture в России представила голосового помощника «Аня» для онлайн-покупок в продуктовых магазинах. Голосовой ассистент «Аня» позволит подбирать товары в продуктовых интернет-магазинах непосредственно для каждого пользователя, учитывая его предпочтения. Если на вопрос ассистента «Какие продукты вы хотите заказать?», будет озвучен ответ: «Мне как обычно», «Аня» добавит в корзину товары, наиболее часто приобретаемые пользователем.

19 949

Перекрёстная проверка и панельный анализ Вас учили, что перекрёстная проверка — всё, что нужно. Sklearn даже предоставляет несколько удобных функций для неё, поэтому вы думаете, что сделали всё. Но большинство методов перекрёстной проверки используют случайную выборку, а значит, можно получить смешение наборов с завышением производительности.

19 949

Предварительная обработка всего набора Вы уже знаете, что мощная модель может переобучиться. Это означает, что она хорошо работает в выборке, но плохо вне выборки. То есть нужно знать об утечках обучающих данных в тестовые. Если не будете внимательны...

19 949

Приемы Python Pandas, которые сделают вашу работу более эффективной. Pandas - это широко используемый пакет Python для структурированных данных. Существует много хороших учебных пособий на данную тематику, но здесь мы бы хотели раскрыть несколько интересных приемов, которые, вероятно, еще пока неизвестны читателю, но могут оказаться крайне полезными. read_csv Все знают эту команду. Но если данные, которые вы пытаетесь прочитать, слишком большие, попробуйте добавить...

19 949

Неправильное тестирование вне выборки Это может разрушить карьеру! Модель выглядела великолепно в исследованиях и разработках, но ужасно проявила себя на реальных данных. Такая модель приводит к очень плохим результатам, она может стоить компании миллионов. Это самая грубая ошибка из всех! Решение: убедитесь, что работаете с моделью в реалистичных условиях и понимаете, когда она будет работать, а когда — нет. Пример: внутри выборки случайный лес работает намного лучше линейной регрессии: СКО 0,048 в сравнении с 0,183, но вне выборки случайный лес намного хуже: 0,259 против 0,187. Случайный лес переобучен и провалится в реальных условиях! in-samplerf mse 0.04 ols mse 0.183out-samplerf mse 0.261 ols mse 0.187

19 949

Искусственный интеллект может делать личностные суждения на основе фотографий Российские исследователи из Университета НИУ ВШЭ и Открытого гуманитарного и экономического университета продемонстрировали, что искусственный интеллект способен выводить личность человека из фотографий «селфи» лучше, чем люди-оценщики. Сознательность оказалась легче узнаваемой, чем другие четыре черты. Предсказания личности, основанные на женских лицах, оказались более надежными, чем предсказания для мужских лиц. Эта технология может быть использована для поиска «лучших совпадений» в сфере обслуживания клиентов, знакомства или онлайн-обучения. Читать...

19 949

У вас нет простейшей базовой модели Современные библиотеки ML упрощают задачу. Почти. Просто измените одну строчку кода и запускайте модель. И другую. И ещё одну. Метрики ошибок уменьшаются, ещё настройка. Великолепно — они снижаются ещё… При всей изощрённости модели вы можете забыть о глупом способе прогнозирования. Без этого примитивного теста у вас нет абсолютного показателя качества моделей, а они могут быть плохими в абсолютном выражении. Решение: какой простейший способ, предсказывающий значения? Создайте модель, используя последнее известное значение, (скользящее) среднее или постоянную вроде 0. Сравните производительность с прогнозом какой-нибудь обезьяны! Пример: с этим набором временных рядов первая модель должна быть лучше второй: среднеквадратичная ошибка (далее — СКО) 0,21 и 0,45. Но подождите! Принимая во внимание только последнее известное значение, СКО падает до 0,003! ols CV mse 0.215rf CV mse 0.428last out-sample mse 0.003

19 949

ИИ научился обнаруживать далекие галактики на нечетких снимках. Программа под названием Morpheus создана учеными из Калифорнийского университета, их работа опубликована в журнале Astrophysical Journal. Морфология галактик от вращающихся дисковых галактик, подобных нашему Млечному пути, до аморфных эллиптических и сфероидальных галактик, может рассказать астрономам о том, как они образуются и развиваются со временем. Крупномасштабные исследования, такие как проект LSST, который будет проводиться в обсерватории Вера-Рубина в Чили, позволят получить огромные объемы данных. В сутки LSST будет снимать более 800 панорамных снимков с помощью камеры с разрешением 3,2 млрд пикселей, захватывая все видимое небо Южного полушария два раза в неделю. Хотя разрешение у телескопа будет довольно большим, снимки не будут очень четкими, — а на их ручной анализ уйдут десятилетия. Для автоматизации поиска объектов на снимках таких крупномасштабных исследований ученые создали ИИ Morpheus. Для обучения нейросети ученые загрузили в нее данные крупномасштабного исследования 2015 года — снимки, на которых астрономы уже нашли более 10 тыс. галактик. Затем ИИ тренировался на поиск галактик на снимках, сделанных телескопом Hubble. В результате система научилась анализировать объекты на снимках, отделяя их от фона и проверяя, соответствует ли их размер, форма и другие параметры предмету поиска — в данном случае далеким галактикам. Затем система сама проводит проверку на достоверность полученных данных.