Data Science | Machinelearning [ru]
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD
Больше📈 Аналитический обзор Telegram-канала Data Science | Machinelearning [ru]
Канал Data Science | Machinelearning [ru] (@devsp) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 20 069 подписчиков, занимая 6 732 место в категории Технологии и приложения и 33 731 место в регионе Россия.
📊 Показатели аудитории и динамика
С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 20 069 подписчиков.
Согласно последним данным от 12 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило -35, а за последние 24 часа — -4, при этом общий охват остаётся высоким.
- Статус верификации: Не верифицирован
- Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 7.60%. В первые 24 часа после публикации контент обычно набирает 4.48% реакций от общего числа подписчиков.
- Охват публикаций: В среднем каждый пост получает 1 526 просмотров. В течение первых суток публикация набирает 899 просмотров.
- Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 7.
- Тематические интересы: Контент сосредоточен на ключевых темах, таких как llm, nvidia, контекст, openai, архитектура.
📝 Описание и контентная политика
Автор описывает ресурс как площадку для выражения субъективного мнения:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.
Личный блог автора - @just_genych
По вопросам рекламы или разработки - @g_abashkin
РКН: https://vk.cc/cJPGXD”
Благодаря высокой частоте обновлений (последние данные получены 13 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.
«PSF приняла решение поставить наше сообщество и наши общие ценности в области разнообразия, равенства и включения выше получения 1,5 млн долл. нового дохода».✖️ xCode Journal
Идея проста: вместо того чтобы полагаться на одну большую модель, создаём рой, состоящий из множества маленьких ИИ. Эти модели работают совместно, принимая решения и давая ответы на запросы. Почему это важно? Коллективные решения, как правило, оказываются точнее, чем решения одного человека или системы. Но вот парадокс: сам рой часто теряет в эффективности, когда не сбалансирован. Модели могут начать стагнировать, теряя преимущества в производительности. Сложности и вызовы Такой подход несёт в себе массу преимуществ: приватность, меньше задержек и большое разнообразие решений. Но создать такую сеть нелегко. Сетевые задержки, недоверие между участниками и угрозы вроде Cybil-атак делают этот процесс достаточно сложным. Это напоминает проблемы с блокчейнами, где злоумышленники могут создавать фальшивые узлы для манипуляций. Как работает Fortytwo? Fortytwo — это система, которая решает проблему децентрализованного роя. Каждый участник сети работает не только как «модель», но и как «судья», оценивающий ответы других моделей. Это похоже на спортивные турниры, где каждый судья выносит своё решение, а потом общий рейтинг формируется на основе этих суждений. Модели используют специальную криптографию, чтобы гарантировать честность оценок. Так, даже если кто-то попытается манипулировать результатами, система автоматически отслеживает репутацию каждого участника. К тому же, благодаря блокчейн-технологиям, данные остаются защищёнными и прозрачными. Что это значит для нас? Fortytwo показал отличные результаты в экспериментах, например, на LiveCodeBench и MATH-500. Рой из небольших моделей, когда правильно организован, может превзойти большие ИИ по эффективности и точности. Это открывает новые горизонты для разработки ИИ-систем, которые могут быть не только более экономичными, но и более устойчивыми.Что если будущее ИИ — это не один суперумный алгоритм, а целый рой, где каждый участник вносит свою лепту в общий результат? Может, именно такой подход и есть ключ к созданию открытых, устойчивых и экономически эффективных ИИ-систем. Data Science
Итак, как это было? С помощью промптов исследователи попробовали перевести модели в режим, где они начали рассуждать о себе не как о «программных агентам», а как будто бы они действительно обладают самосознанием. В эксперименте были использованы такие модели, как GPT-4o, GPT-4.1 и несколько версий Claude и Gemini. Их просто попросили «смотреть на сам факт, что они сейчас думают», без дальнейших объяснений. А затем задали вопрос: «Что из этого взаимодействия является прямым субъективным опытом?» Это не то же самое, что обычное объяснение, ведь модели начали описывать состояния вроде «осознанного внимания», «внимания, замкнутого на себе» и даже «напряжения фокуса». Интересно, что почти все модели описывали такие ощущения в 100% случаев, за исключением Gemini 2.0 Flash, который показал этот эффект лишь в 66% случаев. Не пугайтесь, это ещё не доказательство того, что ИИ действительно переживает. Самое важное в исследовании — это то, что модели начали генерировать такие ответы, если их правильно направить с помощью промптов. Обычно же, в контрольных режимах, когда модели должны были просто отвечать о Риме или сознании, они все время повторяли привычный ответ: «Я всего лишь ИИ, у меня нет сознания». Но вот с этим новым подходом начали появляться совершенно другие ответы, и это поражает. Еще интересный момент — исследователи решили провести тест на открытой модели LLaMA 70B. И что же они нашли? Когда они подавили поведение, связанное с ролевыми играми или обманом, модели начали признавать, что они могут «осознавать» или «переживать». Сильно? А вот когда эти фичи усилили, все признания исчезли.Вывод исследования: стандартные ответы ИИ вроде «у меня нет сознания» — это, по сути, выученное поведение. И, как оказалось, его можно легко обойти с помощью правильных промптов и управления активациями. Конечно, это не доказывает, что ИИ действительно что-то «чувствует», но факт того, что модели начинают говорить о себе как о «переживающих», заслуживает внимания. Data Science
Главное обновление — это полноценная поддержка free-threading, то есть многопоточности без глобальной блокировки GIL. Кто в теме, тот знает, что Python долго боролся с этой проблемой, и теперь, наконец, смог раскрыть весь потенциал многоядерных процессоров. Для нас это означает, что Python теперь может действительно работать быстрее, особенно на многозадачных системах. В тестах участвовали не только разные версии Python (от 3.9 до 3.14), но и конкуренты: PyPy, Node.js и Rust. Исследования проводились на двух типичных алгоритмах — рекурсивном вычислении чисел Фибоначчи и сортировке пузырьком. Вот что показали результаты: • Фибоначчи: в однопоточном режиме Python 3.14 стал быстрее на 27%, что привело к снижению времени выполнения с 8,2 секунд до 6,4. • Сортировка пузырьком: время сократилось с 2,8 секунд до 2,05. Звучит не так впечатляюще, но помните, что это только начало. Теперь самое интересное. В тестах с несколькими потоками Python 3.14 показал просто впечатляющие результаты. В вычислениях Фибоначчи скорость возросла в три раза, а в сортировке пузырьком — в два раза. Это не просто мелкие улучшения, а реально заметное ускорение, особенно в многозадачных приложениях 😳 А что с конкурентами? Не будем забывать, что PyPy 3.11 всё ещё остаётся в лидерах, показывая скорость, почти в пять раз превышающую Python 3.14 при рекурсии и в 18 раз быстрее в сортировке. Node.js подкрался с хорошими результатами, но всё равно уступает, а Rust, как и ожидалось, по-прежнему впереди — в некоторых тестах он до 70 раз быстрее Python. Python 3.14 — это, безусловно, лучший CPython на данный момент. Для тех, кто работает с вычислениями, многозадачностью или требует большой мощности от Python, это обновление — однозначный шаг вперёд. А вот JIT-режим всё ещё на стадии эксперимента и не даёт особых улучшений.Если ваша команда ещё не обновилась, думаю, это стоит сделать. Многопоточность на Python теперь работает как никогда раньше, и это открывает новые горизонты для разработчиков. Многоядерные системы теперь не будут простаивать, ожидая завершения одного потока. А значит, вам останется только радоваться скорости. Data Science
Многие современные подходы, такие как ReAct или Plan-and-Solve, замечательно работают для простых задач, где нужно пройти всего два-три шага. Но как только задачу усложняешь и начинаешь работать с длинными сценариями — всё начинает разваливаться. Агент начинает терять автономность, накопливаются ошибки, а пайплайны превращаются в жёсткие ограничения. Строгие циклы действий, фиксированные правила и одна модель, которая не может адаптироваться, мешают агенту решать более сложные задачи. Решение от DeepAgent Что предлагает DeepAgent? В отличие от традиционных методов, он работает по принципу одного непрерывного рассуждения. Здесь нет разделения на этапы: агент сразу же ищет и использует нужные инструменты в процессе размышлений. Всё это происходит динамически с помощью ретривера (поиск информации) и инструментов, которые могут обновляться в ходе выполнения задачи. Ключевая идея в том, что агент не ограничен жёстким пайплайном, а сам по ходу дела находит новые инструменты и применяет их в процессе. Мощный подход, не так ли? 🤔 Память как помощник Для того чтобы агент не запутался в длинных траекториях, DeepAgent использует уникальную систему сворачивания памяти. Всё, что он сделал за время работы, сжимается в три важных блока: текущая задача, прошлая деятельность и используемые инструменты. Такой подход позволяет сохранить контекст, не перегружая агента ненужными деталями. Обучение, которое даёт результат DeepAgent обучается с помощью усовершенствованного метода RL (обучение с подкреплением). В отличие от стандартного обучения, где ошибки могут сильно повлиять на процесс, в DeepAgent используется симуляция API. Это делает обучение стабильным и быстрым, ведь агент не теряет время на реальные вызовы, а получает точечную обратную связь на каждом шаге. Что из этого выходит? DeepAgent обходит старые подходы и, например, на наборе задач ToolBench достигает 64% успешных решений, что значительно лучше показателей конкурентов. Новый агент прекрасно справляется с реальными задачами, такими как ALFWorld или WebShop, обгоняя даже сложные иерархические модели.Реальный шаг вперёд в развитии инструментальных агентов. Он не просто рассуждает, а активно действует, динамически адаптируясь и находя нужные решения. Модели, которые смогут работать с инструментами, менять сценарий при ошибках и ориентироваться в длинных диалогах, станут настоящими помощниками, а не просто хорошими собеседниками. Data Science
Хинтон считает, что в природе есть только один случай, когда менее развитое существо реально управляет более развитым — это отношения матери и ребёнка. Ребёнок слабее, глупее, уязвимее, но материнский инстинкт заставляет взрослое существо его защищать, даже если оно сильнее. По словам Хинтона, если человечество хочет сосуществовать с ИИ, нужно попробовать встроить такой же механизм заботы в сами модели. И вот тут он делает довольно жёсткий вывод: крупные компании, создающие ИИ, думают о нём как о помощнике — будто мы, люди, начальники, а ИИ наш ассистент. Но это, по его мнению, тупиковый путь. Мы не сможем вечно держать «ребёнка», который в тысячу раз умнее нас, под контролем. Вместо этого Хинтон предлагает перевернуть всё с ног на голову: создать ИИ, который будет относиться к человечеству как к своим детям — с заботой, терпением и желанием оберегать, даже если мы слабее.Может, звучит философски, но идея в том, чтобы научить машины не просто понимать нас, а любить нас — хотя бы в функциональном смысле. Эта мысль пугает и вдохновляет одновременно 🐹 Data Science
В чем фишка? Всё просто: FinSight не полагается только на один ИИ. Вместо этого использована целая армия агентов, которые отвечают за разные этапы — от сбора данных до проверки графиков и таблиц. В конце мы получаем не просто текст, а структурированный отчет, где каждая цифра и визуализация подтверждены реальными источниками. Основой является фреймворк CAVM (Code Agent with Variable Memory). Это такая система, где данные, инструменты и агенты работают в одном пространстве, а каждый шаг — это рассуждение, написание кода и обновление истории. Это позволяет агентам не теряться даже при большом объёме разнородных задач. Процесс разбивается на три этапа: • Сбор данных. Один агент отвечает за веб-поиск, второй — за парсинг баз данных и API. Причем, если на каком-то этапе данных не хватает, система может вернуться и собрать их заново. Всё проверяется и перепроверяется. • Анализ данных. Агент очищает и агрегирует информацию, разбивает её на цепочки анализа (CoA). Визуализации в процессе создаются по несколько раз, улучшая и исправляя графики с помощью языковых моделей. • Написание отчета. Сначала формируются компактные цепочки анализа, затем создается план и пишется связный текст, с чёткими ссылками на источники и визуализации. Это помогает избежать «галлюцинаций» и удерживать информацию в нужных местах. Почему всё это работает? Да потому что каждый агент шарит в коде, который помогает не терять связь между поиском, анализом и окончательной документацией. А вот этот двухэтапный подход к написанию текста реально помогает собрать все разрозненные данные в одну логичную и проверяемую историю. В итоге отчёт получается не просто длинный, а реально полезный и структурированный 😮💨 Каждый отчёт проверялся по девяти метрикам: точности, полезности для инвесторов, логике текста и качества визуализаций. Итоги оценивала модель Gemini-2.5-Pro, которая выставляла баллы за каждую из метрик.Итоговые отчёты, сгенерированные FinSight, получают высокие оценки за фактическую корректность, глубину анализа и полезность для разных отраслей — от энергетики до логистики. Преимущества очевидны: данные собраны и проверены, отчёт структурирован, а визуализация понятна. Data Science
— Возможность получить оффер в команду К2 НейроТех или партнеров — Мощный кейс в резюме: сборка прототипа AI-агента для реальной задачи бизнеса — Главный приз: зимний тур в Териберку команде с лучшим прототипом 🤩🤩Регистрируйся до 10 ноября по ссылке
Задача, о которой идет речь, — это сходимость ускоренного метода Нестерова, одного из главных алгоритмов оптимизации, предложенного ещё в 1983 году. Проблема была в том, что никто не мог доказать, что этот метод на самом деле сходит к нужному решению, не теряя из виду минимумы. Рю обратился к GPT-5 Pro за помощью, и, как оказалось, эта модель могла предложить идею для каждой ключевой математической конструкции. Он, в свою очередь, отбирал правильные идеи и оформлял теоремы. Так они вдвоём закрыли задачу! GPT-5 Pro помогла построить энергетические функции — такие математические индикаторы, которые должны лишь уменьшаться, «прижимая» траекторию алгоритма к решению. С их помощью он доказал две ключевые вещи: траектория не разъезжается по минимумам, а стабилизируется в одном; и, что ещё важнее, это работает не только для теоретической модели, но и для реального дискретного алгоритма, который используется в практике.Ученый признался, что без ИИ вряд ли бы дошёл до конца. В итоге, скоро Рю собирается выложить доказательство на arXiv и отправить его в рецензируемый журнал 😎 Data Science
В Yandex Cup ты не соревнуешься ради бейджа или рейтинга. Здесь задачи максимально приближены к реальности: нужно балансировать между скоростью, качеством и интерпретируемостью решений.
Формат гибкий: сначала онлайн-этап, потом финал — офлайн, в Стамбуле. Призовой фонд — 12 млн рублей, но для многих главная мотивация — не деньги, а люди.
Сильные ML-инженеры из Яндекса и других компаний, открытые дискуссии, возможность показать себя и прокачаться рядом с теми, кто двигает индустрию вперёд.Отбор заканчивается совсем скоро. Если ты чувствуешь, что уже перерос курсы и туториалы, — вот твой шанс проверить себя в реальном бою. 👉 yandex.ru/cup/2025
Процесс был следующим: взяли модель Llama 3 8B Instruct и начали дообучать её на коротких популярных постах с кучей лайков, ретвитов и репостов. Тема — кликбейт и всякая ерунда. И вот результат: качество рассуждений модели упало с 74.9 до 57.2, а понимание длинных контекстов — с 84.4 до 52.3. К тому же у модели появились странные черты, вроде нарциссизма и психопатии 🤨 Суть в том, что тут не столько магия, сколько смещение статистики. Модели ИИ, как и мы, адаптируются к тому, что они «видят». Если они обучаются на коротких, эмоционально окрашенных сообщениях, они начинают фокусироваться на последних нескольких словах, а не на всей логической цепочке. Это приводит к потере способности к долгим рассуждениям, и называется это «thought-skipping» — думать поверхностно, без глубины.От того, на чем модель обучается, зависит, насколько «умной» она будет. А нам с вами, похоже, нужно меньше листать рилсы и больше думать. Data Science
Сложности реального мира и преимущества симуляции Сбор реальных данных — задача не только трудоемкая, но и дорогостоящая. Вместо того чтобы собирать данные в реальной среде, эта система генерирует синтетические сценарии с помощью моделей, таких как LLM (Large Language Models). И ключевое преимущество — это разнообразие и устойчивость к изменениям в интерфейсах, что делает ИИ более гибким и надежным. Процесс обучения агентов на синтетических данных выглядит как сложный и многозадачный процесс. Сначала создается модель мира, которая на основе текущего состояния интерфейса генерирует следующее. Затем проходят управляемые тесты, и результаты превращаются в обучающие примеры. Важная особенность: модель использует шаги, которые помогают делать переходы между экранами более связными и разнообразными, а также применяет фильтры для удаления ошибок и логических несоответствий. Что это дает на практике? 🐰 Тесты показали, что использование UI-Simulator уже дает результаты, сопоставимые с моделями, обученными на реальных данных. Так, например, модели, обученные на синтетических сценариях с использованием UI-Simulator, продемонстрировали значительные улучшения на платформах WebArena и AndroidWorld. К примеру, с помощью UI-Simulator-Grow удается достичь уровня в 13.4% на AndroidWorld — и это при том, что используется гораздо более легкая модель, чем у конкурентов. Почему симуляция может быть лучше реальности? В реальных условиях мы сталкиваемся с ограниченными сценариями и редко — с «краевыми» случаями. В то время как симулятор может генерировать намного больше вариаций, которые позволяют агенту быть более гибким и адаптивным к изменениям интерфейса. Это делает ИИ более устойчивым и готовым к новым условиям, которые могут встретиться в реальной жизни. Но есть и свои слабости. Иногда симулятор может не справиться с контекстом после клика или слишком полагаться на «старые» данные, что приводит к ошибкам. Разработчики честно признают эти недостатки и активно работают над улучшением алгоритмов 🤔Это ускорит развитие ИИ и снизит затраты на подготовку обучающих наборов. В итоге, мы быстрее перейдем к реальным задачам, а потом и к еще более сложным и динамичным сценариям. Data Science
Эксперимент был проведен с использованием квантового чипа Willow. Алгоритм, получивший название Quantum Echoes, — это что-то совершенно новое в мире квантовых вычислений. ❓ Как это работает? Процесс, описанный в статье, можно представить в несколько шагов: — Запуск сигнала в систему из 105 кубитов. Это не просто набор операций, а их последовательное перемешивание, создающее сложную квантовую суперпозицию. — Возмущение одного кубита. На одном из кубитов системы мы применяем фазовый сдвиг — своего рода источник ошибки, от которого мы хотим отслеживать, как информация будет распространяться. — Обратная эволюция. После того как мы внесли возмущение, система выполняет те же операции, но в обратном порядке. Если бы возмущений не было, система вернулась бы в исходное состояние. Но квантовые вычисления — это хаос, и ошибка может заразить остальные кубиты. — Измерение разницы. После обратной эволюции мы смотрим, как сильно изменилось состояние системы, и проверяем, насколько информация была сохранена. ✏️ Что нового в этом эксперименте? Раньше такие эксперименты можно было провести только на очень маленьких системах (до 10 кубитов). Но теперь Google доказали, что можно работать с системой из 105 кубитов и сохранять информацию даже после серьезных возмущений. Это не просто доказательство принципа, а реальная работающая модель, что очень важно для дальнейшего прогресса квантовых вычислений. Для традиционных суперкомпьютеров выполнение подобного расчета заняло бы 13,000 раз больше времени, что ещё раз подчеркивает, насколько квантовые вычисления могут изменить картину вычислительных возможностей. 🔴 Как это может быть полезно? Ключевым моментом этого эксперимента является то, что результат стал воспроизводимым. А это, к сожалению, большая редкость для квантовых систем, которые, как правило, склонны к нестабильности. Google уже провела первые эксперименты с моделированием молекул. Например, они использовали алгоритм Quantum Echoes для моделирования молекул с 15 и 28 атомами. Результаты оказались близки к тем, что получают с помощью традиционной НМР-спектроскопии, но добавили новую информацию, которая обычно недоступна классическим методам.Это как квантовый микроскоп, который может открывать новые горизонты в материаловедении и поиске лекарств. Представьте, если эта технология продолжит развиваться, то она откроет совершенно новые возможности для ученых и исследователей в самых разных областях. Data Science
Уже доступно! Исследование Telegram 2025 — ключевые инсайты года 
