Data Science | Machinelearning [ru]
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD
Show more📈 Analytical overview of Telegram channel Data Science | Machinelearning [ru]
Channel Data Science | Machinelearning [ru] (@devsp) in the Russian language segment is an active participant. Currently, the community unites 20 042 subscribers, ranking 6 734 in the Technologies & Applications category and 33 730 in the Russia region.
📊 Audience metrics and dynamics
Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 20 042 subscribers.
According to the latest data from 15 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -82 over the last 30 days and by -1 over the last 24 hours, overall reach remains high.
- Verification status: Not verified
- Engagement rate (ER): The average audience engagement rate is 7.88%. Within the first 24 hours after publication, content typically collects 4.47% reactions from the total number of subscribers.
- Post reach: On average, each post receives 1 580 views. Within the first day, a publication typically gains 896 views.
- Reactions and interaction: The audience actively supports content: the average number of reactions per post is 7.
- Thematic interests: Content is focused on key topics such as llm, nvidia, контекст, openai, архитектура.
📝 Description and content policy
The author describes the resource as a platform for expressing subjective opinions:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.
Личный блог автора - @just_genych
По вопросам рекламы или разработки - @g_abashkin
РКН: https://vk.cc/cJPGXD”
Thanks to the high frequency of updates (latest data received on 16 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.
По мнению аналитиков, OpenAI закупает ускорители (GPU) в рекордных объемах, но при этом использует архитектуру 1,5-летней давности, в том числе для таких моделей, как GPT-5. Причем ни одна из моделей, выпущенных после GPT-4, не прошла полное предварительное обучение, что является важным этапом для создания новых передовых систем. Для примера: GPT-4.5 Orion и GPT-5 — это не новые разработки, а улучшения существующих моделей с акцентом на обучение с подкреплением и рассуждения. При этом конкуренты, такие как Google, не теряют времени зря и продолжают развивать свои передовые модели, например Gemini 3 Pro, что, как стало известно, вызывает беспокойство в OpenAI. Сам Сэм Альтман, CEO OpenAI, упомянул, что конкуренция с Google будет сложной и потребует значительных усилий. Как так получилось? Для того чтобы понять, куда уходят все эти деньги и ресурсы, стоит обратить внимание на несколько важных аспектов. Прежде всего, OpenAI активно развивает новые направления, такие как модели для создания изображений и Sora 2 (новая модель для обработки данных). Но если сравнивать с гигантскими инвестициями, которые компания направляет в вычислительные ресурсы, на выходе получаем не такие уж большие прорывы. Например, по оценке Epoch AI, в 2024 году OpenAI потратила около 7 миллиардов долларов на вычисления. 5 миллиардов из этой суммы пошли на тренировочные задачи, а другая часть расходов идет на инференс. Ведь ChatGPT ежедневно обслуживает 800 миллионов пользователей, и объем диалогов достигает 2,5 миллиардов в неделю.И все же есть и светлые перспективы. В OpenAI официально признают, что ставка сделана на режим рассуждений, который активно развивается под руководством Лукаша Кайзера. Это может означать, что в будущем мы увидим не просто более умные модели, но и новые формы ИИ, которые смогут понимать и рассуждать на более глубоком уровне. Data Science
Что же интересного в этой версии? Давайте разберёмся. Революция для Windows и Powershell Теперь Codex не просто кодит как обычно. Он понял, как работать в среде Windows, и особенно с Powershell. Это означает, что модель теперь точно разбирается в особенностях файловой системы, путях и всем, что связано с Windows. Но это ещё не всё — появилась новая фича под названием "Agent mode". Эта штука позволяет модели работать автономно в терминале, выполняя задачи без постоянного контроля. Не забудьте, что доступ можно настроить, если надо. Автономность на новом уровне OpenAI заявляет, что модель способна работать более 24 часов без остановки. Можете себе представить? Правда, тут стоит напомнить про достижение Anthropic с их Sonnet 4.5, которая обещает 30 часов работы. Но всё равно впечатляет, правда? Новая память — что это значит? Модель теперь умеет работать с большими контекстами, благодаря новой фиче "compaction". Что это? Когда окно контекста близко к своему пределу, Codex сжимает старую информацию и переносит её в новое окно вместе с актуальной информацией. Как бы креативная версия краткосрочной и долгосрочной памяти, не так ли? Результаты и метрики GPT-5.1-Codex-Max показывает отличные результаты — 77.9% точности на SWE-bench Verified, что превосходит даже Gemini 3 и Sonnet 4.5 от Claude. К тому же, модель теперь тратит на 30% меньше токенов при среднем уровне рассуждений, но результаты всё те же.Так что, эта версия уже доступна для использования в IDE и Codex CLI. Ждете API? Обещают скоро добавить. Data Science
Модель сдает задачи на уровне золотой медали на IMO (Международной математической олимпиаде) 2025 и CMO (Chinese Mathematical Olympiad) 2024. Но это еще не все: на сверхсложной олимпиаде для студентов Putnam 2024 модель получила 118 из 120 возможных баллов. Это действительно впечатляющий результат 🤔 Теперь, конечно, вы спросите, а где же бенчмарки? Да, тут есть некоторая странность. Пока нет результатов по таким известным тестам, как MATH, GSM8K или AIME, и в целом на данный момент их не так уж много. Но вот что стоит отметить: на IMO-ProofBench DeepSeek уверенно обходит GPT-5 и сравнивается с Gemini 2.5 Pro на самых сложных задачах. Что касается того, что происходит с Gemini 3, Grok 4 и GPT-5.1, это вопрос открытый. Но с учетом того, как модель показывает себя на реальных задачах, можно не сомневаться, что она в будущем будет конкурировать с самыми лучшими из них. Под капотом у DeepSeek-Math-V2 лежит DeepSeek-V3.2-Exp-Base — мощная система, основанная на пайплайне из генератора и верификатора. Модель не генерирует решение за один проход, а делает это постепенно, улучшая каждое доказательство по нескольку раз. Идея проста, но гениальна: большой генератор создает решение, потом оно проверяется моделью-верификатором, и в случае ошибок модель возвращает обратную связь для улучшений. Процесс повторяется до 16 раз, а за каждую итерацию проверяется сразу до 64 гипотез! Это позволяет добиться максимальной точности и убедиться, что каждое решение отточено до мелочей.Да, бенчмарков пока не так много, но то, что DeepSeek-Math-V2 реально решает задачи на уровне лучших математических умов — это уже факт. И пусть стоимость такого решения скрыта, очевидно, что за ней стоят серьезные инвестиции. Data Science
Появились «полевые задания»: если ваша модель, к примеру, анализирует вывески или определяет акции в магазинах, то можно проверить ее предсказания в офлайне, отправив исполнителя по конкретному адресу для фотофиксации или проверки.Сервис сообщает о пятикратном росте онлайн-задач — исполнители занимаются разметкой текстов, изображений и видео, а также тонким анализом эмоций и намерений в пользовательских обращениях. Именно на таких данных учатся и дообучаются LLM и модели классификации. Для проектов любого масштаба доступны API-интеграции, позволяющие автоматически отправлять данные от вашей модели на проверку и разметку людям. Data Science
Для начала, давайте немного углубимся в обычные графовые базы данных. Традиционные графовые базы хранят связи между узлами, а когда вы делаете запрос, система проходит от узла к узлу, шаг за шагом, как бы следуя по карте. Это нормально, но вот проблема: при работе с огромными графами знаний, как в случае с ИИ-агентами, это становится серьезным узким местом. А что если представить граф как математическую структуру? FalkorDB решает эту проблему с помощью разреженных матриц. В отличие от традиционных графов, где хранятся все связи, разреженная матрица хранит только существующие, действительные связи. Это позволяет значительно экономить место и ресурсы. Но это еще не все. Ключевое преимущество: когда граф представлен как разреженная матрица, вы можете делать запросы с помощью линейной алгебры, а не пошагового обхода. А линейная алгебра работает намного быстрее, чем традиционное путешествие по графу. Плюс, разреженные матрицы используют память с максимальной эффективностью — вы храните только то, что действительно нужно. Почему не использовать просто векторный поиск 😂 Векторный поиск, конечно, быстрый, но он ограничен поиском только по схожести, не учитывая тонкие связи и структуру данных. Графы же позволяют уловить тонкие взаимосвязи между объектами. Это важно, потому что контекст, который вы подаете агенту, должен быть не просто похожим, а точным и релевантным. Что предлагает FalkorDB? • Ультра-быстрая многозадачная графовая база данных. • Эффективное хранение с использованием разреженных матриц. • Совместимость с OpenCypher — тем же языком запросов, что и в Neo4j. • Оптимизирована для приложений на базе LLM и памяти агентов. • Работает поверх Redis для простоты развертывания.Если вы строите ИИ-агентов, которым нужно работать с подключенными данными в реальном времени, FalkorDB — это инструмент, который стоит попробовать. Data Science
Дэвид Кропли использует классическое определение творчества из психологии, где продукт признается креативным только тогда, когда он одновременно новый и уместный. Он формулирует это так: C = N × E где C — это креативность, N — новизна, а E — эффективность. А как это соотносится с языковыми моделями вроде ChatGPT? Кропли вводит понятие вероятности того, какое слово модель выберет на данном шаге. И оказывается, что креативность на одном шаге можно описать как: C = p × (1 − p) = p − p² где p — это вероятность выбранного слова. Математика подсказывает, что максимальная креативность может быть достигнута, когда вероятность равна 0.5 (средний выбор). Когда слово слишком вероятно, оно становится банальным, а когда слишком редким — уместность теряется. Пример с котом 😺 Чтобы понять, как это работает, Кропли приводит пример: «The cat sat on the ...». Для ИИ слово mat будет очень вероятным, но оно настолько банально, что новизны почти не добавляет. Более редкие варианты, вроде moon или chair, с одной стороны, новее, но рискуют быть неуместными. Так вот, каждый шаг в процессе генерации у ИИ балансирует между «банально, но правильно» и «оригинально, но рискованно». И как бы ни старались модели, они не могут быть одновременно очень новыми и очень уместными. То есть, как бы ни учились на данных, ИИ всё равно окажется где-то в середине, между слишком банальным и слишком странным. Кропли делает вывод, что текущие языковые модели могут лишь имитировать творчество на среднем уровне. В реальности они, по его мнению, никогда не выйдут на уровень профессионалов или гениев. Их «творческий потолок» — это как раз 25% шкалы творческих способностей человека. Выходит, ИИ может быть хорош в создании посредственных идей, но сложно ждать от него настоящего прорыва.Однако Кропли не говорит, что ИИ всегда будет таким. Он утверждает, что для достижения «экспертного» уровня потребуется новая архитектура, которая будет генерировать идеи, не привязанные к уже существующим данным. То есть, новые технологии, которые смогут выходить за рамки привычных статистических паттернов. Фуух, будущее есть! Data Science
«Соцсети часто сводят дискуссию об ИИ к двум крайностям. С одной стороны, у нас есть скептики, которые уверены, что ИИ — это просто модное явление и ничего больше. С другой — фанатики, которые считают, что суперумные машины вот-вот станут реальностью.» Но если взглянуть на мнение настоящих специалистов, то увидим нечто более сбалансированное и менее драматичное. Что говорят ученые? — Текущие технологии уже могут произвести огромный эффект. Даже без сверхреволюционных открытий, современные модели ИИ способны изменить экономику и общество. — Для достижения AGI (и тем более ASI, искусственного суперинтеллекта) нужны дополнительные исследования. К примеру, многие исследователи упоминают такие проблемы, как постоянное обучение и эффективность выборки. Эти прорывы могут быть ключевыми для следующего шага. — 10-20 лет на пути к AGI. Средний срок, который называют ученые, — 10 лет. Но в целом, консенсус таков: да, мы точно придем к этому, и вполне возможно, что это случится в ближайшие десятилетия.Если убрать все шумиху и хайп, оказывается, что мнение ученых гораздо более зрелое и оптимистичное, чем мы привыкли думать, глядя на громкие заголовки. Конечно, для того чтобы достичь того самого суперинтеллекта, предстоит пройти еще долгий путь, но так ли уж фантастичен этот путь? Да, нужно больше исследований, но идея о том, что AGI будет создано в ближайшие 10-20 лет, в целом вполне реалистична. Data Science
Картина называется «The Thinking Game» и, возможно, кто-то из вас уже успел ее посмотреть — она была доступна на платных платформах с лета 2024 года. Но вот теперь, Google решился подарить этот фильм всем желающим. Документалка, которая снималась с 2019 года, рассказывает не только о Демисе Хассабисе, основателе и CEO DeepMind, но и о всей команде, которая стоит за разработкой таких проектов, как AlphaGo, AlphaZero и, конечно, AlphaFold. Это своего рода экскурс в культуру и философию DeepMind, где на фоне ключевых научных достижений проходит рассказ о людях, которые все это создавали. Если вы когда-то задавались вопросом, как вообще можно вывести ИИ на такой уровень, чтобы он начал решать задачи, стоящие перед самыми опытными учеными, то этот фильм даст ответы на многие вопросы. Система AlphaFold не просто решает задачи в области биоинформатики, она буквально перевернула способ, которым ученые изучают структуру белков. Это достижение стало возможным благодаря огромной работе, проделанной командой DeepMind, и сейчас мы стоим на пороге того, чтобы с помощью ИИ разгадывать тайны жизни на уровне, который раньше был невозможен.Те, кто еще не видел этот фильм, могут наверстать упущенное. Это отличная возможность не только узнать о технологических достижениях, но и вдохновиться на новые идеи. Data Science
Для начала, давайте разберёмся, что такое FrontierMath. Это набор задач, подготовленных профессиональными математиками, охватывающий широкий спектр тем — от теории чисел до алгебраической геометрии. Некоторые из этих задач могут занять у человека недели работы, а уровень сложности варьируется от бакалавриата до уровня исследовательской работы. Gemini 3 Pro, к слову, набрал 37,6% по общим результатам, значительно обогнав остальных соперников: Gemini 2.5 Deep Think с 29% и GPT-5 Thinking с 26,6%. На самом сложном уровне Tier 4, где ставятся задачи из мира научных исследований, Gemini 3 Pro также оказался вне конкуренции, решив девять задач. Для сравнения, GPT-5.1 Thinking и GPT-5 Pro справились только с шестью. Что это значит? Мы привыкли к тому, что ИИ пока уступает человеку в таких областях, как математика, но, похоже, это скоро изменится. Например, люди в среднем показывают около 30% правильных решений в таких задачах, а при совместной работе и нескольких попытках результат может подниматься до 50%. Если учесть, что ИИ сейчас добился 19% на самых сложных задачах (это ещё без дополнительных попыток), можно говорить о серьёзном прогрессе.На фоне того, что эти технологии становятся доступными для широких масс, можно ожидать настоящую революцию в области научных исследований и образования. Переплюнет ли ИИ человека в математике? Data Science
Главная задача Genesis Mission — ускорить научные открытия с помощью ИИ. Всё это должно быть сделано с использованием передовых технологий и самой современной инфраструктуры. Цель амбициозная: создание платформы, которая объединит в себе всё необходимое для развития научных агентов: данные, инструменты, вычислительные мощности и среды для их обучения. Вот как всё будет происходить поэтапно: • Создание American Science and Security Platform Это не просто место для хранения данных, а настоящая инфраструктура для развития научного ИИ. В её рамках министерство энергетики США в течение трёх месяцев будет собирать вычислительные ресурсы. Но не только у себя в стране: сотрудничество с частным сектором и другими странами — неотъемлемая часть плана. После этого, ещё четыре месяца уйдут на подготовку данных и их обработку по специальным протоколам безопасности. Ведь помимо научных задач важно не забывать о безопасности — особенно когда речь заходит о такой мощной платформе. • Дообучение моделей с использованием роботизированных лабораторий Интересный момент: в отличие от традиционных подходов, валидация и обучение будут происходить с помощью роботизированных лабораторий. Это значит, что ИИ будет генерировать гипотезы, робот их тестирует в реальных условиях, а ИИ уже на основе полученных данных делает выводы и улучшает гипотезу. Такой цикл не только автоматизирует процесс, но и значительно ускоряет его. Когда ждать результатов 👉 Первые реальные результаты планируют получить к 2027 году. Если всё пойдёт по плану, в этот момент мы сможем увидеть не просто новые научные достижения, а совершенно новый подход к исследованию и экспериментам с помощью ИИ. Кто участвует в проекте? Здесь уже яснее: OpenAI и Anthropic точно будут участвовать в проекте. Возможно, к ним присоединятся и другие лаборатории. Но вот с xAI (компанией Илона Маска) пока всё не так очевидно. Тема его участия ещё остаётся под вопросом, особенно на фоне недавних политических разногласий.Но, как и в любом масштабном проекте, остаётся один важный вопрос: может ли такой подход изменить весь научный ландшафт? Data Science
Эндрю Ын и его команда разработали ИИ-ревьюера, который помогает исследователям и студентам улучшить свои работы перед отправкой в журнал. Такой инструмент может сэкономить вам не только время, но и нервы. Ведь если обычное ревью может занимать недели или даже месяцы, то ИИ оценит вашу работу за несколько минут. Как это работает? 😮💨 Система была обучена на реальных ревью с конференции ICLR 2025, что гарантирует её практическую ценность. Оценки качества происходили с использованием корреляции Спирмена, где чем выше значение, тем ближе результаты ИИ к человеческим оценкам. В итоге, корреляция между ИИ и реальным рецензентом составила 0.42, что, как ни странно, не так уж и плохо. Для сравнения, корреляция между двумя людьми-ревьюерами в среднем тоже около 0.41. Так что, да, ИИ может дать вам весьма точный прогноз, чем ревьюеры могут быть недовольны. Особенность системы в том, что она использует atXiv для ревью, а значит, она особенно полезна для статей в области ИТ и ИИ, которые часто публикуются на этой платформе. Цикл обратной связи в научных кругах порой затягивается на полгода, и это, согласитесь, слишком долго. В таких условиях скорость и качество обратной связи — это то, что нужно каждому исследователю. А ИИ-ревьюер как раз и может помочь вам избежать затянутых циклов и получить полезные замечания ещё до того, как ваша работа попадёт в руки журнала.Теперь можно не просто перепроверять свою статью, но и нацелиться на тот результат, который понравится рецензентам, ещё на этапе подготовки. Это бесплатно, и вы можете начать использовать инструмент прямо сейчас — PaperReview. Data Science
Available now! Telegram Research 2025 — the year's key insights 
