Математика Дата саентиста

Open in Telegram

@workakkk - админ @data_analysis_ml - ds https://gosuslugi.ru/snet/67b55bb01a1c5a6fb6ecc946

Network:Machinelearning Russia47 377 Technologies & Applications9 190...

📈 Analytical overview of Telegram channel Математика Дата саентиста

Channel Математика Дата саентиста (@data_math) in the Russian language segment is an active participant. Currently, the community unites 14 053 subscribers, ranking 9 190 in the Technologies & Applications category and 47 377 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 14 053 subscribers.

According to the latest data from 18 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -62 over the last 30 days and by 0 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 17.87%. Within the first 24 hours after publication, content typically collects 6.96% reactions from the total number of subscribers.
Post reach: On average, each post receives 2 511 views. Within the first day, a publication typically gains 978 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 53.
Thematic interests: Content is focused on key topics such as llm, программирование, параметр, визуализация, stepik.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“@workakkk - админ @data_analysis_ml - ds https://gosuslugi.ru/snet/67b55bb01a1c5a6fb6ecc946”

Thanks to the high frequency of updates (latest data received on 19 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

14 053

Subscribers

No data24 hours

-47 days

-6230 days

2 511

Post views

~ 97824 hours

~ 1 17948 hours

17.87%

Engagement rate

No data

Posts per day

Ads index

beta

Posts Archive

14 052

🎯 AI в математическом решении проблем — современные достижения и тренды Недавние прорывы демонстрируют, как искусственный интеллект постепенно осваивает задачи, которые ранее считались пределом человеческого разума. 🎓 Прорыв от DeepMind • AlphaProof + AlphaGeometry 2 научились решать задачи уровня Международной математической олимпиады • AI получил серебро: 4 из 6 задач IMO решены, включая сложную геометрию • Одна из задач была решена за 19 секунд — уровень мирового финалиста 🧠 Прогресс в больших языковых моделях • GPT-4, Qwen2‑Math, rStar‑Math достигают 80–90% точности на математических задачах (MATH, AIME) • Используют рассуждение по цепочке (Chain-of-Thought) и поисковые деревья • Это повышает точность и уменьшает количество логических ошибок 📐 Формальная и творческая математика • AI учится использовать proof-ассистенты (формальные доказательства) • Метрика CreativeMath оценивает «творчество» AI — насколько оригинальны решения • Это делает модели не просто калькуляторами, а потенциальными открывателями новых идей 📊 Что это даёт

Сфера | Возможности AI  
-----|----------------------  
Образование | Интерактивные помощники, обучение математике  
Исследования | Генерация гипотез, автоматическое доказательство  
Бизнес | Оптимизация, логистика, криптография, финтех

🧭 Куда движемся дальше • Новый бенчмарк FrontierMath проверяет научные способности моделей • Гибридные архитектуры: нейросети + символика + формальные системы • Применения в науке, финансах, образовании — становятся повседневными 💬 А вы как думаете? • Может ли AI когда-нибудь доказать теорему, которую не смог человек? • Какие приложения AI в математике вам кажутся самыми перспективными? Статья #AI #Mathematics #DeepMind #LLM #FormalProof #Innovation

14 052

🖥 Python-лайфхак для профи: “Перехват любого импорта” с помощью import hooks Хотите логировать или модифицировать поведение импортируемых модулей? Используйте механизм sys.meta_path и свои кастомные import hooks! Зачем это нужно: • Автоматический патчинг сторонних библиотек • Логирование импорта для аудита или отладки • Подмена модулей “на лету” для тестирования или “горячих фиксов” Пример — ловим каждый импорт и выводим имя модуля:


import sys

class ImportLoggerFinder:
    def find_spec(self, fullname, path, target=None):
        print(f'Импортируется: {fullname}')
        return None  # Не вмешиваемся, просто логируем

sys.meta_path.insert(0, ImportLoggerFinder())

# Теперь при любом импорте будет выводиться имя загружаемого модуля


import json
import math
import requests

# Вы увидите:
# Импортируется: json
# Импортируется: math
# Импортируется: requests

С помощью такого подхода можно делать глубокий аудит, динамические патчи или реализовать кастомные протоколы импорта для своих нужд. Очень мощный, но малоизвестный инструмент стандартной библиотеки! Сохрани себе, чтобы не потерять 😎

14 052

🔥 Успех в IT = скорость + знания + окружение Здесь ты найдёшь всё это — коротко, по делу и без воды. Пока другие ищут, где “подглядеть решение”, ты уже используешь самые свежие инструменты! AI: t.me/ai_machinelearning_big_data Python: t.me/pythonl Linux: t.me/linuxacademiya Собеседования DS: t.me/machinelearning_interview C++ t.me/cpluspluc Docker: t.me/DevopsDocker Хакинг: t.me/linuxkalii Devops: t.me/DevOPSitsec Data Science: t.me/data_analysis_ml Javascript: t.me/javascriptv C#: t.me/csharp_ci Java: t.me/java_library Базы данных: t.me/sqlhub Python собеседования: t.me/python_job_interview Мобильная разработка: t.me/mobdevelop Golang: t.me/Golang_google React: t.me/react_tg Rust: t.me/rust_code ИИ: t.me/vistehno PHP: t.me/phpshka Android: t.me/android_its Frontend: t.me/front Big Data: t.me/bigdatai МАТЕМАТИКА: t.me/data_math Kubernets: t.me/kubernetc Разработка игр: https://t.me/gamedev Haskell: t.me/haskell_tg Физика: t.me/fizmat 💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy Папка ML: https://t.me/addlist/2Ls-snqEeytkMDgy Папка FRONTEND: https://t.me/addlist/mzMMG3RPZhY2M2Iy 😆ИТ-Мемы: t.me/memes_prog 🇬🇧Английский: t.me/english_forprogrammers 🧠ИИ: t.me/vistehno 🎓954ГБ ОПЕНСОРС КУРСОВ: @courses 📕Ит-книги бесплатно: https://t.me/addlist/BkskQciUW_FhNjEy Подпишись, если хочешь быть в числе тех, кого зовут в топовые проекты!

14 052

🦆 Как использовать DuckDB с Python: практическое руководство по аналитике DuckDB — это современная in-process аналитическая СУБД, разработанная как “SQLite для аналитики”. Она идеально подходит для обработки больших объёмов данных на локальной машине без необходимости поднимать сервер или использовать тяжёлые хранилища. 📦 Что делает DuckDB особенной? - Работает как библиотека внутри Python (через `duckdb`) - Поддерживает SQL-запросы напрямую к pandas DataFrame, CSV, Parquet, Arrow и другим источникам - Оптимизирована под аналитические запросы: агрегации, группировки, фильтрации - Мгновенно работает с большими файлами без предварительной загрузки 🧪 Пример рабочего сценария: 1️⃣ Чтение и анализ Parquet-файла:


import duckdb

duckdb.sql("SELECT COUNT(*), AVG(price) FROM 'data.parquet'")

2️⃣ Интеграция с pandas:


import pandas as pd

df = pd.read_csv("data.csv")
result = duckdb.sql("SELECT category, AVG(value) FROM df GROUP BY category").df()

3️⃣ Объединение нескольких источников:


duckdb.sql("""
    SELECT a.user_id, b.event_time
    FROM 'users.parquet' a
    JOIN read_csv('events.csv') b
    ON a.user_id = b.user_id
""")

🧠 Почему это важно: - 📊 Вы можете использовать SQL и pandas одновременно - 🚀 DuckDB быстрее pandas в большинстве аналитических задач, особенно на больших данных - 🧩 Поддержка стандартов данных (Parquet, Arrow) даёт нативную интеграцию с экосистемой Data Science - 🔧 Не требует настройки: просто установите через pip install duckdb 🎯 Применения: - Локальный анализ данных (до десятков ГБ) — без Spark - Объединение таблиц из разных форматов (Parquet + CSV + DataFrame) - Прототипирование ETL-пайплайнов и построение дашбордов - Быстрая агрегация и отчёты по логам, BI-данным, IoT-стримам и пр. 📌 Советы: - Используйте read_parquet, read_csv_auto и from_df() для гибкой загрузки данных - Результаты запросов можно конвертировать обратно в pandas через .df() - DuckDB поддерживает оконные функции, GROUP BY, JOIN, UNION, LIMIT, подзапросы и многое другое — это полноценный SQL-движок 🔗 Подробный гайд: https://www.kdnuggets.com/integrating-duckdb-python-an-analytics-guide #DuckDB #Python #DataScience #Analytics #SQL #Pandas #Parquet #BigData

14 052

⚡️Пошаговый план: как стать аналитиком данных в 2025 Хотите попасть в аналитику, но теряетесь в море информации и не понимаете, какие навыки действительно важны? Боитесь, что без опыта вас не возьмут на работу? И да, ещё один популярный вопрос — а что, если мне 30/40/50+ лет? Андрон Алексанян — эксперт по аналитике с 8-летним опытом и по совместительству CEO Simulative — покажет рабочие схемы и чёткий план, как устроиться в аналитику быстрее, даже если у вас нет опыта Что будет на вебинаре? 🟠 Разберёте полный роадмап: что учить, в каком порядке, до какого уровня; 🟠 Лайфхаки трудоустройства: — покажут реальные примеры, как оформить резюме и портфолио, чтобы привлекать внимание; — обсудите, какие отклики работают, а какие сразу отправляют в корзину; — изнанка найма: инсайдерский взгляд на процессы отбора 🟠 Практические техники для новичков: разберёте, как компенсировать недостаток опыта и быстро закрывать пробелы в знаниях 🕗 Важно досмотреть вебинар до конца, чтобы получить бонус от Simulative, который поможет бустануть карьеру 😶Зарегистрироваться на бесплатный вебинар

14 052

🤖 AlphaEvolve: ИИ от DeepMind, который создаёт новые алгоритмы В мае 2025 года DeepMind представила AlphaEvolve — универсального ИИ-агента, способного самостоятельно разрабатывать и оптимизировать алгоритмы. Это не просто генератор кода: AlphaEvolve сочетает мощь языковых моделей Gemini с эволюционными методами поиска и автоматической проверкой решений. 🧠 Что умеет AlphaEvolve? - Решение сложных математических задач: AlphaEvolve улучшил нижнюю границу числа поцелуев в 11 измерениях с 592 до 593 — впервые за десятилетия :contentReference[oaicite:0]{index=0}. - Оптимизация алгоритмов умножения матриц: Превзошёл алгоритм Штрассена 1969 года, сократив количество умножений для 4×4 матриц с 49 до 48 :contentReference[oaicite:1]{index=1}. - Улучшение инфраструктуры Google: Повысил эффективность дата-центров на 1%, оптимизировал дизайн TPU и ускорил обучение моделей Gemini :contentReference[oaicite:2]{index=2}. ⚙️ Как это работает? AlphaEvolve использует: 1. Исходный алгоритм и функцию оценки. 2. Языковую модель Gemini, чтобы генерировать варианты решения. 3. Автоматическую проверку для оценки эффективности каждого варианта. 4. Эволюционный цикл: лучшие решения сохраняются и используются для генерации новых. Такой подход позволяет AlphaEvolve находить решения, которые ранее были недоступны даже экспертам. 📊 Результаты - В 75% случаев AlphaEvolve воспроизводил известные оптимальные решения. - В 20% случаев находил новые, более эффективные решения. - В оставшихся 5% — результаты были хуже известных, что подчёркивает необходимость дальнейших исследований :contentReference[oaicite:3]{index=3}. 🌐 Почему это важно? AlphaEvolve демонстрирует, что ИИ способен не только повторять известные решения, но и создавать новые знания. Это шаг к ИИ, который может активно участвовать в научных открытиях и инженерных разработках. 🔗 Подробнее #DeepMind #AlphaEvolve #ИИ #Алгоритмы #Наука #Технологии #Gemini

14 052

✔️ Llama Nemotron Nano VL от NVIDIA — один из лучших open-source инструментов для документов** Мультимодальная модель от NVIDIA уверенно занимает первое место на OCRBench v2, показав лучшую точность парсинга документов среди всех моделей. 📄 Что это такое: Llama Nemotron Nano VL — лёгкая vision-language модель для интеллектуальной обработки документов (IDP), которая: • разбирает PDF • вытаскивает таблицы • парсит графики и диаграммы • работает на одной GPU 🔍 **Заточена под:** – Вопрос-ответ по документам – Извлечение таблиц – Анализ графиков – Понимание диаграмм и дешбордов 🧠 Под капотом — vision-энкодер C-RADIO v2 (distilled multi-teacher трансформер), который справляется даже с визуальным шумом и высоким разрешением. 📊 OCRBench v2 — крупнейший двухъязычный бенчмарк для визуального анализа текста, и именно NVIDIA Nano VL показывает лучший результат. 📌 И всё это работает на одной видеокарте. 🟡Hf 🟡Подробнее #Nemotron #NVIDIA

14 052

🧠 Загадка: 9 + 9 = ?? На первый взгляд — обычные примеры. Но смотри внимательнее:

5 + 5 = 26  
6 + 6 = 38  
7 + 7 = 52  
9 + 9 = ??

Стандартная арифметика тут не работает. Найдём скрытую логику: Разберём: • 5 × 5 = 25 → 25 + 1 = 26 • 6 × 6 = 36 → 36 + 2 = 38 • 7 × 7 = 49 → 49 + 3 = 52 Кажется, формула такая: 🔍 **x + x = (x × x) + (x − 4)** Тогда: ``` 9 + 9 = 9 × 9 + (9 − 4) = 81 + 5 = ✅ **86** ``` 📌 Ответ: **86** #Логика #Головоломка #Математика #Mindset #Пазлы

14 052

Таблицы интегралов и другие математические формулы Г. Б. Двайт Содержит подробные таблицы неопределенных и определенных интегралов, много других математических формул.

14 052

Repost from Machinelearning

✔️ xAI и Telegram планируют партнерство по внедрению Grok. По словам Павла Дурова, его платформа и компания Илона Маска xAI заключили годовое соглашение. xAI заплатит Telegram $300 млн. за интеграцию чат-бота Grok прямо в мессенджер. Помимо этого, Telegram также будет получать 50% от выручки с подписок на Grok, которые будут продаваться внутри платформы. Илон Маск позже написал в X: "Контракт еще не подписан". Однако он не стал уточнять детали, оставив вопрос открытым. Пока что официальная позиция Telegram – сделка есть, и она принесет пользователям лучший ИИ на рынке уже этим летом. Новость пришла на фоне важных для Telegram событий: сервис преодолел отметку в 1 млрд. активных пользователей в месяц в этом году и разместил облигации на $1.5 млрд. Pavel Durov ✔️ Anthropic открывает бесплатный доступ к веб-поиску в Claude для всех пользователей. Anthropic сняла ограничения с функции веб-поиска в Claude: теперь даже бесплатные пользователи смогут получать ответы на основе актуальных данных из интернета. Ранее, доступ к этой опции, которая анализирует информацию в реальном времени, был эксклюзивом для платных подписчиков. Это изменение позволит чаще обновлять знания модели и точнее решать задачи. Параллельно стартовало тестирование голосового режима в мобильном приложении. Пользователи могут общаться с Claude в формате диалога, выбирая из 5 вариантов голоса и получать краткие текстовые сводки прошлых бесед. По умолчанию для диалогов задействована модель Sonnet 4. support.anthropic ✔️ OpenAI тестирует вход через ChatGPT для сторонних сервисов. OpenAI активно прорабатывает функцию "Вход через ChatGPT", позволяющую пользователям авторизовываться в сторонних приложениях через свои аккаунты ChatGPT. Компания уже собирает заявки от разработчиков, желающих интегрировать эту опцию в свои сервисы. Пилотный запуск для тестирования уже доступен в Codex CLI — инструменте для работы с ИИ в терминале. Разработчики могут подключить ChatGPT Free, Plus или Pro к своим API-аккаунтам, получая бонусные кредиты ($5 для Plus и $50 для Pro). Это стратегический ход для расширения экосистемы. С 600 млн активных пользователей ежемесячно, "Вход через ChatGPT" может стать ключевым элементом, помогая OpenAI конкурировать с Google и Apple в сфере единого входа и онлайн-сервисов. Точные сроки публичного релиза пока неизвестны. techcrunch ✔️ Google Photos обновляет редактор нейросетями к 10-летию сервиса. К своему юбилею Google Photos получает мощное обновление, сфокусированное на ИИ-редактировании. Сервис, где ежемесячно редактируют 210 млн. снимков, теперь предлагает умные подсказки по улучшению кадра одним нажатием. Можно тыкнуть пальцем или обвести область — нейросеть предложит подходящий инструмент. Главные новинки — "Reimagine" и "Auto Frame", ранее доступные только на Pixel 9. "Reimagine" меняет выбранный объект или добавляет новый по текстовому запросу через генеративный ИИ. "Auto Frame" автоматически кадрирует фото, а нейросеть дорисовывает фон. Плюс Google добавит QR-коды для альбомов, чтобы удобно собирать фото с мероприятий. Правда, обновленный редактор появится на Android в июне, а владельцам iPhone ждать до конца года. arstechnica ✔️ Resemble AI открыли код Chatterbox — SOTA для клонирования голоса. ✔️ Яндекс открыл прием заявок на ежегодную премию Yandex ML Prize. С 28 мая стартовал прием заявок на ежегодную премию Yandex ML Prize 2025. Эта награда — реальное признание и поддержка для тех, кто растит новые кадры ML в России. Премия существует с 2019 года как память об Илье Сегаловиче, и за шесть лет её получили уже 60 выдающихся педагогов и руководителей. Податься могут вузовские преподаватели, ученые из исследовательских центров и руководители образовательных программ в области Сomputer Science. Победителей ждут денежные призы и полезные гранты на Yandex Cloud, которые точно пригодится в работе: делать новые курсы, организовывать хакатоны и проводить исследования вместе со студентами. Заявки принимают до 22 июня. Само награждение, как обычно, пройдет осенью. habr.com @ai_machinelearning_big_data #news #ai #ml

14 052

Repost from Data Secrets

Кто обучает будущих архитекторов AGI Каждый второй стартап пишет «AI-native» в питч-деке, но остаётся вопрос: кто вообще готовит тех, кто сможет строить такие системы? Это преподаватели и эксперты-практики, которые не только работают в индустрии, но и делятся знаниями со студентами. Они читают курсы, вытаскивают студентов в реальные проекты и актуализируют программы в университетах. Yandex ML Prize 2025 как раз про таких — про тех, кто стоит у истоков индустрии, хотя их обычно не видно в релизах и исследованиях. В этом году премия от Яндекса вручает гранты и поддерживает преподавателей, которые формируют будущую экосистему ML в России. Прием заявок на премию открыт до 22 июня. Категории: от преподавателей со стажем до руководителей целых ML-программ.

14 052

Repost from Machinelearning

🌟 V-Triune от MiniMax: RL для VLM. V-Triune - фреймворк с новым методом обучения VL-моделей, через единый алгоритм подкрепления. В отличие от традиционных методов трейна VLM, сосредоточенных на отдельных задачах вроде решения математических задач или обнаружения объектов, V-Triune обучает модели одновременно работать с рассуждениями и восприятием. RL в V-Triune действует как механизм «настройки» уже заложенных в модель возможностей, а не добавляет новые навыки. Это достигается за счет 3 ключевых компонентов: форматирования данных на уровне выборок, вычисления наград через специализированные верификаторы и мониторинга метрик по источникам данных.

Например, динамическая награда IoU адаптирует пороги точности для обнаружения объектов — сначала стимулируя базовое понимание, а затем требуя высокой точности.

Тестирование проводилось на бенчмарке MEGA-Bench из440 задач — от анализа графиков до OCR. Экспериментальные модели Orsta (7B и 32B параметров), обученные с V-Triune, показали прирост производительности до +14,1% по сравнению с базовыми версиями. На задачах восприятия (обнаружение объектов в COCO), улучшения достигли +12,17% для mAP@50. Для математических задач (MathVista) результаты выросли на 5%, а в OCR — на 1-2%. При этом система стабильно работала даже при обучении на смешанных данных, что косвенно подтвердило ее универсальность. Minimax открыли (но пока не загрузили его в репозиторий) код V-Triune и модели Orsta: 🟢Orsta-32B-0326 - стабильная версия на более поздней QwenVL-2.5-32B; 🟠Orsta-32B-0321 - версия с замороженным ViT на базе QwenVL-2.5-32B-0321; 🟢Orsta-7B - на базе Qwen2.5-VL-7B-Instruct. ⚠️ В версии 0321 попытки совместного обновления визуального и языкового модулей приводили к взрыву градиентов, поэтому ViT пришлось заморозить. В 0326, благодаря исправлениям в архитектуре, RL-тренинг стал стабильнее. 0326 рекомендуется для задач, где критична точность и надежность форматов ответов. 📌Лицензирование: MIT License. 🟡Набор моделей 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #VLM #RL #Framework #MiniMax

14 052

🧠 Восстановление искажённых измерений с дневным смещением У вас есть температурные измерения за 10 дней, но каждый день датчик добавляет случайное смещение (bias), постоянное в течение дня. Также есть шум измерений. 📊 Ваша задача: 1. Оценить bias по дням 2. Восстановить истинную температуру 3. Посчитать RMSE между восстановленной и настоящей температурой 📦 Генерация данных


import pandas as pd
import numpy as np

np.random.seed(42)
days = pd.date_range("2023-01-01", periods=10, freq="D")
true_temp = np.sin(np.linspace(0, 3 * np.pi, 240)) * 10 + 20
bias_per_day = np.random.uniform(-2, 2, size=len(days))

df = pd.DataFrame({
    "datetime": pd.date_range("2023-01-01", periods=240, freq="H"),
})
df["day"] = df["datetime"].dt.date
df["true_temp"] = true_temp
df["bias"] = df["day"].map(dict(zip(days.date, bias_per_day)))
df["measured_temp"] = df["true_temp"] + df["bias"] + np.random.normal(0, 0.5, size=240)

🔍 Разбор: как оценить смещение Идея: температура в течение дня плавно колеблется, но bias в этот день одинаков для всех точек. Если мы "сгладим" значения (например, скользящим средним), то можем аппроксимировать общий тренд — и вычесть его, получив оценку bias. 🔧 Способ: вычтем сглаженный тренд, затем усредним остатки по дню: ```python # Сглаживаем тренд df["trend"] = df["measured_temp"].rolling(window=12, center=True, min_periods=1).mean() # Остатки (приближение к bias) df["residual"] = df["measured_temp"] - df["trend"] # Оценка bias как среднее отклонение внутри дня bias_est = df.groupby("day")["residual"].mean() df["estimated_bias"] = df["day"].map(bias_est) # Восстановим температуру: measured - bias df["restored_temp"] = df["measured_temp"] - df["estimated_bias"] ``` 📊 Результаты Оценим ошибку восстановления: ```python from sklearn.metrics import mean_squared_error rmse = mean_squared_error(df["true_temp"], df["restored_temp"], squared=False) print(f"RMSE восстановления: {rmse:.4f}") ``` > ✅ Обычно RMSE ≈ 0.5–0.7 — это близко к стандартному отклонению шума, значит bias устранён успешно! 💡 Вывод ✔️ Простая техника — сглаживание + усреднение отклонений — позволяет оценить дневные смещения ✔️ Без знания "истинной" температуры можно получить довольно точную реконструкцию ✔️ Это напоминает реальные задачи очистки данных от сенсорных сдвигов или ошибок калибровки 📈 Отличный пример практики Data Science с уклоном в математику, временные ряды и обработку шумов!

14 052

🔥Ozon Tech платит 150 000 рублей за рекомендацию senior+ DS/ML-специалиста 🧠Идеальный момент помочь талантливым знакомым и заработать самому. Кто может участвовать? Все, кто еще не работает в Ozon. Если рекомендованного вами кандидата берут на работу, то вы получаете бонус. Вознаграждение выплачивается после успешного прохождения испытательного срока. Можно рекомендовать сколько угодно кандидатов (главное — по одному в каждой заявке). Отправлять рекомендации может любой человек не из Ozon, независимо от профессии. 🔗 Подробнее о вакансиях и условиях: https://s.ozon.ru/nkcdpub

14 052

📊 Математическая задача для Data Scientists: "Идеальная точка разбиения" **Условие** У тебя есть список чисел List[float], представляющий одномерное распределение (например, значения метрики или зарплаты). Нужно определить: существует ли индекс, на котором можно разделить массив на две части так, чтобы стандартное отклонение слева и справа отличалось не более чем на ε (например, 0.1). Формат:


def has_balanced_std_split(data: list[float], epsilon: float = 0.1) -> bool:
    ...

Пример:


data = [1.0, 2.0, 3.0, 4.0, 5.0]  
# Разделение после 2 → [1.0, 2.0], [3.0, 4.0, 5.0]  
# std слева ≈ 0.5, справа ≈ 0.816 → разница = 0.316 > 0.1 → не подходит

🔍 Подсказка Используй statistics.stdev() или numpy.std(ddof=1) (с выборочной коррекцией). Но не забывай, что длина подмассива должна быть как минимум 2. --- ✅ Пример реализации: ```python import statistics def has_balanced_std_split(data: list[float], epsilon: float = 0.1) -> bool: n = len(data) if n < 4: return False # Нужны хотя бы 2 элемента в каждой части for i in range(2, n - 1): left = data[:i] right = data[i:] if len(left) < 2 or len(right) < 2: continue std_left = statistics.stdev(left) std_right = statistics.stdev(right) if abs(std_left - std_right) <= epsilon: return True return False ``` 📌 Пример использования: ```python data = [10, 12, 11, 20, 21, 19] print(has_balanced_std_split(data, epsilon=0.5)) # True или False в зависимости от разбивки ``` 🎯 Что проверяет задача: • понимание **дисперсии и стандартного отклонения** • знание **статистических библиотек Python** • работа с ограничениями на длину срезов • мышление в духе «разделяй и анализируй»

14 052

Обучение моделей занимает слишком много времени? Локальные ресурсы перегружены? На новую видеокарту не хватает денег? immers.cloud — это облачный GPU сервис, предоставляющий доступ к мощным видеокартам для самых различных задач. 💰 Экономия: тарифы от 23 рублей/час, оплата только за фактическое время использования. ⚡️ Быстрый старт: видеокарты и серверы готовы к работе за пару минут. 📈 Гибкость и масштабируемость: 11 видеокарт на выбор, быстрый старт и масштабирование 🔧 Удобство: готовые образы для ML задач, чтобы не тратить время на настройку

14 052

🧠 Математика, красота и истина в эпоху ИИ Когда-то математическое доказательство считалось вершиной человеческой логики и элегантности. Но ИИ меняет даже это. В статье исследуется, как ИИ трансформирует подходы к математике: 🔹 ИИ создает доказательства — не просто перебором, а находя закономерности, генерируя гипотезы и даже формируя контрпримеры. 🔹 Модели уровня DeepMind уже выигрывают медали на Международной математической олимпиаде. 🔹 Красота и элегантность в доказательствах теперь оцениваются не только людьми — ИИ начинает создавать новые формы "математической эстетики". > “Они разрушают те границы, которые я считал непреодолимыми” > — Эндрю Грэнвилл, математик ⚖️ Дискуссия: если ИИ способен доказать теорему, но человек не может это понять — считается ли это «знанием»? 📌 Полный текст #искусственныйинтеллект #математика #ChatGPT #DeepMind #LLM #AI #наука

14 052

Repost from Machinelearning

✔️ Y Combinator назвал главные тренды лета 2025 для стартапов. Y Combinator сделал ставку на ИИ-агентов, способных переосмыслить целые индустрии. Вместо точечных решений, основателям советуют создавать «полноценные ИИ-компании» - например, запускать собственные юридические бюро с ИИ-юристами вместо сотрудников. Такой подход позволяет обойти медлительных конкурентов, предлагая клиентам более дешевые и эффективные сервисы. Особый интерес к автоматизации рутины: персональные ассистенты, которые не просто напоминают о задачах, а самостоятельно отвечают на письма, планируют встречи и имитируют стиль общения пользователя. Y Combinator верит: будущее за командами, которые не просто внедряют ИИ, а перестраивают рынки с нуля, как это сделали Airbnb или Stripe. ycombinator.com ✔️ ИИ помог создать синтетические ДНК-усилители для контроля генной экспрессии. Ученые из Центра геномной регуляции в Барселоне впервые применили генеративный ИИ для проектирования синтетических молекул ДНК, способных управлять активностью генов в здоровых клетках млекопитающих. Модель, обученная на данных тысяч экспериментов, генерирует последовательности «с нуля», задавая критерии. В качестве теста создали фрагменты ДНК, активирующие ген флуоресцентного белка в клетках крови мышей. Результаты совпали с прогнозами: синтетические усилители генной активности работали как «переключатели» в зависимости от типа клеток. Исследование открывает путь к персонализированным методам коррекции генов. По словам авторов, это похоже на «написание софта для биологии», где каждая инструкция для клетки становится программируемой. technologynetworks.com ✔️ OpenAI запускает HealthBench. OpenAI представила HealthBench - бенчмарк для тестирования ИИ-систем в сфере здравоохранения. Разработанный при участии 262 врачей из 60 стран, он включает 5000 реалистичных диалогов, имитирующих общение пациентов и медиков. Каждый сценарий оценивается по индивидуальным критериям, созданным экспертами: точность данных или ясность ответов. Всего в бенчмарке 48 562 параметра оценки, что позволяет глубоко анализировать работу моделей. Особый упор сделан на надежность: даже один ошибочный ответ в медицине критичен. HealthBench включает подборки сложных кейсов (HealthBench Hard), где современные ИИ еще отстают. Все данные и методики уже доступны в GitHub-репозитории OpenAI . openai.com ✔️ Google запускает фонд для стартапов. Google анонсировала AI Futures Fund — программу для поддержки ИИ-стартапов. Участники получат ранний доступ к моделям DeepMind (Gemini, Imagen и Veo). Кроме технологий, стартапы смогут консультироваться с инженерами и исследователями Google, а также получат облачные кредиты для обучения и масштабирования решений. Уже сейчас с фондом работают проекты из разных сфер: индийский Toonsutra внедряет Gemini для перевода комиксов, Viggle экспериментирует с генерацией мемов, а платформа Rooms тестирует интерактивные 3D-пространства. Программа открыта для стартапов из регионов, где доступен Gemini. Подать заявку можно на сайте фонда. Участники смогут претендовать не только на технические ресурсы, но и на прямые инвестиции от Google. blog.google ✔️ Поддельные ИИ-инструменты распространяют стиллер Noodlophile. Злоумышленники активно используют популяризацию ИИ для распространения вредоносного стиллера Noodlophile, маскируя атаки под сервисы для генерации видео и изображений. Как сообщает Morphisec, фейковые страницы Luma Dreammachine Al и CapCut AI рекламируются через соцсети, собирая до 62 000 просмотров на пост. Пользователям предлагают скачать «ИИ-софт», но вместо этого загружается ZIP-архив с исполняемым exe-файлом. Запуск файла активирует легитимный CapCut.exe, который загружает .NET-лоадер CapCutLoader. Тот, в свою очередь, запускает Python-скрипт, устанавливающий Noodlophile Stealer. Вредонос крадет пароли, данные кошельков и другую информацию, а в некоторых случаях дополняется трояном XWorm для удаленного доступа. Эксперты напоминают: атаки через ИИ-технологии стали трендом. Осторожность — лучшая защита. thehackernews.com @ai_machinelearning_big_data #news #ai #ml

14 052

Почему нужно популяризировать математику? Этот вопрос стал ключевым в разговоре ректора университета «Иннополис» Александра Гасникова и руководителя департамента анализа данных и моделирования ВТБ Дениса Суржко в подкасте «Деньги любят техно». В этом сезоне подкаст стал философским и визионерским: гости говорят не только о технологических решениях, но и о смыслах, которые стоят за ними. Александр Гасников — молодой современный ученый, который перешел на позицию руководителя университета и занялся административной деятельностью. И о том, как отличаются две эти роли, он вполне подробно рассказал в выпуске. А еще в подкасте: какие задачи стоят перед современными техническими вузами, почему подготовка молодых кадров должна стать приоритетом, какие навыки требуются в науке и в работе на коммерческие компании и в целом куда ведёт нас развитие ИИ. Абсолютно точно полезно послушать всем. Видеоверсия доступна здесь Аудиоверсия — на любой удобной платформе

14 052

🧠 Задача для дата-сайентистов: "Невидимая переменная" У вас есть датафрейм с результатами тестирования модели A/B:


| user_id | group | conversion_rate |
|---------|--------|-----------------|
| 1001    | A      | 0               |
| 1002    | A      | 1               |
| 1003    | B      | 0               |
| 1004    | B      | 1               |
| ...     | ...    | ...             |

По результатам A/B теста кажется, что разницы между группами нет. Вы проверили chi-squared test и Mann-Whitney — тоже ничего. 🧩 Однако ваш коллега утверждает, что в данных явно зарыта сильная зависимость, которую можно выявить, если «включить голову». --- 🔍 Вопрос: Какой скрытый фактор мог полностью «маскировать» эффект от теста и как его можно вычислить, даже если он отсутствует в таблице напрямую? 💡 Подсказка: данные собирались в течение 30 дней, но колонка с датой/временем была потеряна при сохранении. Однако user_id — это не случайное число. 🎯 Что нужно сделать: 1. 🧠 Предположить, что user_id содержит зашумлённую информацию о времени регистрации (например, ID выдаются монотонно) 2. 🧮 Смоделировать зависимость результата от user_id и проверить, не является ли тест несбалансированным по времени 3. 📈 Построить метрику на основе сгруппированных окон по user_id и визуализировать смещение между группами A и B 🎯 Ключевая идея решения: Хотя колонка с датой была потеряна, можно сделать разумное предположение: 🔸 `user_id` назначается **монотонно**, т.е. пользователи с меньшими ID пришли раньше. Если эксперимент длился 30 дней, а пользователи приходили неравномерно, то: - группа A могла доминировать в начале - группа B — в конце 📉 А что, если в эти периоды поведение пользователей менялось? Например, была акция, баг, праздник? 🔍 **Решение: как восстановить эффект** 1. 🟤 Добавим к данным колонку `bucket = user_id // 100`, чтобы разбить пользователей на условные "временные окна" 2. 🟤 Для каждого `bucket` считаем среднюю `conversion_rate` отдельно по группам A и B 3. 🟤 Строим график `conversion_A - conversion_B` по bucket Если кривая скачет — тест **несбалансирован по времени** и глобальное сравнение групп вводит в заблуждение.