Математика Дата саентиста

Відкрити в Telegram

@workakkk - админ @data_analysis_ml - ds https://gosuslugi.ru/snet/67b55bb01a1c5a6fb6ecc946

Сітка:Machinelearning Росія47 377 Технології та додатки9 190...

📈 Аналітичний огляд Telegram-каналу Математика Дата саентиста

Канал Математика Дата саентиста (@data_math) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 14 053 підписників, посідаючи 9 190 місце в категорії Технології та додатки та 47 377 місце у регіоні Росія.

📊 Показники аудиторії та динаміка

З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 14 053 підписників.

За останніми даними від 18 червня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на -62, а за останні 24 години на 0, загальне охоплення залишається високим.

Статус верифікації: Не верифікований
Рівень залученості (ER): Середній показник залученості аудиторії становить 17.87%. Протягом перших 24 годин після публікації контент зазвичай збирає 6.96% реакцій від загальної кількості підписників.
Охоплення публікацій: В середньому кожен допис отримує 2 511 переглядів. Протягом першої доби публікація в середньому набирає 978 переглядів.
Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 53.
Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як llm, программирование, параметр, визуализация, stepik.

📝 Опис та контентна політика

Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
“@workakkk - админ @data_analysis_ml - ds https://gosuslugi.ru/snet/67b55bb01a1c5a6fb6ecc946”

Завдяки високій частоті оновлень (останні дані отримано 19 червня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.

14 053

Підписники

Немає даних24 години

-47 днів

-6230 день

2 511

Перегляди допису

~ 97824 години

~ 1 17948 годин

17.87%

Коефіцієнт залучення

Немає даних

Дописів на день

Ads index

beta

Архів дописів

14 052

🎯 AI в математическом решении проблем — современные достижения и тренды Недавние прорывы демонстрируют, как искусственный интеллект постепенно осваивает задачи, которые ранее считались пределом человеческого разума. 🎓 Прорыв от DeepMind • AlphaProof + AlphaGeometry 2 научились решать задачи уровня Международной математической олимпиады • AI получил серебро: 4 из 6 задач IMO решены, включая сложную геометрию • Одна из задач была решена за 19 секунд — уровень мирового финалиста 🧠 Прогресс в больших языковых моделях • GPT-4, Qwen2‑Math, rStar‑Math достигают 80–90% точности на математических задачах (MATH, AIME) • Используют рассуждение по цепочке (Chain-of-Thought) и поисковые деревья • Это повышает точность и уменьшает количество логических ошибок 📐 Формальная и творческая математика • AI учится использовать proof-ассистенты (формальные доказательства) • Метрика CreativeMath оценивает «творчество» AI — насколько оригинальны решения • Это делает модели не просто калькуляторами, а потенциальными открывателями новых идей 📊 Что это даёт

Сфера | Возможности AI  
-----|----------------------  
Образование | Интерактивные помощники, обучение математике  
Исследования | Генерация гипотез, автоматическое доказательство  
Бизнес | Оптимизация, логистика, криптография, финтех

🧭 Куда движемся дальше • Новый бенчмарк FrontierMath проверяет научные способности моделей • Гибридные архитектуры: нейросети + символика + формальные системы • Применения в науке, финансах, образовании — становятся повседневными 💬 А вы как думаете? • Может ли AI когда-нибудь доказать теорему, которую не смог человек? • Какие приложения AI в математике вам кажутся самыми перспективными? Статья #AI #Mathematics #DeepMind #LLM #FormalProof #Innovation

14 052

🖥 Python-лайфхак для профи: “Перехват любого импорта” с помощью import hooks Хотите логировать или модифицировать поведение импортируемых модулей? Используйте механизм sys.meta_path и свои кастомные import hooks! Зачем это нужно: • Автоматический патчинг сторонних библиотек • Логирование импорта для аудита или отладки • Подмена модулей “на лету” для тестирования или “горячих фиксов” Пример — ловим каждый импорт и выводим имя модуля:


import sys

class ImportLoggerFinder:
    def find_spec(self, fullname, path, target=None):
        print(f'Импортируется: {fullname}')
        return None  # Не вмешиваемся, просто логируем

sys.meta_path.insert(0, ImportLoggerFinder())

# Теперь при любом импорте будет выводиться имя загружаемого модуля


import json
import math
import requests

# Вы увидите:
# Импортируется: json
# Импортируется: math
# Импортируется: requests

С помощью такого подхода можно делать глубокий аудит, динамические патчи или реализовать кастомные протоколы импорта для своих нужд. Очень мощный, но малоизвестный инструмент стандартной библиотеки! Сохрани себе, чтобы не потерять 😎

14 052

🔥 Успех в IT = скорость + знания + окружение Здесь ты найдёшь всё это — коротко, по делу и без воды. Пока другие ищут, где “подглядеть решение”, ты уже используешь самые свежие инструменты! AI: t.me/ai_machinelearning_big_data Python: t.me/pythonl Linux: t.me/linuxacademiya Собеседования DS: t.me/machinelearning_interview C++ t.me/cpluspluc Docker: t.me/DevopsDocker Хакинг: t.me/linuxkalii Devops: t.me/DevOPSitsec Data Science: t.me/data_analysis_ml Javascript: t.me/javascriptv C#: t.me/csharp_ci Java: t.me/java_library Базы данных: t.me/sqlhub Python собеседования: t.me/python_job_interview Мобильная разработка: t.me/mobdevelop Golang: t.me/Golang_google React: t.me/react_tg Rust: t.me/rust_code ИИ: t.me/vistehno PHP: t.me/phpshka Android: t.me/android_its Frontend: t.me/front Big Data: t.me/bigdatai МАТЕМАТИКА: t.me/data_math Kubernets: t.me/kubernetc Разработка игр: https://t.me/gamedev Haskell: t.me/haskell_tg Физика: t.me/fizmat 💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy Папка ML: https://t.me/addlist/2Ls-snqEeytkMDgy Папка FRONTEND: https://t.me/addlist/mzMMG3RPZhY2M2Iy 😆ИТ-Мемы: t.me/memes_prog 🇬🇧Английский: t.me/english_forprogrammers 🧠ИИ: t.me/vistehno 🎓954ГБ ОПЕНСОРС КУРСОВ: @courses 📕Ит-книги бесплатно: https://t.me/addlist/BkskQciUW_FhNjEy Подпишись, если хочешь быть в числе тех, кого зовут в топовые проекты!

14 052

🦆 Как использовать DuckDB с Python: практическое руководство по аналитике DuckDB — это современная in-process аналитическая СУБД, разработанная как “SQLite для аналитики”. Она идеально подходит для обработки больших объёмов данных на локальной машине без необходимости поднимать сервер или использовать тяжёлые хранилища. 📦 Что делает DuckDB особенной? - Работает как библиотека внутри Python (через `duckdb`) - Поддерживает SQL-запросы напрямую к pandas DataFrame, CSV, Parquet, Arrow и другим источникам - Оптимизирована под аналитические запросы: агрегации, группировки, фильтрации - Мгновенно работает с большими файлами без предварительной загрузки 🧪 Пример рабочего сценария: 1️⃣ Чтение и анализ Parquet-файла:


import duckdb

duckdb.sql("SELECT COUNT(*), AVG(price) FROM 'data.parquet'")

2️⃣ Интеграция с pandas:


import pandas as pd

df = pd.read_csv("data.csv")
result = duckdb.sql("SELECT category, AVG(value) FROM df GROUP BY category").df()

3️⃣ Объединение нескольких источников:


duckdb.sql("""
    SELECT a.user_id, b.event_time
    FROM 'users.parquet' a
    JOIN read_csv('events.csv') b
    ON a.user_id = b.user_id
""")

🧠 Почему это важно: - 📊 Вы можете использовать SQL и pandas одновременно - 🚀 DuckDB быстрее pandas в большинстве аналитических задач, особенно на больших данных - 🧩 Поддержка стандартов данных (Parquet, Arrow) даёт нативную интеграцию с экосистемой Data Science - 🔧 Не требует настройки: просто установите через pip install duckdb 🎯 Применения: - Локальный анализ данных (до десятков ГБ) — без Spark - Объединение таблиц из разных форматов (Parquet + CSV + DataFrame) - Прототипирование ETL-пайплайнов и построение дашбордов - Быстрая агрегация и отчёты по логам, BI-данным, IoT-стримам и пр. 📌 Советы: - Используйте read_parquet, read_csv_auto и from_df() для гибкой загрузки данных - Результаты запросов можно конвертировать обратно в pandas через .df() - DuckDB поддерживает оконные функции, GROUP BY, JOIN, UNION, LIMIT, подзапросы и многое другое — это полноценный SQL-движок 🔗 Подробный гайд: https://www.kdnuggets.com/integrating-duckdb-python-an-analytics-guide #DuckDB #Python #DataScience #Analytics #SQL #Pandas #Parquet #BigData

14 052

⚡️Пошаговый план: как стать аналитиком данных в 2025 Хотите попасть в аналитику, но теряетесь в море информации и не понимаете, какие навыки действительно важны? Боитесь, что без опыта вас не возьмут на работу? И да, ещё один популярный вопрос — а что, если мне 30/40/50+ лет? Андрон Алексанян — эксперт по аналитике с 8-летним опытом и по совместительству CEO Simulative — покажет рабочие схемы и чёткий план, как устроиться в аналитику быстрее, даже если у вас нет опыта Что будет на вебинаре? 🟠 Разберёте полный роадмап: что учить, в каком порядке, до какого уровня; 🟠 Лайфхаки трудоустройства: — покажут реальные примеры, как оформить резюме и портфолио, чтобы привлекать внимание; — обсудите, какие отклики работают, а какие сразу отправляют в корзину; — изнанка найма: инсайдерский взгляд на процессы отбора 🟠 Практические техники для новичков: разберёте, как компенсировать недостаток опыта и быстро закрывать пробелы в знаниях 🕗 Важно досмотреть вебинар до конца, чтобы получить бонус от Simulative, который поможет бустануть карьеру 😶Зарегистрироваться на бесплатный вебинар

14 052

🤖 AlphaEvolve: ИИ от DeepMind, который создаёт новые алгоритмы В мае 2025 года DeepMind представила AlphaEvolve — универсального ИИ-агента, способного самостоятельно разрабатывать и оптимизировать алгоритмы. Это не просто генератор кода: AlphaEvolve сочетает мощь языковых моделей Gemini с эволюционными методами поиска и автоматической проверкой решений. 🧠 Что умеет AlphaEvolve? - Решение сложных математических задач: AlphaEvolve улучшил нижнюю границу числа поцелуев в 11 измерениях с 592 до 593 — впервые за десятилетия :contentReference[oaicite:0]{index=0}. - Оптимизация алгоритмов умножения матриц: Превзошёл алгоритм Штрассена 1969 года, сократив количество умножений для 4×4 матриц с 49 до 48 :contentReference[oaicite:1]{index=1}. - Улучшение инфраструктуры Google: Повысил эффективность дата-центров на 1%, оптимизировал дизайн TPU и ускорил обучение моделей Gemini :contentReference[oaicite:2]{index=2}. ⚙️ Как это работает? AlphaEvolve использует: 1. Исходный алгоритм и функцию оценки. 2. Языковую модель Gemini, чтобы генерировать варианты решения. 3. Автоматическую проверку для оценки эффективности каждого варианта. 4. Эволюционный цикл: лучшие решения сохраняются и используются для генерации новых. Такой подход позволяет AlphaEvolve находить решения, которые ранее были недоступны даже экспертам. 📊 Результаты - В 75% случаев AlphaEvolve воспроизводил известные оптимальные решения. - В 20% случаев находил новые, более эффективные решения. - В оставшихся 5% — результаты были хуже известных, что подчёркивает необходимость дальнейших исследований :contentReference[oaicite:3]{index=3}. 🌐 Почему это важно? AlphaEvolve демонстрирует, что ИИ способен не только повторять известные решения, но и создавать новые знания. Это шаг к ИИ, который может активно участвовать в научных открытиях и инженерных разработках. 🔗 Подробнее #DeepMind #AlphaEvolve #ИИ #Алгоритмы #Наука #Технологии #Gemini

14 052

✔️ Llama Nemotron Nano VL от NVIDIA — один из лучших open-source инструментов для документов** Мультимодальная модель от NVIDIA уверенно занимает первое место на OCRBench v2, показав лучшую точность парсинга документов среди всех моделей. 📄 Что это такое: Llama Nemotron Nano VL — лёгкая vision-language модель для интеллектуальной обработки документов (IDP), которая: • разбирает PDF • вытаскивает таблицы • парсит графики и диаграммы • работает на одной GPU 🔍 **Заточена под:** – Вопрос-ответ по документам – Извлечение таблиц – Анализ графиков – Понимание диаграмм и дешбордов 🧠 Под капотом — vision-энкодер C-RADIO v2 (distilled multi-teacher трансформер), который справляется даже с визуальным шумом и высоким разрешением. 📊 OCRBench v2 — крупнейший двухъязычный бенчмарк для визуального анализа текста, и именно NVIDIA Nano VL показывает лучший результат. 📌 И всё это работает на одной видеокарте. 🟡Hf 🟡Подробнее #Nemotron #NVIDIA

14 052

🧠 Загадка: 9 + 9 = ?? На первый взгляд — обычные примеры. Но смотри внимательнее:

5 + 5 = 26  
6 + 6 = 38  
7 + 7 = 52  
9 + 9 = ??

Стандартная арифметика тут не работает. Найдём скрытую логику: Разберём: • 5 × 5 = 25 → 25 + 1 = 26 • 6 × 6 = 36 → 36 + 2 = 38 • 7 × 7 = 49 → 49 + 3 = 52 Кажется, формула такая: 🔍 **x + x = (x × x) + (x − 4)** Тогда: ``` 9 + 9 = 9 × 9 + (9 − 4) = 81 + 5 = ✅ **86** ``` 📌 Ответ: **86** #Логика #Головоломка #Математика #Mindset #Пазлы

14 052

Таблицы интегралов и другие математические формулы Г. Б. Двайт Содержит подробные таблицы неопределенных и определенных интегралов, много других математических формул.

14 052

Repost from Machinelearning

✔️ xAI и Telegram планируют партнерство по внедрению Grok. По словам Павла Дурова, его платформа и компания Илона Маска xAI заключили годовое соглашение. xAI заплатит Telegram $300 млн. за интеграцию чат-бота Grok прямо в мессенджер. Помимо этого, Telegram также будет получать 50% от выручки с подписок на Grok, которые будут продаваться внутри платформы. Илон Маск позже написал в X: "Контракт еще не подписан". Однако он не стал уточнять детали, оставив вопрос открытым. Пока что официальная позиция Telegram – сделка есть, и она принесет пользователям лучший ИИ на рынке уже этим летом. Новость пришла на фоне важных для Telegram событий: сервис преодолел отметку в 1 млрд. активных пользователей в месяц в этом году и разместил облигации на $1.5 млрд. Pavel Durov ✔️ Anthropic открывает бесплатный доступ к веб-поиску в Claude для всех пользователей. Anthropic сняла ограничения с функции веб-поиска в Claude: теперь даже бесплатные пользователи смогут получать ответы на основе актуальных данных из интернета. Ранее, доступ к этой опции, которая анализирует информацию в реальном времени, был эксклюзивом для платных подписчиков. Это изменение позволит чаще обновлять знания модели и точнее решать задачи. Параллельно стартовало тестирование голосового режима в мобильном приложении. Пользователи могут общаться с Claude в формате диалога, выбирая из 5 вариантов голоса и получать краткие текстовые сводки прошлых бесед. По умолчанию для диалогов задействована модель Sonnet 4. support.anthropic ✔️ OpenAI тестирует вход через ChatGPT для сторонних сервисов. OpenAI активно прорабатывает функцию "Вход через ChatGPT", позволяющую пользователям авторизовываться в сторонних приложениях через свои аккаунты ChatGPT. Компания уже собирает заявки от разработчиков, желающих интегрировать эту опцию в свои сервисы. Пилотный запуск для тестирования уже доступен в Codex CLI — инструменте для работы с ИИ в терминале. Разработчики могут подключить ChatGPT Free, Plus или Pro к своим API-аккаунтам, получая бонусные кредиты ($5 для Plus и $50 для Pro). Это стратегический ход для расширения экосистемы. С 600 млн активных пользователей ежемесячно, "Вход через ChatGPT" может стать ключевым элементом, помогая OpenAI конкурировать с Google и Apple в сфере единого входа и онлайн-сервисов. Точные сроки публичного релиза пока неизвестны. techcrunch ✔️ Google Photos обновляет редактор нейросетями к 10-летию сервиса. К своему юбилею Google Photos получает мощное обновление, сфокусированное на ИИ-редактировании. Сервис, где ежемесячно редактируют 210 млн. снимков, теперь предлагает умные подсказки по улучшению кадра одним нажатием. Можно тыкнуть пальцем или обвести область — нейросеть предложит подходящий инструмент. Главные новинки — "Reimagine" и "Auto Frame", ранее доступные только на Pixel 9. "Reimagine" меняет выбранный объект или добавляет новый по текстовому запросу через генеративный ИИ. "Auto Frame" автоматически кадрирует фото, а нейросеть дорисовывает фон. Плюс Google добавит QR-коды для альбомов, чтобы удобно собирать фото с мероприятий. Правда, обновленный редактор появится на Android в июне, а владельцам iPhone ждать до конца года. arstechnica ✔️ Resemble AI открыли код Chatterbox — SOTA для клонирования голоса. ✔️ Яндекс открыл прием заявок на ежегодную премию Yandex ML Prize. С 28 мая стартовал прием заявок на ежегодную премию Yandex ML Prize 2025. Эта награда — реальное признание и поддержка для тех, кто растит новые кадры ML в России. Премия существует с 2019 года как память об Илье Сегаловиче, и за шесть лет её получили уже 60 выдающихся педагогов и руководителей. Податься могут вузовские преподаватели, ученые из исследовательских центров и руководители образовательных программ в области Сomputer Science. Победителей ждут денежные призы и полезные гранты на Yandex Cloud, которые точно пригодится в работе: делать новые курсы, организовывать хакатоны и проводить исследования вместе со студентами. Заявки принимают до 22 июня. Само награждение, как обычно, пройдет осенью. habr.com @ai_machinelearning_big_data #news #ai #ml

14 052

Repost from Data Secrets

Кто обучает будущих архитекторов AGI Каждый второй стартап пишет «AI-native» в питч-деке, но остаётся вопрос: кто вообще готовит тех, кто сможет строить такие системы? Это преподаватели и эксперты-практики, которые не только работают в индустрии, но и делятся знаниями со студентами. Они читают курсы, вытаскивают студентов в реальные проекты и актуализируют программы в университетах. Yandex ML Prize 2025 как раз про таких — про тех, кто стоит у истоков индустрии, хотя их обычно не видно в релизах и исследованиях. В этом году премия от Яндекса вручает гранты и поддерживает преподавателей, которые формируют будущую экосистему ML в России. Прием заявок на премию открыт до 22 июня. Категории: от преподавателей со стажем до руководителей целых ML-программ.

14 052

Repost from Machinelearning

🌟 V-Triune от MiniMax: RL для VLM. V-Triune - фреймворк с новым методом обучения VL-моделей, через единый алгоритм подкрепления. В отличие от традиционных методов трейна VLM, сосредоточенных на отдельных задачах вроде решения математических задач или обнаружения объектов, V-Triune обучает модели одновременно работать с рассуждениями и восприятием. RL в V-Triune действует как механизм «настройки» уже заложенных в модель возможностей, а не добавляет новые навыки. Это достигается за счет 3 ключевых компонентов: форматирования данных на уровне выборок, вычисления наград через специализированные верификаторы и мониторинга метрик по источникам данных.

Например, динамическая награда IoU адаптирует пороги точности для обнаружения объектов — сначала стимулируя базовое понимание, а затем требуя высокой точности.

Тестирование проводилось на бенчмарке MEGA-Bench из440 задач — от анализа графиков до OCR. Экспериментальные модели Orsta (7B и 32B параметров), обученные с V-Triune, показали прирост производительности до +14,1% по сравнению с базовыми версиями. На задачах восприятия (обнаружение объектов в COCO), улучшения достигли +12,17% для mAP@50. Для математических задач (MathVista) результаты выросли на 5%, а в OCR — на 1-2%. При этом система стабильно работала даже при обучении на смешанных данных, что косвенно подтвердило ее универсальность. Minimax открыли (но пока не загрузили его в репозиторий) код V-Triune и модели Orsta: 🟢Orsta-32B-0326 - стабильная версия на более поздней QwenVL-2.5-32B; 🟠Orsta-32B-0321 - версия с замороженным ViT на базе QwenVL-2.5-32B-0321; 🟢Orsta-7B - на базе Qwen2.5-VL-7B-Instruct. ⚠️ В версии 0321 попытки совместного обновления визуального и языкового модулей приводили к взрыву градиентов, поэтому ViT пришлось заморозить. В 0326, благодаря исправлениям в архитектуре, RL-тренинг стал стабильнее. 0326 рекомендуется для задач, где критична точность и надежность форматов ответов. 📌Лицензирование: MIT License. 🟡Набор моделей 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #VLM #RL #Framework #MiniMax

14 052

🧠 Восстановление искажённых измерений с дневным смещением У вас есть температурные измерения за 10 дней, но каждый день датчик добавляет случайное смещение (bias), постоянное в течение дня. Также есть шум измерений. 📊 Ваша задача: 1. Оценить bias по дням 2. Восстановить истинную температуру 3. Посчитать RMSE между восстановленной и настоящей температурой 📦 Генерация данных


import pandas as pd
import numpy as np

np.random.seed(42)
days = pd.date_range("2023-01-01", periods=10, freq="D")
true_temp = np.sin(np.linspace(0, 3 * np.pi, 240)) * 10 + 20
bias_per_day = np.random.uniform(-2, 2, size=len(days))

df = pd.DataFrame({
    "datetime": pd.date_range("2023-01-01", periods=240, freq="H"),
})
df["day"] = df["datetime"].dt.date
df["true_temp"] = true_temp
df["bias"] = df["day"].map(dict(zip(days.date, bias_per_day)))
df["measured_temp"] = df["true_temp"] + df["bias"] + np.random.normal(0, 0.5, size=240)

🔍 Разбор: как оценить смещение Идея: температура в течение дня плавно колеблется, но bias в этот день одинаков для всех точек. Если мы "сгладим" значения (например, скользящим средним), то можем аппроксимировать общий тренд — и вычесть его, получив оценку bias. 🔧 Способ: вычтем сглаженный тренд, затем усредним остатки по дню: ```python # Сглаживаем тренд df["trend"] = df["measured_temp"].rolling(window=12, center=True, min_periods=1).mean() # Остатки (приближение к bias) df["residual"] = df["measured_temp"] - df["trend"] # Оценка bias как среднее отклонение внутри дня bias_est = df.groupby("day")["residual"].mean() df["estimated_bias"] = df["day"].map(bias_est) # Восстановим температуру: measured - bias df["restored_temp"] = df["measured_temp"] - df["estimated_bias"] ``` 📊 Результаты Оценим ошибку восстановления: ```python from sklearn.metrics import mean_squared_error rmse = mean_squared_error(df["true_temp"], df["restored_temp"], squared=False) print(f"RMSE восстановления: {rmse:.4f}") ``` > ✅ Обычно RMSE ≈ 0.5–0.7 — это близко к стандартному отклонению шума, значит bias устранён успешно! 💡 Вывод ✔️ Простая техника — сглаживание + усреднение отклонений — позволяет оценить дневные смещения ✔️ Без знания "истинной" температуры можно получить довольно точную реконструкцию ✔️ Это напоминает реальные задачи очистки данных от сенсорных сдвигов или ошибок калибровки 📈 Отличный пример практики Data Science с уклоном в математику, временные ряды и обработку шумов!

14 052

🔥Ozon Tech платит 150 000 рублей за рекомендацию senior+ DS/ML-специалиста 🧠Идеальный момент помочь талантливым знакомым и заработать самому. Кто может участвовать? Все, кто еще не работает в Ozon. Если рекомендованного вами кандидата берут на работу, то вы получаете бонус. Вознаграждение выплачивается после успешного прохождения испытательного срока. Можно рекомендовать сколько угодно кандидатов (главное — по одному в каждой заявке). Отправлять рекомендации может любой человек не из Ozon, независимо от профессии. 🔗 Подробнее о вакансиях и условиях: https://s.ozon.ru/nkcdpub

14 052

📊 Математическая задача для Data Scientists: "Идеальная точка разбиения" **Условие** У тебя есть список чисел List[float], представляющий одномерное распределение (например, значения метрики или зарплаты). Нужно определить: существует ли индекс, на котором можно разделить массив на две части так, чтобы стандартное отклонение слева и справа отличалось не более чем на ε (например, 0.1). Формат:


def has_balanced_std_split(data: list[float], epsilon: float = 0.1) -> bool:
    ...

Пример:


data = [1.0, 2.0, 3.0, 4.0, 5.0]  
# Разделение после 2 → [1.0, 2.0], [3.0, 4.0, 5.0]  
# std слева ≈ 0.5, справа ≈ 0.816 → разница = 0.316 > 0.1 → не подходит

🔍 Подсказка Используй statistics.stdev() или numpy.std(ddof=1) (с выборочной коррекцией). Но не забывай, что длина подмассива должна быть как минимум 2. --- ✅ Пример реализации: ```python import statistics def has_balanced_std_split(data: list[float], epsilon: float = 0.1) -> bool: n = len(data) if n < 4: return False # Нужны хотя бы 2 элемента в каждой части for i in range(2, n - 1): left = data[:i] right = data[i:] if len(left) < 2 or len(right) < 2: continue std_left = statistics.stdev(left) std_right = statistics.stdev(right) if abs(std_left - std_right) <= epsilon: return True return False ``` 📌 Пример использования: ```python data = [10, 12, 11, 20, 21, 19] print(has_balanced_std_split(data, epsilon=0.5)) # True или False в зависимости от разбивки ``` 🎯 Что проверяет задача: • понимание **дисперсии и стандартного отклонения** • знание **статистических библиотек Python** • работа с ограничениями на длину срезов • мышление в духе «разделяй и анализируй»

14 052

Обучение моделей занимает слишком много времени? Локальные ресурсы перегружены? На новую видеокарту не хватает денег? immers.cloud — это облачный GPU сервис, предоставляющий доступ к мощным видеокартам для самых различных задач. 💰 Экономия: тарифы от 23 рублей/час, оплата только за фактическое время использования. ⚡️ Быстрый старт: видеокарты и серверы готовы к работе за пару минут. 📈 Гибкость и масштабируемость: 11 видеокарт на выбор, быстрый старт и масштабирование 🔧 Удобство: готовые образы для ML задач, чтобы не тратить время на настройку

14 052

🧠 Математика, красота и истина в эпоху ИИ Когда-то математическое доказательство считалось вершиной человеческой логики и элегантности. Но ИИ меняет даже это. В статье исследуется, как ИИ трансформирует подходы к математике: 🔹 ИИ создает доказательства — не просто перебором, а находя закономерности, генерируя гипотезы и даже формируя контрпримеры. 🔹 Модели уровня DeepMind уже выигрывают медали на Международной математической олимпиаде. 🔹 Красота и элегантность в доказательствах теперь оцениваются не только людьми — ИИ начинает создавать новые формы "математической эстетики". > “Они разрушают те границы, которые я считал непреодолимыми” > — Эндрю Грэнвилл, математик ⚖️ Дискуссия: если ИИ способен доказать теорему, но человек не может это понять — считается ли это «знанием»? 📌 Полный текст #искусственныйинтеллект #математика #ChatGPT #DeepMind #LLM #AI #наука

14 052

Repost from Machinelearning

✔️ Y Combinator назвал главные тренды лета 2025 для стартапов. Y Combinator сделал ставку на ИИ-агентов, способных переосмыслить целые индустрии. Вместо точечных решений, основателям советуют создавать «полноценные ИИ-компании» - например, запускать собственные юридические бюро с ИИ-юристами вместо сотрудников. Такой подход позволяет обойти медлительных конкурентов, предлагая клиентам более дешевые и эффективные сервисы. Особый интерес к автоматизации рутины: персональные ассистенты, которые не просто напоминают о задачах, а самостоятельно отвечают на письма, планируют встречи и имитируют стиль общения пользователя. Y Combinator верит: будущее за командами, которые не просто внедряют ИИ, а перестраивают рынки с нуля, как это сделали Airbnb или Stripe. ycombinator.com ✔️ ИИ помог создать синтетические ДНК-усилители для контроля генной экспрессии. Ученые из Центра геномной регуляции в Барселоне впервые применили генеративный ИИ для проектирования синтетических молекул ДНК, способных управлять активностью генов в здоровых клетках млекопитающих. Модель, обученная на данных тысяч экспериментов, генерирует последовательности «с нуля», задавая критерии. В качестве теста создали фрагменты ДНК, активирующие ген флуоресцентного белка в клетках крови мышей. Результаты совпали с прогнозами: синтетические усилители генной активности работали как «переключатели» в зависимости от типа клеток. Исследование открывает путь к персонализированным методам коррекции генов. По словам авторов, это похоже на «написание софта для биологии», где каждая инструкция для клетки становится программируемой. technologynetworks.com ✔️ OpenAI запускает HealthBench. OpenAI представила HealthBench - бенчмарк для тестирования ИИ-систем в сфере здравоохранения. Разработанный при участии 262 врачей из 60 стран, он включает 5000 реалистичных диалогов, имитирующих общение пациентов и медиков. Каждый сценарий оценивается по индивидуальным критериям, созданным экспертами: точность данных или ясность ответов. Всего в бенчмарке 48 562 параметра оценки, что позволяет глубоко анализировать работу моделей. Особый упор сделан на надежность: даже один ошибочный ответ в медицине критичен. HealthBench включает подборки сложных кейсов (HealthBench Hard), где современные ИИ еще отстают. Все данные и методики уже доступны в GitHub-репозитории OpenAI . openai.com ✔️ Google запускает фонд для стартапов. Google анонсировала AI Futures Fund — программу для поддержки ИИ-стартапов. Участники получат ранний доступ к моделям DeepMind (Gemini, Imagen и Veo). Кроме технологий, стартапы смогут консультироваться с инженерами и исследователями Google, а также получат облачные кредиты для обучения и масштабирования решений. Уже сейчас с фондом работают проекты из разных сфер: индийский Toonsutra внедряет Gemini для перевода комиксов, Viggle экспериментирует с генерацией мемов, а платформа Rooms тестирует интерактивные 3D-пространства. Программа открыта для стартапов из регионов, где доступен Gemini. Подать заявку можно на сайте фонда. Участники смогут претендовать не только на технические ресурсы, но и на прямые инвестиции от Google. blog.google ✔️ Поддельные ИИ-инструменты распространяют стиллер Noodlophile. Злоумышленники активно используют популяризацию ИИ для распространения вредоносного стиллера Noodlophile, маскируя атаки под сервисы для генерации видео и изображений. Как сообщает Morphisec, фейковые страницы Luma Dreammachine Al и CapCut AI рекламируются через соцсети, собирая до 62 000 просмотров на пост. Пользователям предлагают скачать «ИИ-софт», но вместо этого загружается ZIP-архив с исполняемым exe-файлом. Запуск файла активирует легитимный CapCut.exe, который загружает .NET-лоадер CapCutLoader. Тот, в свою очередь, запускает Python-скрипт, устанавливающий Noodlophile Stealer. Вредонос крадет пароли, данные кошельков и другую информацию, а в некоторых случаях дополняется трояном XWorm для удаленного доступа. Эксперты напоминают: атаки через ИИ-технологии стали трендом. Осторожность — лучшая защита. thehackernews.com @ai_machinelearning_big_data #news #ai #ml

14 052

Почему нужно популяризировать математику? Этот вопрос стал ключевым в разговоре ректора университета «Иннополис» Александра Гасникова и руководителя департамента анализа данных и моделирования ВТБ Дениса Суржко в подкасте «Деньги любят техно». В этом сезоне подкаст стал философским и визионерским: гости говорят не только о технологических решениях, но и о смыслах, которые стоят за ними. Александр Гасников — молодой современный ученый, который перешел на позицию руководителя университета и занялся административной деятельностью. И о том, как отличаются две эти роли, он вполне подробно рассказал в выпуске. А еще в подкасте: какие задачи стоят перед современными техническими вузами, почему подготовка молодых кадров должна стать приоритетом, какие навыки требуются в науке и в работе на коммерческие компании и в целом куда ведёт нас развитие ИИ. Абсолютно точно полезно послушать всем. Видеоверсия доступна здесь Аудиоверсия — на любой удобной платформе

14 052

🧠 Задача для дата-сайентистов: "Невидимая переменная" У вас есть датафрейм с результатами тестирования модели A/B:


| user_id | group | conversion_rate |
|---------|--------|-----------------|
| 1001    | A      | 0               |
| 1002    | A      | 1               |
| 1003    | B      | 0               |
| 1004    | B      | 1               |
| ...     | ...    | ...             |

По результатам A/B теста кажется, что разницы между группами нет. Вы проверили chi-squared test и Mann-Whitney — тоже ничего. 🧩 Однако ваш коллега утверждает, что в данных явно зарыта сильная зависимость, которую можно выявить, если «включить голову». --- 🔍 Вопрос: Какой скрытый фактор мог полностью «маскировать» эффект от теста и как его можно вычислить, даже если он отсутствует в таблице напрямую? 💡 Подсказка: данные собирались в течение 30 дней, но колонка с датой/временем была потеряна при сохранении. Однако user_id — это не случайное число. 🎯 Что нужно сделать: 1. 🧠 Предположить, что user_id содержит зашумлённую информацию о времени регистрации (например, ID выдаются монотонно) 2. 🧮 Смоделировать зависимость результата от user_id и проверить, не является ли тест несбалансированным по времени 3. 📈 Построить метрику на основе сгруппированных окон по user_id и визуализировать смещение между группами A и B 🎯 Ключевая идея решения: Хотя колонка с датой была потеряна, можно сделать разумное предположение: 🔸 `user_id` назначается **монотонно**, т.е. пользователи с меньшими ID пришли раньше. Если эксперимент длился 30 дней, а пользователи приходили неравномерно, то: - группа A могла доминировать в начале - группа B — в конце 📉 А что, если в эти периоды поведение пользователей менялось? Например, была акция, баг, праздник? 🔍 **Решение: как восстановить эффект** 1. 🟤 Добавим к данным колонку `bucket = user_id // 100`, чтобы разбить пользователей на условные "временные окна" 2. 🟤 Для каждого `bucket` считаем среднюю `conversion_rate` отдельно по группам A и B 3. 🟤 Строим график `conversion_A - conversion_B` по bucket Если кривая скачет — тест **несбалансирован по времени** и глобальное сравнение групп вводит в заблуждение.