Математика Дата саентиста
前往频道在 Telegram
@workakkk - админ @data_analysis_ml - ds https://gosuslugi.ru/snet/67b55bb01a1c5a6fb6ecc946
显示更多📈 Telegram 频道 Математика Дата саентиста 的分析概览
频道 Математика Дата саентиста (@data_math) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 14 053 名订阅者,在 技术与应用 类别中位列第 9 190,并在 俄罗斯 地区排名第 47 377 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 14 053 名订阅者。
根据 18 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 -62,过去 24 小时变化为 0,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 17.87%。内容发布后 24 小时内通常能获得 6.96% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 2 511 次浏览,首日通常累积 978 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 53。
- 主题关注点: 内容集中在 llm, программирование, параметр, визуализация, stepik 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“@workakkk - админ
@data_analysis_ml - ds
https://gosuslugi.ru/snet/67b55bb01a1c5a6fb6ecc946”
凭借高频更新(最新数据采集于 19 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
14 053
订阅者
无数据24 小时
-47 天
-6230 天
帖子存档
🎯 AI в математическом решении проблем — современные достижения и тренды
Недавние прорывы демонстрируют, как искусственный интеллект постепенно осваивает задачи, которые ранее считались пределом человеческого разума.
🎓 Прорыв от DeepMind
• AlphaProof + AlphaGeometry 2 научились решать задачи уровня Международной математической олимпиады
• AI получил серебро: 4 из 6 задач IMO решены, включая сложную геометрию
• Одна из задач была решена за 19 секунд — уровень мирового финалиста
🧠 Прогресс в больших языковых моделях
• GPT-4, Qwen2‑Math, rStar‑Math достигают 80–90% точности на математических задачах (MATH, AIME)
• Используют рассуждение по цепочке (Chain-of-Thought) и поисковые деревья
• Это повышает точность и уменьшает количество логических ошибок
📐 Формальная и творческая математика
• AI учится использовать proof-ассистенты (формальные доказательства)
• Метрика CreativeMath оценивает «творчество» AI — насколько оригинальны решения
• Это делает модели не просто калькуляторами, а потенциальными открывателями новых идей
📊 Что это даёт
Сфера | Возможности AI
-----|----------------------
Образование | Интерактивные помощники, обучение математике
Исследования | Генерация гипотез, автоматическое доказательство
Бизнес | Оптимизация, логистика, криптография, финтех
🧭 Куда движемся дальше
• Новый бенчмарк FrontierMath проверяет научные способности моделей
• Гибридные архитектуры: нейросети + символика + формальные системы
• Применения в науке, финансах, образовании — становятся повседневными
💬 А вы как думаете?
• Может ли AI когда-нибудь доказать теорему, которую не смог человек?
• Какие приложения AI в математике вам кажутся самыми перспективными?
Статья
#AI #Mathematics #DeepMind #LLM #FormalProof #Innovation🖥 Python-лайфхак для профи: “Перехват любого импорта” с помощью import hooks
Хотите логировать или модифицировать поведение импортируемых модулей?
Используйте механизм sys.meta_path и свои кастомные import hooks!
Зачем это нужно:
• Автоматический патчинг сторонних библиотек
• Логирование импорта для аудита или отладки
• Подмена модулей “на лету” для тестирования или “горячих фиксов”
Пример — ловим каждый импорт и выводим имя модуля:
import sys
class ImportLoggerFinder:
def find_spec(self, fullname, path, target=None):
print(f'Импортируется: {fullname}')
return None # Не вмешиваемся, просто логируем
sys.meta_path.insert(0, ImportLoggerFinder())
# Теперь при любом импорте будет выводиться имя загружаемого модуля
import json
import math
import requests
# Вы увидите:
# Импортируется: json
# Импортируется: math
# Импортируется: requests
С помощью такого подхода можно делать глубокий аудит, динамические патчи или реализовать кастомные протоколы импорта для своих нужд. Очень мощный, но малоизвестный инструмент стандартной библиотеки!
Сохрани себе, чтобы не потерять 😎🔥 Успех в IT = скорость + знания + окружение
Здесь ты найдёшь всё это — коротко, по делу и без воды.
Пока другие ищут, где “подглядеть решение”, ты уже используешь самые свежие инструменты!
AI: t.me/ai_machinelearning_big_data
Python: t.me/pythonl
Linux: t.me/linuxacademiya
Собеседования DS: t.me/machinelearning_interview
C++ t.me/cpluspluc
Docker: t.me/DevopsDocker
Хакинг: t.me/linuxkalii
Devops: t.me/DevOPSitsec
Data Science: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/java_library
Базы данных: t.me/sqlhub
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
Разработка игр: https://t.me/gamedev
Haskell: t.me/haskell_tg
Физика: t.me/fizmat
💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.me/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.me/addlist/mzMMG3RPZhY2M2Iy
😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.me/addlist/BkskQciUW_FhNjEy
Подпишись, если хочешь быть в числе тех, кого зовут в топовые проекты!
🦆 Как использовать DuckDB с Python: практическое руководство по аналитике
DuckDB — это современная in-process аналитическая СУБД, разработанная как “SQLite для аналитики”. Она идеально подходит для обработки больших объёмов данных на локальной машине без необходимости поднимать сервер или использовать тяжёлые хранилища.
📦 Что делает DuckDB особенной?
- Работает как библиотека внутри Python (через `duckdb`)
- Поддерживает SQL-запросы напрямую к pandas DataFrame, CSV, Parquet, Arrow и другим источникам
- Оптимизирована под аналитические запросы: агрегации, группировки, фильтрации
- Мгновенно работает с большими файлами без предварительной загрузки
🧪 Пример рабочего сценария:
1️⃣ Чтение и анализ Parquet-файла:
import duckdb
duckdb.sql("SELECT COUNT(*), AVG(price) FROM 'data.parquet'")
2️⃣ Интеграция с pandas:
import pandas as pd
df = pd.read_csv("data.csv")
result = duckdb.sql("SELECT category, AVG(value) FROM df GROUP BY category").df()
3️⃣ Объединение нескольких источников:
duckdb.sql("""
SELECT a.user_id, b.event_time
FROM 'users.parquet' a
JOIN read_csv('events.csv') b
ON a.user_id = b.user_id
""")
🧠 Почему это важно:
- 📊 Вы можете использовать SQL и pandas одновременно
- 🚀 DuckDB быстрее pandas в большинстве аналитических задач, особенно на больших данных
- 🧩 Поддержка стандартов данных (Parquet, Arrow) даёт нативную интеграцию с экосистемой Data Science
- 🔧 Не требует настройки: просто установите через pip install duckdb
🎯 Применения:
- Локальный анализ данных (до десятков ГБ) — без Spark
- Объединение таблиц из разных форматов (Parquet + CSV + DataFrame)
- Прототипирование ETL-пайплайнов и построение дашбордов
- Быстрая агрегация и отчёты по логам, BI-данным, IoT-стримам и пр.
📌 Советы:
- Используйте read_parquet, read_csv_auto и from_df() для гибкой загрузки данных
- Результаты запросов можно конвертировать обратно в pandas через .df()
- DuckDB поддерживает оконные функции, GROUP BY, JOIN, UNION, LIMIT, подзапросы и многое другое — это полноценный SQL-движок
🔗 Подробный гайд:
https://www.kdnuggets.com/integrating-duckdb-python-an-analytics-guide
#DuckDB #Python #DataScience #Analytics #SQL #Pandas #Parquet #BigData⚡️Пошаговый план: как стать аналитиком данных в 2025
Хотите попасть в аналитику, но теряетесь в море информации и не понимаете, какие навыки действительно важны? Боитесь, что без опыта вас не возьмут на работу? И да, ещё один популярный вопрос — а что, если мне 30/40/50+ лет?
Андрон Алексанян — эксперт по аналитике с 8-летним опытом и по совместительству CEO Simulative — покажет рабочие схемы и чёткий план, как устроиться в аналитику быстрее, даже если у вас нет опыта
Что будет на вебинаре?
🟠 Разберёте полный роадмап: что учить, в каком порядке, до какого уровня;
🟠 Лайфхаки трудоустройства:
— покажут реальные примеры, как оформить резюме и портфолио, чтобы привлекать внимание;
— обсудите, какие отклики работают, а какие сразу отправляют в корзину;
— изнанка найма: инсайдерский взгляд на процессы отбора
🟠 Практические техники для новичков: разберёте, как компенсировать недостаток опыта и быстро закрывать пробелы в знаниях
🕗 Важно досмотреть вебинар до конца, чтобы получить бонус от Simulative, который поможет бустануть карьеру
😶Зарегистрироваться на бесплатный вебинар
🤖 AlphaEvolve: ИИ от DeepMind, который создаёт новые алгоритмы
В мае 2025 года DeepMind представила AlphaEvolve — универсального ИИ-агента, способного самостоятельно разрабатывать и оптимизировать алгоритмы. Это не просто генератор кода: AlphaEvolve сочетает мощь языковых моделей Gemini с эволюционными методами поиска и автоматической проверкой решений.
🧠 Что умеет AlphaEvolve?
- Решение сложных математических задач: AlphaEvolve улучшил нижнюю границу числа поцелуев в 11 измерениях с 592 до 593 — впервые за десятилетия :contentReference[oaicite:0]{index=0}.
- Оптимизация алгоритмов умножения матриц: Превзошёл алгоритм Штрассена 1969 года, сократив количество умножений для 4×4 матриц с 49 до 48 :contentReference[oaicite:1]{index=1}.
- Улучшение инфраструктуры Google: Повысил эффективность дата-центров на 1%, оптимизировал дизайн TPU и ускорил обучение моделей Gemini :contentReference[oaicite:2]{index=2}.
⚙️ Как это работает?
AlphaEvolve использует:
1. Исходный алгоритм и функцию оценки.
2. Языковую модель Gemini, чтобы генерировать варианты решения.
3. Автоматическую проверку для оценки эффективности каждого варианта.
4. Эволюционный цикл: лучшие решения сохраняются и используются для генерации новых.
Такой подход позволяет AlphaEvolve находить решения, которые ранее были недоступны даже экспертам.
📊 Результаты
- В 75% случаев AlphaEvolve воспроизводил известные оптимальные решения.
- В 20% случаев находил новые, более эффективные решения.
- В оставшихся 5% — результаты были хуже известных, что подчёркивает необходимость дальнейших исследований :contentReference[oaicite:3]{index=3}.
🌐 Почему это важно?
AlphaEvolve демонстрирует, что ИИ способен не только повторять известные решения, но и создавать новые знания. Это шаг к ИИ, который может активно участвовать в научных открытиях и инженерных разработках.
🔗 Подробнее
#DeepMind #AlphaEvolve #ИИ #Алгоритмы #Наука #Технологии #Gemini
✔️ Llama Nemotron Nano VL от NVIDIA — один из лучших open-source инструментов для документов**
Мультимодальная модель от NVIDIA уверенно занимает первое место на OCRBench v2, показав лучшую точность парсинга документов среди всех моделей.
📄 Что это такое:
Llama Nemotron Nano VL — лёгкая vision-language модель для интеллектуальной обработки документов (IDP), которая:
• разбирает PDF
• вытаскивает таблицы
• парсит графики и диаграммы
• работает на одной GPU
🔍 **Заточена под:**
– Вопрос-ответ по документам
– Извлечение таблиц
– Анализ графиков
– Понимание диаграмм и дешбордов
🧠 Под капотом — vision-энкодер C-RADIO v2 (distilled multi-teacher трансформер), который справляется даже с визуальным шумом и высоким разрешением.
📊 OCRBench v2 — крупнейший двухъязычный бенчмарк для визуального анализа текста, и именно NVIDIA Nano VL показывает лучший результат.
📌 И всё это работает на одной видеокарте.
🟡Hf
🟡Подробнее
#Nemotron #NVIDIA
🧠 Загадка: 9 + 9 = ??
На первый взгляд — обычные примеры. Но смотри внимательнее:
5 + 5 = 26 6 + 6 = 38 7 + 7 = 52 9 + 9 = ??Стандартная арифметика тут не работает. Найдём скрытую логику: Разберём: • 5 × 5 = 25 → 25 + 1 = 26 • 6 × 6 = 36 → 36 + 2 = 38 • 7 × 7 = 49 → 49 + 3 = 52 Кажется, формула такая: 🔍 **x + x = (x × x) + (x − 4)** Тогда: ``` 9 + 9 = 9 × 9 + (9 − 4) = 81 + 5 = ✅ **86** ``` 📌 Ответ: **86** #Логика #Головоломка #Математика #Mindset #Пазлы
Таблицы интегралов и другие математические формулы
Г. Б. Двайт
Содержит подробные таблицы неопределенных и определенных интегралов, много других математических формул.
Repost from Machinelearning
✔️ xAI и Telegram планируют партнерство по внедрению Grok.
По словам Павла Дурова, его платформа и компания Илона Маска xAI заключили годовое соглашение. xAI заплатит Telegram $300 млн. за интеграцию чат-бота Grok прямо в мессенджер. Помимо этого, Telegram также будет получать 50% от выручки с подписок на Grok, которые будут продаваться внутри платформы.
Илон Маск позже написал в X: "Контракт еще не подписан". Однако он не стал уточнять детали, оставив вопрос открытым. Пока что официальная позиция Telegram – сделка есть, и она принесет пользователям лучший ИИ на рынке уже этим летом.
Новость пришла на фоне важных для Telegram событий: сервис преодолел отметку в 1 млрд. активных пользователей в месяц в этом году и разместил облигации на $1.5 млрд.
Pavel Durov
✔️ Anthropic открывает бесплатный доступ к веб-поиску в Claude для всех пользователей.
Anthropic сняла ограничения с функции веб-поиска в Claude: теперь даже бесплатные пользователи смогут получать ответы на основе актуальных данных из интернета. Ранее, доступ к этой опции, которая анализирует информацию в реальном времени, был эксклюзивом для платных подписчиков. Это изменение позволит чаще обновлять знания модели и точнее решать задачи.
Параллельно стартовало тестирование голосового режима в мобильном приложении. Пользователи могут общаться с Claude в формате диалога, выбирая из 5 вариантов голоса и получать краткие текстовые сводки прошлых бесед. По умолчанию для диалогов задействована модель Sonnet 4.
support.anthropic
✔️ OpenAI тестирует вход через ChatGPT для сторонних сервисов.
OpenAI активно прорабатывает функцию "Вход через ChatGPT", позволяющую пользователям авторизовываться в сторонних приложениях через свои аккаунты ChatGPT. Компания уже собирает заявки от разработчиков, желающих интегрировать эту опцию в свои сервисы. Пилотный запуск для тестирования уже доступен в Codex CLI — инструменте для работы с ИИ в терминале. Разработчики могут подключить ChatGPT Free, Plus или Pro к своим API-аккаунтам, получая бонусные кредиты ($5 для Plus и $50 для Pro).
Это стратегический ход для расширения экосистемы. С 600 млн активных пользователей ежемесячно, "Вход через ChatGPT" может стать ключевым элементом, помогая OpenAI конкурировать с Google и Apple в сфере единого входа и онлайн-сервисов. Точные сроки публичного релиза пока неизвестны.
techcrunch
✔️ Google Photos обновляет редактор нейросетями к 10-летию сервиса.
К своему юбилею Google Photos получает мощное обновление, сфокусированное на ИИ-редактировании. Сервис, где ежемесячно редактируют 210 млн. снимков, теперь предлагает умные подсказки по улучшению кадра одним нажатием. Можно тыкнуть пальцем или обвести область — нейросеть предложит подходящий инструмент. Главные новинки — "Reimagine" и "Auto Frame", ранее доступные только на Pixel 9.
"Reimagine" меняет выбранный объект или добавляет новый по текстовому запросу через генеративный ИИ. "Auto Frame" автоматически кадрирует фото, а нейросеть дорисовывает фон. Плюс Google добавит QR-коды для альбомов, чтобы удобно собирать фото с мероприятий. Правда, обновленный редактор появится на Android в июне, а владельцам iPhone ждать до конца года.
arstechnica
✔️ Resemble AI открыли код Chatterbox — SOTA для клонирования голоса.
✔️ Яндекс открыл прием заявок на ежегодную премию Yandex ML Prize.
С 28 мая стартовал прием заявок на ежегодную премию Yandex ML Prize 2025. Эта награда — реальное признание и поддержка для тех, кто растит новые кадры ML в России. Премия существует с 2019 года как память об Илье Сегаловиче, и за шесть лет её получили уже 60 выдающихся педагогов и руководителей.
Податься могут вузовские преподаватели, ученые из исследовательских центров и руководители образовательных программ в области Сomputer Science. Победителей ждут денежные призы и полезные гранты на Yandex Cloud, которые точно пригодится в работе: делать новые курсы, организовывать хакатоны и проводить исследования вместе со студентами.
Заявки принимают до 22 июня. Само награждение, как обычно, пройдет осенью.
habr.com
@ai_machinelearning_big_data
#news #ai #ml
Repost from Data Secrets
Кто обучает будущих архитекторов AGI
Каждый второй стартап пишет «AI-native» в питч-деке, но остаётся вопрос: кто вообще готовит тех, кто сможет строить такие системы?
Это преподаватели и эксперты-практики, которые не только работают в индустрии, но и делятся знаниями со студентами. Они читают курсы, вытаскивают студентов в реальные проекты и актуализируют программы в университетах.
Yandex ML Prize 2025 как раз про таких — про тех, кто стоит у истоков индустрии, хотя их обычно не видно в релизах и исследованиях. В этом году премия от Яндекса вручает гранты и поддерживает преподавателей, которые формируют будущую экосистему ML в России.
Прием заявок на премию открыт до 22 июня. Категории: от преподавателей со стажем до руководителей целых ML-программ.
Repost from Machinelearning
+2
🌟 V-Triune от MiniMax: RL для VLM.
V-Triune - фреймворк с новым методом обучения VL-моделей, через единый алгоритм подкрепления.
В отличие от традиционных методов трейна VLM, сосредоточенных на отдельных задачах вроде решения математических задач или обнаружения объектов, V-Triune обучает модели одновременно работать с рассуждениями и восприятием. RL в V-Triune действует как механизм «настройки» уже заложенных в модель возможностей, а не добавляет новые навыки.
Это достигается за счет 3 ключевых компонентов: форматирования данных на уровне выборок, вычисления наград через специализированные верификаторы и мониторинга метрик по источникам данных.
Например, динамическая награда IoU адаптирует пороги точности для обнаружения объектов — сначала стимулируя базовое понимание, а затем требуя высокой точности.Тестирование проводилось на бенчмарке MEGA-Bench из440 задач — от анализа графиков до OCR. Экспериментальные модели Orsta (7B и 32B параметров), обученные с V-Triune, показали прирост производительности до +14,1% по сравнению с базовыми версиями. На задачах восприятия (обнаружение объектов в COCO), улучшения достигли +12,17% для mAP@50. Для математических задач (MathVista) результаты выросли на 5%, а в OCR — на 1-2%. При этом система стабильно работала даже при обучении на смешанных данных, что косвенно подтвердило ее универсальность. Minimax открыли (но пока не загрузили его в репозиторий) код V-Triune и модели Orsta: 🟢Orsta-32B-0326 - стабильная версия на более поздней QwenVL-2.5-32B; 🟠Orsta-32B-0321 - версия с замороженным ViT на базе QwenVL-2.5-32B-0321; 🟢Orsta-7B - на базе Qwen2.5-VL-7B-Instruct. ⚠️ В версии 0321 попытки совместного обновления визуального и языкового модулей приводили к взрыву градиентов, поэтому ViT пришлось заморозить. В 0326, благодаря исправлениям в архитектуре, RL-тренинг стал стабильнее. 0326 рекомендуется для задач, где критична точность и надежность форматов ответов. 📌Лицензирование: MIT License. 🟡Набор моделей 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #VLM #RL #Framework #MiniMax
🧠 Восстановление искажённых измерений с дневным смещением
У вас есть температурные измерения за 10 дней, но каждый день датчик добавляет случайное смещение (bias), постоянное в течение дня. Также есть шум измерений.
📊 Ваша задача:
1. Оценить bias по дням
2. Восстановить истинную температуру
3. Посчитать RMSE между восстановленной и настоящей температурой
📦 Генерация данных
import pandas as pd
import numpy as np
np.random.seed(42)
days = pd.date_range("2023-01-01", periods=10, freq="D")
true_temp = np.sin(np.linspace(0, 3 * np.pi, 240)) * 10 + 20
bias_per_day = np.random.uniform(-2, 2, size=len(days))
df = pd.DataFrame({
"datetime": pd.date_range("2023-01-01", periods=240, freq="H"),
})
df["day"] = df["datetime"].dt.date
df["true_temp"] = true_temp
df["bias"] = df["day"].map(dict(zip(days.date, bias_per_day)))
df["measured_temp"] = df["true_temp"] + df["bias"] + np.random.normal(0, 0.5, size=240)
🔍 Разбор: как оценить смещение
Идея: температура в течение дня плавно колеблется, но bias в этот день одинаков для всех точек. Если мы "сгладим" значения (например, скользящим средним), то можем аппроксимировать общий тренд — и вычесть его, получив оценку bias.
🔧 Способ: вычтем сглаженный тренд, затем усредним остатки по дню:
```python
# Сглаживаем тренд
df["trend"] = df["measured_temp"].rolling(window=12, center=True, min_periods=1).mean()
# Остатки (приближение к bias)
df["residual"] = df["measured_temp"] - df["trend"]
# Оценка bias как среднее отклонение внутри дня
bias_est = df.groupby("day")["residual"].mean()
df["estimated_bias"] = df["day"].map(bias_est)
# Восстановим температуру: measured - bias
df["restored_temp"] = df["measured_temp"] - df["estimated_bias"]
```
📊 Результаты
Оценим ошибку восстановления:
```python
from sklearn.metrics import mean_squared_error
rmse = mean_squared_error(df["true_temp"], df["restored_temp"], squared=False)
print(f"RMSE восстановления: {rmse:.4f}")
```
> ✅ Обычно RMSE ≈ 0.5–0.7 — это близко к стандартному отклонению шума, значит bias устранён успешно!
💡 Вывод
✔️ Простая техника — сглаживание + усреднение отклонений — позволяет оценить дневные смещения
✔️ Без знания "истинной" температуры можно получить довольно точную реконструкцию
✔️ Это напоминает реальные задачи очистки данных от сенсорных сдвигов или ошибок калибровки
📈 Отличный пример практики Data Science с уклоном в математику, временные ряды и обработку шумов!🔥Ozon Tech платит 150 000 рублей за рекомендацию senior+ DS/ML-специалиста
🧠Идеальный момент помочь талантливым знакомым и заработать самому.
Кто может участвовать? Все, кто еще не работает в Ozon. Если рекомендованного вами кандидата берут на работу, то вы получаете бонус. Вознаграждение выплачивается после успешного прохождения испытательного срока.
Можно рекомендовать сколько угодно кандидатов (главное — по одному в каждой заявке). Отправлять рекомендации может любой человек не из Ozon, независимо от профессии.
🔗 Подробнее о вакансиях и условиях: https://s.ozon.ru/nkcdpub
📊 Математическая задача для Data Scientists: "Идеальная точка разбиения"
**Условие**
У тебя есть список чисел
List[float], представляющий одномерное распределение (например, значения метрики или зарплаты).
Нужно определить: существует ли индекс, на котором можно разделить массив на две части так, чтобы стандартное отклонение слева и справа отличалось не более чем на ε (например, 0.1).
Формат:
def has_balanced_std_split(data: list[float], epsilon: float = 0.1) -> bool:
...
Пример:
data = [1.0, 2.0, 3.0, 4.0, 5.0]
# Разделение после 2 → [1.0, 2.0], [3.0, 4.0, 5.0]
# std слева ≈ 0.5, справа ≈ 0.816 → разница = 0.316 > 0.1 → не подходит
🔍 Подсказка
Используй statistics.stdev() или numpy.std(ddof=1) (с выборочной коррекцией).
Но не забывай, что длина подмассива должна быть как минимум 2.
---
✅ Пример реализации:
```python
import statistics
def has_balanced_std_split(data: list[float], epsilon: float = 0.1) -> bool:
n = len(data)
if n < 4:
return False # Нужны хотя бы 2 элемента в каждой части
for i in range(2, n - 1):
left = data[:i]
right = data[i:]
if len(left) < 2 or len(right) < 2:
continue
std_left = statistics.stdev(left)
std_right = statistics.stdev(right)
if abs(std_left - std_right) <= epsilon:
return True
return False
```
📌 Пример использования:
```python
data = [10, 12, 11, 20, 21, 19]
print(has_balanced_std_split(data, epsilon=0.5)) # True или False в зависимости от разбивки
```
🎯 Что проверяет задача:
• понимание **дисперсии и стандартного отклонения**
• знание **статистических библиотек Python**
• работа с ограничениями на длину срезов
• мышление в духе «разделяй и анализируй»Обучение моделей занимает слишком много времени? Локальные ресурсы перегружены? На новую видеокарту не хватает денег?
immers.cloud — это облачный GPU сервис, предоставляющий доступ к мощным видеокартам для самых различных задач.
💰 Экономия: тарифы от 23 рублей/час, оплата только за фактическое время использования.
⚡️ Быстрый старт: видеокарты и серверы готовы к работе за пару минут.
📈 Гибкость и масштабируемость: 11 видеокарт на выбор, быстрый старт и масштабирование
🔧 Удобство: готовые образы для ML задач, чтобы не тратить время на настройку
🧠 Математика, красота и истина в эпоху ИИ
Когда-то математическое доказательство считалось вершиной человеческой логики и элегантности. Но ИИ меняет даже это.
В статье исследуется, как ИИ трансформирует подходы к математике:
🔹 ИИ создает доказательства — не просто перебором, а находя закономерности, генерируя гипотезы и даже формируя контрпримеры.
🔹 Модели уровня DeepMind уже выигрывают медали на Международной математической олимпиаде.
🔹 Красота и элегантность в доказательствах теперь оцениваются не только людьми — ИИ начинает создавать новые формы "математической эстетики".
> “Они разрушают те границы, которые я считал непреодолимыми”
> — Эндрю Грэнвилл, математик
⚖️ Дискуссия: если ИИ способен доказать теорему, но человек не может это понять — считается ли это «знанием»?
📌 Полный текст
#искусственныйинтеллект #математика #ChatGPT #DeepMind #LLM #AI #наука
Repost from Machinelearning
✔️ Y Combinator назвал главные тренды лета 2025 для стартапов.
Y Combinator сделал ставку на ИИ-агентов, способных переосмыслить целые индустрии. Вместо точечных решений, основателям советуют создавать «полноценные ИИ-компании» - например, запускать собственные юридические бюро с ИИ-юристами вместо сотрудников. Такой подход позволяет обойти медлительных конкурентов, предлагая клиентам более дешевые и эффективные сервисы.
Особый интерес к автоматизации рутины: персональные ассистенты, которые не просто напоминают о задачах, а самостоятельно отвечают на письма, планируют встречи и имитируют стиль общения пользователя. Y Combinator верит: будущее за командами, которые не просто внедряют ИИ, а перестраивают рынки с нуля, как это сделали Airbnb или Stripe.
ycombinator.com
✔️ ИИ помог создать синтетические ДНК-усилители для контроля генной экспрессии.
Ученые из Центра геномной регуляции в Барселоне впервые применили генеративный ИИ для проектирования синтетических молекул ДНК, способных управлять активностью генов в здоровых клетках млекопитающих. Модель, обученная на данных тысяч экспериментов, генерирует последовательности «с нуля», задавая критерии.
В качестве теста создали фрагменты ДНК, активирующие ген флуоресцентного белка в клетках крови мышей. Результаты совпали с прогнозами: синтетические усилители генной активности работали как «переключатели» в зависимости от типа клеток. Исследование открывает путь к персонализированным методам коррекции генов. По словам авторов, это похоже на «написание софта для биологии», где каждая инструкция для клетки становится программируемой.
technologynetworks.com
✔️ OpenAI запускает HealthBench.
OpenAI представила HealthBench - бенчмарк для тестирования ИИ-систем в сфере здравоохранения. Разработанный при участии 262 врачей из 60 стран, он включает 5000 реалистичных диалогов, имитирующих общение пациентов и медиков. Каждый сценарий оценивается по индивидуальным критериям, созданным экспертами: точность данных или ясность ответов.
Всего в бенчмарке 48 562 параметра оценки, что позволяет глубоко анализировать работу моделей. Особый упор сделан на надежность: даже один ошибочный ответ в медицине критичен. HealthBench включает подборки сложных кейсов (HealthBench Hard), где современные ИИ еще отстают. Все данные и методики уже доступны в GitHub-репозитории OpenAI .
openai.com
✔️ Google запускает фонд для стартапов.
Google анонсировала AI Futures Fund — программу для поддержки ИИ-стартапов. Участники получат ранний доступ к моделям DeepMind (Gemini, Imagen и Veo). Кроме технологий, стартапы смогут консультироваться с инженерами и исследователями Google, а также получат облачные кредиты для обучения и масштабирования решений. Уже сейчас с фондом работают проекты из разных сфер: индийский Toonsutra внедряет Gemini для перевода комиксов, Viggle экспериментирует с генерацией мемов, а платформа Rooms тестирует интерактивные 3D-пространства.
Программа открыта для стартапов из регионов, где доступен Gemini. Подать заявку можно на сайте фонда. Участники смогут претендовать не только на технические ресурсы, но и на прямые инвестиции от Google.
blog.google
✔️ Поддельные ИИ-инструменты распространяют стиллер Noodlophile.
Злоумышленники активно используют популяризацию ИИ для распространения вредоносного стиллера Noodlophile, маскируя атаки под сервисы для генерации видео и изображений. Как сообщает Morphisec, фейковые страницы Luma Dreammachine Al и CapCut AI рекламируются через соцсети, собирая до 62 000 просмотров на пост. Пользователям предлагают скачать «ИИ-софт», но вместо этого загружается ZIP-архив с исполняемым exe-файлом.
Запуск файла активирует легитимный CapCut.exe, который загружает .NET-лоадер CapCutLoader. Тот, в свою очередь, запускает Python-скрипт, устанавливающий Noodlophile Stealer. Вредонос крадет пароли, данные кошельков и другую информацию, а в некоторых случаях дополняется трояном XWorm для удаленного доступа. Эксперты напоминают: атаки через ИИ-технологии стали трендом. Осторожность — лучшая защита.
thehackernews.com
@ai_machinelearning_big_data
#news #ai #ml
Почему нужно популяризировать математику?
Этот вопрос стал ключевым в разговоре ректора университета «Иннополис» Александра Гасникова и руководителя департамента анализа данных и моделирования ВТБ Дениса Суржко в подкасте «Деньги любят техно».
В этом сезоне подкаст стал философским и визионерским: гости говорят не только о технологических решениях, но и о смыслах, которые стоят за ними. Александр Гасников — молодой современный ученый, который перешел на позицию руководителя университета и занялся административной деятельностью. И о том, как отличаются две эти роли, он вполне подробно рассказал в выпуске.
А еще в подкасте: какие задачи стоят перед современными техническими вузами, почему подготовка молодых кадров должна стать приоритетом, какие навыки требуются в науке и в работе на коммерческие компании и в целом куда ведёт нас развитие ИИ.
Абсолютно точно полезно послушать всем.
Видеоверсия доступна здесь
Аудиоверсия — на любой удобной платформе
🧠 Задача для дата-сайентистов: "Невидимая переменная"
У вас есть датафрейм с результатами тестирования модели A/B:
| user_id | group | conversion_rate |
|---------|--------|-----------------|
| 1001 | A | 0 |
| 1002 | A | 1 |
| 1003 | B | 0 |
| 1004 | B | 1 |
| ... | ... | ... |
По результатам A/B теста кажется, что разницы между группами нет. Вы проверили chi-squared test и Mann-Whitney — тоже ничего.
🧩 Однако ваш коллега утверждает, что в данных явно зарыта сильная зависимость, которую можно выявить, если «включить голову».
---
🔍 Вопрос:
Какой скрытый фактор мог полностью «маскировать» эффект от теста и как его можно вычислить, даже если он отсутствует в таблице напрямую?
💡 Подсказка: данные собирались в течение 30 дней, но колонка с датой/временем была потеряна при сохранении. Однако user_id — это не случайное число.
🎯 Что нужно сделать:
1. 🧠 Предположить, что user_id содержит зашумлённую информацию о времени регистрации (например, ID выдаются монотонно)
2. 🧮 Смоделировать зависимость результата от user_id и проверить, не является ли тест несбалансированным по времени
3. 📈 Построить метрику на основе сгруппированных окон по user_id и визуализировать смещение между группами A и B
🎯 Ключевая идея решения:
Хотя колонка с датой была потеряна, можно сделать разумное предположение:
🔸 `user_id` назначается **монотонно**, т.е. пользователи с меньшими ID пришли раньше.
Если эксперимент длился 30 дней, а пользователи приходили неравномерно, то:
- группа A могла доминировать в начале
- группа B — в конце
📉 А что, если в эти периоды поведение пользователей менялось? Например, была акция, баг, праздник?
🔍 **Решение: как восстановить эффект**
1. 🟤 Добавим к данным колонку `bucket = user_id // 100`, чтобы разбить пользователей на условные "временные окна"
2. 🟤 Для каждого `bucket` считаем среднюю `conversion_rate` отдельно по группам A и B
3. 🟤 Строим график `conversion_A - conversion_B` по bucket
Если кривая скачет — тест **несбалансирован по времени** и глобальное сравнение групп вводит в заблуждение.
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
