ch
Feedback
Анализ данных (Data analysis)

Анализ данных (Data analysis)

前往频道在 Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

显示更多
50 205
订阅者
+324 小时
+97
-1 90630
帖子存档
⚡️ OpenAI раздаёт ChatGPT Pro на 6 месяцев владельцам open-source проектов. В рамках программы Codex for Open Source можно по
⚡️ OpenAI раздаёт ChatGPT Pro на 6 месяцев владельцам open-source проектов. В рамках программы Codex for Open Source можно получить: • 6 месяцев ChatGPT Pro • доступ к Codex и GPT-5.5 Pro • API-кредиты • Codex Security Заявка простая: нужно отправить ссылку на свой репозиторий и коротко объяснить, зачем проект важен и как Codex поможет его улучшить. Больше шансов у тех, у кого есть: • активный GitHub-профиль • несколько публичных репозиториев • звёзды на проектах • нормальная история коммитов Если у вас есть живой open-source проект, это один из самых простых способов получить ChatGPT Pro на полгода бесплатно. https://openai.com/ru-RU/form/codex-for-oss/ @data_analysis_ml

Кремниевая долина в шоке: Сандерс хочет забрать половину AI-капитала Берни Сандерс (главный социал-демократ американской политики) готовит законопроект American A.I. Sovereign Wealth Fund Act. Идея звучит максимально жёстко для Кремниевой долины: крупнейшие AI-компании должны передать 50% акций в пользу общества через разовый налог не на прибыль, а именно на stock. По замыслу Сандерса, эти доли попадут в суверенный фонд. Дальше доходы от роста AI-индустрии должны идти не только основателям, фондам и ранним инвесторам, а обычным гражданам США: через выплаты, медицину, образование и жильё. Аргумент у него простой и политически очень заряженный. Генеративный ИИ обучался на книгах, коде, статьях, музыке, изображениях, видео и идеях миллионов людей. Значит, если новые триллионы создаются на базе «коллективного знания человечества», то и часть богатства должна возвращаться обществу. Для AI-компаний это, конечно, выглядит как кошмарный сценарий. Не штраф, не новый налог на прибыль, не регулирование API, а фактическое размывание собственности в пользу государства и граждан. Что предлагает Сандерс: - 50% ownership stake для общества в крупнейших AI-компаниях США - разовый налог акциями, а не деньгами - создание американского AI sovereign wealth fund - участие государства в управлении через голосующие акции - распределение будущих доходов между гражданами Полный текст закона он обещает раскрыть позже, поэтому пока это скорее политическая рамка, чем готовый юридический механизм. Но сама постановка вопроса уже важна. Политики начали смотреть на ИИ модели не как на обычный софт, а как на новую нефтяную скважину. Только вместо нефти - данные, код, культура, научные тексты и человеческое внимание.

Недавно вышло интервью с выпускником ШАДа Степаном Платинским. Он сейчас работает в международном поиске Яндекса и параллельно занимается экстремальной статистикой.  В прошлом году Степан ездил на стажировку в Саудовскую Аравию — в университет KAUST — как приглашённый исследователь. И вот какие советы он даёт тем, кто хочет развиваться в ML и науке. 1. Начинайте исследования как можно раньше. Степан жалеет, что вплотную занялся наукой только на старших курсах. Совет: ищите экспертов, участвуйте в их проектах, публикуйтесь. Это даёт опыт, связи и строчку в резюме, которая открывает двери в PhD за границей. 2. Идеальный английский не нужен. Гораздо важнее иметь реальные результаты. На зарубежные стажировки берут тех, у кого за плечами есть наработки и исследования, а не тех, кто красиво говорит. 3. Главный навык для ML — любознательность. «Заставить себя невозможно, важно искренне хотеть разбираться». Ну и база — фундаментальное образование, сочетающее теорию и практику.

США хотят смотреть самые мощные AI-модели до релиза Трамп подписал executive order, который вводит добровольную проверку fron
США хотят смотреть самые мощные AI-модели до релиза Трамп подписал executive order, который вводит добровольную проверку frontier-моделей перед выпуском. Речь не про все новые LLM подряд, а про системы, которые могут перейти порог по продвинутым киберспособностям. Если модель уже умеет находить уязвимости, автоматизировать кибероперации или подсвечивать слабые места в критической инфраструктуре, государство хочет получить короткое окно до публичного релиза. Не чтобы «разрешить или запретить» модель, а чтобы защитники успели подготовить патчи, процедуры и ограничения. По новой рамке AI-лаборатории смогут добровольно давать федеральным агентствам доступ к таким моделям максимум на 30 дней до релиза для других доверенных партнёров. К оценке должны подключаться NSA, CISA, NIST и другие структуры, а сам порог для covered frontier model будет определяться через закрытый benchmarking-процесс. covered frontier model - это не любая новая модель, не очередной апдейт чат-бота и не open-source релиз на Hugging Face. Это модель, которая по правительственным критериям показывает продвинутые возможности именно в кибердомене. Отдельно в EO прописано, что документ не создаёт обязательное лицензирование, preclearance или разрешительный режим для разработки, публикации и распространения AI-моделей, включая frontier-модели. То есть формально это не «гослицензия на LLM», а попытка встроить ранний кибер-аудит в релизный цикл самых опасных систем. Пока это добровольная опция. http://whitehouse.gov/presidential-actions/2026/06/promoting-advanced-artificial-intelligence-innovation-and-security/

⚡️ Microsoft выпустил MAI-Transcribe-1.5 - модель транскрибации речи, которая обрабатывает аудио в 276 раз быстрее реального
+3
⚡️ Microsoft выпустил MAI-Transcribe-1.5 - модель транскрибации речи, которая обрабатывает аудио в 276 раз быстрее реального времени. Для сравнения: второй по скорости точный конкурент из топ-10 работает вдвое медленнее. При этом по качеству - 2.4% WER по бенчмарку Artificial Analysis, третье место в общем зачёте. Впереди только Alibaba Fun-Realtime-ASR-preview (1.7%) и ElevenLabs Scribe v2 (2.2%). keyword biasing для редких слов - имён собственных, медицинских терминов и поддержка 43 языков включая арабский, японский, китайский. Скорость такого уровня при точности из топ-3. https://microsoft.ai/news/introducingmai-code-1-flash/

Alphabet больше не ведёт себя как классическая софтверная машина с бесконечной маржей Компания собирается привлечь до $80 млр
Alphabet больше не ведёт себя как классическая софтверная машина с бесконечной маржей Компания собирается привлечь до $80 млрд через выпуск акций и гибридных инструментов, чтобы залить эти деньги в ИИ-инфраструктуру. Berkshire Hathaway отдельно заходит на $10 млрд, и это делает историю намного интереснее обычного «техгиганту понадобился кеш». Спрос на ИИ есть. Продукты есть. Модели есть. Проблема в том, где взять достаточно compute, энергии, дата-центров, сетей и чипов, чтобы этот спрос обслужить. Alphabet не просто завтра выкидывает на рынок $80 млрд обычных акций. Структура сложнее: - $30 млрд через underwritten offerings - часть через mandatory convertible preferred - $10 млрд частным размещением для Berkshire Hathaway - $40 млрд через ATM-программу - около $30 млрд из ATM связано с налоговой механикой по employee equity ИИ-инфраструктура стала настолько дорогой, что даже Alphabet выгоднее комбинировать разные источники финансирования. Если Berkshire заходит в такой раунд, рынок получает сигнал: AI capex можно рассматривать не только как безумные траты на GPU, а как строительство будущей платной магистрали. s206.q4cdn.com/479360582/files/doc_news/2026/Jun/01/attachments/2026-June-Alphabet-Equity-Capital-Raise-Press-Release-PDF.pdf

PewDiePie внезапно стал амбассадором локального ИИ За первый день проект собрал почти 20 000 звёзд. Человек, который больше д
PewDiePie внезапно стал амбассадором локального ИИ За первый день проект собрал почти 20 000 звёзд. Человек, который больше десяти лет был лицом YouTube-летсплеев и развлекательного контента, теперь собирает железо под LLM, дообучает модели и выкатывает open-source инструменты для локальных агентов. Сначала он показал домашнюю машину примерно за $20 000, собранную под запуск ИИ-моделей без облачных сервисов. Аргумент у него простой: не отправлять личные данные в чужие API, не зависеть от подписок и держать весь стек у себя. Потом он начал экспериментировать с дообучением моделей и заявлял, что его вариант на отдельном бенчмарке обгоняет даже топовые закрытые решения. Теперь появился Odysseus - open-source оболочка для self-hosted AI-среды. Это уже не просто «запусти модель через терминал». Идея ближе к локальному ChatGPT для своих задач: - удобный интерфейс - память - работа с инструментами - хранение данных у себя - поддержка агентов - подключение моделей через Ollama, llama.cpp и vLLM - гибкая настройка доступов Видео: https://youtu.be/rAzT5lcezPs GitHub: github.com/pewdiepie-archdaemon/odysseus

Keye 2.0 от Kuaishou - интересный шаг для мультимодальных моделей: DeepSeek Sparse Attention впервые нормально утащили в зада
Keye 2.0 от Kuaishou - интересный шаг для мультимодальных моделей: DeepSeek Sparse Attention впервые нормально утащили в задачу длинного видео. Главная фишка - 256K контекста. Модель может разбирать часовые видео без типичного развала внимания, когда в начале ролика одно, в середине другое, а к концу модель уже теряет причинно-следственные связи. Что важно: - 30B MoE-модель с 3B активных параметров - поддержка длинных видео и сложной временной логики - prefill cost ниже примерно на 50% - результат 74.10 на LongVideoBench - на VideoMME V2 качество растёт при увеличении входа с 64 до 512 кадров: 35.34% → 42.44% - есть фокус на timestamps, причинные цепочки, туториалы, игровые видео и длинные влоги изменился контекст и почему это важно. Веса уже открыты: https://modelscope.ai/models/Kwai-Keye/Keye-VL-2.0-30B-A3B

🖥 Nvidia представила RTX Spark 0 ARM-чип, который метит туда, где Apple M-серия доминирует. По памяти: RTX Spark поддерживае
+3
🖥 Nvidia представила RTX Spark 0 ARM-чип, который метит туда, где Apple M-серия доминирует. По памяти: RTX Spark поддерживает до 128 ГБ LPDDR5X (минимум 16 ГБ) с пропускной способностью 300 ГБ/с через NVLink C2C. Для локального запуска LLM и диффузионных моделей это принципиально важная цифра - большой объём единой памяти без разделения между CPU и GPU. Полный стек NVIDIA включает поддержку CUDA, TensorRT, NVFP4, DLSS, Ray Tracing, Reflex и G-SYNC. Всё, что нужно разработчику под CUDA, будет работать нативно без каких-либо дополнительных прослоек. Первые устройства на RTX Spark выйдут осенью 2026 года. Свои флагманы на новом чипе уже готовят Microsoft (Surface Laptop Ultra), Asus (ProArt P14, P16), Dell (XPS 16), MSI (Prestige N16 Flip AI), HP (OmniBook X14 Ultra 16), Lenovo (Yoga Pro 9i) и другие. Помимо ноутбуков, в планах у Nvidia - компактные десктопы: Acer, Asus, Dell, Gigabyte, HP, MSI и Lenovo анонсировали RTX Spark Desktop-устройства.

Lakehouse — новый подход к данным, который убивает DWH и Data Lake - Высокая вероятность, что массовый переход на Lakehouse начнётся в ближайшие 1-2 года — после того как первые игроки (Т-банк, Магнит, Ламода) уже доказали экономию и масштабируемость. Об этом в интервью «Коммерсанту» рассказал Леонид Савченков, руководитель продуктовой архитектуры платформы данных Yandex Cloud. - Классические DWH на объёмах от 100 ТБ начинают тормозить: единственный способ — докупать серверы целиком, потому что хранение и вычисления сцеплены. - Data Lake решал проблему объёма, но не давал нормального управления данными — отчёты строить было сложно. - Lakehouse разделяет хранение и вычисления: можно нарастить мощности под «Чёрную пятницу» и не платить за лишнее место весь год. - В отличие от Data Lake, здесь появляются строгие табличные форматы и управление данными как в СУБД. - Узкое место — нужны спецы по Trino и Spark. Чудес не бывает. - Для ИИ это идеально: вычисления можно выделить в отдельные мощности, не роняя основные отчёты. X5 уже построил бота по трендам молока в регионах. - Через пять лет, вероятно, появится новая концепция. Если данных мало — старый DWH всё ещё дешевле и проще. https://www.kommersant.ru/doc/8691430

MiniMax M3 выглядит как один из самых сильных открытых релизов этого года. Модель сразу бьёт в три направления, которые сейча
MiniMax M3 выглядит как один из самых сильных открытых релизов этого года. Модель сразу бьёт в три направления, которые сейчас важны для практического ИИ: кодинг, агентные сценарии и мультимодальность. То есть не просто чат-модель с длинным контекстом, а система, которую пытаются сделать пригодной для реальной работы с кодом, терминалом, браузером, изображениями, видео и computer use. Что заявляют по цифрам: - 59.0% на SWE-Bench Pro - 66.0% на Terminal Bench 2.1 - 34.8% на SWE-fficiency - 28.8% на KernelBench Hard - 74.2% на MCP Atlas - контекст до 1M токенов через MiniMax Sparse Attention - до 15x ускорение декодирования на длинном контексте - оптимизация CUDA FP8 GEMM kernel с нуля дала 9.4x ускорение на Hopper GPU - нативная работа с изображениями, видео и computer use API: http://platform.minimax.io Тарифы по токенам: https://platform.minimax.io/subscribe/token-plan MiniMax Code: http://code.minimax.io

Работа The AI Layoff Trap цепляет самой механикой ловушки вокруг ИИ-автоматизации. Представьте обычную компанию. Она заменяет
Работа The AI Layoff Trap цепляет самой механикой ловушки вокруг ИИ-автоматизации. Представьте обычную компанию. Она заменяет часть сотрудников ИИ, снижает расходы и получает преимущество. Конкуренты видят это и повторяют. Потом подключаются остальные. Бизнес действует рационально: режет издержки, защищает маржу, ускоряет процессы. Уволенные сотрудники были покупателями. Когда таких людей становится много, они тратят меньше. Спрос падает, продажи проседают, компании снова ищут, где урезать расходы. Самый быстрый путь - ещё больше автоматизации. Так появляется петля: компании заменяют людей ИИ, доходы падают, рынок покупает меньше, бизнес снова режет расходы. Для одной фирмы это выглядит разумно. Для системы в целом такой цикл может стать ловушкой. Обычно считают стоимость задачи, скорость, качество ответа, экономию на людях. Гораздо реже считают эффект второго порядка: что произойдёт, если такую же оптимизацию одновременно проведут тысячи компаний. Авторы работы показывают, что базовый доход, налоги на капитал, переобучение, доля работников в бизнесе и договорённости между компаниями в их модели проблему полностью не закрывают. Единственный механизм, который сработал, - налог на автоматизацию задач. Компания заранее учитывает ущерб спросу, который создаёт массовой заменой людей ИИ. С моделью можно спорить. Но постановка сильная: ИИ может ударить по экономике через обычную конкуренцию. Каждый игрок действует рационально, пока сумма этих решений постепенно ослабляет рынок, на котором все они зарабатывают. http://arxiv.org/pdf/2603.20617

В Сан-Франциско дом за $2.995 млн теперь можно купить акциями OpenAI или Anthropic Это реальный листинг в Duboce Triangle: пр
+1
В Сан-Франциско дом за $2.995 млн теперь можно купить акциями OpenAI или Anthropic Это реальный листинг в Duboce Triangle: продавец готов принять не только деньги, но и частные акции OpenAI или Anthropic. У сотрудников и ранних инвесторов может быть большое состояние на бумаге, но оно застряло в неликвидных акциях. До IPO, tender sale или вторичного рынка эти деньги нельзя просто вывести и принести на сделку по недвижимости. В итоге человек может формально быть миллионером, но при покупке дома всё равно упираться в классическую проблему: денег на счету нет, а капитал лежит в private equity. Интерес к объекту появился почти сразу после публикации такого условия. По её словам, на просмотрах часто встречаются сотрудники и инвесторы из AI-компаний, которые хотят покупать жильё, но не могут быстро превратить опционы и акции в ликвидность. Продавец, судя по описанию, сам верит в OpenAI и Anthropic, поэтому готов рассматривать их акции как часть расчёта. Для обычного рынка это рискованная конструкция, для Сан-Франциско 2026 года - почти логичное продолжение AI-экономики. zillow.com/homedetails/160-Noe-St-San-Francisco-CA-94114/461638923_zpid/

✔️ Бывшие исследователи DeepMind подняли $50 млн на лабораторию, где ИИ будет улучшать не только модель, а всю исследовательс
✔️ Бывшие исследователи DeepMind подняли $50 млн на лабораторию, где ИИ будет улучшать не только модель, а всю исследовательскую организацию Команда Inherent хочет строить AI-лабораторию вокруг идеи recursive self-improvement - но не в узком смысле «модель сама себя переписывает». Их ставка шире: ИИ должен помогать людям во всём исследовательском цикле: - находить перспективные вопросы - проектировать эксперименты - проверять гипотезы - анализировать результаты - улучшать сам процесс исследований Раунд на $50 млн возглавили Index и Radical. В инвесторах также венчурное подразделение NVIDIA, Dwarkesh Patel, Thomas Wolf, Max Jaderberg и другие заметные имена. У фаундеров сильный бэкграунд. Louis Kirsch связан с линией Шмидхубера по самоулучшающимся системам. Edward Hughes давно пишет про open-endedness как важный путь к сверхчеловеческому ИИ. Tantum Collins работал над AI policy в Белом доме при Байдене. Inherent хочет, чтобы ИИ жил внутри эксперимента рядом с человеком: не просто был инструментом для ответа, а становился полноценным исследовательским партнёром. Компанию сразу оформили как Public Benefit Corporation - то есть миссия заложена в структуру бизнеса с первого дня. https://x.com/Machinelearrn/status/2060704335772721350

Как он создал Linux без OPUS 4.8 ??
Как он создал Linux без OPUS 4.8 ??

🧩 Microsoft показала SkillOpt - способ обучать навыки агентов без дообучения модели Обычно agent skills пишут руками, генери
🧩 Microsoft показала SkillOpt - способ обучать навыки агентов без дообучения модели Обычно agent skills пишут руками, генерируют один раз через LLM или правят хаотично после неудачных запусков. Проблема в том, что такие правки легко делают навык хуже: текст звучит убедительно, но агент начинает чаще ошибаться. SkillOpt предлагает относиться к skill-файлу как к обучаемому артефакту. Модель не трогают. Меняется только небольшой документ с инструкциями, привычками и процедурой выполнения задачи. Как это работает: агент решает задачи, система смотрит на успешные и провальные траектории, затем отдельная optimizer-модель предлагает точечные правки в skill-документ. Правка принимается только если новый вариант даёт прирост на отдельной validation-выборке. В итоге получается не новый чекпоинт и не набор хрупких промптов, а компактный readable-файл, который можно проверить, перенести в другой agent loop и использовать без дополнительных вызовов optimizer-модели. По статье, SkillOpt тестировали на 6 бенчмарках, 7 моделях и 3 режимах работы: direct chat, Codex и Claude Code. Он оказался лучшим или разделил первое место во всех 52 проверенных случаях. На GPT-5.5 средняя точность выросла на 23.5 пункта в direct chat, на 24.8 в Codex и на 19.1 в Claude Code. arxiv.org/abs/2605.23904

Один человек в киберполе не воин... А когда на кону безопасность компании — тем более. Открытый диалог StopPhish 2026 собрал
+8
Один человек в киберполе не воин... А когда на кону безопасность компании — тем более. Открытый диалог StopPhish 2026 собрал экспертов по кибербезопасности. Площадкой встречи стал МосХаб.Сколково — традиционная точка сборки ИТ-сообщества. Вместе с теми, кто отвечает за устойчивость сотрудников к киберугрозам, говорили о главном: как превратить человеческий фактор в надёжный щит. Участники разобрали изменения в Приказе №117 — документе, который регламентирует требования к обучению персонала в области кибербезопасности, сравнили подходы в банках и госсекторе, поделились кейсами компаний, уже выстроивших осознанную культуру безопасности. Чтобы её развивать, нужен живой обмен опытом, честные разборы ошибок и сообщество, где CISO, HR-директора и руководители цифровой трансформации говорят на одном языке. Именно такую среду для эффективной коммуникации мы создаём в нашем деловом пространстве. Подписывайтесь: Telegram | МАКС | ВКонтакте

✔️ Step 3.7 Flash: новая ставка на агентную эффективность StepFun выпустили Step 3.7 Flash - открытую MoE-модель под Apache 2
✔️ Step 3.7 Flash: новая ставка на агентную эффективность StepFun выпустили Step 3.7 Flash - открытую MoE-модель под Apache 2.0, заточенную не просто под чат, а под агентные сценарии: кодинг, поиск, работу с инструментами, документами, интерфейсами и изображениями. По заявленным бенчмаркам модель выглядит серьёзно: - #1 на ClawEval-1.1 - 67.1 - #1 на SimpleVQA Search - 79.2 - #2 на SWE-PRO - 56.3 - 95.3 на V* Python Что внутри: - 198B параметров всего - около 11B активных параметров - до 400 токенов в секунду - контекст 256K - 3 уровня reasoning - открытые веса под Apache 2.0 Главный акцент - не «самая большая модель», а модель, которая быстро и стабильно работает внутри агента. Она должна понимать UI, графики, документы и изображения, после чего писать код, вызывать инструменты и продолжать задачу без постоянного развала tool calls. Отдельно заявлена совместимость с Claude Code, KiloCode, Hermes Agent, OpenClaw и протоколами вроде MCP. Локальный запуск тоже в фокусе: Mac Studio M4 Max, DGX Spark, AMD AI Max+ 395. GitHub: http://github.com/stepfun-ai/Step-3.7-Flash HuggingFace: http://huggingface.co/stepfun-ai/Step-3.7-Flash GGUF: http://huggingface.co/stepfun-ai/Step-3.7-Flash-GGUF ModelScope: http://modelscope.cn/models/stepfun-ai/Step-3.7-Flash API: http://platform.stepfun.ai Blog: http://static.stepfun.com/blog/step-3.7-flash/

Anthropic уже почти триллионная компания По данным из раунда, Anthropic привлекла $65 млрд и получила оценку $965 млрд post-m
Anthropic уже почти триллионная компания По данным из раунда, Anthropic привлекла $65 млрд и получила оценку $965 млрд post-money. Для сравнения: всего три месяца назад компания якобы поднимала $30 млрд при оценке $380 млрд. То есть за один квартал оценка выросла больше чем в 2.5 раза. Главный драйвер - Claude. Run-rate revenue, по этим данным, уже превысил $47 млрд. В раунде участвовали Altimeter Capital, Dragoneer, Greenoaks, Sequoia Capital, Capital Group, Coatue, D1 Capital Partners и другие крупные фонды. Отдельно интересно, что в сделку зашли Samsung, SK Hynix и Micron как стратегические инфраструктурные партнёры. Это важная деталь: гонка ИИ всё больше упирается не только в модели, но и в память, GPU, дата-центры и долгосрочные поставки железа. Часть раунда - $15 млрд - связана с прежними обязательствами гиперскейлеров, включая инвестиции Amazon на $5 млрд. На фоне этого OpenAI выглядит уже не единственным «монстром рынка»: в марте компания привлекала $122 млрд при оценке $852 млрд post-money. Сигнал простой: инвесторы больше не ставят только на одного победителя. Anthropic превращается во второго гиганта уровня OpenAI, а рынок фронтирных моделей окончательно становится игрой, где нужны не только лучшие нейросети, но и доступ к капиталу, чипам, облакам и инфраструктуре. https://x.com/Machinelearrn/status/2060085502234214902