Анализ данных (Data analysis)

Open in Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Network:Machinelearning Russia12 543 Technologies & Applications2 664...

📈 Analytical overview of Telegram channel Анализ данных (Data analysis)

Channel Анализ данных (Data analysis) (@data_analysis_ml) in the Russian language segment is an active participant. Currently, the community unites 50 208 subscribers, ranking 2 664 in the Technologies & Applications category and 12 543 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 50 208 subscribers.

According to the latest data from 16 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by 14 over the last 30 days and by 19 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 8.92%. Within the first 24 hours after publication, content typically collects 6.20% reactions from the total number of subscribers.
Post reach: On average, each post receives 4 479 views. Within the first day, a publication typically gains 3 114 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 32.
Thematic interests: Content is focused on key topics such as llm, контекст, openai, архитектура, deepseek.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Thanks to the high frequency of updates (latest data received on 17 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

50 208

Subscribers

+1924 hours

+37 days

+1430 days

4 479

Post views

~ 3 11424 hours

~ 4 23148 hours

8.92%

Engagement rate

~ 5

Posts per day

Ads index

beta

Posts Archive

50 208

🧩 Задача для продвинутых дата-сайентистов: "Парадокс усечённых данных" 📖 Описание задачи У вас есть DataFrame df с данными о зарплатах сотрудников в компании:


import pandas as pd

data = {
    'employee_id': range(1, 11),
    'department': ['IT', 'IT', 'IT', 'HR', 'HR', 'Finance', 'Finance', 'Finance', 'Finance', 'Finance'],
    'salary': [120000, 125000, None, 70000, None, 90000, None, 95000, None, 100000]
}

df = pd.DataFrame(data)
print(df)

Результат:


   employee_id department    salary
0            1         IT  120000.0
1            2         IT  125000.0
2            3         IT       NaN
3            4         HR   70000.0
4            5         HR       NaN
5            6    Finance   90000.0
6            7    Finance       NaN
7            8    Finance   95000.0
8            9    Finance       NaN
9           10    Finance  100000.0

👉 В задаче требуется: > **Заполнить пропущенные зарплаты медианой по департаменту. > Затем найти департамент с наибольшим средним уровнем зарплаты.** Вы пишете такой код:


df['salary_filled'] = df.groupby('department')['salary'].transform(lambda x: x.fillna(x.median()))
top_department = df.groupby('department')['salary_filled'].mean().idxmax()
print(top_department)

❗️ Результат: "Finance" Но через неделю выясняется, что HR утверждает: > “Наш средний уровень зарплаты выше, чем в Finance!” 📝 Ваша задача: 1. Объяснить почему результат показывает Finance, хотя HR утверждает обратное? 2. Где ошибка в логике? 3. Как правильно посчитать среднюю зарплату, учитывая реальную ситуацию? --- 🎯 Подвох (ключевой момент): Медиана по HR = 70000 (только одно известное значение). Пропущенная зарплата в HR тоже заполняется 70000, т.е. обе записи будут 70000. В Finance медиана = 95000 (из трёх известных: 90000, 95000, 100000). Две пропущенные зарплаты в Finance тоже заполняются 95000. ✅ Но на самом деле в HR могли быть более высокие зарплаты, а мы по сути искусственно “усекли” распределение зарплат, заменив пропуски фиксированной медианой. 👉 Такая замена снижает дисперсию и искажает среднее, особенно если выборка мала. --- 💡 Правильный подход: 1. Вместо заполнения медианой, использовать **множественную имputation** (например, через `sklearn.impute.IterativeImputer`). 2. Либо **не заполнять NaN при вычислении среднего**, а использовать `mean(skipna=True)`, чтобы не “усекать” данные. 3. Либо **показать доверительный интервал** для среднего по каждой группе. Пример альтернативного подхода: ```python top_department = df.groupby('department')['salary'].mean().idxmax() print(top_department) ``` ✅ Таким образом NaN просто не участвуют в расчёте среднего, и мы не искажаем данные искусственным заполнением. --- 🔥 Усложнение (ещё один подвох): А что если пропуски не случайны? Например, все высокие зарплаты в HR отсутствуют, потому что сотрудники не раскрыли данные? → Тогда импутация медианой дополнительно “занижает” зарплаты HR, и классическая mean() даёт biased estimate. В таком случае нужна модель пропусков (MAR, MCAR, MNAR) и специфические методы восстановления. --- 📝 Что проверяет задача: ✅ Понимание влияния методов заполнения пропусков ✅ Знание статистических эффектов усечения данных ✅ Умение интерпретировать результат с учётом bias ✅ Навык выбирать подходящий метод обработки пропусков в зависимости от их природы

50 208

✔ PySpur PySpur — это полезны и легкий инструмент для создания и управления рабочими процессами, с минимальным количеством зависимостей. Он позволяет легко добавлять новые узлы через файл на Python и использует формат JSON для настройки графов. Инструмент поддерживает асинхронное выполнение задач, работу с несколькими модальностями данных и оптимизацию конвейеров. Кроме того, он предоставляет возможность генерации узлов с использованием технологий искусственного интеллекта. ▪Github

50 208

🔥CocoIndex — это современный ETL-фреймворк с открытым исходным кодом, предназначенный для подготовки данных к использованию в системах искусственного интеллекта. Он поддерживает пользовательскую логику трансформации и инкрементальные обновления, что делает его особенно полезным для задач индексации данных. 🔧 Основные возможности - Инкрементальная обработка данных: CocoIndex отслеживает изменения в исходных данных и логике трансформации, обновляя только изменённые части индекса, что снижает вычислительные затраты. - Поддержка пользовательской логики: Фреймворк позволяет интегрировать собственные функции обработки данных, обеспечивая гибкость при построении пайплайнов. - Модульная архитектура: Встроенные компоненты для чтения данных (локальные файлы, Google Drive), обработки (разбиение на чанки, генерация эмбеддингов) и сохранения результатов (PostgreSQL с pgvector, Qdrant). - Поддержка различных форматов данных: Поддержка текстовых документов, кода, PDF и структурированных данных, что делает CocoIndex универсальным инструментом. 🚀 Примеры использования - Семантический поиск: Индексация текстовых документов и кода с эмбеддингами для семантического поиска. - Извлечение знаний: Построение графов знаний из структурированных данных, извлечённых из документов. - Интеграция с LLM: Извлечение структурированной информации из неструктурированных данных с помощью больших языковых моделей. ⚙️ Быстрый старт 1. Установите библиотеку CocoIndex:


   pip install -U cocoindex

https://github.com/cocoindex-io/cocoindex 2. Настройте базу данных PostgreSQL с расширением pgvector. 3. Создайте файл quickstart.py и настройте пайплайн обработки данных. 4. Запустите пайплайн для обработки и индексации данных. 🟢 Github @data_analysis_ml

50 208

1️⃣2️⃣3️⃣4️⃣5️⃣6️⃣7️⃣8️⃣9️⃣🔟 Как меняется ИТ-индустрия с внедрением AI? Узнай 6 июня на ИТ-конференции МТС True Tech Day True Tech Day 2025 — третья масштабная технологическая конференция МТС для профессионалов ИТ‑индустрии. В программе: — Больше 40 докладов от известных ученых и ИТ-компаний. — Выступления зарубежных спикеров с индексом Хирша более 50. — Концентрация практических кейсов: как создаются большие проекты с применением AI. — Доклады по архитектуре, бэкенд-разработке и построению ИТ-платформ. — AI-интерактивы и технологические квесты. — Пространство для нетворкинга, …а еще after-party со звездным лайн-апом. Когда: 6 июня Где: Москва, МТС Live Холл и онлайн Участие бесплатно. Регистрация по ссылке.

50 208

🧩 The Ultimate LLM Benchmark Collection Подборка живых бенчмарков, которые стоит открывать при каждом релизе новой модели — и тех, на которые можно больше не тратить время. 🌐 Общие (multi‑skill) лидерборды SimpleBench — https://simple-bench.com/index.html SOLO‑Bench — https://github.com/jd-3d/SOLOBench AidanBench — https://aidanbench.com SEAL by Scale (MultiChallenge) — https://scale.com/leaderboard LMArena (Style Control) — https://beta.lmarena.ai/leaderboard LiveBench — https://livebench.ai ARC‑AGI — https://arcprize.org/leaderboard Thematic Generalization (Lech Mazur) — https://github.com/lechmazur/generalization дополнительные бенчмарки Lech Mazur: Elimination Game — https://github.com/lechmazur/elimination_game Confabulations — https://github.com/lechmazur/confabulations EQBench (Longform Writing) — https://eqbench.com Fiction‑Live Bench — https://fiction.live/stories/Fiction-liveBench-Mar-25-2025/oQdzQvKHw8JyXbN87 MC‑Bench (сортировать по win‑rate) — https://mcbench.ai/leaderboard TrackingAI – IQ Bench — https://trackingai.org/home Dubesor LLM Board — https://dubesor.de/benchtable.html Balrog‑AI — https://balrogai.com Misguided Attention — https://github.com/cpldcpu/MisguidedAttention Snake‑Bench — https://snakebench.com SmolAgents LLM (из‑за GAIA & SimpleQA) — https://huggingface.co/spaces/smolagents/smolagents-leaderboard Context‑Arena (MRCR, Graphwalks) — https://contextarena.ai OpenCompass — https://rank.opencompass.org.cn/home HHEM (Hallucination) — https://huggingface.co/spaces/vectara/leaderboard 🛠️ Coding / Math / Agentic Aider‑Polyglot‑Coding — https://aider.chat/docs/leaderboards/ BigCodeBench — https://bigcode-bench.github.io WebDev‑Arena — https://web.lmarena.ai/leaderboard WeirdML — https://htihle.github.io/weirdml.html Symflower Coding Eval v1.0 — https://symflower.com/en/company/blog/2025/dev-quality-eval-v1.0-anthropic-s-claude-3.7-sonnet-is-the-king-with-help-and-deepseek-r1-disappoints/ PHYBench — https://phybench-official.github.io/phybench-demo/ MathArena — https://matharena.ai Galileo Agent Leaderboard — https://huggingface.co/spaces/galileo-ai/agent-leaderboard XLANG Agent Arena — https://arena.xlang.ai/leaderboard 🚀 Для отслеживания AI take‑off METR Long‑Task Benchmarks (вкл. RE Bench) — https://metr.org PaperBench — https://openai.com/index/paperbench/ SWE‑Lancer — https://openai.com/index/swe-lancer/ MLE‑Bench — https://github.com/openai/mle-bench SWE‑Bench — https://swebench.com 🏆 Обязательный «классический» набор GPQA‑Diamond — https://github.com/idavidrein/gpqa SimpleQA — https://openai.com/index/introducing-simpleqa/ Tau‑Bench — https://github.com/sierra-research/tau-bench SciCode — https://github.com/scicode-bench/SciCode MMMU — https://mmmu-benchmark.github.io/#leaderboard Humanities Last Exam (HLE) — https://github.com/centerforaisafety/hle 🔍 Классические бенчмарков Simple‑Evals — https://github.com/openai/simple-evals Vellum AI Leaderboard — https://vellum.ai/llm-leaderboard Artificial Analysis — https://artificialanalysis.ai ⚠️ «Перегретые» метрики, на которые можно не смотреть MMLU, HumanEval, BBH, DROP, MGSM Большинство чисто‑математических датасетов: GSM8K, MATH, AIME, ... Модели близки к верхним значениям на них и в них нет особого смысла.

50 208

📈 За последние 28 дней сайт ChatGPT посетили больше людей, чем X (Твиттер). - ChatGPT посетили 4,786 млрд раз - X имел 4,028 млрд посещений

50 208

Repost from Machinelearning

🌟 Atropos: тренажерный зал для RL языковых моделей. Atropos от NousResearch - это гибкий фреймворк для асинхронного управления RL-средами. Его архитектура построена так, чтобы максимизировать эффективность даже в распределенных системах, будь то локальный кластер или облако. Atropos поддерживает децентрализацию. Он позволяет запускать несколько экземпляров сред (от статических датасетов, интерактивных игр, RLAIF и RLHF до обучения сложным многоэтапным взаимодействиям), которые асинхронно передают данные в центральный узел. Это избавляет от простоя ресурсов, когда обновления политики модели тормозят из-за ожидания результатов всех окружений. Под капотом — интеграция с любыми API (OpenAI, vLLM, SGLang), позволяя свободу выбора LLM-провайдера без переписывания кода. Практическая польза протестирована в экспериментах: 🟢В задачах параллельного вызова функций точность тестовой модели DeepHermes Tool Calling Specialist выросла в 4,6 раза — с 10% до 46%. 🟢В прогнозировании финансовых показателей на модели DeepHermes Financial Fundamentals Prediction Specialist, RL через Atropos удвоил точность (с 20% до 50%). Такие результаты достигнуты благодаря многозадачности: фреймворк одновременно управляет разными типами сред, объединяя их в единый тренировочный поток. Вы можете обучать модель на статических данных утром и переключаться на интерактивные игры вечером, не меняя инфраструктуру. Для разработчиков Atropos предлагает готовые инструменты: от датасетов для тонкой настройки (SFT, DPO) до дебаггеров и визуализации. Atropos не привязывает вас к конкретному алгоритму RL или инфраструктуре. Запустите 10 экземпляров на ноутбуке или 10 000 через Slurm — фреймворк равномерно распределит нагрузку. Это особенно ценно для исследований: можно быстро экспериментировать с разными подходами, не тратя недели на настройку пайплайнов. В репозитории есть все, что нужно: коллекция готовых к использованию сред RL, библиотека с базовыми классами и утилитами и примеры конфигураций обучения. Если хотите понять, как ускорить свои эксперименты с LLM - загляните в документацию проекта, возможно, это именно тот инструмент, который избавит вас от боли асинхронной координации. 📌Лицензирование: MIT License. 🟡Статья 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #RL #Framework #NousResearch #Atropos

50 208

❓Как найти аномалии в данных с помощью машинного обучения? В мире данных выявление аномалий — ключевая задача, которая помогает находить неисправности, мошенничество и отклонения. Без правильных методов вы рискуете упустить важные факты, которые могут повлиять на результаты. На открытом вебинаре 13 мая в 18:00 мск мы подробно разберем, как эффективно искать аномалии в данных с использованием популярных методов, от простых статистических до продвинутых, таких как Isolation Forest и OneClassSVM. 📣 Спикер Мария Тихонова – PhD Computer Science, Senior Data Scientist и преподаватель в одном из крупнейших университетов России. ➡️ Запишитесь на вебинар и получите скидку на большое обучение «Специализация Machine Learning»: https://otus.pw/RBJq/?erid=2W5zFFwo5AQ #реклама О рекламодателе

50 208

🔥 Огромная статья, которая посвящена оптимизации вывода (инференса) больших языковых моделей (LLM) с использованием одного графического процессора! 🌟 Автор делится опытом создания собственного движка для LLM на основе C++ и CUDA, фокусируясь на максимизации пропускной способности. Рассматриваются ключевые этапы, такие как загрузка модели, выполнение прямого прохода, использование кеша KV и многозадачность на CPU. Также подчеркивается важность пропускной способности памяти и квантования модели (например, FP16) для эффективного вывода. В статье приводятся бенчмарки и сравнение с другими фреймворками, такими как llama.cpp и Hugging Face, чтобы установить реалистичные цели по производительности. 🔗 Ссылка: *клик* #machinelearning @data_analysis_ml

50 208

🖥 PyXL — первый в мире специализированный процессор для нативного запуска Python Что это? PyXL исполняет байт-код CPython прямо на чипе — без JIT, интерпретатора и виртуальных машин. Ваши .py файлы компилируются в байт-код, затем транслируются в набор инструкций PySM, которые обрабатываются процессором. Ключевые особенности: ⚡ Скорость: в тестах обработки GPIO PyXL в 30× быстрее MicroPython на Pyboard (480 нс vs 14 741 нс при 100 MHz vs 168 MHz). 🔧 Прототип на FPGA: реализован на Verilog и тестируется на платах Zynq-7000. 🚀 Без прослоек: доступ к GPIO — напрямую, без Си-функций и внешних вызовов. 🏗️ Архитектура: конвейерная обработка, стековая модель, динамическая типизация без ограничений на типы переменных. 🛠️ Инструменты: транслятор на Python под неизм. CPython, готов к встраиваемым системам и реальному времени. Что дальше? 📅 Полные технические детали будут представлены 17 мая на PyCon 2025. Рассматривается открытие кода и выпуск ASIC-чипа. Автор проекта — Рон Ливне (Ron Livne), эксперт по аппаратному ускорению и оптимизации. #Python #PyXL #Embedded #FPGA #PyCon2025 #HardwareАкселерация https://runpyxl.com/gpio

50 208

🤖 Deep Live Cam: тулза для создания дипфейков в реальном времени без искажений и с идеальной подгонкой под свет и движение головы. Можно даже спокойно трясти головой и лицо останется без искажений. 🔜 Код

50 208

🚀 DeepWiki-Open: автоматическая генерация вики-документации с ИИ Это open-source инструмент для автоматического создания интерактивной вики-документации на основе исходного кода репозитория. Идеально подходит для разработчиков и команд, которые хотят быстро структурировать знания о проекте. ## 🔍 Что умеет DeepWiki - Анализирует код и его архитектуру - Генерирует документацию по компонентам и их связям - Создает визуальные диаграммы (например, с помощью Mermaid) - Структурирует всё в вики с удобной навигацией ✨ Особенности ✅ Мгновенная генерация вики ✅ Поддержка приватных репозиториев ✅ Интеллектуальный анализ кода с помощью OpenAI и Google Gemini ✅ Автоматические архитектурные диаграммы ✅ Удобный интерфейс 🛠️ Стек технологий - Backend: Python (FastAPI) - Frontend: Next.js + React - Визуализация: Mermaid - Контейнеризация: Docker, docker-compose 🚀 Быстрый старт


git clone https://github.com/AsyncFuncAI/deepwiki-open.git
cd deepwiki-open
echo "GOOGLE_API_KEY=ваш_google_api_key" > .env
echo "OPENAI_API_KEY=ваш_openai_api_key" >> .env
docker-compose up

▪ GitHub

50 208

🖥 Google встраивает рекламу в ответы чат-ботов Google теперь размещает рекламу непосредственно в разговорах чат-ботов на базе ИИ, расширяя свою сеть AdSense для поиска. Этот шаг позволяет бесшовно интегрировать рекламу в диалоги, управляемые ИИ. Мы все знали, что этот день настанет. Это был всего лишь вопрос времени.

50 208

Repost from Machinelearning

✔️ Gemini планирует интеграцию с GitHub. Gemini для GitHub упростит работу с чужим кодом. Интеграция позволяет прикрепить репозиторий к запросу и получить от ИИ помощь: разобраться в структуре проекта, объяснить функции, предложить оптимизацию или найти баги. Пока функционал ограничен: нельзя просматривать историю коммитов, пул-реквесты или вносить изменения напрямую в репозиторий. Загрузить можно только один проект (до 5000 файлов и 100 МБ), а для приватных репозиториев потребуется привязать GitHub-аккаунт к Google. Импорт доступен через веб-версию Gemini, но начатый диалог можно продолжить в мобильном приложении. Интеграция появится в настройках Gemini в ближайшее время. 9to5google.com ✔️ Релиз моделей серии Phi-4 с ризонингом. Microsoft выпустила Phi-4-reasoning, Phi-4-reasoning-plus и Phi-4-mini-reasoning с 14 миллиардов параметров у первых двух и 3.6 млрд. у mini. Phi-4-reasoning-plus обошёл 671-миллиардную DeepSeek-R1 в тестах AIME 2025, а mini-reasoning была создана для работы на смартфонах или IoT-устройствах: она решает задачи от школьного уровня до научных расчетов, не нагружая систему. Детали создания доступны в техническом отчете, а сами модели - на Azure или HuggingFace. azure.microsoft.com ✔️ Anthropic добавила интеграцию приложений и улучшила исследовательские возможности Claude . Anthropic представила 2 ключевых обновления для своего Claude: интеграцию сторонних сервисов и расширенный инструмент для глубокого анализа. Новая функция "Integrations" позволяет подключать Claude к бизнес-приложениям вроде Confluence, Zapier или PayPal через серверы на базе протокола MCP. Это даст ИИ доступ к данным проектов, автоматизирует задачи и улучшает контекстную работу. Параллельно запущен Advanced Research: теперь Claude может анализировать сотни источников (включая корпоративные данные и локальные диски) за несколько минут, формируя детальные отчеты со ссылками на источники. Обновление использует «рассуждающие» модели ИИ. Функции доступны в бета-версии для подписчиков Claude Max, Team и Enterprise, а также скоро появятся в плане Pro. Anthropic также увеличила лимиты для кодинг-инструмента Claude Code. anthropic.com ✔️ Google тестирует рекламу в диалогах с AI-чатами через AdSense. Google начал внедрять рекламу в чаты пользователей с некоторыми сторонними ИИ-ассистентами через сеть AdSense. Функция, запущенная в этом году, уже тестировалась с стартапами Ask и Liner. Представитель компании подтвердил: «AdSense для Поиска доступен сайтам, которые хотят показывать релевантную рекламу в своих AI-диалогах». Этот шаг выглядит попыткой монетизировать растущую популярность ИИ-чатов вроде ChatGPT или Claude, которые постепенно заменяют традиционный поиск. Ранее компания уже добавляла рекламу в ИИ-сниппеты поиска. Однако интеграция с внешними сервисами — новый этап. bloomberg.com ✔️ Умные очки Ray-Ban будут собирать пользовательские данные для обучения ИИ. Facebook-research внесли ключевые изменения в правила конфиденциальности своих умных очков Ray-Ban. С 29 апреля владельцы устройств больше не могут отключать сохранение голосовых записей в облаке — удалить их можно только вручную через настройки. По словам компании, аудио и транскрипты хранятся до года для улучшения продуктов, а случайные активации удаляются через 90 дней. Фото и видео с камеры очков по-прежнему остаются в галерее смартфона и не используются для обучения ИИ, если не загружены в облачные сервисы компании или сторонние приложения. Однако голосовой помощник теперь всегда активен, пока пользователь не отключит его вручную. Это решение направлено на сбор данных для тренировки алгоритмов. theverge.com @ai_machinelearning_big_data #news #ai #ml

50 208

🚨 Microsoft представила Phi-4 Reasoning — ризониг модель на 14B параметров для сложных задач! 📐 Phi-4 Reasoning — это версия Phi-4, дообученная для математики, науки и программирования. Несмотря на относительно компактный размер (14B параметров), она конкурирует с более крупными моделями, вроде DeepSeek-R1 и OpenAI o3-mini, на бенчмарках вроде AIME 2025 и OmniMath. 🔍 Ключевые моменты: • 14B параметров • версия Phi-4-Reasoning-Plus дообучена с Reinforcement Learning • превосходит DeepSeek-R1-Distill-Llama-70B • почти догоняет оригинальную DeepSeek-R1 (70B) по качеству https://huggingface.co/collections/unsloth/phi-4-all-versions-677eecf93784e61afe762afa @data_analysis_ml

50 208

🚀 17 000 промптов в одной базе — собрано всё, что нужно для работы с ИИ! Разработчики собрали огромное хранилище запросов для всех топовых нейросетей: от Midjourney и ChatGPT до Runway и DALL·E. ✅ Что внутри: • Все промпты удобно отсортированы по категориям, задачам, стилям и инструментам — не заблудитесь. • К каждому запросу прикладываются примеры использования. • Сервис помогает адаптировать ваши собственные промпты под конкретные задачи. • Можно публиковать свои промпты и делиться ими с другими. • Есть быстрое расширение для Chrome. • И всё это бесплатно. https://promptport.ai/

50 208

Microsoft: до 30 % кода уже пишет AI На конференции LlamaCon CEO Microsoft Сатья Наделла объявил, что от 20 % до 30 % кода в репозиториях компании сегодня «написаны программным обеспечением», то есть с использованием искусственного интеллекта. ## Ключевые моменты - Зависимость от языка. Лучшие результаты при генерации — на Python, более слабые — на C++. - Интеграция на всех этапах. AI применяется не только для генерации чернового кода, но и для его ревью. - Сравнение с конкурентами. Google уже сообщает о более 30 % AI-сгенерированного кода, Meta прогнозирует до 50 % при разработке своих языковых моделей. - Долгосрочная перспектива. По прогнозам CTO Microsoft, к 2030 г. доля AI-генерируемого кода может вырасти до 95 %. - Ограничения метрик. Пока не до конца ясно, что именно учитывается в «AI-коде» (автодополнение, шаблоны, бизнес-логика), поэтому цифры стоит воспринимать с осторожностью. ## Почему это важно 1. Ускорение разработки. Рутинные задачи автоматизируются, разработчики получают больше времени на архитектуру. 2. Новый уровень качества. Автоматическое ревью помогает быстрее находить ошибки, но требует строгой проверки. 3. Риски безопасности. Сгенерированный код нуждается в дополнительном анализе на уязвимости. 4. Эволюция ролей. Разработчики всё больше становятся архитекторами и аудиторами, а не «создателями» кода.

50 208

Welcome Time для аналитиков: дружелюбная встреча с командой Поиска с Нейро в штаб-квартире Яндекса Расскажем в чем специфика аналитики в продукте, проведем диагностику навыков и ответим на все ваши вопросы. Где и когда: 17 мая в 12:00, штаб-квартира Яндекса «Красная Роза» (Льва Толстого, 16) Что в программе: -Как устроена аналитика Поиска -В чём специфика аналитики доли и дистрибуции -Как работает продуктовая аналитика YandexGPT -Всё об аналитике срезов в Поиске -Диагностика навыков и нетворкинг Да, один из главных пойнтов встречи — диагностика навыков аналитики и математической статистики. Если пройдёте успешно — в течение двух лет сможем засчитать как техническую секцию собеседования в Яндекс. Поиск с Нейро — первый и самый широко используемый сервис Яндекса. Наши аналитики развивают сложный и высоконагруженный сервис, который постоянно обновляется и нуждается в свежих идеях! Возможно, в ваших. ➡️ Регистрируйтесь на Welcome Time для аналитиков здесь

50 208

У DeepSeek на подходе новая версия (671B math/prover model), но это не R2 https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B @data_analysis_ml

50 208

🖥 GPT-4 больше не будет доступен с завтрашнего дня. Прощай, легенда.