uk
Feedback
Data Science | Machinelearning [ru]

Data Science | Machinelearning [ru]

Відкрити в Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Показати більше

📈 Аналітичний огляд Telegram-каналу Data Science | Machinelearning [ru]

Канал Data Science | Machinelearning [ru] (@devsp) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 20 058 підписників, посідаючи 6 732 місце в категорії Технології та додатки та 33 731 місце у регіоні Росія.

📊 Показники аудиторії та динаміка

З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 20 058 підписників.

За останніми даними від 12 червня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на -35, а за останні 24 години на -4, загальне охоплення залишається високим.

  • Статус верифікації: Не верифікований
  • Рівень залученості (ER): Середній показник залученості аудиторії становить 7.60%. Протягом перших 24 годин після публікації контент зазвичай збирає 4.48% реакцій від загальної кількості підписників.
  • Охоплення публікацій: В середньому кожен допис отримує 1 526 переглядів. Протягом першої доби публікація в середньому набирає 899 переглядів.
  • Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 7.
  • Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як llm, nvidia, контекст, openai, архитектура.

📝 Опис та контентна політика

Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Завдяки високій частоті оновлень (останні дані отримано 13 червня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.

20 058
Підписники
-424 години
+497 днів
-3530 день
Архів дописів
Бесплатный вебинар: LLM в реальных кейсах На бесплатном вебинаре от karpov.courses и AvitoTech "LLM и агентские системы: от х
Бесплатный вебинар: LLM в реальных кейсах На бесплатном вебинаре от karpov.courses и AvitoTech "LLM и агентские системы: от хайпа до рабочих практик" мы покажем, как компании масштабируют многоагентные сервисы, что решает Model Context Protocol и как обеспечить безопасность AI-сервисов. Вместо теории - реальные кейсы Авито, где LLM автоматизируют поддержку и интегрируются в бизнес-процессы. Спикер Ярослав Хрипков - Data Scientist в области LLM в Авито. Участников ждут подарки: карьерный гайд и во время эфира узнаете промокод, который дает скидку на программы karpov.courses. Также вы узнаете, как строить карьеру и развиваться в ML с помощью karpov.courses. Начинаем 16 сентября в 19-00, регистрация бесплатна. Зарегистрироваться #реклама 16+ karpov.courses О рекламодателе

Подборка каналов IT от наших друзей: 🦥 Lazy_Programmer – Для ленивых 🎬 videos_it  — База видеоуроков по IT 🐧 Linux_Club — Для Linuxоидов 📔 BOOKS — Читать не перечитать 🇷🇺 our_computer — У нас как в СССР 🔐 LazySecurity — Канал по ИБ 🤩 iwannabeprogrammer  — IT-мемы 🔥 floppydisky — ITUMOR 📱 codebase_frontend — Красим кнопки ➡️ LazyDevOps —  Канал для дев и псов 🐈‍⬛️ LazyTester — Протестируй канал!

Режим разработчика в ChatGPT: новые возможности для продвинутых пользователей 💃 Теперь у ChatGPT есть режим разработчика, ко
Режим разработчика в ChatGPT: новые возможности для продвинутых пользователей 💃 Теперь у ChatGPT есть режим разработчика, который открывает новые горизонты для пользователей подписки ChatGPT Plus и Pro. С его помощью можно подключать собственные MCP-коннекторы, а также интегрировать ИИ с внешними сервисами. Однако стоит отметить, что эта возможность доступна не всем сразу — OpenAI проводит поэтапную выкатку, и некоторым пользователям придется подождать.
Как активировать режим разработчика? — Перейдите в настройки — Выберите раздел коннекторы — Включите опцию дополнительные настройки и активируйте Режим разработчика Что дает Режим разработчика? • Включать Режим разработчика для отдельных чатов через иконку «+» • В меню «Добавить источники» указать адрес вашего MCP-сервера • Настроить дополнительные параметры для подключения и взаимодействия с внешними сервисами Что такое MCP? MCP (Model Context Protocol) — это протокол, который позволяет ИИ взаимодействовать с внешними системами. Например, можно подключить ChatGPT к корпоративным базам данных или интегрировать с системами тикетов вроде Jira, если настроены соответствующие разрешения. Ранее в ChatGPT поддерживались только MCP, одобренные OpenAI. С новым режимом разработчика пользователи и разработчики смогут подключать любые MCP — но при этом важно помнить о безопасности. Подключая сторонние сервисы, вы берете на себя ответственность за безопасность данных и интеграций.
Режим разработчика — это мощный инструмент, которым нужно интегрировать ИИ с различными системами и сервисами. Если вы работаете с данными или нуждаетесь в кастомных подключениях, этот режим откроет перед вами новые возможности 🐹 Data Science

Новый подход в обучении ИИ: Memento — агенты, которые учатся на опыте Учёные из Университетского колледжа Лондона (UCL) и лаб
Новый подход в обучении ИИ: Memento — агенты, которые учатся на опыте Учёные из Университетского колледжа Лондона (UCL) и лаборатории Huawei Noah’s Ark разработали революционный метод обучения ИИ-агентов. Вместо традиционного дообучения модели, они предлагают использовать систему памяти, которая автоматически обновляется по мере накопления опыта. Это позволяет агентам адаптироваться в реальном времени, решая сложные задачи без больших вычислительных затрат 🤨
Метод, получивший название Memento, использует Memory-augmented MDP — концепцию, где ИИ «вспоминает» решения из прошлого, чтобы справляться с новыми задачами. Такой подход избавляет от необходимости обновлять параметры модели, улучшая эффективность и масштабируемость. Как это работает? Memento состоит из трёх компонентов: • Планировщик, который анализирует задачу и обращается к памяти • Исполнитель, решающий подзадачи • Банк случаев, где сохраняются решения, пригодные для использования в будущем Этот метод не только решает текущие задачи, но и делает систему ИИ более гибкой и адаптивной к изменениям.
Для компаний Memento открывает путь к созданию универсальных ИИ-агентов, которые постоянно учатся и развиваются без необходимости дорогого дообучения, при этом оставаясь интегрируемыми с корпоративными системами. Как вы думаете, может ли такая система полностью заменить традиционные методы обучения ИИ в бизнесе? Data Science

AI R&D Day от Сбера На конференции эксперты исследовательских команд Сбера поделятся актуальными разработками в ML, LLM, TTS,
AI R&D Day от Сбера На конференции эксперты исследовательских команд Сбера поделятся актуальными разработками в ML, LLM, TTS, CV и других областях AI-разработки. Пообщайтесь с разработчиками Kandinsky, GigaCode и других AI-продуктов. 📍 Офлайн в Москве — с живыми дискуссиями и афтерпати 🌐 Онлайн на сайте конференции 📆 24 сентября, 11:00 (МСК, GMT+3) Главные темы — LLM: от обучения размышлять до создания copilot. — Бенчмарки для оценки способностей моделей к программированию. — Доведение AI-разработок до продакшена. — Мультимодальность и CV: генерация изображений, распознавание видео. — AI в нестандартных сферах от спорта до расшифровки манускриптов. — Синтез речи, генеративная музыка. Смотрите полную программу на сайте В программе также панельная дискуссия о нейросетях будущего с Сергеем Марковым — директором по развитию технологий искусственного интеллекта. Подробности и бесплатная регистрация — на сайте AI R&D Day. Реклама. ПАО Сбербанк. ИНН 7707083893

Repost from xCode Journal
🤩 Нашли визуализацию, в которой можно наглядно увидеть работу LLM Можно не просто почитать про слои моделей, а буквально пощупать их, покрутить со всех сторон, посмотреть как работают веса и матричные операции. На выбор есть внутрянка GPT-2, nanoGPT, GPT-2 XL и GPT-3. ✖️ xCode Journal

Будущее джунов в эпоху ИИ: угроза или шанс? В мире технологий часто возникает вопрос: могут ли ИИ и автоматизация полностью з
Будущее джунов в эпоху ИИ: угроза или шанс? В мире технологий часто возникает вопрос: могут ли ИИ и автоматизация полностью заменить начинающих разработчиков? В статье утверждают, что это невозможно и даже опасно. Именно джуны — будущие тимлиды и лидеры команд, и их роль в индустрии по-прежнему крайне важна. Однако чтобы оставаться востребованными, начинающим разработчикам предстоит освоить «новую версию» своей профессии и научиться эффективно работать с ИИ 😂
Сегодня мы видим, как сокращаются команды, увольняют сотрудников, и компании активно утверждают, что ИИ повысит продуктивность. Но кто будет управлять командами разработки в будущем, если исключить джунов из процесса обучения? Джуны играют ключевую роль в подготовке нового поколения инженеров, и без их участия в обучении мы рискуем потерять тех, кто впоследствии станет лидерами. Да, ИИ изменяет правила игры, но он не может заменить начальные позиции в команде, которые дают шанс развиваться и расти. Современные джуны должны научиться работать с ИИ, адаптируя его возможности под реальные задачи, а не полагаться на него как на замену человеческого труда. Для этого джунам стоит не только овладеть новыми техническими навыками, но и развивать коммуникацию и способность работать с различными стейкхолдерами. Самый важный навык на пути к успеху — это способность к обучению и адаптации в условиях изменений, а ИИ может стать отличным помощником на этом пути, если научиться правильно его использовать. Инструменты ИИ, такие как агентные IDE и автодополнение, помогают ускорить рутинные задачи, но ключевым остаётся умение понимать, где ИИ работает лучше, а где нужен человеческий подход. Джунам нужно освоить этот баланс, чтобы не только эффективно работать с ИИ, но и стать полноценными участниками команды, готовыми к лидерству в будущем.
В будущем роль джуна не исчезнет, но изменится. Те, кто не боится принятия новых технологий и адаптации, смогут пройти этот путь и стать лидерами, которые не просто пишут код, но и ведут команды, разрабатывают стратегии и принимают важные решения. Что думаете? 🔥— Нет, это лишь инструмент 👎— Да, ИИ возьмёт на себя всё Data Science

big tech night — это «ночь музеев» в мире IT, где Яндекс, Сбер, X5, Т-Банк и Lamoda впервые приглашают за кулисы. Формат, придуманный в Яндексе, для тех, кто уже в IT или только стремится туда попасть. Здесь можно увидеть, как создаются технологии, меняющие окружающую среду, познакомиться с коллегами, обменяться опытом, задать неудобные вопросы и почувствовать себя частью комьюнити. Вас ждут доклады, иммерсивные экскурсии и атмосфера IT-андеграунда. А если вы не в Москве, подключайтесь к онлайн-студии с двумя потоками — от серьезных дискуссий для гиков до лампового ночного шоу с историями из жизни. Когда: 12 сентября. Где: Москва или онлайн. Регистрация - здесь.

OpenAI ускоряет «сжигание» денег: прогноз расходов вырос до $115 млрд Reuters сообщает, что OpenAI пересмотрела свои финансов
OpenAI ускоряет «сжигание» денег: прогноз расходов вырос до $115 млрд Reuters сообщает, что OpenAI пересмотрела свои финансовые ожидания. До конца 2029 года компания потратит около $115 млрд — это на $80 млрд больше, чем прогнозировалось всего полгода назад.
Где горят деньги? По новым расчетам, в 2025 году расходы превысят $8 млрд, а уже к 2028-му достигнут $45 млрд. Для сравнения: в старом прогнозе на этот год фигурировала сумма всего $11 млрд. Львиная доля пойдет на обучение моделей ($9 млрд в 2025-м и $19 млрд в 2026-м), а также на компенсации сотрудникам акциями — их объем в прогнозе вырос на $20 млрд. А как с доходами? Только ChatGPT в 2025-м должен принести почти $10 млрд — на $2 млрд выше прежних ожиданий. К 2030-му выручка чатбота оценивается уже в $90 млрд. Общая выручка компании к концу десятилетия должна достичь $200 млрд. Главная ставка — монетизация бесплатной аудитории через подписки и рекламу: ожидается около $110 млрд допдохода за 2026–2030 годы. При этом OpenAI планирует увеличить средний доход на пользователя с $2 до $15 и довести число еженедельных активных пользователей до 2 млрд.
Чем больше OpenAI тратит, тем выше поднимает планку выручки. Но первые реальные прибыли компания ожидает только ближе к 2029–2030 годам 💻 Data Science

Статья от инженера Google «Agentic Design Patterns» В статье одна из самых амбициозных работ в области проектирования интелле
Статья от инженера Google «Agentic Design Patterns» В статье одна из самых амбициозных работ в области проектирования интеллектуальных систем. Эта книга предоставляет исчерпывающее руководство по разработке систем, которые могут мыслить, принимать решения и взаимодействовать с внешней средой, основываясь на уникальных «агентных» паттернах 😐
В первой части книги внимание уделяется ключевым аспектам работы с агентами, таким как цепочка команд, маршрутизация и параллелизация — все это с реальными примерами кода. Важно подчеркнуть, что каждый из разделов направлен на то, чтобы разработчики могли не только понять теорию, но и интегрировать эти методы в свои проекты. Вторая часть книги посвящена памяти и адаптивности, а также ключевым протоколам взаимодействия между агентами. В процессе изучения материалов разработчики смогут научиться строить модели, которые способны не только решать поставленные задачи, но и улучшать свою работу на основе предыдущего опыта. Также стоит отметить, что книга включает в себя полезные приложения: от углубленных техник подсказок до подробного описания внутреннего устройства агентов, что позволит читателям получить полное представление о создании эффективных и безопасных интеллектуальных систем.
Что вы думаете о применении таких систем в реальных проектах? 👍 — Могут изменить подход к разработке 👎 — Технология ещё не готова Data Science

⚙️ Open Datasets and Tools: An overview for Hugging Face В статье собраны недавние релизы крупных ML-датасетов разных типов: структурированные таблицы, временные ряды, аудио и геоданные. Среди них Yambda-5B от Яндекса, крупнейший музыкальный рекомендательный датасет с 4,79 млрд взаимодействий (прослушивания, лайки, дизлайки). В мировом ML-сообществе уже отметили его пользу для науки и индустрии. Эксперты считают, что такие датасеты значительно ускорят развитие рекомендательных систем. Читать…

ИИ против лишних зависимостей Раньше у разработчиков был один рефлекс: нужна функция — ищем библиотеку. Хоть простую валидаци
ИИ против лишних зависимостей Раньше у разработчиков был один рефлекс: нужна функция — ищем библиотеку. Хоть простую валидацию, хоть мини-парсер. Вместе с решением приходили десятки транзитивных зависимостей, багфиксы и неожиданные апдейты.
Теперь с появлением рабочих моделей кода всё проще. Мы описываем задачу на человеческом языке, добавляем тесты — и получаем небольшой модуль без лишнего «жира». Такой кусочек кода легко читать, менять и проверять. Где ИИ уже заменяет OSS — Индикаторы и статистика: EMA, RSI, Z-score, корреляции окон — Узкие клиенты для работы с API биржи — Скелеты бэктестов или пайплайнов — Адаптеры и конвертеры форматов Где границы? ИИ отлично справляется с утилитарными задачами. Но криптография, протоколы с жёсткими SLA, движки БД и численные солверы остаются в зоне зрелого OSS — там нужна предсказуемость и годами проверенные решения.
ИИ не «убивает» open source, а просто сдвигает баланс. Узкие задачи проще генерировать под себя, а всё сложное и критичное — оставлять за проверенными библиотеками. Чем меньше зависимостей — тем ниже риски и проще поддержка 🍑 Сейчас все уже массово доверяют свой код ии. Норма или ещё рано? Data Science

Как собрать резюме-матчер за вечер на TypeScript и tRPC На Хабре вышла статья о том, как можно быстро собрать MVP-сервис для
Как собрать резюме-матчер за вечер на TypeScript и tRPC На Хабре вышла статья о том, как можно быстро собрать MVP-сервис для сравнения резюме и вакансий. Автор решил задачу на стыке NLP и ИИ: из PDF резюме и описания вакансии извлекаются ключевые навыки, а затем модель Gemini от Vertex AI выдаёт оценку совпадения.
Почему tRPC: вместо REST или GraphQL используется TypeScript-first RPC-фреймворк. Он позволяет описывать API без схем, прямо функциями, а типы автоматически «протягиваются» на фронтенд. Итог — меньше бойлерплейта и меньше багов на ранних этапах. — Как работает пайплайн: резюме и вакансия загружаются в сервис, оттуда извлекается текст, ключевые слова выделяются с помощью простых NLP-приёмов (токенизация, поиск существительных и заглавных слов), а дальше результат прогоняется через Gemini, который возвращает JSON с оценкой совпадения, сильными сторонами и рекомендациями. Идея проста: зачем писать свой алгоритм сопоставления навыков, если можно отдать работу модели? Такой подход ускоряет прототипирование и отлично подходит для внутренних инструментов или быстрых демо.
В итоге получился рабочий инструмент, который не претендует на замену LinkedIn, но отлично показывает, как современные фреймворки и ИИ можно объединять в боевую связку 🍆 Data Science

Бесплатный вебинар: Старт в профессии «Аналитик данных» Многие думают, что чтобы перейти в IT, надо всё начинать с нуля. На д
Бесплатный вебинар: Старт в профессии «Аналитик данных» Многие думают, что чтобы перейти в IT, надо всё начинать с нуля. На деле - всё, что вы уже умеете, может стать вашей опорой в новой профессии. Особенно если вы пойдёте в аналитику данных. 10 сентября в 19-00 приходите на бесплатный вебинар от karpov.courses "Аналитик данных: всё, что нужно знать для старта в профессии". Вы разберётесь: - Зачем бизнесу аналитики и почему им хорошо платят - Какие инструменты и навыки нужны, чтобы войти в профессию в 2025 году - Как устроена реальная работа аналитика - не в теории, а на практике (включая A/B - тесты) Спикер - Анастасия Зеленова, тимлид аналитиков в Raiffeisen CIB. Участникам - карьерный гайд по Data Science и промокод на скидку 15% на курс "Аналитик данных с нуля". Регистрируйтесь! Зарегистрироваться #реклама 16+ karpov.courses О рекламодателе

ИИ против 15-летнего цикла: новые лекарства быстрее и дешевле Reuters опубликовал статью о том, что комбинация искусственного
ИИ против 15-летнего цикла: новые лекарства быстрее и дешевле Reuters опубликовал статью о том, что комбинация искусственного интеллекта и новых методов оценки безопасности (NAM) способна сократить сроки и стоимость разработки лекарств более чем вдвое уже в ближайшие 3–5 лет. Сейчас путь от идеи до таблетки занимает до 15 лет и обходится фарме примерно в $2 млрд.
Как это работает? ИИ быстро перебирает миллионы молекул, отбраковывает заведомо слабые варианты и подсказывает, какие стоит тестировать дальше. В ход идут базы знаний, данные экспериментов и измерений. Параллельно NAM заменяют часть классических испытаний: «органы-на-чипе», культуры клеток, цифровые модели. Результаты ближе к реальности, а количество опытов на животных уменьшается. Пример: компания Recursion вывела молекулу REC-1245 на клинические испытания всего за 18 месяцев вместо привычных 42. Предполагается, что препарат будет тормозить рост некоторых раковых опухолей. Что это значит? ИИ не отменяет долгих клинических фаз — пока на рынке нет ни одного реально одобренного «ИИ-препарата». Но сам процесс становится быстрее, прозрачнее и дешевле. Если прогнозы сбудутся, фармацевтика в ближайшие годы войдёт в новую эпоху.
А вы как думаете? 👍 — ИИ реально ускорит появление новых лекарств 👎 — В итоге всё упрётся в бюрократию и испытания Data Science

ИИ научится думать быстрее: что такое DeepConf Meta* AI и исследователи из Университета Калифорнии показали технологию DeepCo
ИИ научится думать быстрее: что такое DeepConf Meta* AI и исследователи из Университета Калифорнии показали технологию DeepConf (Deep Think with Confidence) — новый метод, который помогает языковым моделям решать сложные задачи логики и математики быстрее и точнее.
Как работает DeepConf? Вместо того чтобы одинаково рассматривать все возможные варианты решения (включая ошибочные), DeepConf анализирует уровень «уверенности» самой модели. Если вероятность правильного ответа падает ниже порога — такой путь просто отсекается. В итоге остаются только сильные кандидаты, среди которых проходит «взвешенное голосование». Экономия ресурсов и рост точности. DeepConf умеет работать в двух режимах: offline (после генерации) и online (на лету). Второй вариант особенно полезен — слабые цепочки обрубаются ещё до конца рассуждений. Это не только ускоряет процесс, но и экономит вычислительные мощности. В тестах метод показал впечатляющий результат: 99,9% точности на AIME 2025 при сокращении числа токенов почти на 85%.
Почему это важно? С ростом числа больших моделей нагрузка на инфраструктуру становится критичной. DeepConf показывает, что можно не просто обучать ИИ на всё больших объёмах данных, а учить его мыслить рациональнее, сокращая лишние шаги и снижая цену вычислений 🍑 *Meta признана экстремистской организацией и запрещена на территории РФ Data Science

Легаси без боли: как ИИ помогает разгрести завалы в коде Фред Брукс ещё в 80-х сформулировал идею: главная сложность разработ
Легаси без боли: как ИИ помогает разгрести завалы в коде Фред Брукс ещё в 80-х сформулировал идею: главная сложность разработки — не сам код, а взаимосвязи компонентов. Код можно дописать, а вот восстановить архитектурные идеи старой системы — куда труднее. Именно поэтому модернизация легаси-софта часто превращается в квест.
Где ИИ реально помогает. Современные LLM могут быть не просто «генераторами кода», а инструментами для восстановления концепций, которые когда-то закладывали архитекторы. Это снимает боль с ключевых этапов: • Трассировка кода — автоматический обход AST и выделение связей, которые определяют функциональность • Сбор контекста БД — привязка SQL-запросов к конкретным модулям кода • Визуализации (PlantUML) — превращение кода в диаграммы, понятные не только инженерам • Автоматизация BRD — модели составляют бизнес-требования на основе исходного кода и базы Возьмём e-commerce: розница работает, потом добавили опт, но всё осталось на старой архитектуре. В итоге новая логика строится поверх старых правил. Это и есть концептуальный дрейф. LLM помогают не только его обнаружить, но и предложить варианты архитектурных решений, уменьшая риски при переписывании.
ИИ пока не заменяет экспертов, но делает процесс модернизации быстрее, прозрачнее и предсказуемее. Вместо бесконечного копания в коде инженеры получают структурированный контекст и готовые подсказки 😮‍💨 А как вы считаете: 👍 — ИИ уже стал must-have в модернизации 👎 — Без людей ничего не выйдет 🤔 — Зависит от сложности проекта Data Science

Работа с большими CSV без боли на Python 🔨 Когда нужно обработать гигабайтные CSV-файлы, Pandas начинает «захлёбываться». Ре
Работа с большими CSV без боли на Python 🔨 Когда нужно обработать гигабайтные CSV-файлы, Pandas начинает «захлёбываться». Решение простое — использовать dask.
import dask.dataframe as dd

# Загружаем огромный CSV как будто это Pandas
df = dd.read_csv("data.csv")

# Считаем топ-10 самых популярных значений в колонке
top10 = df["category"].value_counts().compute()
print(top10)
🤔 Разбираемся:
• dask под капотом разбивает файл на маленькие части • Вы работаете с DataFrame так же, как в Pandas • compute() запускает реальный расчёт, но только когда нужно
Можно анализировать файлы в десятки гигабайт на обычном ноутбуке, без кластеров и суперкомпов. Data Science

Онлайн-программа Data Engineer. Старт 29 сентября Приглашаем дата-специалистов прокачать скиллы в использовании инструментов
Онлайн-программа Data Engineer. Старт 29 сентября Приглашаем дата-специалистов прокачать скиллы в использовании инструментов и технологий дата-инжиниринга на реальных задачах. 10 недель полного погружения, облачный кластер, реальные данные и помощь координаторов. По промокоду NPL2025 можно получить скидку 15% Узнать больше #реклама 16+ newprolab.com О рекламодателе

Обзор UDTF в PySpark: зачем нужны табличные функции PySpark 3.5 привнёс интересную новинку — UDTF (User-Defined Table Functio
Обзор UDTF в PySpark: зачем нужны табличные функции PySpark 3.5 привнёс интересную новинку — UDTF (User-Defined Table Function). Если UDF возвращает одно значение, а UDAF агрегирует сразу несколько строк, то UDTF работает прямо в секции FROM и может вернуть целую таблицу строк для одного входного значения. Это открывает сценарии, которые раньше приходилось изобретать через обходные пути.
Что умеет UDTF? У вас есть текстовое поле, и вы хотите превратить каждое слово в отдельную строку. С UDF так не получится, он вернёт только одно значение. А UDTF легко «разворачивает» данные: одна входная строка превращается в десятки выходных. Таким образом можно: • Разбивать текст на слова, списки на элементы • Рраспаковывать коллекции или делать cartesian-развёртки • Получать более гибкие трансформации без громоздкого кода Как это выглядит? UDTF оформляется как Python-класс с методом eval, где можно yield-ить столько строк, сколько нужно. Например, разбиение строки на слова превращается в лаконичный цикл for word in text.split(): yield (word,). Результат в Spark будет выглядеть как таблица, где каждое слово — отдельная строка. Другой пример — генерация чисел и их квадратов. Обычный цикл for num in range(start, end): yield (num, num*num) вернёт сразу множество строк. Всё прозрачно: одна запись на входе — много записей на выходе. Зачем это в продакшене? Главное преимущество UDTF — гибкость. В задачах анализа данных часто нужно «развернуть» структуру: например, массив тегов превратить в таблицу или подсчитать все комбинации значений. Раньше такие приёмы были неудобными, теперь они встроены в PySpark.
UDTF — это 20% кода и 80% удобства. Теперь можно писать генераторы как в Python и получать готовые таблицы в Spark 💳 Data Science