en
Feedback
Data Science | Machinelearning [ru]

Data Science | Machinelearning [ru]

Open in Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Show more

📈 Analytical overview of Telegram channel Data Science | Machinelearning [ru]

Channel Data Science | Machinelearning [ru] (@devsp) in the Russian language segment is an active participant. Currently, the community unites 20 069 subscribers, ranking 6 732 in the Technologies & Applications category and 33 731 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 20 069 subscribers.

According to the latest data from 12 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -35 over the last 30 days and by -4 over the last 24 hours, overall reach remains high.

  • Verification status: Not verified
  • Engagement rate (ER): The average audience engagement rate is 7.60%. Within the first 24 hours after publication, content typically collects 4.48% reactions from the total number of subscribers.
  • Post reach: On average, each post receives 1 526 views. Within the first day, a publication typically gains 899 views.
  • Reactions and interaction: The audience actively supports content: the average number of reactions per post is 7.
  • Thematic interests: Content is focused on key topics such as llm, nvidia, контекст, openai, архитектура.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Thanks to the high frequency of updates (latest data received on 13 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

20 069
Subscribers
-424 hours
+497 days
-3530 days
Posts Archive
Бесплатный вебинар: LLM в реальных кейсах На бесплатном вебинаре от karpov.courses и AvitoTech "LLM и агентские системы: от х
Бесплатный вебинар: LLM в реальных кейсах На бесплатном вебинаре от karpov.courses и AvitoTech "LLM и агентские системы: от хайпа до рабочих практик" мы покажем, как компании масштабируют многоагентные сервисы, что решает Model Context Protocol и как обеспечить безопасность AI-сервисов. Вместо теории - реальные кейсы Авито, где LLM автоматизируют поддержку и интегрируются в бизнес-процессы. Спикер Ярослав Хрипков - Data Scientist в области LLM в Авито. Участников ждут подарки: карьерный гайд и во время эфира узнаете промокод, который дает скидку на программы karpov.courses. Также вы узнаете, как строить карьеру и развиваться в ML с помощью karpov.courses. Начинаем 16 сентября в 19-00, регистрация бесплатна. Зарегистрироваться #реклама 16+ karpov.courses О рекламодателе

Подборка каналов IT от наших друзей: 🦥 Lazy_Programmer – Для ленивых 🎬 videos_it  — База видеоуроков по IT 🐧 Linux_Club — Для Linuxоидов 📔 BOOKS — Читать не перечитать 🇷🇺 our_computer — У нас как в СССР 🔐 LazySecurity — Канал по ИБ 🤩 iwannabeprogrammer  — IT-мемы 🔥 floppydisky — ITUMOR 📱 codebase_frontend — Красим кнопки ➡️ LazyDevOps —  Канал для дев и псов 🐈‍⬛️ LazyTester — Протестируй канал!

Режим разработчика в ChatGPT: новые возможности для продвинутых пользователей 💃 Теперь у ChatGPT есть режим разработчика, ко
Режим разработчика в ChatGPT: новые возможности для продвинутых пользователей 💃 Теперь у ChatGPT есть режим разработчика, который открывает новые горизонты для пользователей подписки ChatGPT Plus и Pro. С его помощью можно подключать собственные MCP-коннекторы, а также интегрировать ИИ с внешними сервисами. Однако стоит отметить, что эта возможность доступна не всем сразу — OpenAI проводит поэтапную выкатку, и некоторым пользователям придется подождать.
Как активировать режим разработчика? — Перейдите в настройки — Выберите раздел коннекторы — Включите опцию дополнительные настройки и активируйте Режим разработчика Что дает Режим разработчика? • Включать Режим разработчика для отдельных чатов через иконку «+» • В меню «Добавить источники» указать адрес вашего MCP-сервера • Настроить дополнительные параметры для подключения и взаимодействия с внешними сервисами Что такое MCP? MCP (Model Context Protocol) — это протокол, который позволяет ИИ взаимодействовать с внешними системами. Например, можно подключить ChatGPT к корпоративным базам данных или интегрировать с системами тикетов вроде Jira, если настроены соответствующие разрешения. Ранее в ChatGPT поддерживались только MCP, одобренные OpenAI. С новым режимом разработчика пользователи и разработчики смогут подключать любые MCP — но при этом важно помнить о безопасности. Подключая сторонние сервисы, вы берете на себя ответственность за безопасность данных и интеграций.
Режим разработчика — это мощный инструмент, которым нужно интегрировать ИИ с различными системами и сервисами. Если вы работаете с данными или нуждаетесь в кастомных подключениях, этот режим откроет перед вами новые возможности 🐹 Data Science

Новый подход в обучении ИИ: Memento — агенты, которые учатся на опыте Учёные из Университетского колледжа Лондона (UCL) и лаб
Новый подход в обучении ИИ: Memento — агенты, которые учатся на опыте Учёные из Университетского колледжа Лондона (UCL) и лаборатории Huawei Noah’s Ark разработали революционный метод обучения ИИ-агентов. Вместо традиционного дообучения модели, они предлагают использовать систему памяти, которая автоматически обновляется по мере накопления опыта. Это позволяет агентам адаптироваться в реальном времени, решая сложные задачи без больших вычислительных затрат 🤨
Метод, получивший название Memento, использует Memory-augmented MDP — концепцию, где ИИ «вспоминает» решения из прошлого, чтобы справляться с новыми задачами. Такой подход избавляет от необходимости обновлять параметры модели, улучшая эффективность и масштабируемость. Как это работает? Memento состоит из трёх компонентов: • Планировщик, который анализирует задачу и обращается к памяти • Исполнитель, решающий подзадачи • Банк случаев, где сохраняются решения, пригодные для использования в будущем Этот метод не только решает текущие задачи, но и делает систему ИИ более гибкой и адаптивной к изменениям.
Для компаний Memento открывает путь к созданию универсальных ИИ-агентов, которые постоянно учатся и развиваются без необходимости дорогого дообучения, при этом оставаясь интегрируемыми с корпоративными системами. Как вы думаете, может ли такая система полностью заменить традиционные методы обучения ИИ в бизнесе? Data Science

AI R&D Day от Сбера На конференции эксперты исследовательских команд Сбера поделятся актуальными разработками в ML, LLM, TTS,
AI R&D Day от Сбера На конференции эксперты исследовательских команд Сбера поделятся актуальными разработками в ML, LLM, TTS, CV и других областях AI-разработки. Пообщайтесь с разработчиками Kandinsky, GigaCode и других AI-продуктов. 📍 Офлайн в Москве — с живыми дискуссиями и афтерпати 🌐 Онлайн на сайте конференции 📆 24 сентября, 11:00 (МСК, GMT+3) Главные темы — LLM: от обучения размышлять до создания copilot. — Бенчмарки для оценки способностей моделей к программированию. — Доведение AI-разработок до продакшена. — Мультимодальность и CV: генерация изображений, распознавание видео. — AI в нестандартных сферах от спорта до расшифровки манускриптов. — Синтез речи, генеративная музыка. Смотрите полную программу на сайте В программе также панельная дискуссия о нейросетях будущего с Сергеем Марковым — директором по развитию технологий искусственного интеллекта. Подробности и бесплатная регистрация — на сайте AI R&D Day. Реклама. ПАО Сбербанк. ИНН 7707083893

Repost from xCode Journal
🤩 Нашли визуализацию, в которой можно наглядно увидеть работу LLM Можно не просто почитать про слои моделей, а буквально пощупать их, покрутить со всех сторон, посмотреть как работают веса и матричные операции. На выбор есть внутрянка GPT-2, nanoGPT, GPT-2 XL и GPT-3. ✖️ xCode Journal

Будущее джунов в эпоху ИИ: угроза или шанс? В мире технологий часто возникает вопрос: могут ли ИИ и автоматизация полностью з
Будущее джунов в эпоху ИИ: угроза или шанс? В мире технологий часто возникает вопрос: могут ли ИИ и автоматизация полностью заменить начинающих разработчиков? В статье утверждают, что это невозможно и даже опасно. Именно джуны — будущие тимлиды и лидеры команд, и их роль в индустрии по-прежнему крайне важна. Однако чтобы оставаться востребованными, начинающим разработчикам предстоит освоить «новую версию» своей профессии и научиться эффективно работать с ИИ 😂
Сегодня мы видим, как сокращаются команды, увольняют сотрудников, и компании активно утверждают, что ИИ повысит продуктивность. Но кто будет управлять командами разработки в будущем, если исключить джунов из процесса обучения? Джуны играют ключевую роль в подготовке нового поколения инженеров, и без их участия в обучении мы рискуем потерять тех, кто впоследствии станет лидерами. Да, ИИ изменяет правила игры, но он не может заменить начальные позиции в команде, которые дают шанс развиваться и расти. Современные джуны должны научиться работать с ИИ, адаптируя его возможности под реальные задачи, а не полагаться на него как на замену человеческого труда. Для этого джунам стоит не только овладеть новыми техническими навыками, но и развивать коммуникацию и способность работать с различными стейкхолдерами. Самый важный навык на пути к успеху — это способность к обучению и адаптации в условиях изменений, а ИИ может стать отличным помощником на этом пути, если научиться правильно его использовать. Инструменты ИИ, такие как агентные IDE и автодополнение, помогают ускорить рутинные задачи, но ключевым остаётся умение понимать, где ИИ работает лучше, а где нужен человеческий подход. Джунам нужно освоить этот баланс, чтобы не только эффективно работать с ИИ, но и стать полноценными участниками команды, готовыми к лидерству в будущем.
В будущем роль джуна не исчезнет, но изменится. Те, кто не боится принятия новых технологий и адаптации, смогут пройти этот путь и стать лидерами, которые не просто пишут код, но и ведут команды, разрабатывают стратегии и принимают важные решения. Что думаете? 🔥— Нет, это лишь инструмент 👎— Да, ИИ возьмёт на себя всё Data Science

big tech night — это «ночь музеев» в мире IT, где Яндекс, Сбер, X5, Т-Банк и Lamoda впервые приглашают за кулисы. Формат, придуманный в Яндексе, для тех, кто уже в IT или только стремится туда попасть. Здесь можно увидеть, как создаются технологии, меняющие окружающую среду, познакомиться с коллегами, обменяться опытом, задать неудобные вопросы и почувствовать себя частью комьюнити. Вас ждут доклады, иммерсивные экскурсии и атмосфера IT-андеграунда. А если вы не в Москве, подключайтесь к онлайн-студии с двумя потоками — от серьезных дискуссий для гиков до лампового ночного шоу с историями из жизни. Когда: 12 сентября. Где: Москва или онлайн. Регистрация - здесь.

OpenAI ускоряет «сжигание» денег: прогноз расходов вырос до $115 млрд Reuters сообщает, что OpenAI пересмотрела свои финансов
OpenAI ускоряет «сжигание» денег: прогноз расходов вырос до $115 млрд Reuters сообщает, что OpenAI пересмотрела свои финансовые ожидания. До конца 2029 года компания потратит около $115 млрд — это на $80 млрд больше, чем прогнозировалось всего полгода назад.
Где горят деньги? По новым расчетам, в 2025 году расходы превысят $8 млрд, а уже к 2028-му достигнут $45 млрд. Для сравнения: в старом прогнозе на этот год фигурировала сумма всего $11 млрд. Львиная доля пойдет на обучение моделей ($9 млрд в 2025-м и $19 млрд в 2026-м), а также на компенсации сотрудникам акциями — их объем в прогнозе вырос на $20 млрд. А как с доходами? Только ChatGPT в 2025-м должен принести почти $10 млрд — на $2 млрд выше прежних ожиданий. К 2030-му выручка чатбота оценивается уже в $90 млрд. Общая выручка компании к концу десятилетия должна достичь $200 млрд. Главная ставка — монетизация бесплатной аудитории через подписки и рекламу: ожидается около $110 млрд допдохода за 2026–2030 годы. При этом OpenAI планирует увеличить средний доход на пользователя с $2 до $15 и довести число еженедельных активных пользователей до 2 млрд.
Чем больше OpenAI тратит, тем выше поднимает планку выручки. Но первые реальные прибыли компания ожидает только ближе к 2029–2030 годам 💻 Data Science

Статья от инженера Google «Agentic Design Patterns» В статье одна из самых амбициозных работ в области проектирования интелле
Статья от инженера Google «Agentic Design Patterns» В статье одна из самых амбициозных работ в области проектирования интеллектуальных систем. Эта книга предоставляет исчерпывающее руководство по разработке систем, которые могут мыслить, принимать решения и взаимодействовать с внешней средой, основываясь на уникальных «агентных» паттернах 😐
В первой части книги внимание уделяется ключевым аспектам работы с агентами, таким как цепочка команд, маршрутизация и параллелизация — все это с реальными примерами кода. Важно подчеркнуть, что каждый из разделов направлен на то, чтобы разработчики могли не только понять теорию, но и интегрировать эти методы в свои проекты. Вторая часть книги посвящена памяти и адаптивности, а также ключевым протоколам взаимодействия между агентами. В процессе изучения материалов разработчики смогут научиться строить модели, которые способны не только решать поставленные задачи, но и улучшать свою работу на основе предыдущего опыта. Также стоит отметить, что книга включает в себя полезные приложения: от углубленных техник подсказок до подробного описания внутреннего устройства агентов, что позволит читателям получить полное представление о создании эффективных и безопасных интеллектуальных систем.
Что вы думаете о применении таких систем в реальных проектах? 👍 — Могут изменить подход к разработке 👎 — Технология ещё не готова Data Science

⚙️ Open Datasets and Tools: An overview for Hugging Face В статье собраны недавние релизы крупных ML-датасетов разных типов: структурированные таблицы, временные ряды, аудио и геоданные. Среди них Yambda-5B от Яндекса, крупнейший музыкальный рекомендательный датасет с 4,79 млрд взаимодействий (прослушивания, лайки, дизлайки). В мировом ML-сообществе уже отметили его пользу для науки и индустрии. Эксперты считают, что такие датасеты значительно ускорят развитие рекомендательных систем. Читать…

ИИ против лишних зависимостей Раньше у разработчиков был один рефлекс: нужна функция — ищем библиотеку. Хоть простую валидаци
ИИ против лишних зависимостей Раньше у разработчиков был один рефлекс: нужна функция — ищем библиотеку. Хоть простую валидацию, хоть мини-парсер. Вместе с решением приходили десятки транзитивных зависимостей, багфиксы и неожиданные апдейты.
Теперь с появлением рабочих моделей кода всё проще. Мы описываем задачу на человеческом языке, добавляем тесты — и получаем небольшой модуль без лишнего «жира». Такой кусочек кода легко читать, менять и проверять. Где ИИ уже заменяет OSS — Индикаторы и статистика: EMA, RSI, Z-score, корреляции окон — Узкие клиенты для работы с API биржи — Скелеты бэктестов или пайплайнов — Адаптеры и конвертеры форматов Где границы? ИИ отлично справляется с утилитарными задачами. Но криптография, протоколы с жёсткими SLA, движки БД и численные солверы остаются в зоне зрелого OSS — там нужна предсказуемость и годами проверенные решения.
ИИ не «убивает» open source, а просто сдвигает баланс. Узкие задачи проще генерировать под себя, а всё сложное и критичное — оставлять за проверенными библиотеками. Чем меньше зависимостей — тем ниже риски и проще поддержка 🍑 Сейчас все уже массово доверяют свой код ии. Норма или ещё рано? Data Science

Как собрать резюме-матчер за вечер на TypeScript и tRPC На Хабре вышла статья о том, как можно быстро собрать MVP-сервис для
Как собрать резюме-матчер за вечер на TypeScript и tRPC На Хабре вышла статья о том, как можно быстро собрать MVP-сервис для сравнения резюме и вакансий. Автор решил задачу на стыке NLP и ИИ: из PDF резюме и описания вакансии извлекаются ключевые навыки, а затем модель Gemini от Vertex AI выдаёт оценку совпадения.
Почему tRPC: вместо REST или GraphQL используется TypeScript-first RPC-фреймворк. Он позволяет описывать API без схем, прямо функциями, а типы автоматически «протягиваются» на фронтенд. Итог — меньше бойлерплейта и меньше багов на ранних этапах. — Как работает пайплайн: резюме и вакансия загружаются в сервис, оттуда извлекается текст, ключевые слова выделяются с помощью простых NLP-приёмов (токенизация, поиск существительных и заглавных слов), а дальше результат прогоняется через Gemini, который возвращает JSON с оценкой совпадения, сильными сторонами и рекомендациями. Идея проста: зачем писать свой алгоритм сопоставления навыков, если можно отдать работу модели? Такой подход ускоряет прототипирование и отлично подходит для внутренних инструментов или быстрых демо.
В итоге получился рабочий инструмент, который не претендует на замену LinkedIn, но отлично показывает, как современные фреймворки и ИИ можно объединять в боевую связку 🍆 Data Science

Бесплатный вебинар: Старт в профессии «Аналитик данных» Многие думают, что чтобы перейти в IT, надо всё начинать с нуля. На д
Бесплатный вебинар: Старт в профессии «Аналитик данных» Многие думают, что чтобы перейти в IT, надо всё начинать с нуля. На деле - всё, что вы уже умеете, может стать вашей опорой в новой профессии. Особенно если вы пойдёте в аналитику данных. 10 сентября в 19-00 приходите на бесплатный вебинар от karpov.courses "Аналитик данных: всё, что нужно знать для старта в профессии". Вы разберётесь: - Зачем бизнесу аналитики и почему им хорошо платят - Какие инструменты и навыки нужны, чтобы войти в профессию в 2025 году - Как устроена реальная работа аналитика - не в теории, а на практике (включая A/B - тесты) Спикер - Анастасия Зеленова, тимлид аналитиков в Raiffeisen CIB. Участникам - карьерный гайд по Data Science и промокод на скидку 15% на курс "Аналитик данных с нуля". Регистрируйтесь! Зарегистрироваться #реклама 16+ karpov.courses О рекламодателе

ИИ против 15-летнего цикла: новые лекарства быстрее и дешевле Reuters опубликовал статью о том, что комбинация искусственного
ИИ против 15-летнего цикла: новые лекарства быстрее и дешевле Reuters опубликовал статью о том, что комбинация искусственного интеллекта и новых методов оценки безопасности (NAM) способна сократить сроки и стоимость разработки лекарств более чем вдвое уже в ближайшие 3–5 лет. Сейчас путь от идеи до таблетки занимает до 15 лет и обходится фарме примерно в $2 млрд.
Как это работает? ИИ быстро перебирает миллионы молекул, отбраковывает заведомо слабые варианты и подсказывает, какие стоит тестировать дальше. В ход идут базы знаний, данные экспериментов и измерений. Параллельно NAM заменяют часть классических испытаний: «органы-на-чипе», культуры клеток, цифровые модели. Результаты ближе к реальности, а количество опытов на животных уменьшается. Пример: компания Recursion вывела молекулу REC-1245 на клинические испытания всего за 18 месяцев вместо привычных 42. Предполагается, что препарат будет тормозить рост некоторых раковых опухолей. Что это значит? ИИ не отменяет долгих клинических фаз — пока на рынке нет ни одного реально одобренного «ИИ-препарата». Но сам процесс становится быстрее, прозрачнее и дешевле. Если прогнозы сбудутся, фармацевтика в ближайшие годы войдёт в новую эпоху.
А вы как думаете? 👍 — ИИ реально ускорит появление новых лекарств 👎 — В итоге всё упрётся в бюрократию и испытания Data Science

ИИ научится думать быстрее: что такое DeepConf Meta* AI и исследователи из Университета Калифорнии показали технологию DeepCo
ИИ научится думать быстрее: что такое DeepConf Meta* AI и исследователи из Университета Калифорнии показали технологию DeepConf (Deep Think with Confidence) — новый метод, который помогает языковым моделям решать сложные задачи логики и математики быстрее и точнее.
Как работает DeepConf? Вместо того чтобы одинаково рассматривать все возможные варианты решения (включая ошибочные), DeepConf анализирует уровень «уверенности» самой модели. Если вероятность правильного ответа падает ниже порога — такой путь просто отсекается. В итоге остаются только сильные кандидаты, среди которых проходит «взвешенное голосование». Экономия ресурсов и рост точности. DeepConf умеет работать в двух режимах: offline (после генерации) и online (на лету). Второй вариант особенно полезен — слабые цепочки обрубаются ещё до конца рассуждений. Это не только ускоряет процесс, но и экономит вычислительные мощности. В тестах метод показал впечатляющий результат: 99,9% точности на AIME 2025 при сокращении числа токенов почти на 85%.
Почему это важно? С ростом числа больших моделей нагрузка на инфраструктуру становится критичной. DeepConf показывает, что можно не просто обучать ИИ на всё больших объёмах данных, а учить его мыслить рациональнее, сокращая лишние шаги и снижая цену вычислений 🍑 *Meta признана экстремистской организацией и запрещена на территории РФ Data Science

Легаси без боли: как ИИ помогает разгрести завалы в коде Фред Брукс ещё в 80-х сформулировал идею: главная сложность разработ
Легаси без боли: как ИИ помогает разгрести завалы в коде Фред Брукс ещё в 80-х сформулировал идею: главная сложность разработки — не сам код, а взаимосвязи компонентов. Код можно дописать, а вот восстановить архитектурные идеи старой системы — куда труднее. Именно поэтому модернизация легаси-софта часто превращается в квест.
Где ИИ реально помогает. Современные LLM могут быть не просто «генераторами кода», а инструментами для восстановления концепций, которые когда-то закладывали архитекторы. Это снимает боль с ключевых этапов: • Трассировка кода — автоматический обход AST и выделение связей, которые определяют функциональность • Сбор контекста БД — привязка SQL-запросов к конкретным модулям кода • Визуализации (PlantUML) — превращение кода в диаграммы, понятные не только инженерам • Автоматизация BRD — модели составляют бизнес-требования на основе исходного кода и базы Возьмём e-commerce: розница работает, потом добавили опт, но всё осталось на старой архитектуре. В итоге новая логика строится поверх старых правил. Это и есть концептуальный дрейф. LLM помогают не только его обнаружить, но и предложить варианты архитектурных решений, уменьшая риски при переписывании.
ИИ пока не заменяет экспертов, но делает процесс модернизации быстрее, прозрачнее и предсказуемее. Вместо бесконечного копания в коде инженеры получают структурированный контекст и готовые подсказки 😮‍💨 А как вы считаете: 👍 — ИИ уже стал must-have в модернизации 👎 — Без людей ничего не выйдет 🤔 — Зависит от сложности проекта Data Science

Работа с большими CSV без боли на Python 🔨 Когда нужно обработать гигабайтные CSV-файлы, Pandas начинает «захлёбываться». Ре
Работа с большими CSV без боли на Python 🔨 Когда нужно обработать гигабайтные CSV-файлы, Pandas начинает «захлёбываться». Решение простое — использовать dask.
import dask.dataframe as dd

# Загружаем огромный CSV как будто это Pandas
df = dd.read_csv("data.csv")

# Считаем топ-10 самых популярных значений в колонке
top10 = df["category"].value_counts().compute()
print(top10)
🤔 Разбираемся:
• dask под капотом разбивает файл на маленькие части • Вы работаете с DataFrame так же, как в Pandas • compute() запускает реальный расчёт, но только когда нужно
Можно анализировать файлы в десятки гигабайт на обычном ноутбуке, без кластеров и суперкомпов. Data Science

Онлайн-программа Data Engineer. Старт 29 сентября Приглашаем дата-специалистов прокачать скиллы в использовании инструментов
Онлайн-программа Data Engineer. Старт 29 сентября Приглашаем дата-специалистов прокачать скиллы в использовании инструментов и технологий дата-инжиниринга на реальных задачах. 10 недель полного погружения, облачный кластер, реальные данные и помощь координаторов. По промокоду NPL2025 можно получить скидку 15% Узнать больше #реклама 16+ newprolab.com О рекламодателе

Обзор UDTF в PySpark: зачем нужны табличные функции PySpark 3.5 привнёс интересную новинку — UDTF (User-Defined Table Functio
Обзор UDTF в PySpark: зачем нужны табличные функции PySpark 3.5 привнёс интересную новинку — UDTF (User-Defined Table Function). Если UDF возвращает одно значение, а UDAF агрегирует сразу несколько строк, то UDTF работает прямо в секции FROM и может вернуть целую таблицу строк для одного входного значения. Это открывает сценарии, которые раньше приходилось изобретать через обходные пути.
Что умеет UDTF? У вас есть текстовое поле, и вы хотите превратить каждое слово в отдельную строку. С UDF так не получится, он вернёт только одно значение. А UDTF легко «разворачивает» данные: одна входная строка превращается в десятки выходных. Таким образом можно: • Разбивать текст на слова, списки на элементы • Рраспаковывать коллекции или делать cartesian-развёртки • Получать более гибкие трансформации без громоздкого кода Как это выглядит? UDTF оформляется как Python-класс с методом eval, где можно yield-ить столько строк, сколько нужно. Например, разбиение строки на слова превращается в лаконичный цикл for word in text.split(): yield (word,). Результат в Spark будет выглядеть как таблица, где каждое слово — отдельная строка. Другой пример — генерация чисел и их квадратов. Обычный цикл for num in range(start, end): yield (num, num*num) вернёт сразу множество строк. Всё прозрачно: одна запись на входе — много записей на выходе. Зачем это в продакшене? Главное преимущество UDTF — гибкость. В задачах анализа данных часто нужно «развернуть» структуру: например, массив тегов превратить в таблицу или подсчитать все комбинации значений. Раньше такие приёмы были неудобными, теперь они встроены в PySpark.
UDTF — это 20% кода и 80% удобства. Теперь можно писать генераторы как в Python и получать готовые таблицы в Spark 💳 Data Science

Data Science | Machinelearning [ru] - Statistics & analytics of Telegram channel @devsp