Data Analysis / Big Data

前往频道在 Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

显示更多

网络:Типичный программист 俄罗斯176 842 技术与应用26 716

2 747

订阅者

-424 小时

-27 天

+1230 天

662

帖子浏览量

无数据24 小时

无数据48 小时

24.10%

参与率

无数据

每日帖子数

Ads index

beta

帖子存档

2 746

В поисках потерянных данных: переход со StreamSets на Data Boring Наш заказчик столкнулся с реальной проблемой, когда из-за использования устаревшего ETL-инструмента StreamSets оказался в ситуации, в которой его система начала давать сбои, а это напрямую влияло на финансовые результаты. Мы решили помочь, организовав миграцию на более современное решение — Luxms Data Boring. В этой статье мы, Николай Павлов и Наталья Глодя, делимся опытом нашей команды в поисках потерянных данных и рассказываем о том, как важно не дожидаться критических ситуаций, а заранее обновлять свои инструменты. Узнайте, как мы смогли не только решить проблему заказчика, но и обеспечить надежность и эффективность бизнес-процессов с помощью отечественного ПО, подходящего под условия импортозамещения. Читать: https://habr.com/ru/companies/luxms_bi/articles/862364/ #ru @big_data_analysis | Другие наши каналы

2 746

Инфраструктура для Data-Engineer форматы файлов В современной дата-инженерии работа с данными неразрывно связана с различными форматами файлов. Каждый формат имеет свои особенности, преимущества и области применения. В этой статье мы рассмотрим наиболее популярные форматы, научимся с ними работать и поймем, когда какой формат лучше использовать. Читать: https://habr.com/ru/articles/859968/ #ru @big_data_analysis | Другие наши каналы

2 746

Михаил Водолагин, ex-CDO Deeplay: «Люди умудряются выстрелить себе в ногу очень по-разному!» Что, на ваш взгляд, самое странное может сделать кандидат на собеседовании? Вы когда-нибудь задавали себе вопрос, в чём главное отличие дата инженера от "обычного" аналитика? Знаете, в чём основная разница между опытным сотрудником и тимлидом?Слышали истории о том, как можно с нуля вырастить и поддерживать на плаву полноценный департамент работы с данными? На эти и многие другие вопросы я разговаривал с Михаилом Водолагиным. Он очень долго руководил командами дата саентистов и аналитиков, строил команды с нуля, внедрял аналитические системы. CDO (chief data oficer) для него - уже пройденный этап. Кроме того, Миша обладает уникальной эмпатией, которая позволяет ему видеть проблемы с разных сторон. Читать: https://habr.com/ru/articles/860322/ #ru @big_data_analysis | Другие наши каналы

2 746

Модели BERT для машинного обучения: гайд для начинающих BERT (Bidirectional Encoder Representations from Transformers) — это одна из ключевых моделей обработки естественного языка (NLP), построенная на архитектуре трансформера. Читать: https://habr.com/ru/companies/skillfactory/articles/862130/ #ru @big_data_analysis | Другие наши каналы

2 746

От слов к делу: Практические кейсы применения NLP в Ингосстрахе Для полноценной работы страховой компании нужен большой штат сотрудников, которые общаются при помощи великого и могучего русского языка. А значит есть поле для автоматизации процессов работы средствами NLP. Именно про это данная статья. Мы рассмотрим варианты решения типовых задач в страховании и не только. Читать: https://habr.com/ru/companies/ingos_it/articles/862030/ #ru @big_data_analysis | Другие наши каналы

2 746

Генерация данных с помощью Python: зачем это нужно и как применять Генерация данных с помощью Python. Зачем это нужно и как применять. Рассматриваем основные библиотеки и примеры ✔ Tproger Читать: «Генерация данных с помощью Python: зачем это нужно и как применять» #ru @big_data_analysis | Другие наши каналы

2 746

Безопасность Oracle Analytics Server: Руководство по Zero Trust Пост: Откройте для себя, как усилить защиту Oracle Analytics Server с помощью Zero Trust Packet Routing. Узнайте о новых подходах к безопасности, которые помогут предотвратить угрозы и обеспечить надежность ваших данных. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 746

Создайте уникальный плагин с нуля Хотите научиться создавать собственные плагины? Новая серия статей предлагает пошаговое руководство, которое поможет вам разработать инновационный и функциональный плагин. Идеально для тех, кто хочет освоить процесс разработки с первого шага. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 746

Защити свой Oracle Analytics Cloud Пост: Узнайте, как обеспечить безопасность вашего Oracle Analytics Cloud с помощью методологии Zero Trust Packet Routing. Эта технология позволяет минимизировать риски, связанные с доступом к данным, за счет недоверия ко всем внешним и внутренним источникам. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 746

Как загрузить свою модель в Oracle Analytics Cloud В статье рассказывается о способах интеграции кастомных моделей для понимания документов в Oracle Analytics Cloud. Пошаговое руководство поможет эффективно зарегистрировать и использовать обученные модели для анализа данных. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 746

Настройте модели в OCI для точной обработки документов Статья рассказывает о создании кастомных моделей в OCI Document Understanding. Узнайте, как адаптировать извлечение данных из документов под уникальные требования клиентов, используя возможности Oracle Cloud Infrastructure. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 746

Участвуй в Oracle Analytics Data Visualization Challenge 2025! Oracle приглашает начинающих специалистов по визуализации данных продемонстрировать свои таланты в новом конкурсе 2025 года. Это отличная возможность проявить себя в мире данных и, возможно, стать лидером в этой области. Не упустите шанс стать лучшим! Читать подробнее #en @big_data_analysis | Другие наши каналы

2 746

Гайд по установке Apache Airflow, на случай, если у тебя его ещё нет в преддверии 2025 года Немного лирики, что такое Apache Airflow — это оркестратор (ваших данных), инструмент для создания, планирования и мониторинга рабочих процессов (так называемых DAGs — Directed Acyclic Graphs). Читать: https://habr.com/ru/articles/860900/ #ru @big_data_analysis | Другие наши каналы

2 746

Полное руководство по оценке компонентов системы RAG: что необходимо знать Системы дополненной генерации (RAG) были разработаны для улучшения качества ответа крупной языковой модели (LLM). Когда пользователь отправляет запрос, система RAG извлекает релевантную информацию из векторной базы данных и передает ее в LLM в качестве контекста. Затем LLM использует этот контекст для генерации ответа для пользователя. Этот процесс значительно улучшает качество ответов LLM с меньшим количеством «галлюцинаций». Читать: https://habr.com/ru/articles/860390/ #ru @big_data_analysis | Другие наши каналы

2 746

Анализ временных рядов: полное руководство для начинающих Временной ряд — это последовательность значений, которые протекают и измеряются в определенном временном промежутке. К бытовым примерам временного ряда можно отнести метеорологические наблюдения или колебания цен на рынке. Аналитикам такие наборы данных позволяют выявлять закономерности, прогнозировать будущее и предлагать бизнесу обоснованные решения. В этой статье разберемся, с чего начать осваивать анализ временных рядов, вместе с Team Lead Data Scientist в VK Максимом Кулаевым. Читать: https://habr.com/ru/companies/skillfactory/articles/860660/ #ru @big_data_analysis | Другие наши каналы

2 746

Саммаризация — Как Data Light помогает пользователям находить идеальный товар быстрее Что, если бы все отзывы могли сокращаться в ясные и четкие выжимки, которые помогли бы пользователям быстрее находить информацию? Эту задачу называют саммаризацией, и как раз над таким проектом мы недавно закончили работать: команда Data Light должна была структурировать данные крупной платформы, чтобы сделать их доступными для автоматической обработки. В этой статье мы поделимся деталями масштабного проекта по саммаризации, над которым команда работала уже больше года: с какими вызовами столкнулись, какие решения нашли — и что это значит для будущего обработки данных. Читать: https://habr.com/ru/companies/data_light/articles/860602/ #ru @big_data_analysis | Другие наши каналы

2 746

Оптимизация денежной наличности в АТМ, или Как сделать так, чтобы в банкомате всегда были деньги Бывала у вас такая ситуация, когда хотели снять деньги в банкомате, а их там не оказалось, и приходилось искать банкомат рядом, про себя ругаясь на банк: «Неужели так сложно сделать, чтобы деньги в аппарате были всегда?» Да, это возможно, но есть нюанс. Меня зовут Мария, я работаю в Альфа-Банке на позиции Middle Data Scientist, и сейчас я вам про этот нюанс расскажу — почему же эта задача не такая тривиальная, как кажется на первый взгляд. Читать: https://habr.com/ru/companies/alfa/articles/859940/ #ru @big_data_analysis | Другие наши каналы

2 746

Python и SQL: что изучать в первую очередь для анализа данных Python и SQL — самые популярные инструменты для работы с данными. Но какой из них изучать первым? Разбираемся в статье. Читать: «Python и SQL: что изучать в первую очередь для анализа данных» #ru @big_data_analysis | Другие наши каналы

2 746