Data Analysis / Big Data

الذهاب إلى القناة على Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

إظهار المزيد

الشبكة:Типичный программист روسيا176 908 التكنولوجيات والتطبيقات26 757

2 748

المشتركون

لا توجد بيانات24 ساعات

+37 أيام

+1730 أيام

662

عرض المشاهدات

لا توجد بيانات24 ساعات

لا توجد بيانات48 ساعات

24.06%

معدل المشاركة

لا توجد بيانات

المشاركات في اليوم

Ads index

beta

أرشيف المشاركات

2 748

Как выстроить разметку для паноптической сегментации правильно? Представьте себе задачу, в которой необходимо не просто понять, что изображено на картинке, но и точно определить границы каждого объекта, даже если они частично перекрывают друг друга. Семантическая сегментация отлично справляется с категоризацией пикселей, инстанс-сегментация позволяет различать отдельные объекты одного класса, но что, если нам нужно сразу и то, и другое? Паноптическая сегментация объединяет оба этих подхода. При нем каждый пиксель получает как классовую принадлежность, так и уникальный ID объекта. Однако ее разметка — одна из самых сложных задач в области компьютерного зрения: аннотаторам приходится учитывать перекрытия, сложные границы объектов и баланс между двумя типами масок. Как добиться высокой точности в разметке паноптической сегментации? Какие ошибки наиболее критичны при аннотировании? И почему этот метод так важен для беспилотных технологий, медицинской визуализации и AR-приложений? Разбираем подробнее в статье! Читать: https://habr.com/ru/companies/data_light/articles/884726/ #ru @big_data_analysis | Другие наши каналы

2 748

Миллиарды векторов и немного магии: превращаем сырые данные с маркетплейсов в пригодные для анализа Привет, Хабр! Я — Игорь Старун, BigData Lead в MPSTATS. Я уже 3 года занимаюсь анализом данных на маркетплейсах, штудируя гигантские объёмы информации и превращая их из непотребного и нечитаемого вида в удобоваримый и анализируемый. Моя задача — собрать и подготовить данные так, чтобы помочь продавцам на маркетплейсах разобраться, что происходит с их товарами, конкурентами и продажами, чтобы они не утонули в хаосе карточек, цен и остатков. В этой статье я расскажу, как мы перерабатываем эти объемы грязных данных и структурируем для дальнейшего анализа. Данные о товарах – это основа всего. Каждую неделю мы обходим более 200 миллионов карточек с Wildberries и Ozon. Названия, описания, характеристики, фотографии — всё это мы аккуратно собираем и складываем в базы данных (для разных задач мы используем ClickHouse, Postgres, MySQL и MongoDB) и облачные хранилища. Зачем? Чтобы потом сделать с этим что-то умное и полезное. Читать дальше Читать: https://habr.com/ru/companies/mpstats/articles/884344/ #ru @big_data_analysis | Другие наши каналы

2 748

От университета к дата-сайенс в МТС за год: как я проходил обучение в Школе аналитиков Максим Коновалов расскажет, как стал Data Scientist в МТС, пройдя школу аналитиков данных МТС и стажировку. Читать: «От университета к дата-сайенс в МТС за год: как я проходил обучение в Школе аналитиков» #ru @big_data_analysis | Другие наши каналы

2 748

MapReduce: гид для начинающих Разберем роль модели MapReduce в составе Hadoop, а также расскажем, как использовать его отдельно и насколько это эффективно. Читать: https://habr.com/ru/companies/skillfactory/articles/882328/ #ru @big_data_analysis | Другие наши каналы

2 748

Код устареет, принципы — останутся: подборка книг для мидлов и сеньоров в Data Science Привет! Меня зовут Марк Паненко, и я Chief Data Science в Ozon Банке. Сегодня я хочу поговорить не о моделях или фреймворках, а о том, что останется с вами — даже когда Python 3 сменится на Python 4, а PyTorch уступит место новым инструментам. О принципах — ну и о книгах, которые научат видеть их за строками кода. Это вторая часть книжной подборки — в первой книги для джунов. Читать: https://habr.com/ru/companies/ozonbank/articles/884310/ #ru @big_data_analysis | Другие наши каналы

2 748

Трансформация платформы данных: от пары кубов до хранилища > 30 Тб и 1000 ETL-процессов Привет, Хабр! Меня зовут Наталья Горлова, я архитектор данных. Несколько лет назад мы в CDEK поняли, что продукты, на которых работало хранилище, перестали нас устраивать: не устраивала гибкость разработки и скорость поставки данных. C тех пор произошло множество изменений, которыми хочется поделиться с сообществом. Расскажу, как платформа данных развивалась, и к чему мы пришли на конец 2024 года. Эта статья — ретроспектива моей почти шестилетней работы и текущих реалий нашей платформы данных. Читать: https://habr.com/ru/companies/cdek_blog/articles/881618/ #ru @big_data_analysis | Другие наши каналы

2 748

Как использовать seed данные из другого dbt проекта? У вашей компании несколько dbt проектов, и вы хотите использовать seed данные из одного проекта в другом? Эта статья от Start Data Engineering рассказывает о том, как настроить dbt-пакеты для повторного использования данных и моделей между проектами. Узнайте, как правильно организовать кросс-проектные зависимости в dbt. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 748

Пост для Telegram Как пройти собеседование по проектированию систем в Data Engineering? Текст поста: Собираетесь на собеседование по проектированию систем в Data Engineering? Узнайте, как шаг за шагом провести интервьюера через анализ требований, проектирование моделей данных, создание и обеспечение качества данных. Эти советы помогут вам уверенно себя чувствовать. Как оптимизировать работу с данными: советы для интервью Пост: Если вы готовитесь к интервью по разработке систем, важно понимать ключевые аспекты работы с данными. Поговорим о том, как избежать дублирования при повторных запусках процесса, настроить эффективное размещение данных, и проверить готовность наборов данных для пользователей. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 748

Как избежать несоответствий в метриках данных Ищете способы обеспечения консистентности метрик в вашем дата-центре? Статья рассказывает о двух подходах: использование семантического слоя для гибких запросов и предагрегированных таблиц для простых случаев. Узнайте, как выбрать оптимальный метод для вашей команды. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 748

Модульный подход к поддержке SQL скриптов Как превратить 1000 строк запутанного SQL-кода в легко поддерживаемый и модульный пайплайн данных? В статье рассказывается о разбиении SQL на функции с юнит-тестами, что упрощает его поддержку и модификацию, делая работу с данными проще и быстрее. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 748

Функции или классы: что выбрать для Python data pipelines? В статье рассматривается, как конструкции Python — функции и объектно-ориентированное программирование (ООП) — применимы в data pipelines. Функции облегчают создание понятного и тестируемого кода для преобразования данных. ООП удобно для поддержания состояния, текущих соединений и конфигураций. Комбинация подходов может упростить разработку и сопровождение сложных проектов. Как создавать поддерживаемые пайплайны данных В статье рассказывается о том, как использовать объектно-ориентированное программирование для создания эффективных и поддерживаемых пайплайнов данных. Рассмотрены принципы темплатизации классов, валидации и загрузки данных, а также внедрение зависимостей для управления состоянием. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 748

Dagster: новый стандарт для ETL в 2025? Мы живем в век данных и data-driven подхода. Есть продуктовые компании, где даже минимальные изменения в продукте обязаны пройти A/B-тест перед релизом (который из-за этого может и не состояться). С бумом данных и AI произошел и бум ETL (Extract, Transform, Load) инструментов. Сейчас, в 2024 году, выбор действительно впечатляет, даже если ограничиться только open source-решениями: Читать: https://habr.com/ru/articles/883700/ #ru @big_data_analysis | Другие наши каналы

2 748

Дружим GX и Impala Подробные шаги и полезные советы, которые помогут всем, кто хочет улучшить качество обработки данных в своих проектах. Читайте и проверяйте на практике: https://tprg.ru/tpKD

2 748

«Умнейший ИИ в истории» Grok 3 представлен официально — Маск обещает революцию xAI представила Grok 3 — «умнейший ИИ в истории», который превзошёл ChatGPT в анализе данных, генерации кода и поиске информации Читать: ««Умнейший ИИ в истории» Grok 3 представлен официально — Маск обещает революцию» #ru @big_data_analysis | Другие наши каналы

2 748

Улучшите ваши дашборды в Oracle Analytics! Пост: Хотите создавать динамичные заголовки и описания в Oracle Analytics? Используйте параметры для усиления повествовательного эффекта ваших дашбордов. Узнайте, как сделать данные более привлекательными и информативными. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 748

Эффективное управление доступом в FDI Fusion Data Intelligence предлагает учетную запись OAX_USER для работы с таблицами хранилища данных. Однако совместное использование этих данных между администраторами может вызвать проблемы с безопасностью. В статье рассматривается создание пользовательской схемы для финансовых пользователей. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 748

EDA of dataset Python Привет, Хабр! Аналитики данных часто сталкиваются с грязными данными, которые могут существенно замедлить процесс анализа. Грязны данные – это пропущенные значения, дубликаты, неконсистентные данные. Пропущенные значения заставляют нас гадать, что же было замыслено нашим коллегой; дубликаты вводят в заблуждение, умножая одно и то же на количество их копий, а неконсистентные данные заставляют нас сомневаться в каждой цифре. Очищать грязные данные можно c Pandas. Рассмотрим основные методы. Читать: https://habr.com/ru/articles/882588/ #ru @big_data_analysis | Другие наши каналы

2 748

Приглашаем аналитиков на дружескую встречу в Яндексе! 15 февраля в штаб-квартире Яндекса «Красная Роза» команды Алисы и Автономного Транспорта поделятся своим опытом и расскажут: — Как живет аналитика в Алисе, Умных Устройствах и умном доме — Как устроена аналитика технологий в Автономном Транспорте и в роботе-доставщике После основной части можно будет отправиться на экскурсию по офису, пройти диагностику навыков и задать все интересующие вопросы. Ждут аналитиков с опытом на Python от 3 лет. Успейте зарегистрироваться — сегодня последний день! До встречи! Это #партнёрский пост

2 748

Порядок работы с устареванием ML моделей. Шаг 1: Понимание устаревания Под устареванием моделей понимается их постепенная потеря точности из-за изменения данных, на которых они были обучены. Если проще: модель начинает хуже предсказывать. Реализацию процесса работы с устареванием моделей в ML можно разделить на 4 шага. В этой части мы начнем с первого и самого важного шага – понимание устаревания в ML-моделях. Мы выясним, что такое устаревание моделей на практике, и определим, в каких случаях эта проблема требует внимания, а в каких нет. Читать: https://habr.com/ru/articles/882092/ #ru @big_data_analysis | Другие наши каналы