Data Analysis / Big Data

Ir al canal en Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

Red:Типичный программист Rusia176 842 Tecnologías y Aplicaciones26 716

2 746

Suscriptores

-424 horas

-27 días

+1230 días

662

Visitas de la publicación

Sin datos24 horas

Sin datos48 horas

24.10%

Tasa de compromiso

Sin datos

Mensajes por día

Ads index

beta

Archivo de publicaciones

2 745

Lamoda Tech Data Science Meetup #2: материалы встречи В Lаmoda Tech мы внедряем ML, чтобы сделать онлайн-шоппинг для миллионов пользователей комфортным, увлекательным и вдохновляющим. На нашем втором Data Science митапе мы обсудили подходы к персонализации в поиске, каталоге и других продуктах, рассказали о применении машинного обучения в ценообразовании, а также поговорили о том, как оптимизировать ML-пайплайны и упростить работу дата сайентистов. Смотреть записи докладов и презентации Читать: https://habr.com/ru/companies/lamoda/articles/849398/ #ru @big_data_analysis | Другие наши каналы

2 745

Данные – это новая нефть Данные – это реально нефть и даже лучше. Выгода от данных больше чем от нефти. Нефть заканчивается, а данные никогда не закончатся – это первое. А второе – данные можно перерабатывать и каждый раз получать выгоду. Читать: https://habr.com/ru/articles/849066/ #ru @big_data_analysis | Другие наши каналы

2 745

Оптимизация аналитики с Oracle Узнайте, как подключить Oracle Analytics Cloud к Oracle Big Data Service, используя Hive и Spark, для улучшения анализа данных. Объединение мощных инструментов поможет эффективно обрабатывать и визуализировать большие объемы информации. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 745

Разработка пакетов на языке R (бесплатный видео курс) Разработка R-пакетов - отличный способ улучшить навыки программирования на R и глубже погрузиться в изучение языка. Этот курс шаг за шагом проведет вас через процесс создания собственных пакетов. Первый урок позволит вам написать свой первый пакет. Более того, вы сможете внести свой вклад в развитие языка, делясь своими наработками в виде R-пакетов. Читать: https://habr.com/ru/articles/849440/ #ru @big_data_analysis | Другие наши каналы

2 745

Как разметить 3D кубойды на 2D изображениях в CVAT? Методы геоинформационных систем в разметке данных Команда Data Light регулярно встречается с нестандартными задачами, и в прошлом году мы начали работать над одной из них: наш проект неожиданно перерос из привычной разметки LiDAR облаков (изображений со специальных сканеров) в написание скриптов и созданию нестандартных решений для CVAT. В этой статье я, Алексей Антюшеня, хочу рассказать, как мы нашли это необычное решение, и поделиться методом, который позволит ML специалистам и коллегам по нише решать сложные задачи по 3D разметке. Читать: https://habr.com/ru/companies/data_light/articles/849384/ #ru @big_data_analysis | Другие наши каналы

2 745

Бутстрап в PySpark Всем привет! Меня зовут Илья Черников, я аналитик больших данных в X5 Tech, сейчас занимаюсь аналитикой и оценкой активностей CVM маркетинга экспресс-доставки “Пятёрочки”. В статье я расскажу о том, как мы решали вопрос автоматизации оценки эффективности большого количества маркетинговых кампаний с помощью бутстрапа в PySpark. Я опишу различные подходы к реализации бутстрапа с их плюсами и минусами, а также расскажу об итоговом варианте, который мы выбрали для себя. Читать: https://habr.com/ru/companies/X5Tech/articles/849322/ #ru @big_data_analysis | Другие наши каналы

2 745

Применение эффективного асинхронного web-парсинга при работе с Big Data (библиотека Scrapy) Привет, Хабр! Сегодня с вами Марина Коробова, участница профессионального сообщества NTA. Многие компании и организации занимаются сбором большого объёма внешних данных для анализа и принятия эффективных решений. Конечно, всё это можно делать вручную, но это долгий, монотонный и нецелесообразный процесс, в котором можно допустить ошибки. В этой статье мы сравним два инструмента для автоматизации сбора данных из внешних источников Scrapy и BeautifulSoup4. Читать: https://habr.com/ru/companies/sberbank/articles/748406/

2 745

Почему так происходит | Telegram Mini App Почему же так получилось, что «Тапалки» перестали давать хорошие раздачи и стали требовать донаты? Сейчас вы увидите схему, которую я нарисовал, чтобы наглядно показать, кто дал старт и что за ним последовало. Без этого контекста будет сложно понять последствия. Понять всю суть Читать: https://habr.com/ru/articles/849014/ #ru @big_data_analysis | Другие наши каналы

2 745

Хотите освоить инструменты для построения и применения моделей машинного обучения на больших наборах данных? Приходите на открытый вебинар 8 октября в 20:00 мск, где вместе с экспертом вы разберете: — возможности Spark; — как разрабатывать модели на Spark ML; — как выводить модели в промышленное использование. Урок для инженеров данных, ML-инженеров и Data Scientist'ов. Спикер Вадим Заигрин — опытный разработчик, Data Engineer и Data Scientist. Team Lead команд инженеров данных на разных проектах. Встречаемся в преддверии старта курса «Spark Developer». Все участники вебинара получат специальную цену на обучение! Регистрируйтесь прямо сейчас, чтобы не пропустить мероприятие. Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru, erid:LjN8KKkbT

2 745

«ИИ можно использовать для помощи в кризисных ситуациях, например, при буллинге или потере работы» Как в таком чувствительном и социальном направлении, как ментальное здоровье, применять большие данные и искусственный интеллект? И может ли ИИ стать психологом? Эти весьма любопытные темы подняли в свежем выпуске подкаста Data Therapy от X5 Tech, гостем которого стал эксперт по управлению большими данными, работающий над проектом Crisis Trends Line, Алексей Артёмов. А ещё обсудили отличия в работе с данными и внедрении инноваций между компаниями в России и за рубежом, а также подходы к их регулированию. Читать: https://habr.com/ru/companies/X5Tech/articles/848280/ #ru @big_data_analysis | Другие наши каналы

2 745

Контроль качества разметки на проекте: делай как ОКК Существует известное правило: “мусор на входе, мусор на выходе”. Все знают, что “чистые”, точные данные повышают качество и корректность работы ИИ-моделей, так что итоговая ценность оправдывает дополнительные усилия и вложения. Намного дешевле компаниям выходит предотвратить проблемы с данными, чем решать их после. Но как контролировать качество на проектах разметки максимально эффективно? Выстроить такие процессы непросто, но мы считаем, что у нас это получилось. Для того, чтобы гарантировать на каждом проекте высокое качество разметки, в Data Light существует отдел Контроля качества. Я, Евгений Шилкин, руководитель ОКК, расскажу, что нам позволяет обеспечивать стабильно высокое качество на проектах и какие советы для эффективной валидации мы можем дать. Читать: https://habr.com/ru/companies/data_light/articles/848234/ #ru @big_data_analysis | Другие наши каналы

2 745

Инфраструктура для Data-Engineer ClickHouse В этой статье я хочу показать как можно использовать ClickHouse в дата-инженерии и как его "пощупать". Рекомендуется всем, кто ещё не знаком с ClickHouse. В статье постарался всё кратко и понятно рассказать про ClickHouse. Читать: https://habr.com/ru/articles/842818/ #ru @big_data_analysis | Другие наши каналы

2 745

Мощь предсказательной аналитики с Oracle Analytics Cloud Предсказательная аналитика помогает принимать обоснованные решения, прогнозируя тенденции на основе исторических данных. Платформа Oracle Analytics Cloud, с алгоритмами машинного обучения, получила признание как выбор клиентов 2024 от Gartner Peer Insights. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 745

Настройка Oracle Analytics Cloud в сложной архитектуре Как правильно создать и настроить Oracle Analytics Cloud, если OAC и источник данных находятся в разных виртуальных сетях? Узнайте об эффективной интеграции и настройке на многосетевой архитектуре. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 745

Тыкай и кидай голосовухи: как ускорить сбор данных для мультимодальности Привет! Мы собираем много разных данных и часто перед заказчиком стоит большая описательная задача в области задач компьютерного зрения: детально и максимально подробно описывать всё, что присутствует на изображении или видео. В деталях описывать картинку с помощью текста — трудоемкая задача для человека. На днях исследователи из института Аллена предложили интересный способ оптимизации такой задачи. А так как мы, в хорошем смысле, поехавшие на качестве данных, то пройти мимо было невозможно. И это достаточно интересно, чтобы попробовать перенести их пайплайн на свою платформу и замериться. И предварительно, да, похоже, это новая веха экспериментов в такой разметке. Давайте разбираться. Читать: https://habr.com/ru/articles/847780/ #ru @big_data_analysis | Другие наши каналы

2 745

Современная Lakehouse-платформа данных Data Ocean Nova Привет. Меня зовут Евгений Вилков. Я занимаюсь системами управления и интеграции данных с 2002 г., а конкретно системами анализа и обработки данных — с 2007 г. Технологии, с которыми я имел дело на протяжении моего профессионального пути, стремительно развивались. Начиная с решений, основанных на стеке традиционных СУБД, таких как Oracle, MS SQL Server, Postgres, постепенно эволюционируя в ставшие уже классическими (а некоторые даже и закрытыми) MPP-системы, такие как Teradata, GreenPlum, Netezza, Vertica, IQ, HANA, Exadata, ClickHouse, в различные решения на базе экосистемы Hadoop, облачные сервисы и платформы. Меняется мир, меняются технологии, меняются подходы к проектированию, меняются и требования к задачам аналитического ландшафта данных. Уверен, что многие, кто уже знаком с терминами Data Mesh и Data Lakehouse, задаются вопросом: что может предложить рынок аналитических систем в этих методологиях проектирования и архитектурных подходах. Я хочу рассказать об аналитической платформе данных Data Ocean Nova, владельцем и технологическим идеологом которой я являюсь. Читать: https://habr.com/ru/articles/847770/ #ru @big_data_analysis | Другие наши каналы

2 745

Дашборд как инструмент взаимодействия с бизнесом Всем привет! Сегодня поговорим про дашборды — что это за инструмент такой и как с помощью него взаимодействовать с бизнесом. Меня зовут Дарья Еськова, я аналитик данных в компании билайн. Если быть точнее, то в команде CLTV, лидирую направление автоматизации визуализации данных. Хочу поделиться с вами своим опытом и наработками. Поговорим в основном про дашборды с точки зрения бизнеса. Есть технические дашборды, но акцент в посте будет на бизнес-дашбордах — на тех, которые смотрят наши руководители, менеджеры, бизнес-юниты. Исходно дашбордом называли доску между кучером и лошадью, которая служила преградой для летящей из-под копыт грязи. Но, понятное дело, сейчас мы пользуемся этим словом совершенно для другого. Это информационная панель, которая отображает наши метрики. Как раз этот инструмент, который позволяет донести нужные цифры в нужное время для нужных людей. Например, наш аналитик, я, кто-то из вас может сказать, что наши продажи выросли, и будет здорово, если бизнесу такой информации достаточно. Но зачастую происходит так, что бизнес просит подтвердить эти факты какими-то данными, которым мы доверяем. И вот как раз визуализация — это очень удобный инструмент, это интерфейс доступа к данным. Читать: https://habr.com/ru/companies/beeline_tech/articles/847596/ #ru @big_data_analysis | Другие наши каналы

2 745

Подсчет уникальных значений поля в ClickHouse Привет, Хабр! Существуют разные задачи в IT, многие решаются алгоритмически или условно за счет архитектурных решений. Среди всего многообразия задач также интересны задачи, решаемые с применением статистических методов. Одной из таких задач является приближенный расчет количества уникальных значений в поле таблицы (или кардинальности). Казалось бы, практическая польза от быстрого расчета количества уникальных значений поля без больших затрат памяти невелика, однако это позволяет, например, построить оптимальный с точки зрения производительности SQL запрос с этим полем, или использовать это поле в UI (например, элемент с бесконечной прокруткой или элемент с поиском при значительном количестве уникальных значений, а не отображение конечного списка) и т.д. Задача может быть эффективно решена в СУБД, обладающей соответствующими инструментами, поэтому будет рассмотрен ClickHouse. Интересно решение задачи поиска уникальных значений в ClickHouse? Добро пожаловать :) Читать: https://habr.com/ru/articles/847458/ #ru @big_data_analysis | Другие наши каналы

2 745

От проваленного пилота до идеальной системы — как мы научились работать с LLM проектами LLM — одно из самых сложных и интересных направлений в Data Light. В статье расскажу о своем опыте управления LLM-проектами: как провела с командой первый провальный пилот, какие инсайты по процессам из него извлекла, и как их после применила на успешных проектах. Поговорим про работу с асессорами и валидаторами и про то, как сделать качественный продукт в сфере, главная специфика которой — субъективизм и отсутствие единой истины. Если вы работаете с LLM-проектами в своей компании, а особенно — если думаете этим заняться, обязательно прочитайте статью! Расскажу об ошибках и как их не повторить, и успехах и как их добиться. Читать: https://habr.com/ru/companies/data_light/articles/847170/ #ru @big_data_analysis | Другие наши каналы

2 745

Поиск дубликатов в клиентском MDM на миллиард записей Представьте, что вам нужно объединить две базы данных с информацией о клиентах, каждая из которых содержит несколько миллионов записей. В них есть ФИО, паспортные данные, СНИЛС, даты рождения, адреса и другие данные. Ваша задача — найти все похожие записи и не допустить ошибочных объединений. Причем данные могут содержать ошибки, опечатки операторов или неверные транскрипции. Для полной сверки каждого с каждым потребуются триллионы операций сравнения. И вишенка на торте — братья-близнецы с редкими, но созвучными именами. Даже оператор может решить, что это дубль, и объединить их записи. Цена ошибки неверного объединения или дублирования выражается в репутации компании и конкретных суммах на счетах клиентов, к которым могут получить доступ посторонние люди. В этом посте расскажу о работе нашей системы обработки данных, которую мы применяем и адаптируем под такие сложные случаи. Читать: https://habr.com/ru/companies/hflabs/articles/847012/ #ru @big_data_analysis | Другие наши каналы