Data Analysis / Big Data

الذهاب إلى القناة على Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

إظهار المزيد

الشبكة:Типичный программист روسيا176 908 التكنولوجيات والتطبيقات26 757

2 749

المشتركون

لا توجد بيانات24 ساعات

+37 أيام

+1730 أيام

662

عرض المشاهدات

لا توجد بيانات24 ساعات

لا توجد بيانات48 ساعات

24.06%

معدل المشاركة

لا توجد بيانات

المشاركات في اليوم

Ads index

beta

أرشيف المشاركات

2 748

Карьера в Data Engineering: взгляд на образование и зарплату Каждый день мы создаем колоссальные объемы данных: кликаем по рекламе, совершаем покупки, вызываем такси, смотрим видео. Компании накопили терабайты информации, но без правильной структуры и обработки она бесполезна. Именно инженеры данных отвечают за то, чтобы данные можно было эффективно хранить, обрабатывать и передавать аналитикам, машинному обучению и бизнесу. Читать: https://habr.com/ru/articles/888536/ #ru @big_data_analysis | Другие наши каналы

2 748

От данных к действиям: как мы создавали рекомендации на главной странице Uzum Market Меня зовут Фарит, я ML-инженер в команде рекомендаций Uzum Market. Сегодня я расскажу, как мы с нуля разработали персональные рекомендации для главной страницы нашего маркетплейса. Мы разберем архитектуру системы, используемые алгоритмы и способы измерения успеха проекта. Читать: https://habr.com/ru/companies/uzum/articles/884328/ #ru @big_data_analysis | Другие наши каналы

2 748

Готовитесь к системному проектированию для data engineering? Новая статья предлагает структурированное руководство для успешного прохождения интервью. Узнайте, какие требования и данные учитывать, как моделировать данные и строить пайплайны, а также почему важен контроль качества данных. Всё для уверенности на интервью. Эффективное управление данными: ключевые аспекты Как оптимизировать работу с данными? В статье обсуждаются важные техники, такие как оптимизация партиционирования и использования форматов таблиц, стратегии перезапуска данных и способы улучшения их наблюдаемости. Узнайте, как обеспечить качественный опыт для конечных пользователей. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 748

Как обеспечить консистентные метрики в вашем хранилище данных Для предотвращения расхождений в метриках статьи предлагают централизацию их определений. Использование семантических слоев обеспечивает гибкость и актуальность, в то время как предагрегированные таблицы проще, но менее масштабируемы. Выбор подхода зависит от ваших потребностей и ресурсов. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 748

Как превратить 1000 строк SQL в модульный код? В статье описывается, как переписать громоздкие SQL-скрипты в модульную структуру, которая легко тестируется и поддерживается. Рекомендуется разделять запросы на функции, проводить валидацию и писать юнит-тесты для каждого модуля. Это облегчает модификацию и тестирование кода в будущем. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 748

Оптимизация пайплайнов данных в Python Функции или ООП в создании пайплайнов данных в Python? Статья обсуждает, как использовать комбинацию функционального и объектно-ориентированного подхода для упрощения разработки и поддержки. Функции упрощают трансформации, тогда как объекты помогают отслеживать состояние системы и прогресс. Узнайте, как выбрать подходящее решение в зависимости от задачи! Создание и поддержка ETL-пайплайнов: ключевые принципы В статье рассматриваются основы создания и поддержки ETL-пайплайнов. Авторы объясняют, как использовать классы и объекты для управления состоянием и логикой, а также как внедрить зависимые объекты через функции для повышения читабельности и простоты в сопровождении кода. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 748

🔍 Лучшие расширения VSCode для дата-инженеров Если вы хотите улучшить свой рабочий процесс в Visual Studio Code как дата-инженер, эта статья вам поможет. Разберем ключевые расширения, которые добавят функционал: от Gitlens и Python тестов до Jupyter Notebook и SQL Tools. Узнайте, как оптимально настроить рабочее пространство и делиться им с коллегами! Читать подробнее #en @big_data_analysis | Другие наши каналы

2 748

Эпилог. Создание ботов для торговли криптовалютами и акциями (часть третья, заключительная) Предыдущий пост: https://habr.com/ru/articles/677290/ Ильф и Петров оживили Остапа, и по их примеру, оказавшись в определенной точке своей жизни, я решил написать продолжение своих заметок. Спойлер для тех кому лень читать дальше - у меня нет яхты, я ищу работу на заводе, и если повезет, то это будет завод по выращиванию медицинского каннабиса. В этой статье не будет технических решений или алгоритмов, я хочу рассказать о своем опыте, который приобрел с момента опубликования предыдущего текста и перемещения меня в другую жизнь. Читать: https://habr.com/ru/articles/888320/ #ru @big_data_analysis | Другие наши каналы

2 748

Код, который дышит: создание виртуальной вселенной на NestJS и своим AI на Tensorflow.js Представьте мир, где каждый персонаж живёт своей жизнью: принимает решения, взаимодействует с окружающей средой и даже эволюционирует. Где почва, растения и ресурсы подчиняются сложным алгоритмам, а нейронные сети управляют поведением тысяч существ. Это не сценарий для нового блокбастера — это проект, над которым я работаю. В этой статье я расскажу, как с помощью NestJS, TypeORM и Tensorflow.js создаю виртуальную вселенную, которая “дышит” и развивается. Мы разберём: Это что, фантазия автора?! Читать: https://habr.com/ru/articles/888226/ #ru @big_data_analysis | Другие наши каналы

2 748

Настройка Панели Грамматики в Визуализации Данных Пост: Узнайте, как настроить Панель Грамматики в пользовательских расширениях визуализации данных. Статья расскажет о ключевых шагах конфигурации и поможет улучшить отображение ваших данных. Воплотите информацию в понятные графические формы. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 748

Интеграция данных: Oracle и Salesforce объединяют усилия Oracle предлагает интеграцию данных из Salesforce CRM с Eloqua Marketing и Fusion продуктами, предоставляя организациям возможность глубже анализировать взаимодействие с клиентами и операционные метрики. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 748

Бегущий по лезвию ИИ — 2025: сезон футурологии на Хабре В 2025 году школьники не летают на Марс, автомобили всё так же колесят по земле, а искусственный интеллект, к счастью, не стремится поработить человечество. Но он уже меняет мир вокруг нас, проникая в самые разные сферы жизни. Каким будет наше будущее? Какие технологии определят его облик? В новом сезоне — «Будущее здесь» — предлагаем вместе с нами поразмышлять над этими вопросами. Думать широко, глубоко и даже дерзко — в духе Хабра, и тема сезона этому способствует. Ведь каждое смелое предсказание — это шаг в неизведанное. А самый смелый шаг заслуживает не только признания, но и крутого приза. Узнать об условиях и призах Читать: https://habr.com/ru/specials/887398/ #ru @big_data_analysis | Другие наши каналы

2 748

Оценка больших языковых моделей в 2025 году: пять методов Большие языковые модели (LLM) в последнее время стремительно развиваются и несут в себе потенциал для кардинального преобразования ИИ. Точная оценка моделей LLM крайне важна, поскольку: * Компании должны выбирать генеративные AI-модели для внедрения в работу. Базовых моделей LLM сейчас множество, и для каждой есть различные их модификации. * После выбора модели будет проходить fine-tuning. И если производительность модели не измерена с достаточной точностью, пользователи не смогут оценить эффективность своих усилий. Таким образом, необходимо определить: * Оптимальные методы оценки моделей * Подходящий тип данных для обучения и тестирования моделей Поскольку оценка систем LLM является многомерной задачей, важно разработать комплексную методологию измерения их производительности. В этой статье рассматриваются основные проблемы существующих методов оценки и предлагаются решения для их устранения. Читать: https://habr.com/ru/articles/887290/ #ru @big_data_analysis | Другие наши каналы

2 748

Зачем мы разбрасывали мусор в офисах, или как мы сделали систему для управления гибкими пространствами Привет, Хабр! Меня зовут Вадим, я работаю техническим директором молодой ИТ-компании BPA. Эта статья — о том, как мы с командой создавали систему автоматического распознавания мусора в офисах и коворкингах. В процессе реализации мы встретились с кучей технических трудностей, от отсутствия готовых датасетов до тонкой настройки нейронных сетей под наши задачи. Ну и, конечно, пришлось пару дней разбрасывать мусор в офисах. Но обо всем по порядку. Читать: https://habr.com/ru/articles/887422/ #ru @big_data_analysis | Другие наши каналы

2 748

Использование dax.do для произвольной схемы данных на основе перевода DAX в Contoso через Telegram бот Привет, Хабр! В работе Business Intelligence аналитика могут встречаться задачи проверки DAX запроса на произвольной схеме, к которой может не быть доступа. Перевод DAX запроса из исходной схемы в схему, к которой есть доступ и есть возможность выполнения DAX запроса, может занимать некоторое время и требовать определенных усилий. В век AI, безусловно, хочется делать перевод в схему автоматически, при помощи AI. Кроме того, ресурс dax.do является достаточно удобной песочницей для Contoso схемы данных, поэтому такое впечатление, что одним из быстрых решений для анализа и запуска DAX без схемы данных является перевод произвольного DAX в dax.do (например, автоматически при помощи Telegram бота), что позволяет уже дальше смотреть полученный DAX в песочнице dax.do на схеме Contoso без каких-то ограничений. Это позволяет проверить работоспособность DAX на незнакомой схеме за секунды. Интересующимся новыми возможностями DAX песочниц — добро пожаловать под кат :) Читать: https://habr.com/ru/articles/887186/ #ru @big_data_analysis | Другие наши каналы

2 748

Как медленно меняющиеся измерения помогают сохранить контекст изменений в данных В мире данных изменения — это неизбежность. Но как отслеживать и сохранять историю изменений, чтобы аналитика оставалась точной и релевантной? В нашей новой статье мы подробно разбираем концепцию медленно меняющихся измерений (Slowly Changing Dimensions, SCD) — ключевого инструмента для работы с изменяющимися данными в хранилищах и аналитических системах. Вы узнаете, что такое медленно меняющиеся измерения и зачем они нужны, а также познакомитесь с разными типами SCD, такими как Type 1, Type 2 и Type 3. Мы рассмотрим их ключевые различия и приведем практические примеры использования: от простого обновления данных до сохранения полной истории изменений. Вы поймете, как выбрать подходящий тип SCD для ваших задач и избежать типичных ошибок. Статья будет полезна аналитикам, разработчикам и всем, кто работает с данными и стремится сделать их управление более эффективным. Погрузитесь в мир SCD и узнайте, как превратить изменения данных в мощный инструмент для анализа! Читать: https://habr.com/ru/articles/886918/ #ru @big_data_analysis | Другие наши каналы

2 748

От африканских саванн до индийских мегаполисов: как мы собрали уникальный датасет для обработки данных Казалось бы, стандартная задача: через крауд-платформу собрать фотографии и видео, где люди произносят цифры – легкий проект, который можно закрыть за пару недель. Но все это вылилось в десятки часов на чистку «мусорных» данных, видео, снятые в полной темноте, случайные TikTok-ролики вместо заданий и ситуации, где инструкции, кажется, читают единицы. Как мы превратили хаос в структурированный датасет? Какие решения помогли преодолеть барьеры (как культурные, так и технические)? Расскажем в этой статье. Читать: https://habr.com/ru/companies/data_light/articles/886788/ #ru @big_data_analysis | Другие наши каналы

2 748

Секреты Интервью по Системному Дизайну для Инженеров Данных Статья предлагает пошаговый подход к системному дизайну на собеседовании для инженеров данных. Узнайте, как эффективно собирать требования, проектировать модели данных, создавать конвейеры обработки данных и проверять качество данных. Подсказки помогут вам стать уверенным кандидатом на собеседованиях. Как избежать ошибок в обработке данных: советы и инструменты Статья рассказывает о передовых методах организации хранения данных и рекомендациях по эффективности работы пайплайнов. Важные темы включают в себя управление бэкафиллами, обеспечение пригодности данных и интеграцию CI/CD для предотвращения ошибок. Идеальные инструменты: Amundsen и DataHub. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 748

Как обеспечить стабильность метрик в вашем хранилище данных Проблема несогласованности метрик мешает аналитике. Решение: централизовать метрики в коде. Возможны два подхода: семантический слой для гибкости и своевременности или сразу подготовленные таблицы для простоты. Каждый метод имеет свои плюсы и минусы. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 748

Как превратить хаотичный SQL в удобный код Столкнулись с длинным SQL-кодом, который сложно поддерживать? Узнайте, как сделать его легким и модульным! Разбейте код на функции, протестируйте их и наслаждайтесь легко обновляемыми данными. Секреты структурирования качественного SQL ждут вас! Читать подробнее #en @big_data_analysis | Другие наши каналы