Data Analysis / Big Data

Ir al canal en Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

Red:Типичный программист Rusia176 908 Tecnologías y Aplicaciones26 757

2 748

Suscriptores

Sin datos24 horas

+37 días

+1730 días

662

Visitas de la publicación

Sin datos24 horas

Sin datos48 horas

24.06%

Tasa de compromiso

Sin datos

Mensajes por día

Ads index

beta

Archivo de publicaciones

2 747

Удивительный мир хакатонов: как я придумал для студентов задачку и что они с ней натворили Привет, Хабр! Меня зовут Владимир Казаков, я руковожу продуктом «Обучение» в МТС Линк. А еще я с удовольствием помогаю организовывать и проводить хакатоны — это всегда десятки свежих идей, передающийся от участников драйв, новые контакты и море опыта для будущих разработчиков. Полгода назад в наш рабочий чат внезапно прилетело сообщение: «Ребят, срочно! МИФИ организуют хакатон, нужна задача, желательно отправить сегодня!». Вызов был принят, и мы подготовили задание по работе с большими данными. В этом посте расскажу, чем студенты могут удивить разработчика с 15-летним стажем, в чем их сильные стороны, а что еще надо подтянуть. Читать: https://habr.com/ru/companies/ru_mts/articles/879600/ #ru @big_data_analysis | Другие наши каналы

2 747

От комиксов до нейросетей: 5 книг, которые помогут начинающему Data Scientist'у Привет! Меня зовут Марк Паненко. Я Chief Data Science в Ozon Банке и большой любитель технической литературы. Этой статьёй я хочу открыть серию публикаций, в которых поделюсь лучшими, на мой взгляд, книгами, необходимыми Data Scientist-у на разных этапах его профессионального развития. Дисклеймер: эта публикация написана на основе одного из выпусков моего подкаста — если хочется получше погрузиться в тему, приятного прослушивания. Почему книги? И при чем тут комиксы? Когда я начинал свой путь в Data Science, мне казалось, что все вокруг уже разобрались в моделировании и работе с данными, и лишь я отстаю. Спасение пришло неожиданно — в виде комиксов. Да-да, вы не ослышались. Однажды я наткнулся на книгу Ларри Гоника «Статистика. Краткий курс в комиксах», и это изменило всё. С тех пор я убедился: хорошая книга — это не просто источник знаний, а тренажёр для мышления. Она помогает не утонуть в абстракциях и сохранить интерес к профессии. Сегодня я расскажу о пяти книгах, которые станут вашим «спасательным кругом» на старте. Читать: https://habr.com/ru/companies/ozonbank/articles/879798/ #ru @big_data_analysis | Другие наши каналы

2 747

Как настроить интеграцию между Great Expectations и Impala для работы с большими данными Рассказываем, как мы заставили GX подружиться с Impala. Читать: «Как настроить интеграцию между Great Expectations и Impala для работы с большими данными» #ru @big_data_analysis | Другие наши каналы

2 747

Оценка систем больших языковых моделей (LLM): метрики, проблемы и лучшие практики В последнее время разработка и развертывание больших языковых моделей (LLM) стали ключевыми в формировании интеллектуальных приложений в различных областях. Но реализация этого потенциала требует строгого и систематического процесса оценки. Прежде чем углубляться в метрики и вызовы, связанные с оценкой LLM-систем, стоит задуматься: не сводится ли ваш процесс оценки к бесконечному циклу запуска LLM-приложений на наборе промптов, ручному анализу выходных данных и субъективной оценке их качества? Если да, то пора осознать, что оценка — это не разовая процедура, а многоэтапный итеративный процесс, оказывающий значительное влияние на производительность и жизненный цикл вашей LLM-системы. С развитием LLMOps (расширения MLOps, адаптированного для больших языковых моделей) интеграция процессов CI/CE/CD (непрерывная интеграция, непрерывная оценка и непрерывное развертывание) становится неотъемлемой частью управления жизненным циклом LLM-приложений. Итеративный характер оценки включает в себя несколько ключевых компонентов. Во-первых, необходимо постоянно обновлять и улучшать тестовый датасет. Во-вторых, важно выбирать и внедрять метрики оценки, наиболее подходящие для конкретного сценария использования. Наконец, надежная инфраструктура оценки позволяет проводить тестирование в реальном времени на протяжении всего жизненного цикла LLM-приложения. Крайне важно признать значимость оценки как непрерывного и динамического процесса. Это компас, помогающий разработчикам и исследователям совершенствовать и оптимизировать LLM для повышения производительности и практического применения. Читать: https://habr.com/ru/articles/878480/ #ru @big_data_analysis | Другие наши каналы

2 747

Мнение GlowByte: чем можно импортозаместить CPM и надо ли это делать Всем привет! Это снова мы – направление FI (Financial Intelligence) компании GlowByte. В прошлой статье мы обещали рассказать про отечественные решения класса CPM. Сегодня мы расскажем, почему, на наш взгляд, сейчас лучшее время для внедрения российского софта, а также опишем основные требования заказчиков к подобным платформам. Читать: https://habr.com/ru/companies/glowbyte/articles/879172/ #ru @big_data_analysis | Другие наши каналы

2 747

Мнение GlowByte: чем можно импортозаместить CPM и надо ли это делать Всем привет! Это снова мы – направление FI (Financial Intelligence) компании GlowByte. В прошлой статье мы обещали рассказать про отечественные решения класса CPM. Сегодня мы расскажем, почему, на наш взгляд, сейчас лучшее время для внедрения российского софта, а также опишем основные требования заказчиков к подобным платформам. Читать: https://habr.com/ru/companies/glowbyte/articles/879170/ #ru @big_data_analysis | Другие наши каналы

2 747

Анализ инкрементных данных в лаборатории данных Узнайте о возможном решении для анализа инкрементных данных, загружаемых через пайплайны. Статья предлагает методики, которые помогут максимально эффективно работать с постоянно обновляющимися информационными потоками и улучшить качество анализа данных. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 747

🔍 Безопасный доступ к данным: решение от Fusion Data Intelligence Fusion Data Intelligence предупреждает о рисках общей учётной записи OAX_USER для администраторов. Статья предлагает простой метод создания пользовательской схемы для безопасного доступа ко всем таблицам хранилища данных. Узнайте, как защитить свои данные! Читать подробнее #en @big_data_analysis | Другие наши каналы

2 747

Создание дашбордов в Fusion Analytics Пост: Узнайте, как пользователи Fusion Analytics могут самостоятельно создавать дашборды для управления метаданными в автономном хранилище данных. Статья объясняет процесс настройки и использования инструментов для эффективной визуализации данных. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 747

Как создать тепловые карты ADW Тепловые карты ADW — мощный инструмент для визуализации данных. В статье рассказывается, как их правильно генерировать и использовать для анализа. Узнайте больше о ключевых шагах в создании этих карт и начните применять их в своих проектах. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 747

Визуализация связей с помощью диаграмм Венна В статье представлено уникальное расширение для работы с диаграммами Венна. Оно позволяет наглядно отображать логические связи посредством кругов, где пересечения визуализируют общие элементы. Узнайте, как упрощать сложные концепции с помощью этого инструмента. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 747

Запускаем локально Deepseek-R1 для приложения RAG Как запустить DeepSeek локально и использовать её для поиска по документации? Разбираем ключевые особенности модели, её преимущества перед ChatGPT, влияние на рынок и применение технологии RAG. Читать: «Запускаем локально Deepseek-R1 для приложения RAG» #ru @big_data_analysis | Другие наши каналы

2 747

🎓 Прокачайте SQL-навыки: советы и приемы для инженеров данных Изучите 25 советов по улучшению работы с SQL! Узнайте, как использовать QUALIFY для фильтрации без подзапросов, создавать динамические SQL с Python и применять CUBE для аналитики данных. Откройте для себя эффективные техники работы с таблицами и сделайте ваши запросы мощнее. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 747

Что делают Snowflake, Databricks, Redshift и BigQuery? Статья объясняет различия между Snowflake, Databricks, Redshift и BigQuery — аналитическими платформами для обработки больших данных. Каждая из них обладает собственными преимуществами в использовании SQL, управлении данными и обеспечении производительности вычислений. Узнайте, какая платформа лучше подходит для ваших задач. 🔍 Управление и оптимизация платформ данных Статья подробно описывает, как управлять и оптимизировать платформы данных, такие как Snowflake и BigQuery. Вы узнаете о принципах ценообразования, важности управления данными и роли маркетинга в выборе платформы. Каждый шаг требует тщательной настройки для максимальной эффективности. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 747

Использование seed данных в разных dbt проектах Как применять seed данные из одного dbt проекта в другом? Статья рассказывает о создании и использовании пакетов в dbt для кросс-проектного обмена данными. Узнайте, как настраивать зависимости и хранить данные в вашем хранилище или в локальной файловой системе. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 747

Системное проектирование в интервью для дата-инженеров: как подготовиться Столкнулись с трудностями при подготовке к интервью по системному проектированию в дата-инженерии? Эта статья поможет вам систематизировать подход: от сбора требований до проектирования потока данных и обеспечения качества. Узнайте, как уверенно вести интервьюера и задавать правильные вопросы для достижения успеха. Эффективное хранение данных: советы и рекомендации Оптимизация хранения данных - важный аспект в работе с большими объемами информации. В статье обсуждаются ключевые моменты: выбор размера файлов для параллельной обработки, преимущество формата Parquet и использование метаданных для отката неудачных записей. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 747

Как избежать проблем с метриками в вашем хранилище данных Столкнулись с несоответствием метрик в компании? Проблема возникает, когда разные команды определяют их по-разному, что приводит к путанице. Решение: централизуйте определения метрик в коде. Используйте семантический слой для гибких запросов или заранее агрегированные таблицы для упрощения. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 747

Приключение по перереносу аналитики из Oracle в Iceberg Мы начали с простой цели: разобраться в небольших операционных данных из нашей среды Oracle E-Business Suite (OEBS). Сначала всё казалось несложным. У нас был классический data warehouse: пакетная обработка, массовые загрузки и привычная реляционная СУБД. Но по мере того как мы углублялись в проект, казалось бы рутинная задача превратилась в исследование и эксперименты с неожиданными поворотами и поиском чего-то действительно универсального. Читать: https://habr.com/ru/articles/878764/ #ru @big_data_analysis | Другие наши каналы

2 747

У SAMURAI есть цель — zero-shot решение задачи Visual Object Tracking(VOT) Визуальный трекинг объектов без обучения – сложная задача, особенно в динамических сценах. Новый метод SAMURAI расширяет возможности SAM-2, интегрируя механизмы моделирования движения и улучшая архитектуру памяти. SAMURAI использует фильтр Калмана для моделирования движения и стабилизации предсказаний, что позволяет значительно повысить точность трекинга в сложных условиях. Метод превосходит существующие zero-shot методы и демонстрирует конкурентоспособные результаты по сравнению с обучаемыми моделями. Подробнее об архитектуре SAMURAI Читать: https://habr.com/ru/articles/878538/ #ru @big_data_analysis | Другие наши каналы

2 747

Векторизация текста в NLP: от слов к числам Перед началом работы с NLP-моделями текст нужно преобразовать в понятный модели вид. Этот процесс называется векторизацией, и без него невозможно представить современный NLP. По сути, мы превращаем слова, предложения или целые документы в векторы — наборы чисел, которые отражают определенные характеристики текста. Рассказываем о векторизации подробнее вместе с экспертом. Читать: https://habr.com/ru/companies/skillfactory/articles/878112/ #ru @big_data_analysis | Другие наши каналы