uz
Feedback
Data Analysis / Big Data

Data Analysis / Big Data

Kanalga Telegram’da o‘tish

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

Ko'proq ko'rsatish
2 748
Obunachilar
Ma'lumot yo'q24 soatlar
+37 kunlar
+1730 kunlar
Postlar arxiv
AI-тренер и AI-редактор. Полный гайд по профессии Представьте, что искусственный интеллект — это ребенок, который только начинает учиться говорить и понимать окружающий мир, а AI-тренеры, редакторы и асессоры — это учителя и наставники. Они помогают ему разобраться, как правильно отвечать на вопросы, избегать ошибок и становиться полезным помощником для людей. Но в чем разница между этими специальностями, какие карьерные перспективы для них существуют и какими качествами надо обладать, чтобы эффективно выполнять такую работу? Давайте разбираться. Читать: https://habr.com/ru/companies/data_light/articles/875998/ #ru @big_data_analysis | Другие наши каналы

Цифровая трансформация как основа непрерывного улучшения производства Всем привет! Сегодня в эфире – редкая тема, про IIoT. Команда промышленной аналитики и интернета вещей GlowByte обобщила и структурировала мысли о возможностях цифрового производства, которые, на их взгляд, раскрываются и развиваются одновременно при правильной организации цифровой трансформации производства и конфликтуют друг с другом – при неправильной. Читать: https://habr.com/ru/companies/glowbyte/articles/875744/ #ru @big_data_analysis | Другие наши каналы

Оценка систем LLM: основные метрики, бенчмарки и лучшие практики Оценка LLM-систем вручную — это утомительное, времязатратное и порой раздражающее занятие. Поэтому, если вам приходилось многократно прогонять набор промптов, чтобы вручную проверять каждый вывод LLM, вас обрадует, что эта статья научит вас всему необходимому для правильной оценки LLM и обеспечения долгосрочной эффективности вас и вашего приложения на основе LLM. Оценка LLM относится к процессу обеспечения соответствия выходных данных LLM человеческим ожиданиям, которые могут варьироваться от этических и безопасных соображений до более практических критериев, таких как правильность и релевантность выходных данных LLM. С инженерной точки зрения эти выходные данные LLM часто можно найти в форме тестовых кейсов, в то время как критерии оценки формализуются в виде метрик оценки LLM. На повестке дня: В чем разница между оценкой LLM и оценкой системы LLM, а также их преимущества Офлайн-оценки, что такое бенчмарки системы LLM, как создавать наборы данных для оценки и выбирать правильные метрики оценки LLM, а также распространенные ошибки Оценки в реальном времени и их польза для улучшения наборов данных для офлайн-оценок Реальные примеры использования систем LLM и как их оценивать, включая chatbotQA и Text-SQL Читать: https://habr.com/ru/articles/874538/ #ru @big_data_analysis | Другие наши каналы

Правда ли, что ленточные хранилища – самые надежные, и когда стоит покупать именно их, а не HDD Ленточные накопители сохраняют свою актуальность даже в эпоху SSD и облачных технологий. Благодаря высокой надежности, экономической эффективности и уникальным свойствам они остаются незаменимыми в решении задач архивного хранения и резервирования данных. В этой статье мы рассмотрим, почему ленточные хранилища превосходят HDD, изучим их ключевые преимущества и ограничения, а также определим сценарии использования, в которых они наиболее уместны. Читать: https://habr.com/ru/companies/x-com/articles/875280/ #ru @big_data_analysis | Другие наши каналы

Merger в YTsaurus: безболезненное объединение данных в статических таблицах Статические таблицы нужны, чтобы хранить в них неизменяемые данные. Это означает, что данные, записанные в статическую таблицу, нельзя модифицировать в произвольном месте — их можно либо перезаписать полностью, либо дополнить, сделав запись в конец таблицы. Основная боль при работе с такой таблицей возникает при росте количества хранимых в ней данных. Время чтения или записи возрастает пропорционально её объёму. Из‑за этого может настать момент, когда взаимодействовать с таблицей становится просто невозможно, и пользователям приходится придумывать ухищрения, чтобы справиться с этим. В этой статье мы разберём механизм мёрджа чанков с помощью мастер‑серверов, который мы реализовали для статических таблиц YTsaurus — нашей платформы распределённого хранения и обработки больших данных с открытым исходным кодом. Читать: https://habr.com/ru/companies/yandex/articles/874228/ #ru @big_data_analysis | Другие наши каналы

Как я захотел проверить родинку на меланому, а в результате создал бесплатное приложение Рак кожи, в частности меланома, – одна из самых опасных онкологических болезней. Ранняя диагностика значительно повышает шансы на успешное лечение. Но несмотря на это, большинство приложений, которые я нашел в PlayStore для анализа кожи оказались неожиданно громоздкими и дорогими. Казалось бы, что может быть проще формулы — нажми на кнопку, получишь результат? Вот и я так думал в поисках нужного приложения. Но, каждый раз приходилось заполнять профиль и анкеты только для того, чтобы оказаться перед экраном с реквизитами для оплаты. В итоге это вдохновило меня на создание бесплатного и простого в использовании приложения. Читать: https://habr.com/ru/articles/875154/ #ru @big_data_analysis | Другие наши каналы

Этика представления данных в примерах: как нами манипулируют Сейчас данные – новая нефть, этот тренд становится важным для принятия решений в компаниях. Зачем искажают данные? Обычно это делается, когда желаемое хотят выдать за действительное, представить что-то в выгодном свете, подтолкнуть к ошибочным выводам «на основе данных». Чаще такие искажения встречаются в презентациях, поскольку при использовании дашбордов пользователь, как правило, самостоятельно может углубиться в данные и перепроверить их, если возникают сомнения. Привет, Хабр! Меня зовут Андрей Машковцев, я — ведущий BI-аналитик в «Т-банке», эксперт Skillbox, веду телеграмм–канал «Лайфхаки в аналитике» и увлекаюсь бегом. Для закрытого комьюнити Skillbox Code Experts рассказал об этике визуализации данных. Как представлять данные этично и каким образом нами манипулируют с помощью графики. Основные мысли переложил в статью. Напомню, что в первой части статьи я рассказывал, как не нужно визуализировать данные и показал антипаттерны на примерах. В этой статье приведу примеры намеренного искажения данных при визуализации и научу их распознавать. Читать: https://habr.com/ru/articles/875050/ #ru @big_data_analysis | Другие наши каналы

На что способен Bard или случайные совпадения Предыстория. Если, ради уменьшения объема этой статьи и её чисто прикладного характера, не вдаваться в собственные разработки теории общего искусственного интеллекта и решения проблемы выравнивания (Возможно что об этом, с большими подробностями и в общих чертах, что, зачем, почем и как, будет в следующей статье. А забегая вперед скажу, что современные теоретические представления об общем/сильном ИИ, не основанные на интегративности и синергии будут иметь куда меньше общего, как с самой общностью, так и с силой и с самим интеллектом, в отличии от тех что исповедают такие подходы. Но и теории декларирующие обозначенные выше подходы могут так же не иметь потенциал), но в рамках которых и проходил описанный здесь эксперимент при непосредственном участии Барда, то началось всё с банального, а именно с тестирования возможностей современных ЛЛМ. Углубиться Читать: https://habr.com/ru/articles/874676/ #ru @big_data_analysis | Другие наши каналы

Планы и факты: работаем с денормализованной таблицей Привет, Хабр! В этой статье я хотел бы поговорить про особенности план-факт анализа, а также о работе с денормализованной таблицей, которая «была, есть и будет использоваться», потому что оказывается удобной для некоторых приемов работы с BI. Под катом вы найдете 7 примеров решения типовых задач план-факт анализа, включая расчет долей, отображение данных с учетом иерархии, разбивку по регионам и так далее. Всех, кому интересны эти практические аспекты, жду под катом :) Читать: https://habr.com/ru/companies/visiology/articles/874500/ #ru @big_data_analysis | Другие наши каналы

Инновационная Столица-2024: единый центр BI для всего ТК, социология будущего, оптимизация работы контролеров Привет! Я Ося разработчик. Сегодня я продолжу делиться проектами и решениями, представленными на нашем ярком мероприятии Инновационная Столица-2024. Единый центр BI для всего Транспортного комплекса Алина, руководитель отдела визуализации данных ИЦ, представила преимущества использования дашбордов для упрощения отчетности и принятия решений. Спикер отметила, что на сегодняшний день многие организации сталкиваются с трудностями при сборе отчетов из различных подразделений. Она выделила операционные сложности процессов, такие как разнообразие форматов отчетности, ошибки, фальсификации данных и длительное время, необходимое для подготовки информации. Все это приводит к путанице и замедляет процесс принятия решений. В качестве решения Алина рассказала о проекте перехода к автоматизированной отчетности, который позволит значительно упростить и ускорить обработку данных, -  создание единого центра сбора и обработки данных на базе Инновационного центра, а также центра BI для всего Транспортного комплекса. Технические особенности проекта презентовала ее коллега Александра, руководитель отдела системной аналитики. Читать: https://habr.com/ru/articles/874448/ #ru @big_data_analysis | Другие наши каналы

Киберэкономика. Пределы роста В современном мире цифровая киберэкономика становится неотъемлемой частью глобальной экономики, трансформируя способы ведения бизнеса, взаимодействия и обмена информацией. С развитием технологий, таких как искусственный интеллект и нейросети, открываются новые горизонты для инноваций и оптимизации процессов. Однако с этими возможностями приходят и серьезные вызовы, среди которых одной из наиболее актуальных проблем является фальсификация цифровой информации. Нейросети, обладая способностью генерировать убедительные тексты, изображения и даже видео, которые с каждым днем становятся все более реалистичными даже для экспертов, ставят под угрозу достоверность данных, доверие к цифровым ресурсам и репутацию лиц, принимающих решения. Читать: https://habr.com/ru/articles/874440/ #ru @big_data_analysis | Другие наши каналы

СОЗДАНИЕ ETL-ДВИЖКА ДЛЯ РЕПЛИКАЦИИ ДАННЫХ ИЗ APACHE HIVE В CLICKHOUSE Представлено создание ETL-движка, который помогает автоматически извлекать, преобразовывать и загружать данные из разных источников. Мы сосредоточились на разработке быстрого инструмента, который использует параллельную обработку и оптимизированные алгоритмы. Результаты тестирования показывают, что движок эффективно справляется с большими объемами данных, что помогает лучше анализировать информацию и принимать обоснованные бизнес-решения. Читать: https://habr.com/ru/articles/874262/ #ru @big_data_analysis | Другие наши каналы

Путь к миру без страданий: как оформить исследовательский проект Всем привет. Меня зовут Владислав Козлов, я тимлид аналитиков в кластере Антифрод в Авито. В этой статье я поделюсь опытом оформления исследовательских проектов, который помогает сохранять свое и чужое душевное равновесие. Читать: https://habr.com/ru/companies/avito/articles/873856/ #ru @big_data_analysis | Другие наши каналы

Data-driven культура и подход по версии аналитика Привет! Я работаю в аналитике и с данными уже 13+ лет. Про data-driven от заказчиков-пользователей трудов моей работы слышу тоже, почти 13+ лет. И очень разные интерпретации этого явления встречал. Думаю, что я один из тех, чья трудовая деятельность ближе всего к data-driven. Хочу рассказать о том, какой data-driven = хорошо, а какой != хорошо. Эта статья может быть полезна как управленцам, так и аналитикам. Давайте говорить на "одном языке".) != хорошо Это когда PM, PO, CIO и даже CTO, роли, задачи которых развивать бизнес (дальше буду называть эти роли "бизнесом"), не используют в работе цифры, полагаясь на экспертные мнения или оценки. При этом цифры могут быть и использоваться для чего-то ещё. Например, для того, чтобы косвенно отслеживать работоспособность продукта - тоже неплохой вариант для аналитики, но, думаю, лучше работать с повышением качества тестирования продукта. Индикаторы того, что вы работаете в компании с плохим вариантом интерпретации data-driven: Читать: https://habr.com/ru/articles/874206/ #ru @big_data_analysis | Другие наши каналы

Эконометрика в ритейле: как не потратить миллионы на заведомо неэффективные эксперименты Всем привет! На связи команда ad-hoc аналитики X5 Tech. Если вы уже знакомы с нашими статьями, то наверняка знаете, что нашей ключевой темой является А/Б тестирование. Важной составляющей А/Б теста является дизайн: для успешного проведения эксперимента необходимо оценить размер пилотной и контрольной групп, зафиксировав предварительно ожидаемый эффект. Но возникает вопрос: как убедиться в обоснованности гипотезы и рассчитать ожидаемые эффекты от инициативы? В статье мы рассмотрим ключевые понятия из эконометрики, такие как коинтеграция и модель коррекции ошибок, и продемонстрируем их применение на ретроспективных данных. Мы подробно разберём, как использовать эти инструменты для анализа взаимосвязей между временными рядами. В качестве практического примера с помощью функции импульсного отклика мы проведём количественную оценку ожидаемого влияния повышения комплектности персонала на списания на выбранном кейсе. Читать: https://habr.com/ru/companies/X5Tech/articles/874190/ #ru @big_data_analysis | Другие наши каналы

Подходы к архитектуре и принципам проектирования хранилищ данных Многомерная схема специально разработана для моделирования систем хранилищ данных. Схемы предназначены для удовлетворения уникальных потребностей очень больших баз данных, разработанных для аналитических целей OLAP. Читать: https://habr.com/ru/articles/874086/ #ru @big_data_analysis | Другие наши каналы

Метрики оценки LLM: полное руководство по оценке LLM Независимо от того, улучшаете ли вы точность модели путем дообучения или улучшаете контекстную релевантность системы генерации с дополненной выборкой (RAG), понимание того, как разрабатывать и выбирать подходящий набор метрик оценки LLM для вашего варианта использования, является обязательным для построения надежного конвейера оценки LLM. В этой статье вы научитесь всему, что нужно знать о метриках оценки LLM, включая примеры кода. Мы рассмотрим следующие вопросы: Что такое метрики оценки LLM, как их можно использовать для оценки систем LLM, а также распространенные ошибки и что делает метрики отличными. Различные методы вычисления метрик оценки LLM и почему подход LLM-as-a-judge («LLM как судья») является наиболее эффективным. Как реализовать и выбрать подходящий набор метрик оценки LLM с использованием библиотеки DeepEval (GitHub: DeepEval). Читать: https://habr.com/ru/articles/873332/ #ru @big_data_analysis | Другие наши каналы

Как настроить Rclone для работы с OCI и Hadoop Хотите узнать, как эффективно использовать Rclone для передачи данных в OCI Object Storage и Hadoop Distributed File System? В статье рассматриваются ключевые шаги по настройке и конфигурации, которые помогут вам быстро справиться с этой задачей. Читать подробнее #en @big_data_analysis | Другие наши каналы

Отслеживание использования в Fusion Analytics Пост: Статья демонстрирует, как эффективно использовать отслеживание данных в Fusion Analytics. Узнайте о возможностях предметной области и загрузите рабочую книгу для применения в любой инстанции Fusion Analytics. Читать подробнее #en @big_data_analysis | Другие наши каналы

Новогодние обновления в Oracle Analytics Cloud Oracle Analytics Cloud в январе 2025 года получает обновления: улучшен ИИ-анализ, расширено моделирование данных, ускорен импорт данных, добавлены новые возможности для дашбордов и улучшены инструменты для совместной работы. Узнайте больше о возможностях аналитики нового уровня! Читать подробнее #en @big_data_analysis | Другие наши каналы