Data Analysis / Big Data
Kanalga Telegram’da o‘tish
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels
Ko'proq ko'rsatish2 747
Obunachilar
-424 soatlar
-27 kunlar
+1230 kunlar
Postlar arxiv
Руководство для начинающих по оценке конвейеров RAG с использованием RAGAS
В постоянно развивающемся мире машинного обучения и искусственного интеллекта разработка приложений языковых моделей, в частности систем генерации дополненного извлечения (RAG), становится все более сложной. Однако настоящая проблема возникает не во время первоначального создания, а при постоянном обслуживании и улучшении этих приложений. Именно здесь в игру вступает RAGAS — оценочная библиотека, предназначенная для предоставления метрик для конвейеров RAG. В этой статье мы рассмотрим библиотеку RAGAS и научим вас использовать ее для оценки конвейеров RAG.
Читать: https://habr.com/ru/articles/863902/
#ru
@big_data_analysis | Другие наши каналы
Как TF-IDF обошел SOTA-модель BERT4Rec в персональных рекомендациях
Привет, меня зовут Коновалов Андрей, я Data Scientist персональных рекомендаций Wildberries. В этой статье разберем, как можно тюнингом TF-IDF побить BERT4Rec в ретро-тесте рекомендательной системы.
Читать: https://habr.com/ru/companies/wildberries/articles/861466/
#ru
@big_data_analysis | Другие наши каналы
Как должен выглядеть идеальный GitHub для поиска работы
Сколько раз вы слышали совет: "Укажи GitHub в резюме для поиска работы"?
Многие думают, что просто создать аккаунт и запушить пару репозиториев будет достаточно, чтобы работодатели будут выстраиваться в очередь. Но на самом деле это совсем не так.
Сегодня мы разберёмся, почему пустой GitHub не только не помогает в поиске работы, но и может навредить вашим карьерным перспективам.
Читать: https://habr.com/ru/articles/863238/
#ru
@big_data_analysis | Другие наши каналы
Пора перестать в любой непонятной ситуации строить DWH для аналитики
Привет!
Кажется, первая статья нашла своего благодарного читателя.Снова мысли от CDO трудящегося вместе с одной небольшой компанией ру-сегмента.
Продолжу о том, что "наболело".
Эта статья может быть Вам полезна, если консалтинг/интегратор/CTO/CIO/сын маминой подруги настойчиво хочет решить все Ваши "проблемы" в аналитике классным корпоративным хранилищем, далее - DWH.
Читать: https://habr.com/ru/articles/863308/
#ru
@big_data_analysis | Другие наши каналы
Задача прогнозирования дохода клиента, или Как избавиться от неприличных вопросов в заявке
Спрашивать о зарплате — неприличный вопрос. Конечно, если вас не спросили об этом на Патриках 🙂. Прогнозирование доходов клиентов — это одна из ключевых задач, стоящих перед современными финансовыми учреждениями. Оно не просто помогает в оптимизации внутренних процессов, но и играет важную роль в улучшении клиентского опыта. Поэтому, даже если бы мы были на Патриках, то не доверяли бы утверждениям из уст опрашиваемых.
Для этого у нас есть модели.
Читать: https://habr.com/ru/companies/alfa/articles/862118/
#ru
@big_data_analysis | Другие наши каналы
Безграничная расширяемость: как экосистема плагинов помогает Trino работать в любом аналитическом ландшафте
"Trino — это PostgreSQL для аналитики" — нескромно охарактеризовали Trino в одном из блогов. Я не люблю кликбейтные заголовки, но эта фраза действительно емко описывает одну из самых сильных сторон Trino — расширяемость.
В этом блоге я расскажу, как устроены плагины Trino — строительные блоки, которые позволяют гибко адаптировать возможности продукта под потребности современных аналитических платформ.
Читать: https://habr.com/ru/companies/cedrusdata/articles/863600/
#ru
@big_data_analysis | Другие наши каналы
Neural OCR как способ использования нейронных сетей при распознавании рукописных символов
Прогресс в машинном обучении и компьютерном зрении изменил подходы к оптическому распознаванию символов (OCR), обеспечив высокую точность оцифровки документов. Однако современные сверточные нейронные сети (CNN), используемые в большинстве OCR‑систем, сталкиваются с нехваткой качественных тренировочных данных. Эта проблема особенно затрагивает языки с ограниченными ресурсами, что создает трудности в разработке надежных систем распознавания текста. Ограниченные обучающие наборы часто снижают точность и устойчивость моделей при работе с различными форматами документов, нестандартными шрифтами и изображениями низкого качества.
Поэтому необходимо разрабатывать новые модели OCR, которые могут эффективно распознавать текст даже при недостатке данных. Такие модели должны быть гибкими и адаптивными, чтобы успешно обрабатывать документы разных стилей и форматов, а также оставаться устойчивыми к шумам и искажениям. Важно найти методы, которые обеспечат высокую точность распознавания независимо от объема обучающей выборки, что откроет возможности для применения OCR в многоязычных и многоформатных контекстах.
Исследования по улучшению эффективности и универсальности систем OCR имеют большое значение для повышения качества распознавания текста в разных условиях. В таких работах рассматриваются перспективные подходы, такие как аугментация данных, трансферное обучение и специализированные архитектуры нейронных сетей, адаптированные для работы с ограниченными данными. Эти исследования могут привести к созданию более совершенных и доступных систем OCR, что расширит их практическое применение. Улучшение качества распознавания текста позволит автоматизировать процессы обработки информации в бизнесе, образовании, архивировании, научных исследованиях и других областях, способствуя более эффективному взаимодействию с текстовыми данными в цифровую эпоху.
Читать: https://habr.com/ru/articles/863644/
#ru
@big_data_analysis | Другие наши каналы
Сравнение платформ для аналитики данных
Что общего у Snowflake, Databricks, Redshift и BigQuery? Эти платформы позволяют обрабатывать и хранить большие объемы данных, предлагая уникальные преимущества и различные уровни поддержки языков программирования. Как выбрать подходящую платформу и что нужно учитывать? Основные аспекты их сравнения помогут вам понять, какая из них лучше соответствует вашим задачам и требованиям. Платформы для аналитики данных: что выбрать?
Основываясь на статье, обсуждаются различия между платформами для аналитики данных, такими как Snowflake и Spark. Отмечается, что такие системы, как Snowflake, легче настроить, но Spark предлагает больше контроля. Выбор зависит от требований к функциям и не должен основываться только на маркетинге.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Оценка приложений RAG с помощью RAGA
Фреймворк с метриками и данными, сгенерированными LLM, для оценки производительности конвейера с дополненной генерацией данных.
Читать: https://habr.com/ru/articles/861792/
#ru
@big_data_analysis | Другие наши каналы
Python в Data Science: топовые библиотеки и фреймворки, которые будут популярны в 2025
Python в Data Science. Показываем основные библиотеки и фреймворки, которые будут популярны в 2025. Рассматриваем преимущества и недостатки ✔ Tproger
Читать: «Python в Data Science: топовые библиотеки и фреймворки, которые будут популярны в 2025»
#ru
@big_data_analysis | Другие наши каналы
Python в Data Science: топовые библиотеки и фреймворки, которые будут популярны в 2025
Python в Data Science. Показываем основные библиотеки и фреймворки, которые будут популярны в 2025. Рассматриваем преимущества и недостатки ✔ Tproger
Читать: «Python в Data Science: топовые библиотеки и фреймворки, которые будут популярны в 2025»
#ru
@big_data_analysis | Другие наши каналы
Применение методов машинного обучения для анализа цен на вторичное жильё в Липецке
📊 Применение методов машинного обучения для проведения кластерного анализа по стоимости квартир на вторичном рынке недвижимости города Липецка.
Читать: https://habr.com/ru/articles/863168/
#ru
@big_data_analysis | Другие наши каналы
Суперсилы Виталика: на что способен ViTalk GPT
Привет, Хабр! Область Business Intelligence — одна из наиболее “интеллектуальных” по определению, и в аналитической работе в некоторых задачах особенно удобно использовать искусственный интеллект. Поэтому мы сегодня поговорим про чат-бота ViTalk GPT, который в некоторых задачах помогает очень быстро найти правильный ответ на поставленные вопросы, а иногда — даже скорректировать свой же вопрос с учетом возможностей платформы Visiology. В этой статье мы коснемся сильных и слабых сторон AI, проверим, смогут ли два слона поставить мат королю, и оценим сферу применения ViTalk GPT для аналитиков, разработчиков и даже бизнес-пользователей.
AI помогает делать многое, но при работе с современными сервисами часто возникают технические трудности — платная подписка, необходимость подключать VPN, потребность постоянно напоминать AI контекст предметной области и т.д. К счастью, для аналитики в DAX доступен бесплатный чат-бот ViTalk, который способен решать множество важных задач без лишних танцев с бубном.
Читать: https://habr.com/ru/companies/visiology/articles/863144/
#ru
@big_data_analysis | Другие наши каналы
Интеграция Salesforce с Fusion Data Integration
Текст поста: Узнайте, как интегрировать Salesforce с Fusion Data Integration для доступа к данным аналитики кампаний и CRM. В статье описаны этапы настройки, тестирования и активации соединения, а также конфигурации параметров и проверки данных.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Создание пользовательских объектов в Fusion Applications
Хотите узнать, как создавать пользовательские объекты в Fusion Applications и улучшать их с помощью FDI? В статье подробно описан пошаговый процесс и приведён пример из реальной практики, показывающий, как применить эти знания на практике.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Создайте бар-чарт с D3.js!
В статье рассказано, как использовать D3.js для создания простой визуализации данных с помощью HTML-бар-чарта. Узнайте, как отобразить связь между числовыми и категориальными данными на основе примера с жестко закодированными данными.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Генерация дополненного извлечения (RAG): от теории к реализации LangChain
От теории из оригинальной академической статьи до ее реализации на Python с OpenAI, Weaviate и LangChain
Читать: https://habr.com/ru/articles/862870/
#ru
@big_data_analysis | Другие наши каналы
Что за распределение у выборочных квантилей?
Все знают про распределение выборочного среднего (его описывает Центральная предельная теорема), а что насчет выборочных квантилей?
В заметке я расскажу, как и зачем приближать распределения выборочных квантилей из данных с типичными распределениями: равномерное, экспоненциальное и нормальное, а также когда и какое приближение стоит использовать.
Читать: https://habr.com/ru/articles/862874/
#ru
@big_data_analysis | Другие наши каналы
Миф о чистых данных: почему ваш аналитик похож на сапёра
Миф о чистых данных: почему ваш аналитик похож на сапёра.
Как бороться с самым частым убеждением при работе с данными.
Читать: https://habr.com/ru/articles/862772/
#ru
@big_data_analysis | Другие наши каналы
Как организовать разметку данных для ML? Советы от Data Light
За каждым «умным» решением, которое принимает ИИ, стоят огромные объемы данных, тщательно размеченные и подготовленные для обучения. Но как организовать этот процесс так, чтобы модель работала эффективно? Мы в Data Light считаем, что это искусство, требующее правильного подхода, инструментов и стратегии.
Организация самого процесса разметки зависит от многих факторов: целей проекта, объемов данных, требуемой точности и доступных ресурсов. В этой статье мы рассмотрим основные методики и инструменты для организации разметки данных с нашими экспертами:
Дмитрий Рогальский, Special Projects Group Manager в Data Light
Алексей Корнилов, Moderation Group Manager в Data Light
Читать: https://habr.com/ru/companies/data_light/articles/862464/
#ru
@big_data_analysis | Другие наши каналы
Endi mavjud! Telegram Tadqiqoti 2025 — yilning asosiy insaytlari 
