Data Analysis / Big Data

Kanalga Telegram’da o‘tish

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

Ko'proq ko'rsatish

Tarmoq:Типичный программист Rossiya176 842 Texnologiyalar & Aralashmalar26 716

2 747

Obunachilar

-424 soatlar

-27 kunlar

+1230 kunlar

662

Post ko'rishlar

Ma'lumot yo'q24 soatlar

Ma'lumot yo'q48 soatlar

24.10%

Muloqot nisbati

Ma'lumot yo'q

Kuniga postlar

Ads index

beta

Postlar arxiv

2 747

Руководство для начинающих по оценке конвейеров RAG с использованием RAGAS В постоянно развивающемся мире машинного обучения и искусственного интеллекта разработка приложений языковых моделей, в частности систем генерации дополненного извлечения (RAG), становится все более сложной. Однако настоящая проблема возникает не во время первоначального создания, а при постоянном обслуживании и улучшении этих приложений. Именно здесь в игру вступает RAGAS — оценочная библиотека, предназначенная для предоставления метрик для конвейеров RAG. В этой статье мы рассмотрим библиотеку RAGAS и научим вас использовать ее для оценки конвейеров RAG. Читать: https://habr.com/ru/articles/863902/ #ru @big_data_analysis | Другие наши каналы

2 747

Как TF-IDF обошел SOTA-модель BERT4Rec в персональных рекомендациях Привет, меня зовут Коновалов Андрей, я Data Scientist персональных рекомендаций Wildberries. В этой статье разберем, как можно тюнингом TF-IDF побить BERT4Rec в ретро-тесте рекомендательной системы. Читать: https://habr.com/ru/companies/wildberries/articles/861466/ #ru @big_data_analysis | Другие наши каналы

2 747

Как должен выглядеть идеальный GitHub для поиска работы Сколько раз вы слышали совет: "Укажи GitHub в резюме для поиска работы"? Многие думают, что просто создать аккаунт и запушить пару репозиториев будет достаточно, чтобы работодатели будут выстраиваться в очередь. Но на самом деле это совсем не так. Сегодня мы разберёмся, почему пустой GitHub не только не помогает в поиске работы, но и может навредить вашим карьерным перспективам. Читать: https://habr.com/ru/articles/863238/ #ru @big_data_analysis | Другие наши каналы

2 747

Пора перестать в любой непонятной ситуации строить DWH для аналитики Привет! Кажется, первая статья нашла своего благодарного читателя.Снова мысли от CDO трудящегося вместе с одной небольшой компанией ру-сегмента. Продолжу о том, что "наболело". Эта статья может быть Вам полезна, если консалтинг/интегратор/CTO/CIO/сын маминой подруги настойчиво хочет решить все Ваши "проблемы" в аналитике классным корпоративным хранилищем, далее - DWH. Читать: https://habr.com/ru/articles/863308/ #ru @big_data_analysis | Другие наши каналы

2 747

Задача прогнозирования дохода клиента, или Как избавиться от неприличных вопросов в заявке Спрашивать о зарплате — неприличный вопрос. Конечно, если вас не спросили об этом на Патриках 🙂. Прогнозирование доходов клиентов — это одна из ключевых задач, стоящих перед современными финансовыми учреждениями. Оно не просто помогает в оптимизации внутренних процессов, но и играет важную роль в улучшении клиентского опыта. Поэтому, даже если бы мы были на Патриках, то не доверяли бы утверждениям из уст опрашиваемых. Для этого у нас есть модели. Читать: https://habr.com/ru/companies/alfa/articles/862118/ #ru @big_data_analysis | Другие наши каналы

2 747

Безграничная расширяемость: как экосистема плагинов помогает Trino работать в любом аналитическом ландшафте "Trino — это PostgreSQL для аналитики" — нескромно охарактеризовали Trino в одном из блогов. Я не люблю кликбейтные заголовки, но эта фраза действительно емко описывает одну из самых сильных сторон Trino — расширяемость. В этом блоге я расскажу, как устроены плагины Trino — строительные блоки, которые позволяют гибко адаптировать возможности продукта под потребности современных аналитических платформ. Читать: https://habr.com/ru/companies/cedrusdata/articles/863600/ #ru @big_data_analysis | Другие наши каналы

2 747

Neural OCR как способ использования нейронных сетей при распознавании рукописных символов Прогресс в машинном обучении и компьютерном зрении изменил подходы к оптическому распознаванию символов (OCR), обеспечив высокую точность оцифровки документов. Однако современные сверточные нейронные сети (CNN), используемые в большинстве OCR‑систем, сталкиваются с нехваткой качественных тренировочных данных. Эта проблема особенно затрагивает языки с ограниченными ресурсами, что создает трудности в разработке надежных систем распознавания текста. Ограниченные обучающие наборы часто снижают точность и устойчивость моделей при работе с различными форматами документов, нестандартными шрифтами и изображениями низкого качества. Поэтому необходимо разрабатывать новые модели OCR, которые могут эффективно распознавать текст даже при недостатке данных. Такие модели должны быть гибкими и адаптивными, чтобы успешно обрабатывать документы разных стилей и форматов, а также оставаться устойчивыми к шумам и искажениям. Важно найти методы, которые обеспечат высокую точность распознавания независимо от объема обучающей выборки, что откроет возможности для применения OCR в многоязычных и многоформатных контекстах. Исследования по улучшению эффективности и универсальности систем OCR имеют большое значение для повышения качества распознавания текста в разных условиях. В таких работах рассматриваются перспективные подходы, такие как аугментация данных, трансферное обучение и специализированные архитектуры нейронных сетей, адаптированные для работы с ограниченными данными. Эти исследования могут привести к созданию более совершенных и доступных систем OCR, что расширит их практическое применение. Улучшение качества распознавания текста позволит автоматизировать процессы обработки информации в бизнесе, образовании, архивировании, научных исследованиях и других областях, способствуя более эффективному взаимодействию с текстовыми данными в цифровую эпоху. Читать: https://habr.com/ru/articles/863644/ #ru @big_data_analysis | Другие наши каналы

2 747

Сравнение платформ для аналитики данных Что общего у Snowflake, Databricks, Redshift и BigQuery? Эти платформы позволяют обрабатывать и хранить большие объемы данных, предлагая уникальные преимущества и различные уровни поддержки языков программирования. Как выбрать подходящую платформу и что нужно учитывать? Основные аспекты их сравнения помогут вам понять, какая из них лучше соответствует вашим задачам и требованиям. Платформы для аналитики данных: что выбрать? Основываясь на статье, обсуждаются различия между платформами для аналитики данных, такими как Snowflake и Spark. Отмечается, что такие системы, как Snowflake, легче настроить, но Spark предлагает больше контроля. Выбор зависит от требований к функциям и не должен основываться только на маркетинге. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 747

Оценка приложений RAG с помощью RAGA Фреймворк с метриками и данными, сгенерированными LLM, для оценки производительности конвейера с дополненной генерацией данных. Читать: https://habr.com/ru/articles/861792/ #ru @big_data_analysis | Другие наши каналы

2 747

Python в Data Science: топовые библиотеки и фреймворки, которые будут популярны в 2025 Python в Data Science. Показываем основные библиотеки и фреймворки, которые будут популярны в 2025. Рассматриваем преимущества и недостатки ✔ Tproger Читать: «Python в Data Science: топовые библиотеки и фреймворки, которые будут популярны в 2025» #ru @big_data_analysis | Другие наши каналы

2 747

Применение методов машинного обучения для анализа цен на вторичное жильё в Липецке 📊 Применение методов машинного обучения для проведения кластерного анализа по стоимости квартир на вторичном рынке недвижимости города Липецка. Читать: https://habr.com/ru/articles/863168/ #ru @big_data_analysis | Другие наши каналы

2 747

Суперсилы Виталика: на что способен ViTalk GPT Привет, Хабр! Область Business Intelligence — одна из наиболее “интеллектуальных” по определению, и в аналитической работе в некоторых задачах особенно удобно использовать искусственный интеллект. Поэтому мы сегодня поговорим про чат-бота ViTalk GPT, который в некоторых задачах помогает очень быстро найти правильный ответ на поставленные вопросы, а иногда — даже скорректировать свой же вопрос с учетом возможностей платформы Visiology. В этой статье мы коснемся сильных и слабых сторон AI, проверим, смогут ли два слона поставить мат королю, и оценим сферу применения ViTalk GPT для аналитиков, разработчиков и даже бизнес-пользователей. AI помогает делать многое, но при работе с современными сервисами часто возникают технические трудности — платная подписка, необходимость подключать VPN, потребность постоянно напоминать AI контекст предметной области и т.д. К счастью, для аналитики в DAX доступен бесплатный чат-бот ViTalk, который способен решать множество важных задач без лишних танцев с бубном. Читать: https://habr.com/ru/companies/visiology/articles/863144/ #ru @big_data_analysis | Другие наши каналы

2 747

Интеграция Salesforce с Fusion Data Integration Текст поста: Узнайте, как интегрировать Salesforce с Fusion Data Integration для доступа к данным аналитики кампаний и CRM. В статье описаны этапы настройки, тестирования и активации соединения, а также конфигурации параметров и проверки данных. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 747

Создание пользовательских объектов в Fusion Applications Хотите узнать, как создавать пользовательские объекты в Fusion Applications и улучшать их с помощью FDI? В статье подробно описан пошаговый процесс и приведён пример из реальной практики, показывающий, как применить эти знания на практике. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 747

Создайте бар-чарт с D3.js! В статье рассказано, как использовать D3.js для создания простой визуализации данных с помощью HTML-бар-чарта. Узнайте, как отобразить связь между числовыми и категориальными данными на основе примера с жестко закодированными данными. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 747

Генерация дополненного извлечения (RAG): от теории к реализации LangChain От теории из оригинальной академической статьи до ее реализации на Python с OpenAI, Weaviate и LangChain Читать: https://habr.com/ru/articles/862870/ #ru @big_data_analysis | Другие наши каналы

2 747

Что за распределение у выборочных квантилей? Все знают про распределение выборочного среднего (его описывает Центральная предельная теорема), а что насчет выборочных квантилей? В заметке я расскажу, как и зачем приближать распределения выборочных квантилей из данных с типичными распределениями: равномерное, экспоненциальное и нормальное, а также когда и какое приближение стоит использовать. Читать: https://habr.com/ru/articles/862874/ #ru @big_data_analysis | Другие наши каналы

2 747

Миф о чистых данных: почему ваш аналитик похож на сапёра Миф о чистых данных: почему ваш аналитик похож на сапёра. Как бороться с самым частым убеждением при работе с данными. Читать: https://habr.com/ru/articles/862772/ #ru @big_data_analysis | Другие наши каналы

2 747

Как организовать разметку данных для ML? Советы от Data Light За каждым «умным» решением, которое принимает ИИ, стоят огромные объемы данных, тщательно размеченные и подготовленные для обучения. Но как организовать этот процесс так, чтобы модель работала эффективно? Мы в Data Light считаем, что это искусство, требующее правильного подхода, инструментов и стратегии. Организация самого процесса разметки зависит от многих факторов: целей проекта, объемов данных, требуемой точности и доступных ресурсов. В этой статье мы рассмотрим основные методики и инструменты для организации разметки данных с нашими экспертами: Дмитрий Рогальский, Special Projects Group Manager в Data Light Алексей Корнилов, Moderation Group Manager в Data Light Читать: https://habr.com/ru/companies/data_light/articles/862464/ #ru @big_data_analysis | Другие наши каналы