Data Analysis / Big Data
الذهاب إلى القناة على Telegram
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels
إظهار المزيد2 746
المشتركون
+224 ساعات
-77 أيام
+630 أيام
أرشيف المشاركات
So what if rule-breakers are unvaccinated
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/01/so-what-if-rule-breakers-are-unvaccinated.html
ETL и коннекторы к источникам данных: российские реалии
За время работы над аналитическими отчетами по рынку отечественных BI-систем, о которых я уже рассказывал, мы поняли, что есть потребность в обзоре еще одного компонента – а вернее, даже двух связанных с BI. Речь про ETL и коннекторы. Им и посвящено наше новое исследование ETL-круг Громова.
Зачем?
Сейчас есть насущная необходимость в агрегированной информации о российских решениях. Да, в какой-то степени этот вопрос может закрыть всем известный реестр отечественного софта. Но, во-первых, там есть далеко не все решения. А во-вторых, информация о ПО там далеко не полная. Ведь кроме технических параметров нужно разобраться со многими другими, причем желательно в сравнении – реестр этого не позволяет сделать.
Вторая причина запуска исследования в том, что не все BI-платформы имеют собственные встроенные ETL, а значит, выбор ETL тесно связан с выбором BI-платформы. И раз уж последние мы регулярно изучаем, то и первым необходимо уделить определенное внимание.
Ну и третье: рынок российских ETL и коннекторов хоть, на наш взгляд, пока недостаточно развит, но он уже сформировался. Есть ряд сильных и сравнительно известных продуктов, но есть и быстро развивающиеся и весьма перспективные, потенциально способные изменить расклад на рынке. И сейчас, когда многим приходится искать замены для ранее используемых решений, информация о наличии российских предложений весьма актуальна.
Читать: https://habr.com/ru/post/709996/
Calculate Distances Between Point Geometries in Database through OAC Dataset Definition
This blog explains how to calculate distances between point geometries by editing the definition of a data source using spatial SQL syntaxes when creating the dataset from a database connection.
Read: https://blogs.oracle.com/analytics/post/calculate-distances-between-point-geometries-in-database-through-oac-sql-dataset-definition
Connecting Oracle Analytics Cloud to Apache Hive on OCI Big Data Service residing at different OCI region
This article guides you in setting up connectivity between Oracle Analytics Cloud & OCI Big Data Services (BDS) when both the services are deployed in different OCI regions.
The article provides step-by-step instructions for configuring the Virtual Cloud Network (VCN) & OCI Big Data Service (BDS) that hosts the Apache Hive Service deployed in Phoenix region making it accessible from Oracle Analytics Cloud which is deployed in Ashburn region. No system can access it over the public Internet.
Read: https://blogs.oracle.com/analytics/post/connecting-oracle-analytics-cloud-to-apache-hive-on-oci-big-data-service-residing-at-different-oci-region
Разметка данных: бизнес на миллиарды долларов, лежащий в основе прогресса AI
Когда два года назад Лэй Ван стала аннотатором данных, её работа была относительно простой: определять гендер людей на фотографиях. Но с тех пор Ван заметила, что сложность её задач становится всё выше: от разметки гендера до разметки возраста, от рамок вокруг 2D-объектов до 3D-разметки, от фотографий при дневном свете до сцен ночью и в тумане, и так далее.
Ван 25 лет. Она работала секретарём в приёмной, однако когда в 2017 году её компания закрылась, друг, работавший разработчиком алгоритмов, предложил ей исследовать новый карьерный путь в аннотировании данных — процессе разметки данных, позволяющем применять их в системах искусственного интеллекта, особенно с использованием машинного обучения с учителем. Став безработной, она решила рискнуть.
Два года спустя Ван уже работала помощником проект-менеджера в пекинской компании Testin. Обычно она начинает свой рабочий день со встречи с клиентами, которые в основном представляют китайские технологические компании и стартапы в сфере AI. Клиент сначала передаёт ей в качестве теста небольшую долю массива данных. Если результаты удовлетворяют требованиям, Ван получает массив данных полностью. Затем она передаёт его производственной команде, обычно состоящей из десяти разметчиков и трёх контролёров. Такие команды настроены на эффективность и могут, например, аннотировать 10 тысяч изображений для распознавания дорожных полос примерно за восемь дней с точностью в 95%.
Читать: https://habr.com/ru/post/706974/
NER в поисках брендов. Часть 1
Опыт показывает, что построение результативных коммуникаций в маркетинге требует пристального изучения целевой аудитории и неочевидных знаний о ней. А значит, нужны новые подходы. Наши специалисты из CleverData предлагают использовать практику data science и рассмотреть один из таких подходов, как бренд-анализ. Хотим поделиться опытом, как с помощью NER (техники распознавания именованных сущностей) мы начали выделять бренды в покупках целевой аудитории одного из европейских производителей автомобилей. Оказалось, что эта аудитория предпочитает бутилированную воду, товары для взрослых Durex и электронику Apple. Расскажем, как мы пришли к таким выводам и чем они могут быть полезны.
Читать: https://habr.com/ru/post/708414/
Concert venue ticket pricing analytics - Part 2: Using an image as a map
Can a concert venue realize the revenue currently captured by ticket-resellers by raising ticket prices? By how much, for which seats, and for which concert genres? In part 2 of this series, learn how to upload an image to serve as a “map” to enhance the analysis.
Read: https://blogs.oracle.com/analytics/post/concert-venue-ticket-pricing-analytics-2
Data Engineering Weekly #113
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-113
Парсили сайты, парсим и будем парсить. И не нужно этому мешать
Здравствуйте, меня зовут Максим Кульгин. Моя компания xmldatafeed.com занимается парсингом много лет. На днях мы вернули 16 000 руб. клиенту, так как не смогли парсить весь iherb.com с нужной клиенту скоростью (а там очень много товаров). Проверил и оказалось, что это единичный случай за весь год и родилась эта, чуть-чуть философская статья.
Одна из наших прошлых статей (самостоятельный парсинг сайтов) спровоцировала острые дискуссии среди читателей. И в комментариях к статье, и в нашем телеграм-канале (пишем, в том числе, про заработок на парсинге) обсуждение дилеммы «человек против роботов» (здравствуй, Будущее!) перевело взгляд в философскую плоскость. Все технические разговоры про парсинг неизменно сводятся к рассмотрению средств противодействия ботам и способам это противодействие нейтрализовать.
Читать: https://habr.com/ru/post/709386/
Extending Fusion Analytics - Part 2 of 4
Welcome to part two, "Moving beyond Fusion data & delivering deeper insights with Fusion Analytics", of this four-part blog series sharing insight into exploiting Fusion data with Fusion Analytics (FAW) and how to utilise FAW’s power to deliver greater insights beyond those based on Fusion data alone. We will follow an analytics path that many Fusion customers take, exploring the various scenarios they encounter and evaluate on their analytics journey.
Read: https://blogs.oracle.com/analytics/post/extending-fusion-analytics---part-2
Extending Fusion Analytics - Part 3 of 4
Welcome to part three, "Leveraging the power of the Fusion Analytics platform", of this four-part blog series sharing insight into exploiting Fusion data with Fusion Analytics (FAW) and how to utilise FAW’s power to deliver greater insights beyond those based on Fusion data alone. We will follow an analytics path that many Fusion customers take, exploring the various scenarios they encounter and evaluate on their analytics journey.
Read: https://blogs.oracle.com/analytics/post/extending-fusion-analytics---part-3
Extending Fusion Analytics - Part 4 of 4
Welcome to part four, "Further accelerating time to insight with Fusion Analytics", of this four-part blog series sharing insight into exploiting Fusion data with Fusion Analytics (FAW) and how to utilise FAW’s power to deliver greater insights beyond those based on Fusion data alone. We will follow an analytics path that many Fusion customers take, exploring the various scenarios they encounter and evaluate on their analytics journey.
Read: https://blogs.oracle.com/analytics/post/extending-fusion-analytics---part-4
Recap: A Data Catalog for People Who Hate Data Catalogs
Read: https://www.dataengineeringweekly.com/p/recap-a-data-catalog-for-people-who
Provisioning Private Oracle Fusion Analytics
This post describes provisioning Private Fusion Analytics.
Read: https://blogs.oracle.com/analytics/post/provisioning-private-oracle-fusion-analytics
The traffic accidents study exposes the lamentable state of Covid-19 science
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/01/the-traffic-accidents-study-exposes-the-terrible-state-of-covid-19-science.html
Extending Fusion Analytics - Part 1 of 4
Welcome to part one, "Starting your Fusion Analytics extensibility journey", of this four-part blog series sharing insight into exploiting Fusion data with Fusion Analytics (FAW) and how to utilise FAW’s power to deliver greater insights beyond those based on Fusion data alone. We will follow an analytics path that many Fusion customers take, exploring the various scenarios they encounter and evaluate on their analytics journey.
Read: https://blogs.oracle.com/analytics/post/extending-fusion-analytics---part-1
Best Practices for Initialization Blocks and Usage Tracking in Oracle Analytics
This article describes best practices for initialization blocks and usage tracking in Oracle Analytics. It's part of a series of best practices for Oracle Analytics.
Read: https://blogs.oracle.com/analytics/post/dc-oracle-analytics-best-practices-initialization-blocks-and-usage-tracking
Системы для работы с данными: зачем нужны и как их построить
Рассказываем, как построить качественную инфраструктуру для работы с данными, какие нужны специалисты и как выйти с решением на рынок.
Читать: «Системы для работы с данными: зачем нужны и как их построить»
Как опенсорсные инструменты замедляют разработку моделей для анализа медицинских снимков
Существует множество опенсорсного ПО и инструментов для проектов компьютерного зрения и машинного обучения в сфере медицинских визуализаций.
Иногда может быть выгодно использовать опенсорсные инструменты при тестировании и обучении модели ML на массивах данных медицинских снимков. Вы можете экономить деньги, а многие инструменты, например, 3DSlicer и ITK-Snap, предназначены специально для аннотирования медицинских снимков и обучения моделей ML на массивах данных из сферы здравоохранения.
В здравоохранении критически важны качество массива данных и эффективность инструментов, используемых для аннотирования и обучения моделей ML. Это может стать вопросом жизни и смерти для пациентов, ведь для их диагностирования медицинским специалистам и врачам нужны максимально точные результаты моделей компьютерного зрения и машинного обучения.
Как известно командам клиницистов и обработки данных, слои данных в медицинских снимках сложны и детализированы. Для выполнения работы вам нужны подходящие инструменты. Применение неверного инструмента, например, опенсорсного приложения для аннотирования, может негативно повлиять на разработку модели.
В этой статье мы расскажем об основных опенсорсных инструментах для аннотирования медицинских снимков, сценариях применения таких инструментов и о том, как они препятствуют развитию вашего проекта. Мы перечислим те возможности инструмента аннотирования, которые помогут вам преодолеть эти трудности, в том числе и функции, которые обеспечат нужные вам результаты.
Читать: https://habr.com/ru/post/707874/
Data Pipeline Design Patterns - #1. Data flow patterns
Read: https://www.startdataengineering.com/post/design-patterns/
متاح الآن! بحث تيليغرام 2025 — أهم رؤى العام 
