uk
Feedback
Data Analysis / Big Data

Data Analysis / Big Data

Відкрити в Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

Показати більше
2 744
Підписники
+224 години
-97 днів
+330 день
Архів дописів
The Next Big Things for Oracle Cloud Platform Recap of The Next Big Things session at Oracle Openworld 2018. Five exciting demos including: content experience, digital assistants, blockchain applications, data science development platform, and visual development. Read: https://blogs.oracle.com/cloud-infrastructure/post/the-next-big-things-for-oracle-cloud-platform

Best Practices for Report Totals in Oracle Analytics This article describes best practices for improving performance with report totals in Oracle Analytics Read: https://blogs.oracle.com/analytics/post/best-practices-for-report-totals-in-oracle-analytics

Тварь дрожащая или право имею: как мы лепили виртуального юриста из русскоязычных нейросетей Если бы Достоевский жил в наше время, смотрел по вечерам «Черное зеркало» и просто читал новости, то, скорее всего, Раскольникова судил бы Искусственный интеллект. Сейчас довольно сложно представить, как будет выглядеть судебный процесс будущего, где условному судье не придется протирать 6 лет штаны на институтской скамье и насильно впихивать в свой мозг тонны законодательной базы. Кажется, это будет что-то коллективное и похожее на продвинутых присяжных с «закаченными» правовыми нормами, чтобы моральные аспекты при этом оставались на более близкой человеческой стороне. Привет, Хабр, это команда  Alliesverse – платформы для управления бизнесом – и это в наши воспаленные мозги попала идея о современном Раскольникове... Случилось это на большом мероприятии, посвященному ChatGPT, на которое нас пригласили. Мы подумали: а что если ускорить наступление высокотехнологичного и справедливого суда и попробовать обучить ИИ всем российским кодексам ? Так сформировался эмбрион LawAi by Alliesverse. Под катом, подобно ChatGPT, расскажем наш опыт обучения русскоязычных и зарубежных моделей нейросетей российскому законодательству. Спойлер: несмотря на то, что современные системы преуспевают в нахождении экстрактивного диапазона, который отвечает на фактоидный вопрос в документе, они по-прежнему считают сложными настройки открытого домена, где модели необходимо найти свои собственные источники информации и генерировать длинные ответы. Спойлер х2: использование ChatGPT, Notion и прочих готовых решений не подходит для создания юрисконсульта в кармане, т.к. они обучаются на международном массиве данных, у которого много расхождений с российским законодательством. Читать полностью Читать: https://habr.com/ru/articles/736116/

Configure Secure File Transfer Protocol Connector in Oracle Fusion Analytics This article focuses on configuring the Secure File Transfer Protocol (SFTP) Connector in Oracle Fusion Analytics. Read: https://blogs.oracle.com/analytics/post/configure-secure-file-transfer-protocol-connector-in-fusion-analytics

Её величество Иерархия. Классификация и способы хранение в MS Excel Иерархия, как структура данных, встречается очень часто. • справочники в 1С:Бухгалтерия предприятия и кубовых OLAP системах (типа IBM Cognos TM1) часто имеют иерархическое строение • иерархия папок и файлов в Windows • отношения наставничества между коллегами (когда может быть только один наставник и много наставляемых) • объектная модель VBA (построена на базе иерархии, хотя могут быть особые моменты) В финансах иерархия – это один из самых частых объектов, наряду с плоскими и матричными таблицами. Откройте практически любой файл Excel и там будет иерархия в том или ином виде. Тем не менее, иерархия – это достаточно сложный объект, который имеет неочевидную классификацию. Кроме того, часто мы храним иерархию в плоской таблице (в Excel, в базе данных). А это, вообще говоря, не естественная среда обитания для иерархий. Все это еще более затрудняет и запутывает работу с ними. В статье разберем ключевые термины и классификацию иерархий, что позволит эффективно работать с ними. Ответим на ряд нетривиальных вопросов: «Все ли иерархии одинаковые?», «Отсутствие детей - это достаточный признак листа?» 😊 Читать: https://habr.com/ru/articles/734886/

Combine your data with unions using three best practices This article outlines three tips that you can use with the Union Rows step in a data flow. Read: https://blogs.oracle.com/analytics/post/union-your-data-using-these-three-best-practices

Более 50 бесплатных курсов и материалов по А/Б тестированию Это руководство поможет вам понять все, что нужно для начала работы с A/B-тестами. Вы увидите способы запуска тестов, расстановки приоритетов гипотез, анализа результатов и лучшие инструменты для экспериментов с помощью A/B-тестирования. Все курсы и материалы бесплатны. Читать: https://habr.com/ru/articles/735690/

An Engineering Guide to Data Quality - A Data Contract Perspective - Part 2 Read: https://www.dataengineeringweekly.com/p/an-
An Engineering Guide to Data Quality - A Data Contract Perspective - Part 2 Read: https://www.dataengineeringweekly.com/p/an-engineering-guide-to-data-quality

Доменная модель песочницы данных: на чём зиждется Data Fusion Доменная модель песочницы данных: на чём зиждется Data Fusion Привет, Хабр. Меня зовут Кирилл Прунтов, и я корпоративный архитектор Ассоциации Больших Данных. В корпоративной архитектуре есть множество инструментов, которые помогают правильно сконфигурировать проект. Один из таких инструментов, который часто недооценивают, — доменная модель. В этом посте на примере доменной модели, лежащей в основании Песочницы данных АБД, я хочу показать, как этот инструмент работает. Не знаю, планируете ли вы собственную песочницу данных или нет, но доменная модель может помочь вам разграничить сущности и засетапить внутренние среды для экспериментов. Так что под катом вам всё равно может быть интересно. Читать: https://habr.com/ru/companies/rubda/articles/735496/

Анализ таблиц сопряженности средствами Python. Часть 1. Визуализация Категориальные данные имеет огромное значение в DataScience. Как справедливо заметили авторы в [1], мы живем в мире категорий: информация может быть сформирована в категориальном виде в самых различных областях - от диагноза болезни до результатов социологического опроса. Частным случаем анализа категориальных данных является анализ таблиц сопряженности (contingency tables), в которые сводятся значения двух или более категориальных переменных. Однако, прежде чем написать про статистический анализ таблиц сопряженности, остановимся на вопросах их визуализации. Казалось бы, об этом уже написано немало - есть статьи про графические возможности python, есть огромное количество информации и примеров с программным кодом. Однако, как всегда имеются нюансы - в процессе исследования возникают вопросы как с выбором средств визуализации, так и с настройкой инструментов python. В общем, есть о чем поговорить... В данном обзоре мы рассмотрим следующие способы визуализации таблиц сопряженности. Читать: https://habr.com/ru/articles/733954/

Дайджест Python #9: PandasAI, Телеграм-бот на Django и языковые модели на Python Собрали лучшие материалы по Python с 1 по 15 мая. Узнайте, что такое PandasAI и как сделать языковую модель на Python. Читать: «Дайджест Python #9: PandasAI, Телеграм-бот на Django и языковые модели на Python»

Дайджест Python #9: PandasAI, Телеграм-бот на Django и языковые модели на Python Собрали лучшие материалы по Python с 1 по 15 мая. Узнайте, что такое PandasAI и как сделать языковую модель на Python. Читать: «Дайджест Python #9: PandasAI, Телеграм-бот на Django и языковые модели на Python»

Search Bar Extravaganza How to make the most out of the search bar capability in Oracle Analytics Read: https://blogs.oracle.com/analytics/post/search-bar-extravaganza

Как работали с данными с древних времён: краткая история Data Science Наука о данных стала популярна лишь в 2010-е, но история Data Science началась чуть ли не 40 000 лет назад. Рассказываем, с чего именно. Читать: «Как работали с данными с древних времён: краткая история Data Science»

Как работали с данными с древних времён: краткая история Data Science Наука о данных стала популярна лишь в 2010-е, но история Data Science началась чуть ли не 40 000 лет назад. Рассказываем, с чего именно. Читать: «Как работали с данными с древних времён: краткая история Data Science»

Как хранить лайки социальных сетей в базе данных ScyllaDB Разбираемся, как обновлять большие данные в базах на ScyllaDB, если они постоянно меняются. В качестве примера используем социальные сети. Читать: «Как хранить лайки социальных сетей в базе данных ScyllaDB»

Системы ИИ, data-driven культура и импортозамещение — что рынок BI двигает Привет, Хабр. Меня зовут Максим Еремин, отвечаю за развитие PaaS-сервисов в beeline cloud. Этой статьей мы запускаем цикл публикаций, в которых вместе с коллегами будем комментировать и рассказывать о ситуации на рынке BI.  Сегодня поговорим о data-driven культуре и импортозамещении. А если возникнут вопросы — буду рад обсудить их в комментариях. Громкие заголовки, возвещающие о «кончине» business intelligence (BI), встречаются на тематических площадках уже лет десять. Но сегмент и не думает отходить на второй план, напротив — растет и развивается. Аналитики из Precedence Research говорят, что к 2032 году мировой рынок BI достигнет планки в $55 млрд. Их коллеги из Fortune Business Insights дают еще более оптимистичные оценки — та же сумма, но к 2030-му. Технология глубоко проникла в стеки крупного, малого и среднего бизнеса. Ту или иную BI-систему имеет 80% компаний со штатом более 5 тыс. сотрудников. В фирмах поменьше показатель составляет 26%, но постепенно увеличивается. Если взглянуть на российский рынок разработки и интеграции BI-решений, то он тоже достаточно зрелый. Два года назад его объем составлял 35 млрд рублей. Сегодня эксперты прогнозируют ускорение темпов роста в полтора-два раза. Развитие рынка стимулируют несколько факторов — рост объемов данных, развитие систем ИИ и необходимость импортозамещения. Читать: https://habr.com/ru/companies/beeline_cloud/articles/734952/

Как вычислить по IP? Реальный пример деанонимизации «хакера» Привет 👋 Хабр. Наша организация занимается сбором больших данных из телеграм, а также множеством других услуг связанных с телегой. Мы даем пользователям возможность поиска по нашим базам данных и постоянно сталкиваемся с тем, что кто-нибудь пытается искать в наших скриптах уязвимости, в том числе xss, sqlinj, phpinc и т.д. Мы учитываем возможные риски и стараемся очень тщательно фильтровать пользовательский input. В один из дней мы заметили подозрительную активность, пользователь отправил в поиск каталога телеграм каналов 8583 запроса за короткий промежуток времени и пытался внедрить спецсимволы, наши скрипты отработали как надо и обрезали потенциально опасный payload, но в админке слетел вывод json в таблице активности пользователей, которую быстро удалось восстановить в рабочее состояние. Из таблицы активности пользователей стало ясно, что пользователь использовал автоматизированное ПО сканер для поиска потенциальных уязвимостей на нашем сайте, т.к. интервалы между большинством запросов были около 1 сек и всего за несколько часов было 8583 запроса. Даже Яндекс Метрика на записала никаких действий в этот период времени, т.к. запросы делались не через браузер, поэтому скрипты Яндекс Метрики не загружались и не фиксировали посещения каталога. Читать: https://habr.com/ru/articles/735166/

What is AnalyticsOps, and how could it improve your business decisions? Analytics operations, or AnalyticsOps for short, is a concept that has evolved beside the advent of cloud computing, democratized analytics, and advanced analytics techniques such as AI/ML. In this blog, we get to know the difference between AnalyticsOps and DataOps, and DevOps, and enumerate the benefits and costs of implementing it. Read: https://blogs.oracle.com/analytics/post/what-is-analyticsops-and-how-could-it-improve-your-business-decisions