Data Analysis / Big Data
Открыть в Telegram
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels
Больше2 744
Подписчики
+224 часа
-97 дней
+330 день
Архив постов
The Next Big Things for Oracle Cloud Platform
Recap of The Next Big Things session at Oracle Openworld 2018. Five exciting demos including: content experience, digital assistants, blockchain applications, data science development platform, and visual development.
Read: https://blogs.oracle.com/cloud-infrastructure/post/the-next-big-things-for-oracle-cloud-platform
Best Practices for Report Totals in Oracle Analytics
This article describes best practices for improving performance with report totals in Oracle Analytics
Read: https://blogs.oracle.com/analytics/post/best-practices-for-report-totals-in-oracle-analytics
Тварь дрожащая или право имею: как мы лепили виртуального юриста из русскоязычных нейросетей
Если бы Достоевский жил в наше время, смотрел по вечерам «Черное зеркало» и просто читал новости, то, скорее всего, Раскольникова судил бы Искусственный интеллект.
Сейчас довольно сложно представить, как будет выглядеть судебный процесс будущего, где условному судье не придется протирать 6 лет штаны на институтской скамье и насильно впихивать в свой мозг тонны законодательной базы. Кажется, это будет что-то коллективное и похожее на продвинутых присяжных с «закаченными» правовыми нормами, чтобы моральные аспекты при этом оставались на более близкой человеческой стороне.
Привет, Хабр, это команда Alliesverse – платформы для управления бизнесом – и это в наши воспаленные мозги попала идея о современном Раскольникове...
Случилось это на большом мероприятии, посвященному ChatGPT, на которое нас пригласили. Мы подумали: а что если ускорить наступление высокотехнологичного и справедливого суда и попробовать обучить ИИ всем российским кодексам ?
Так сформировался эмбрион LawAi by Alliesverse. Под катом, подобно ChatGPT, расскажем наш опыт обучения русскоязычных и зарубежных моделей нейросетей российскому законодательству.
Спойлер: несмотря на то, что современные системы преуспевают в нахождении экстрактивного диапазона, который отвечает на фактоидный вопрос в документе, они по-прежнему считают сложными настройки открытого домена, где модели необходимо найти свои собственные источники информации и генерировать длинные ответы.
Спойлер х2: использование ChatGPT, Notion и прочих готовых решений не подходит для создания юрисконсульта в кармане, т.к. они обучаются на международном массиве данных, у которого много расхождений с российским законодательством.
Читать полностью
Читать: https://habr.com/ru/articles/736116/
Configure Secure File Transfer Protocol Connector in Oracle Fusion Analytics
This article focuses on configuring the Secure File Transfer Protocol (SFTP) Connector in Oracle Fusion Analytics.
Read: https://blogs.oracle.com/analytics/post/configure-secure-file-transfer-protocol-connector-in-fusion-analytics
Её величество Иерархия. Классификация и способы хранение в MS Excel
Иерархия, как структура данных, встречается очень часто.
• справочники в 1С:Бухгалтерия предприятия и кубовых OLAP системах (типа IBM Cognos TM1) часто имеют иерархическое строение
• иерархия папок и файлов в Windows
• отношения наставничества между коллегами (когда может быть только один наставник и много наставляемых)
• объектная модель VBA (построена на базе иерархии, хотя могут быть особые моменты)
В финансах иерархия – это один из самых частых объектов, наряду с плоскими и матричными таблицами. Откройте практически любой файл Excel и там будет иерархия в том или ином виде.
Тем не менее, иерархия – это достаточно сложный объект, который имеет неочевидную классификацию. Кроме того, часто мы храним иерархию в плоской таблице (в Excel, в базе данных). А это, вообще говоря, не естественная среда обитания для иерархий. Все это еще более затрудняет и запутывает работу с ними.
В статье разберем ключевые термины и классификацию иерархий, что позволит эффективно работать с ними. Ответим на ряд нетривиальных вопросов: «Все ли иерархии одинаковые?», «Отсутствие детей - это достаточный признак листа?» 😊
Читать: https://habr.com/ru/articles/734886/
Combine your data with unions using three best practices
This article outlines three tips that you can use with the Union Rows step in a data flow.
Read: https://blogs.oracle.com/analytics/post/union-your-data-using-these-three-best-practices
Более 50 бесплатных курсов и материалов по А/Б тестированию
Это руководство поможет вам понять все, что нужно для начала работы с A/B-тестами. Вы увидите способы запуска тестов, расстановки приоритетов гипотез, анализа результатов и лучшие инструменты для экспериментов с помощью A/B-тестирования.
Все курсы и материалы бесплатны.
Читать: https://habr.com/ru/articles/735690/
An Engineering Guide to Data Quality - A Data Contract Perspective - Part 2
Read: https://www.dataengineeringweekly.com/p/an-engineering-guide-to-data-quality
Доменная модель песочницы данных: на чём зиждется Data Fusion
Доменная модель песочницы данных: на чём зиждется Data Fusion
Привет, Хабр. Меня зовут Кирилл Прунтов, и я корпоративный архитектор Ассоциации Больших Данных. В корпоративной архитектуре есть множество инструментов, которые помогают правильно сконфигурировать проект. Один из таких инструментов, который часто недооценивают, — доменная модель. В этом посте на примере доменной модели, лежащей в основании Песочницы данных АБД, я хочу показать, как этот инструмент работает. Не знаю, планируете ли вы собственную песочницу данных или нет, но доменная модель может помочь вам разграничить сущности и засетапить внутренние среды для экспериментов. Так что под катом вам всё равно может быть интересно.
Читать: https://habr.com/ru/companies/rubda/articles/735496/
It's random because we say so
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/05/its-random-because-we-say-so.html
Анализ таблиц сопряженности средствами Python. Часть 1. Визуализация
Категориальные данные имеет огромное значение в DataScience. Как справедливо заметили авторы в [1], мы живем в мире категорий: информация может быть сформирована в категориальном виде в самых различных областях - от диагноза болезни до результатов социологического опроса.
Частным случаем анализа категориальных данных является анализ таблиц сопряженности (contingency tables), в которые сводятся значения двух или более категориальных переменных.
Однако, прежде чем написать про статистический анализ таблиц сопряженности, остановимся на вопросах их визуализации. Казалось бы, об этом уже написано немало - есть статьи про графические возможности python, есть огромное количество информации и примеров с программным кодом. Однако, как всегда имеются нюансы - в процессе исследования возникают вопросы как с выбором средств визуализации, так и с настройкой инструментов python. В общем, есть о чем поговорить...
В данном обзоре мы рассмотрим следующие способы визуализации таблиц сопряженности.
Читать: https://habr.com/ru/articles/733954/
Дайджест Python #9: PandasAI, Телеграм-бот на Django и языковые модели на Python
Собрали лучшие материалы по Python с 1 по 15 мая. Узнайте, что такое PandasAI и как сделать языковую модель на Python.
Читать: «Дайджест Python #9: PandasAI, Телеграм-бот на Django и языковые модели на Python»
Дайджест Python #9: PandasAI, Телеграм-бот на Django и языковые модели на Python
Собрали лучшие материалы по Python с 1 по 15 мая. Узнайте, что такое PandasAI и как сделать языковую модель на Python.
Читать: «Дайджест Python #9: PandasAI, Телеграм-бот на Django и языковые модели на Python»
Search Bar Extravaganza
How to make the most out of the search bar capability in Oracle Analytics
Read: https://blogs.oracle.com/analytics/post/search-bar-extravaganza
Как работали с данными с древних времён: краткая история Data Science
Наука о данных стала популярна лишь в 2010-е, но история Data Science началась чуть ли не 40 000 лет назад. Рассказываем, с чего именно.
Читать: «Как работали с данными с древних времён: краткая история Data Science»
Как работали с данными с древних времён: краткая история Data Science
Наука о данных стала популярна лишь в 2010-е, но история Data Science началась чуть ли не 40 000 лет назад. Рассказываем, с чего именно.
Читать: «Как работали с данными с древних времён: краткая история Data Science»
Как хранить лайки социальных сетей в базе данных ScyllaDB
Разбираемся, как обновлять большие данные в базах на ScyllaDB, если они постоянно меняются. В качестве примера используем социальные сети.
Читать: «Как хранить лайки социальных сетей в базе данных ScyllaDB»
Системы ИИ, data-driven культура и импортозамещение — что рынок BI двигает
Привет, Хабр. Меня зовут Максим Еремин, отвечаю за развитие PaaS-сервисов в beeline cloud. Этой статьей мы запускаем цикл публикаций, в которых вместе с коллегами будем комментировать и рассказывать о ситуации на рынке BI. Сегодня поговорим о data-driven культуре и импортозамещении. А если возникнут вопросы — буду рад обсудить их в комментариях.
Громкие заголовки, возвещающие о «кончине» business intelligence (BI), встречаются на тематических площадках уже лет десять. Но сегмент и не думает отходить на второй план, напротив — растет и развивается. Аналитики из Precedence Research говорят, что к 2032 году мировой рынок BI достигнет планки в $55 млрд. Их коллеги из Fortune Business Insights дают еще более оптимистичные оценки — та же сумма, но к 2030-му.
Технология глубоко проникла в стеки крупного, малого и среднего бизнеса. Ту или иную BI-систему имеет 80% компаний со штатом более 5 тыс. сотрудников. В фирмах поменьше показатель составляет 26%, но постепенно увеличивается.
Если взглянуть на российский рынок разработки и интеграции BI-решений, то он тоже достаточно зрелый. Два года назад его объем составлял 35 млрд рублей. Сегодня эксперты прогнозируют ускорение темпов роста в полтора-два раза. Развитие рынка стимулируют несколько факторов — рост объемов данных, развитие систем ИИ и необходимость импортозамещения.
Читать: https://habr.com/ru/companies/beeline_cloud/articles/734952/
Как вычислить по IP? Реальный пример деанонимизации «хакера»
Привет 👋 Хабр.
Наша организация занимается сбором больших данных из телеграм, а также множеством других услуг связанных с телегой. Мы даем пользователям возможность поиска по нашим базам данных и постоянно сталкиваемся с тем, что кто-нибудь пытается искать в наших скриптах уязвимости, в том числе xss, sqlinj, phpinc и т.д. Мы учитываем возможные риски и стараемся очень тщательно фильтровать пользовательский input. В один из дней мы заметили подозрительную активность, пользователь отправил в поиск каталога телеграм каналов 8583 запроса за короткий промежуток времени и пытался внедрить спецсимволы, наши скрипты отработали как надо и обрезали потенциально опасный payload, но в админке слетел вывод json в таблице активности пользователей, которую быстро удалось восстановить в рабочее состояние.
Из таблицы активности пользователей стало ясно, что пользователь использовал автоматизированное ПО сканер для поиска потенциальных уязвимостей на нашем сайте, т.к. интервалы между большинством запросов были около 1 сек и всего за несколько часов было 8583 запроса. Даже Яндекс Метрика на записала никаких действий в этот период времени, т.к. запросы делались не через браузер, поэтому скрипты Яндекс Метрики не загружались и не фиксировали посещения каталога.
Читать: https://habr.com/ru/articles/735166/
What is AnalyticsOps, and how could it improve your business decisions?
Analytics operations, or AnalyticsOps for short, is a concept that has evolved beside the advent of cloud computing, democratized analytics, and advanced analytics techniques such as AI/ML. In this blog, we get to know the difference between AnalyticsOps and DataOps, and DevOps, and enumerate the benefits and costs of implementing it.
Read: https://blogs.oracle.com/analytics/post/what-is-analyticsops-and-how-could-it-improve-your-business-decisions
Уже доступно! Исследование Telegram 2025 — ключевые инсайты года 
