Data Analysis / Big Data
Открыть в Telegram
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels
Больше2 744
Подписчики
+224 часа
-97 дней
+330 день
Архив постов
The hate campaign against negative reviews
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/07/the-hate-campaign-against-negative-reviews.html
Create rich multi-layer visualizations in Oracle Analytics Cloud
A quick guide to creating rich multilayer visualizations using overlay charts in Oracle Analytics Cloud. Includes a use case of pareto analysis using overlay charts.
Read: https://blogs.oracle.com/analytics/post/how-to-create-a-rich-multilayer-visualization-in-oracle-analytics-cloud
Как сделать быстрый дашборд по таблице из 150 млн строк с помощью Yandex DataLens и ClickHouse
Привет! Меня зовут Роман Бунин, я BI-евангелист Yandex DataLens. При росте объёма данных, что неизбежно для любой компании, загрузка дашбордов может замедляться до десятков секунд. И чем больше появляется данных, тем медленнее становятся дашборды, особенно если вы хотите строить их по детализированным таблицам.Связка базы данных ClickHouse и BI-системы Yandex DataLens — популярное решение для анализа данных: эти инструменты нативно интегрируются и быстро работают вместе. В этой статье вместе с моим коллегой, архитектором Yandex Cloud Игорем Путятиным, покажем, как на основе таблицы из 150 миллионов строк построить максимально быстрый дашборд, и расскажем о технических ограничениях.
Читать: https://habr.com/ru/companies/yandex_cloud_and_infra/articles/746022/
Сложности MVP или как мы смотрели 40000 видео
MVP, он же Minimal Viable Product, представляет собой базовую (ванильную) версию продукта и содержит только самый необходимый функционал. По сути это пробник, который служит для оценки рисков и оправданности вложений в полноразмерный продукт. MVP может иметь разный вид: пробный образец, тестовая партия, или уже готовый продукт, но с урезанным функционалом.
MVP - это отдельный вид искусства, где нужно за короткое время доказать, что ты можешь предложить бизнесу решение, которое поможет достичь поставленных продуктовых целей, за оправданную цену. Это своего рода спидран большого проекта. Про такой MVP как раз и пойдет наш разговор.
Читать: https://habr.com/ru/articles/746006/
What is a self-serve data platform & how to build one
Read: https://www.startdataengineering.com/post/self-serve-data-platform/
ChatGPT и другие нейросети уже доказали — мир специалистов можно изменить в один миг. К счастью, можно подготовиться к будущим вызовам
Курсы цифровых профессий от СберУниверситета — это уникальная возможность обучиться двум перспективным направлениям: Frontend-разработчик и Java Developer.
Они предназначены для тех, кто заинтересован в развитии навыков в IT-индустрии: курсы подойдут как уже начинающим специалистам, так и тем, кто хочет начать свой путь с нуля.
На курсе Frontend-разработчик вы научитесь верстать сайты с помощью HTML и CSS и работать с веб-фреймворком React.
На программе Java Developer вы поймете, как решать задачи с Git, Java и SQL.
В конце вы получите диплом о профессиональной переподготовке и научитесь выстраивать стратегию поиска работы.
Не упустите свой шанс стать специалистом в IT-индустрии! Подайте заявку на обучение.
Реклама АНО ДПО «Корпоративный университет Сбербанка» LjN8KBPp4
Книга «Python для data science»
Привет, Хаброжители!
Python — идеальный выбор для манипулирования и извлечения информации из данных всех видов. «Python для data science» познакомит программистов с питоническим миром анализа данных. Вы научитесь писать код на Python, применяя самые современные методы, для получения, преобразования и анализа данных в управлении бизнесом, маркетинге и поддержке принятия решений.
Познакомьтесь с богатым набором встроенных структур данных Python для выполнения основных операций, а также о надежной экосистемы библиотек с открытым исходным кодом для data science, включая NumPy, pandas, scikit-learn, matplotlib и другие. Научитесь загружать данные в различных форматах, упорядочивать, группировать и агрегировать датасеты, а также создавать графики, карты и другие визуализации. На подробных примерах стройте реальные приложения, в том числе: службу такси, использующую геолокацию, анализ корзины для определения товаров, которые обычно покупаются вместе, а также модель машинного обучения для прогнозирования цен на акции.
Читать: https://habr.com/ru/companies/piter/articles/745860/
Oracle Fusion Analytics Implementation Series: Planning
Best Practices for Implementing Oracle Fusion Analytics Series: Planning
Read: https://blogs.oracle.com/analytics/post/oracle-fusion-analytics-implementation-series-planning
Нейронные сети не могут обобщать периодические зависимости. Как это исправить?
Изучая нейронные сети все глубже, сталкиваешься с тем, что не ко всем задачам применимы полносвязные глубокие нейронные сети с классическими слоями Linear и слоями активации Relu, Sigmoid, Than и их вариации. Почему не используют остальные функции в качестве активации, например, периодические?
В целом, периодические функции являются одними из основных функций, важными для человеческого общества и естествознания: суточные и годовые циклы в мире диктуются периодическими движениями солнечной системы, графики изменения погоды, показателей мировой экономики также включают периодическую компоненту.
Читать: https://habr.com/ru/articles/745768/
Без Tableau — как в МКБ выбирали новое BI-решение для работы
Меня зовут Александр Дорофеев, я директор по данным в МКБ. В этом посте я еще раз затрону тему импортозамещения софта на примере программ для визуализации данных. Раньше мы (думаю, как и многие из вас) использовали Tableau, но так как компания покинула российский рынок, мы вынуждены были выбрать новое решение.
О том, какие у нас были критерии выбора и что же мы в итоге выбрали — под катом. Возможно, вам пригодится наш опыт, если вы тоже стоит перед выбором нового BI-софта.
Читать: https://habr.com/ru/companies/mkb/articles/745740/
Oracle Fusion Analytics Implementation Planning Series: Accelerated Phased Approach
Best Practices for Implementing Oracle Fusion Analytics Series: Accelerated Phased Approach
Read: https://blogs.oracle.com/analytics/post/oracle-fusion-analytics-implementation-series-accelerated-phased-approach
FineBI 6.0: Укрощение строптивого
Всем привет! Сегодня у нас интересный кейс от нашего друга @ialavrikov.
Илья – старший аналитик "Альфа-Лизинга" и активный участник сообщества FineBI GlowByte. Он был одним из первых, кто протестировал масштабное обновление китайской платформы бизнес-аналитики FineBI, прочувствовав все тонкости во время миграции с другого технологического решения. Под катом дальше – история о его пути сквозь тернии к звездам.
Читать статью Ильи Лаврикова
Читать: https://habr.com/ru/companies/glowbyte/articles/745562/
Дайджест Python #12: взлом ChatGPT и оптимизация Jupyter Notebook
Собрали лучшие материалы по Python с 15 по 30 июня. Узнайте, как взломать ChatGPT и как компилировать типизированный Python.
Читать: «Дайджест Python #12: взлом ChatGPT и оптимизация Jupyter Notebook»
Дайджест Python #12: взлом ChatGPT и оптимизация Jupyter Notebook
Собрали лучшие материалы по Python с 15 по 30 июня. Узнайте, как взломать ChatGPT и как компилировать типизированный Python.
Читать: «Дайджест Python #12: взлом ChatGPT и оптимизация Jupyter Notebook»
Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов
Аналитические системы должны эффективно обрабатывать сложные пользовательские запросы к десяткам и сотням терабайт данных (пета-?). Продвинутый оптимизатор запросов является важнейшим компонентом любой аналитической системы. В данной статье мы рассмотрим, как устроен оптимизатор запросов в массивно-параллельном аналитическом SQL-движке Trino.
И как же он устроен?
Читать: https://habr.com/ru/companies/cedrusdata/articles/744934/
Ускорение sql запросов к большим таблицам. Оптимизация пагинации
При умеренных объёмах базы данных в использовании offset нет ничего плохого, но со временем база данных растёт и запросы начинают «тормозить». Становится актуальным ускорение запросов.
Очевидно, если причина в росте объёмов базы данных, то используя главный принцип дзюдо «падающего - толкни, нападающего - тяни», следует ещё увеличить объём, в данном случае путём добавления нового поля в таблицы для последующей сортировки по нему.
Читать: https://habr.com/ru/articles/744814/
Профилирование данных из СУБД Oracle с помощью DataHub и Great Expectations. Часть 2
В первой части статьи мы подключили DataHub к базе данных Oracle, во второй части рассмотрим подключение Great Expectations к DBMS Oracle, сделаем ряд проверок качества данных, а также отправим результаты проверок в DataHub.
Читать: https://habr.com/ru/companies/neoflex/articles/744388/
Оптимизации работы Jupyter notebook при помощи параллельных вычислений (Библиотека Joblib)
Привет, Хабр!
Меня зовут Серов Александр, я участник профессионального сообщества NTA.
Параллелизм играет важную роль в задачах Data Science, так как может значительно ускорить вычисления и обработку больших объемов данных. В посте расскажу о возможностях применения параллельных вычислений в интерактивной среде Jupyter notebook языка Python.
Узнать больше
Читать: https://habr.com/ru/articles/744066/
Rat czarina claims numbers don't lie
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/06/rat-czarina-claims-numbers-dont-lie.html
Переизобретаем сжатие в распределенной базе данных
В используемой нами базе данных уже была эффективная функциональность сжатия, которая обеспечивала хранение объемной информации.
Но рост объема хранимых данных — не единственный возможный выигрыш от применения сжатия, поэтому мы задумались о разработке собственного решения.
В этой статье расскажу, как мы изменили подход к сжатию данных, чем пришлось пожертвовать и почему менее эффективное «на бумаге» решение в результате превзошло наши ожидания.
Читать: https://habr.com/ru/companies/sberbank/articles/741894/
Уже доступно! Исследование Telegram 2025 — ключевые инсайты года 
