Data Analysis / Big Data

Открыть в Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

Больше

Сеть:Типичный программист Россия176 442 Технологии и приложения26 658

2 744

Подписчики

+224 часа

-97 дней

+330 день

662

Просмотры поста

Нет данных24 часа

Нет данных48 часов

24.14%

Коэффициент вовлеченности

Нет данных

Постов в день

Ads index

beta

Архив постов

2 744

The hate campaign against negative reviews Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/07/the-hate-campaign-against-negative-reviews.html

2 744

Create rich multi-layer visualizations in Oracle Analytics Cloud A quick guide to creating rich multilayer visualizations using overlay charts in Oracle Analytics Cloud. Includes a use case of pareto analysis using overlay charts. Read: https://blogs.oracle.com/analytics/post/how-to-create-a-rich-multilayer-visualization-in-oracle-analytics-cloud

2 744

Как сделать быстрый дашборд по таблице из 150 млн строк с помощью Yandex DataLens и ClickHouse Привет! Меня зовут Роман Бунин, я BI-евангелист Yandex DataLens. При росте объёма данных, что неизбежно для любой компании, загрузка дашбордов может замедляться до десятков секунд. И чем больше появляется данных, тем медленнее становятся дашборды, особенно если вы хотите строить их по детализированным таблицам.Связка базы данных ClickHouse и BI-системы Yandex DataLens — популярное решение для анализа данных: эти инструменты нативно интегрируются и быстро работают вместе. В этой статье вместе с моим коллегой, архитектором Yandex Cloud Игорем Путятиным, покажем, как на основе таблицы из 150 миллионов строк построить максимально быстрый дашборд, и расскажем о технических ограничениях. Читать: https://habr.com/ru/companies/yandex_cloud_and_infra/articles/746022/

2 744

Сложности MVP или как мы смотрели 40000 видео MVP, он же Minimal Viable Product, представляет собой базовую (ванильную) версию продукта и содержит только самый необходимый функционал. По сути это пробник, который служит для оценки рисков и оправданности вложений в полноразмерный продукт. MVP может иметь разный вид: пробный образец, тестовая партия, или уже готовый продукт, но с урезанным функционалом. MVP - это отдельный вид искусства, где нужно за короткое время доказать, что ты можешь предложить бизнесу решение, которое поможет достичь поставленных продуктовых целей, за оправданную цену. Это своего рода спидран большого проекта. Про такой MVP как раз и пойдет наш разговор. Читать: https://habr.com/ru/articles/746006/

2 744

What is a self-serve data platform & how to build one Read: https://www.startdataengineering.com/post/self-serve-data-platform/

2 744

ChatGPT и другие нейросети уже доказали — мир специалистов можно изменить в один миг. К счастью, можно подготовиться к будущим вызовам Курсы цифровых профессий от СберУниверситета — это уникальная возможность обучиться двум перспективным направлениям: Frontend-разработчик и Java Developer. Они предназначены для тех, кто заинтересован в развитии навыков в IT-индустрии: курсы подойдут как уже начинающим специалистам, так и тем, кто хочет начать свой путь с нуля. На курсе Frontend-разработчик вы научитесь верстать сайты с помощью HTML и CSS и работать с веб-фреймворком React. На программе Java Developer вы поймете, как решать задачи с Git, Java и SQL. В конце вы получите диплом о профессиональной переподготовке и научитесь выстраивать стратегию поиска работы. Не упустите свой шанс стать специалистом в IT-индустрии! Подайте заявку на обучение. Реклама АНО ДПО «Корпоративный университет Сбербанка» LjN8KBPp4

2 744

Книга «Python для data science» Привет, Хаброжители! Python — идеальный выбор для манипулирования и извлечения информации из данных всех видов. «Python для data science» познакомит программистов с питоническим миром анализа данных. Вы научитесь писать код на Python, применяя самые современные методы, для получения, преобразования и анализа данных в управлении бизнесом, маркетинге и поддержке принятия решений. Познакомьтесь с богатым набором встроенных структур данных Python для выполнения основных операций, а также о надежной экосистемы библиотек с открытым исходным кодом для data science, включая NumPy, pandas, scikit-learn, matplotlib и другие. Научитесь загружать данные в различных форматах, упорядочивать, группировать и агрегировать датасеты, а также создавать графики, карты и другие визуализации. На подробных примерах стройте реальные приложения, в том числе: службу такси, использующую геолокацию, анализ корзины для определения товаров, которые обычно покупаются вместе, а также модель машинного обучения для прогнозирования цен на акции. Читать: https://habr.com/ru/companies/piter/articles/745860/

2 744

Oracle Fusion Analytics Implementation Series: Planning Best Practices for Implementing Oracle Fusion Analytics Series: Planning Read: https://blogs.oracle.com/analytics/post/oracle-fusion-analytics-implementation-series-planning

2 744

Нейронные сети не могут обобщать периодические зависимости. Как это исправить? Изучая нейронные сети все глубже, сталкиваешься с тем, что не ко всем задачам применимы полносвязные глубокие нейронные сети с классическими слоями Linear и слоями активации Relu, Sigmoid, Than и их вариации. Почему не используют остальные функции в качестве активации, например, периодические? В целом, периодические функции являются одними из основных функций, важными для человеческого общества и естествознания: суточные и годовые циклы в мире диктуются периодическими движениями солнечной системы, графики изменения погоды, показателей мировой экономики также включают периодическую компоненту. Читать: https://habr.com/ru/articles/745768/

2 744

Без Tableau — как в МКБ выбирали новое BI-решение для работы Меня зовут Александр Дорофеев, я директор по данным в МКБ. В этом посте я еще раз затрону тему импортозамещения софта на примере программ для визуализации данных. Раньше мы (думаю, как и многие из вас) использовали Tableau, но так как компания покинула российский рынок, мы вынуждены были выбрать новое решение. О том, какие у нас были критерии выбора и что же мы в итоге выбрали — под катом. Возможно, вам пригодится наш опыт, если вы тоже стоит перед выбором нового BI-софта. Читать: https://habr.com/ru/companies/mkb/articles/745740/

2 744

Oracle Fusion Analytics Implementation Planning Series: Accelerated Phased Approach Best Practices for Implementing Oracle Fusion Analytics Series: Accelerated Phased Approach Read: https://blogs.oracle.com/analytics/post/oracle-fusion-analytics-implementation-series-accelerated-phased-approach

2 744

FineBI 6.0: Укрощение строптивого Всем привет! Сегодня у нас интересный кейс от нашего друга @ialavrikov. Илья – старший аналитик "Альфа-Лизинга" и активный участник сообщества FineBI GlowByte. Он был одним из первых, кто протестировал масштабное обновление китайской платформы бизнес-аналитики FineBI, прочувствовав все тонкости во время миграции с другого технологического решения. Под катом дальше – история о его пути сквозь тернии к звездам. Читать статью Ильи Лаврикова Читать: https://habr.com/ru/companies/glowbyte/articles/745562/

2 744

Дайджест Python #12: взлом ChatGPT и оптимизация Jupyter Notebook Собрали лучшие материалы по Python с 15 по 30 июня. Узнайте, как взломать ChatGPT и как компилировать типизированный Python. Читать: «Дайджест Python #12: взлом ChatGPT и оптимизация Jupyter Notebook»

2 744

Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов Аналитические системы должны эффективно обрабатывать сложные пользовательские запросы к десяткам и сотням терабайт данных (пета-?). Продвинутый оптимизатор запросов является важнейшим компонентом любой аналитической системы. В данной статье мы рассмотрим, как устроен оптимизатор запросов в массивно-параллельном аналитическом SQL-движке Trino. И как же он устроен? Читать: https://habr.com/ru/companies/cedrusdata/articles/744934/

2 744

Ускорение sql запросов к большим таблицам. Оптимизация пагинации При умеренных объёмах базы данных в использовании offset нет ничего плохого, но со временем база данных растёт и запросы начинают «тормозить». Становится актуальным ускорение запросов. Очевидно, если причина в росте объёмов базы данных, то используя главный принцип дзюдо «падающего - толкни, нападающего - тяни», следует ещё увеличить объём, в данном случае путём добавления нового поля в таблицы для последующей сортировки по нему. Читать: https://habr.com/ru/articles/744814/

2 744

Профилирование данных из СУБД Oracle с помощью DataHub и Great Expectations. Часть 2 В первой части статьи мы подключили DataHub к базе данных Oracle, во второй части рассмотрим подключение Great Expectations к DBMS Oracle, сделаем ряд проверок качества данных, а также отправим результаты проверок в DataHub. Читать: https://habr.com/ru/companies/neoflex/articles/744388/

2 744

Оптимизации работы Jupyter notebook при помощи параллельных вычислений (Библиотека Joblib) Привет, Хабр! Меня зовут Серов Александр, я участник профессионального сообщества NTA. Параллелизм играет важную роль в задачах Data Science, так как может значительно ускорить вычисления и обработку больших объемов данных. В посте расскажу о возможностях применения параллельных вычислений в интерактивной среде Jupyter notebook языка Python. Узнать больше Читать: https://habr.com/ru/articles/744066/

2 744

Rat czarina claims numbers don't lie Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/06/rat-czarina-claims-numbers-dont-lie.html

2 744

Переизобретаем сжатие в распределенной базе данных В используемой нами базе данных уже была эффективная функциональность сжатия, которая обеспечивала хранение объемной информации. Но рост объема хранимых данных — не единственный возможный выигрыш от применения сжатия, поэтому мы задумались о разработке собственного решения. В этой статье расскажу, как мы изменили подход к сжатию данных, чем пришлось пожертвовать и почему менее эффективное «на бумаге» решение в результате превзошло наши ожидания. Читать: https://habr.com/ru/companies/sberbank/articles/741894/