Data Analysis / Big Data
Открыть в Telegram
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels
Больше2 743
Подписчики
-224 часа
-67 дней
+630 день
Архив постов
Predictive Analytics — все, что нужно знать (обзор ключевых моментов)
Predictive Analytics — или по-русски плановая или прогнозная аналитика, в основе которой лежит ответ на вопрос: «Что может произойти?»
Читать: https://habr.com/ru/articles/808423/
@big_data_analysis
Tesla A100 на платформе immers.cloud
Графический процессор с максимальным ускорением для обучения и инференса моделей искусственного интеллекта.
Особенности A100:
— блоки памяти HBM2e внутри чипа для увеличения производительности до 20 раз в сравнении с предыдущими моделями;
— тензорные ядра поддерживают широкий диапазон точностей вычислений, включая FP16, FP64 и INT8;
— объединение памяти и вычислительных мощностей с помощью NVLink мостов для достижения высокой пропускной способности.
Тарифы:
— Выгодные долгосрочные тарифы со скидками до 35% при предоплате за 30 или 60 дней.
— Цена за A100 начинается от 209,95 рублей, а минимальная конфигурация с NVLink доступна от 434,67 руб.
Для подписчиков паблика immers.cloud есть эксклюзивный бонус: 20% к пополнению счёта. Вам подберут индивидуальные конфигурации под конкретные задачи.
Подписаться на immers.cloud
Творите, развивайтесь, масштабируйтесь вместе с immers.cloud!
Реклама. ООО «ДТЛ». ИНН 9717073792. erid: LjN8KVs5q
Как выбрать правильный сервер c подходящими для ваших нейросетей CPU/GPU
С развитием генеративного искусственного интеллекта (ИИ) и расширением сфер его применения создание серверов с искусственным интеллектом стало критически важным для различных секторов — от автопрома до медицины, а также для образовательных и государственных учреждений.
Эта статья рассказывает о наиболее важных компонентах, которые влияют на выбор сервера для искусственного интеллекта, — о центральном и графическом процессорах (CPU и GPU). Выбор подходящих процессоров и графических карт позволит запустить суперкомпьютерную платформу и значительно ускорить вычисления, связанные с искусственным интеллектом на выделенном или виртуальном (VPS) сервере.
Читать: https://habr.com/ru/companies/hostkey/articles/808251/
@big_data_analysis
Avito Database meetup #1 — первый митап команды AvitoTech по базам данных
В программе 4 доклада с теорией и кейсами. Коллеги расскажут:
– как выстраивалась работа с БД и происходила автоматизация;
– какие есть нюансы работы Kubernetes со stateful приложениями;
– за счёт каких паттернов выстраивается управление БД;
– как происходит адаптация классических СУБД к платформе DBaaS.
Трансляция начнётся 24 апреля в 18:30 мск. Подробная программа и возможность урвать местечко офлайн — по этой ссылке.
Реклама ООО «Авито Тех» ИНН 9710089440, LjN8KEWBY
Spark. План запросов на примерах
Всем привет!
В этой статье возьмем за основу пару таблиц и пройдемся по планам запросов по нарастающей: от обычного селекта до джойнов, оконок и репартиционирования. Посмотрим, чем отличаются виды планов друг от друга, что в них изменяется от запроса к запросу и разберем каждую строчку на примере партиционированной и непартиционированной таблицы.
Читать: https://habr.com/ru/articles/807421/
@big_data_analysis
Геоаналитика в FineBI действии: разбираем кейс Tele2 и подключаем “Яндекс”, Google и другие карты
Привет, любознательные друзья данных!
Сегодня поговорим о картах, данных и том, как они могут стать нашими лучшими союзниками в аналитике. С вами Даша Путешественница Александр Ларин, руководитель центра обучения и поддержки GlowByte и по совместительству лидер сообщества FineBI, и BI–команда офиса данных Tele2*.
Читать: https://habr.com/ru/companies/glowbyte/articles/807329/
@big_data_analysis
Ждём тебя на OneDayOffer 20 апреля — где ты можешь получить предложение о работе от SberAutoTech. Присоединяйся к проекту по разработке технологии автономного вождения и строй будущее беспилотного транспорта с нами.
Мы ищем талантливых системных аналитиков и С++ разработчиков, готовых к вызовам! Пройди все этапы собеседования за один день и получи предложение о работе.
Заполни форму, выполни тестовое задание и получи приглашение на онлайн-мероприятие.
Твоя карьера может измениться уже сегодня! Узнай больше по ссылке.
Реклама
Мы опубликовали датасет для детекции речи размером более 150 тысяч часов на 6000+ языках
Мы выложили в публичный доступ гигантский датасет для детекции речи (voice activity detection).
Датасет содержит порядка 150 тысяч часов аудио более чем на 6,000 языках. Количество уникальных ISO-кодов данного датасета не совпадает с фактическим количеством языков, так как близкие языки могут кодироваться одним и тем же кодом.
Данные были размечены для задачи детекции голоса при временной дискретизации примерно в 30 миллисекунд (или 512 семплов при частоте дискретизации 16 килогерц).
Данный датасет распространяется под лицензией CC BY-NC-SA 4.0.
Давайте смотреть датасет
Читать: https://habr.com/ru/articles/806857/
@big_data_analysis
Более 250 бесплатных курсов и ресурсов по аналитике
Большая подборка для аналитиков данных, продуктовых аналитиков, веб аналитиков, маркетинговых аналитиков и особенно тех, кто хочет ими стать. От автора Telegram-канала «Аналитика и Growth mind-set».
Но прежде несколько важных моментов:
Читать: https://habr.com/ru/articles/806753/
@big_data_analysis
Меньше работы с людьми, больше работы с данными: кому подойдет мир аналитики
В мире, где каждый клик, каждое взаимодействие и каждая транзакция превращаются в данные, способность понимать и интерпретировать этот поток информации становится все более ценной. Данные — это золото нашего времени, невидимый актив, который в правильных руках способен преобразовывать бизнес, науку и даже повседневную жизнь. В центре этой революции стоит профессия аналитика — ключевого игрока в процессе превращения сырых данных в ценные инсайты и стратегические решения. Об этом сегодня нам расскажет Алексей Бабенков.
Читать: https://habr.com/ru/companies/productstar/articles/806529/
@big_data_analysis
Ликбез по методологиям проектирования хранилищ данных
Хранилище данных — это информационная система, в которой хранятся исторические и коммутативные данные из одного или нескольких источников. Он предназначен для анализа, составления отчетов и интеграции данных транзакций из разных источников.
Рассмотрим сильные и слабые стороны самых популярных методологий.
Читать: https://habr.com/ru/articles/806347/
@big_data_analysis
Python streaming (spark+kafka)
В этой статье, посвященной Python streaming с использованием Spark и Kafka мы рассмотрим основные шаги по настройке окружения и запуску первых простых программ
Читать: https://habr.com/ru/articles/806287/
@big_data_analysis
Куда развиваться системным аналитикам в 2024 году
Сегодня System Analyst переводит ТЗ с «бизнесового» на «разработческий», пишет спецификации в .yaml / .json и даже делает коммиты. Можно ли теперь эту профессию рассматривать как способ вкатиться в разработку? Ведь на рынке от кандидата ожидают понимания архитектуры, API и умения создавать SQL-запросы
Привычный System Analysis может показаться лишним в связи с расцветом гибких методологий. Что ждет профессию в 2024 году? Разбираемся вместе с подкастом Газпромбанка «Техно. Логично».
#советы
Connecting an On-Premises Oracle Analytics Server to an IAM Domain for Single Sign-On Using the IAM App Gateway
This blog describes how to connect an on-premises Oracle Analytics Server to an OCI IAM Domain for Single Sign-On (SSO) using the App Gateway.
Read: https://blogs.oracle.com/analytics/post/onpremises-oas-sso-app-gateway
@big_data_analysis
Disaster Recovery for Oracle Analytics Server on Oracle Cloud Using RCU Schemas Replication and File System Replication with Rsync
This post describes how to implement disaster recovery for Oracle Analytics Server on Oracle Cloud using RCU schemas replication and file system replication with rsync.
Read: https://blogs.oracle.com/analytics/post/oas-dr-rcu-replication-rsync
@big_data_analysis
Disaster Recovery for Oracle Analytics Server on Oracle Cloud Using RCU Schemas and Block Volume Replication
This blog describes how to implement disaster recovery for Oracle Analytics Server on Oracle Cloud using RCU schemas replication and block volume replication.
Read: https://blogs.oracle.com/analytics/post/oas-dr-rcu-block-volume-replication
@big_data_analysis
Implementing a Multi-Tenancy Model in Oracle Analytics Cloud: Securing Customer Data and Reports
This blog describes how to secure customer data and reports when implementing a multi-tenancy model in Oracle Analytics Cloud.
Read: https://blogs.oracle.com/analytics/post/oac-mtm-secure-customer-data
@big_data_analysis
The Role of Native Credentials in Oracle Analytics Cloud
This blog describes the role of native credentials in Oracle Analytics Cloud when using data source connection dialogs, the Model Administration Tool, Catalog Manager CLI, IDCS, REST APIs, and the Data Migration utility.
Read: https://blogs.oracle.com/analytics/post/oac-native-cred
@big_data_analysis
Перфокарты против перфокарт: война систем до появления iOS и Android
Первая система для обработки больших объемов данных появилась в конце 19 века. Американский инженер Герман Холлерит создал ее для того, чтобы обрабатывать результаты переписи населения США. Компания Холлерита — первый ИТ-стартап — нашла частных инвесторов и государственные заказы, создала новую отрасль, и привлекла сотни клиентов. Однако ее монопольное положение на этом рынке было недолгим — вскоре появился конкурент, который смог предложить пользователям более низкие цены и новые технологии.
Читать: https://habr.com/ru/articles/805519/
@big_data_analysis
Оптимизируем параметры запуска приложения Spark. Часть первая
Привет! Меня зовут Андрей Чучалов, я работаю в билайн, и в этом посте я расскажу про оптимизацию параметров запуска приложений в Spark, поиск проблем и повышение производительности. Разберем запуск приложений Spark в базовой и расширенной версиях, покажу методы расчёта основных параметров работы приложения для производительности и эффективности использования доступных ресурсов кластера. Бонусом — о том, как всё это привязано к деньгам, и где сэкономить можно, а где — не стоит.
Для чего это вообще нужно
Спараметризировать приложение — это не такая уж грандиозная задача, а вот попытаться понять взаимосвязь эффективности работы приложения со стоимостными параметрами такой работы — это уже сложнее. Тут вам пригодится своеобразное «боковое зрение».
В рассказе и на примерах я буду исходить из того, что у нас по умолчанию процесс ETL-обработки данных правильно, с самой программой всё ОК и она корректно спроектирована. И оборудование в составе кластера тоже рабочее и достаточное для запуска приложения. Это позволит говорить именно о влиянии параметров на эффективность.
Читать: https://habr.com/ru/companies/beeline_tech/articles/804513/
@big_data_analysis
Уже доступно! Исследование Telegram 2025 — ключевые инсайты года 
