en
Feedback
Data Analysis / Big Data

Data Analysis / Big Data

Open in Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

Show more
2 751
Subscribers
-224 hours
+37 days
+1830 days
Posts Archive
Часть 4: Mamba — State Space Models vs трансформеры Mamba — революция в обработке длинных последовательностей! Mamba — State Space Models vs трансформеры, что лучше?! Читать: https://habr.com/ru/articles/925416/ #ru @big_data_analysis | Другие наши каналы

Сквозь тернии к апдейту: история о том, как мы обновляли стриминг ОК Стриминговые данные — важная часть многих современных ИТ-платформ. Они активно используются в разных разделах социальной сети Одноклассники уже более 10 лет. И за это время используемый нами стриминговый фреймворк успел заметно измениться, поэтому настало время обновить его в нашем проекте. Но на пути обновления легаси-систем иногда возникают сложности. Меня зовут Алина Шестакова. Я разработчик в команде разработки DataPlatform единой облачной платформы One-сloud. В этой статье расскажу о том, как устроен стриминг данных в ОК, а также обо всех патчах и челленджах, возникших в процессе обновления стримингового фреймворка. Читать: https://habr.com/ru/companies/vk/articles/924650/ #ru @big_data_analysis | Другие наши каналы

Участие Газпромбанка в Международном молодежном экономическом форуме «День будущего» на ПМЭФ Рассказываем, как прошла дискусс
Участие Газпромбанка в Международном молодежном экономическом форуме «День будущего» на ПМЭФ Рассказываем, как прошла дискуссия на «Дне будущего» в рамках ПМЭФ-2025 — о страхах, ошибках, первых шагах и поддержке молодых профессионалов на пути к успеху. Читать: «Участие Газпромбанка в Международном молодежном экономическом форуме «День будущего» на ПМЭФ» #ru @big_data_analysis | Другие наши каналы

16 перемен, которые уже меняют корпоративный подход к генеративному ИИ В 2023 году генеративные ИИ стремительно ворвались в потребительский сегмент, достигнув миллиарда долларов пользовательских расходов за рекордно короткий срок. В 2024-м, по нашим оценкам, потенциал выручки в enterprise-сегменте будет в несколько раз выше. Пока в прошлом году потребители часами общались с новыми AI-компаньонами или создавали изображения и видео с помощью diffusion-моделей, корпоративное внедрение genAI, казалось, ограничивалось лишь очевидными кейсами и выпуском «GPT-оберток» в виде новых SKU. Скептики задавались вопросами: действительно ли genAI может масштабироваться в enterprise? Разве мы не застряли а трёх одинаковых сценариях? Способны ли стартапы вообще зарабатывать на этом деньги? А вдруг это просто хайп? За последние несколько месяцев мы пообщались с десятками топ-менеджеров компаний из списка Fortune 500 и других лидеров enterprise-сегмента, а также провели опрос среди ещё 70 компаний, чтобы понять, как они используют genAI, как покупают решения и как планируют бюджеты. Мы были поражены тем, насколько сильно изменилась структура инвестиций и отношение к генеративным ИИ всего за полгода. Хотя у этих лидеров всё ещё остаются определённые опасения по поводу внедрения generative AI, они почти утроили бюджеты, расширили число рабочих кейсов, реализованных на меньших open-source моделях, и начали активно выводить задачи из стадии эксперимента в продакшн. Для фаундеров это колоссальная возможность. Мы убеждены: те AI-стартапы, которые, во-первых, ориентируются на стратегические AI-инициативы корпораций с учетом их болевых точек, и, во-вторых, трансформируют сервисную модель в масштабируемые продуктовые решения, — именно они смогут захватить значительную долю нового инвестиционного потока и закрепиться на рынке. Читать: https://habr.com/ru/articles/923630/ #ru @big_data_analysis | Другие наши каналы

Обновление Oracle Analytics Cloud июля 2025 года добавляет генеративный ИИ для пользователей, улучшенные инструменты моделирования данных для авторов и расширенные возможности визуализации. Улучшена безопасность и интерфейс администрирования, что повышает эффективность аналитики. Читать подробнее #en @big_data_analysis | Другие наши каналы

Как технологии Oracle помогают раскрыть потенциал данных и ИИ В статье рассказывается о работе Эби Джайлз-Хэйг, которая применяет технологии Oracle для развития аналитики, искусственного интеллекта и поддержки женщин в IT. Ее опыт вдохновляет на новые достижения в цифровой сфере. Читать подробнее #en @big_data_analysis | Другие наши каналы

Тимлид, вам слово 📢 Приглашаем на митап по управлению командами Воспользуйтесь летним затишьем, чтобы посмотреть на практику
Тимлид, вам слово 📢 Приглашаем на митап по управлению командами Воспользуйтесь летним затишьем, чтобы посмотреть на практику коллег, промониторить «погоду» в своей команде и, возможно, обновить стратегию работы. Обсудим дела тимлидские на офлайн-встрече TeamLead Talks в офисе Lamoda. ✔️Обменяемся опытом, разберем кейсы командного управления и выберем лучшие решения. 🍕 Наладить непринужденное общение помогут нетворкинг-разогрев, игра «IT-бункер», закуски и напитки. Присоединяйтесь к Team Lead Talks: 📅 2 июля в 19:00. 📍Офлайн, Москва, офис Lamoda. ✏️Регистрируйтесь по ссылке, количество мест ограничено. Реклама О рекламодателе

Как ускорить дашборды в Oracle Analytics Cloud с HTTP/2. В статье раскрывают способы повышения скорости работы дашбордов в Oracle Analytics Cloud, независимо от того, используются ли публичные или приватные эндпоинты. Советы помогут улучшить общую производительность платформы. Читать подробнее #en @big_data_analysis | Другие наши каналы

Как закалялась сталь: моделируем остывание рельса, чтобы сделать его прочнее Цифровая трансформация подобна ремонту: однажды начавшись, не заканчивается уже никогда. Разработчики и дата-сайентисты выискивают по цехам ЕВРАЗа — где бы ещё причинить пользу своими знаниями и умениями? На этот раз им на глаза попалось производство рельсов. И увидели они, что это хорошо, но можно ещё лучше… Конечно, в действительности процесс принятия решений выглядит немного иначе. Однако термоупрочнение рельсов — действительно перспективный объект для цифровизации. Под катом вы сможете прочесть, как строилась математическая модель остывания рельса, а главное — зачем. Читать: https://habr.com/ru/companies/evraz/articles/682046/ #ru @big_data_analysis | Другие наши каналы

10 критериев выбора BI-платформы для миграции по версии ex-Accenture Недавно мы обнаружили в сети новое исследование российского рынка BI. На этот раз его проводили не исконно российские коллеги — то есть не BI Consult, а компания Axenix — бывшее подразделение Accenture в России. В этом посте мы разбираемся, какие требования к BI-платформам предъявляют специалисты, внедрявшие до этого исключительно зарубежные продукты, а также думаем о том, насколько  соответствует им Visiology сегодня. Узнать, каким должен быть российский BI... Читать: https://habr.com/ru/companies/visiology/articles/661789/ #ru @big_data_analysis | Другие наши каналы

Эволюция архитектуры данных: как потребности бизнеса изменили инструменты для хранения данных Команда VK Cloud перевела статью о том, как с течением времени менялась и развивалась архитектура данных и какие инструменты появлялись в ответ на потребности бизнеса. Введение Задачи по работе с данными отделяют от бизнес- и других аналитических задач (BI, дата-сайенс, когнитивные решения и т. п.) с тех пор, как появились первые ИТ-системы и бизнес-приложения. Из-за высокой ресурсоемкости рабочие нагрузки по аналитической обработке данных приходится отделять от ИТ-систем, отвечающих за бизнес-операции, иначе они столкнутся со сбоями и нехваткой ресурсов, что приведет к неудобствам для пользователей, работающих с системой. Читать: https://habr.com/ru/companies/vk/articles/692554/ #ru @big_data_analysis | Другие наши каналы

Непрерывное обучение для продакшен-систем Жизненный цикл машинного обучения Введение Методология agile-разработки ПО, популяризированная примерно в 2010 году манифестом Agile Software Development, продвигает идею адаптивного планирования, эволюционного развития, быстрой доставки и непрерывного совершенствования как ключевых свойств, обеспечивающих быстрый и гибкий отклик на постоянно ускоряющиеся изменения рынка и его требований. Поскольку линейные каскадные модели, позаимствованные из отраслей производства и строительства, оказались неспособны обеспечить конкурентное преимущество в постоянно усложняющемся и быстро меняющемся мире ПО, модели Agile и Scrum стали де-факто стандартом для современной разработки ПО. Но что произойдёт, когда мы осуществим переход к Software 2.0? Читать: https://habr.com/ru/articles/686212/ #ru @big_data_analysis | Другие наши каналы

Линейный прогноз в Tableau. Терапевтический очерк Линейный прогноз. Такой простой, понятный и востребованный, практически, в любой коммерческой отрасли. Казалось бы, посчитать его можно где угодно без особого труда. Но у Tableau на этот счет есть иное мнение... Читать: https://habr.com/ru/articles/692692/ #ru @big_data_analysis | Другие наши каналы

Как заменить Qlik и PowerBI с минимальными потерями: Visiology+Loginom+PostgreSQL "Что делать, когда ТОПовые BI-системы стали недоступны и перспективы работы с ними оказались сильно ограничены?". Эта дилемма встает сегодня перед многими компаниями. Меня часто спрашивают, можем ли мы взять и перенести уже наработанные практики на другие платформы, доступные в России на сегодняшний день? К счастью, ответ на этот вопрос положительный, и об одном из вариантов его решения я расскажу сегодня. Читать: https://habr.com/ru/companies/visiology/articles/692876/ #ru @big_data_analysis | Другие наши каналы

Плохое качество данных – тихий убийца современных дата-стеков В прошлом месяце мы прочитали любопытный материал в Datafloq, в котором поднимался очень важный вопрос для всех отраслей бизнеса, работающих с большими данными: как проверить качество этих самых данных? Статью мы, разумеется, прочитали  от начала до конца, поделились ею с коллегами, коллеги поделились со своими коллегами и все единогласно заявляли, едва увидев заголовок: контролируемость и отслеживаемость данных — вот камень преткновения в вопросе качества Big Data. Что ж, в принципе, ничего нового, - подумали мы, - но как выстроить процессы, связанные с этой самой отслеживаемостью? Мы перевели для вас этот материал, чтобы вы, как и мы, смогли разобраться в этом вопросе. Согласны ли вы с автором? Будем рады вашему мнению! Подробнее в переводе Platforma Читать: https://habr.com/ru/companies/bigdataplatform/articles/692670/ #ru @big_data_analysis | Другие наши каналы

Подводные камни Spark: что делать с перезаписью и дополнением в таблицах Таблицы — это фундаментальная часть заданий Spark, и при изучении документации кажется, что работать с ними нетрудно. На самом же деле опасности поджидают на каждом повороте. Команда VK Cloud перевела статью о том, с какими трудностями вы можете столкнуться и как их преодолеть. Читать: https://habr.com/ru/companies/vk/articles/692552/ #ru @big_data_analysis | Другие наши каналы

Мониторинг в Apache NiFi. Часть первая Apache NiFi динамично развивается и на сегодняшний день обладает достаточно большим набором возможностей, позволяющим отслеживать состояние потоков данных, ошибки и предупреждения, возникающие в процессорах и на кластере, а также состояние кластера. Первая статья посвящена мониторингу потоков данных с помощью инструмента GUI NiFi. В последующих материалах мы рассмотрим задачи отчетности, опишем примеры сбора метрик и визуализации при помощи таких популярных систем, как Prometheus и Grafana. Читать: https://habr.com/ru/companies/neoflex/articles/692154/ #ru @big_data_analysis | Другие наши каналы

Tableau — динамический фильтр TOP N Всем привет! На работе стояла такая задача - вывести количество запросов в поддержку за день с разбивкой по версии приложения. Казалось бы легкая задача! Но оказалось, что количество версий приложений несколько десятков и на графике это может выглядеть ужасно. Поэтому появилась мысль, а можно ли выводить, например 10 версий с самым большим количеством запросов, а при необходимости «развернуть» график. К сожалению, данный фунционал не представлен явным образом в Tableau, поэтому пришлось поресерчить и вот что из этого получилось. Читать: https://habr.com/ru/articles/692294/ #ru @big_data_analysis | Другие наши каналы

Evidently или как пасти модели в проде Evidently это библиотека, которая помогает анализировать и отслеживать качество данных и качество моделей машинного обучения в процессе их эксплуатации. Рассмотрим как ее установить и использовать. ТК LLM is all you need | ТК Private Sharing | Курс: Алгоритмы Машинного обучения с нуля Читать: https://habr.com/ru/articles/692272/ #ru @big_data_analysis | Другие наши каналы

Как мы доработали чат-бота «Дану» и сделали её проницательнее и сообразительнее Привет! Меня зовут Даир, я Data Scientist. Эту статью мы писали вместе с Санжаром, моим коллегой, который тоже занимался проектом. Мы расскажем, как научили понимать любые клиентские запросы уже разработанным ранее в Beeline чат-бота. Фраза «понимание клиента» для нас значит следующее: клиент пишет текстовый запрос с описанием своей проблемы, если чат-бот может уловить суть проблемы, ее тематику и намерение, мы считаем, что мы справились со своей задачей. Намерение клиента в текстовом запросе мы называем «интент» (intent). Улучшаем чат-бот Читать: https://habr.com/ru/companies/beelinekz/articles/691996/ #ru @big_data_analysis | Другие наши каналы