fa
Feedback
Data Analysis / Big Data

Data Analysis / Big Data

رفتن به کانال در Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

نمایش بیشتر
2 751
مشترکین
+224 ساعت
+57 روز
+2030 روز
آرشیو پست ها
Tproger объединились с Paradox и запустили совместный проект для комьюнити разработчиков Мы сделали два дизайна — теперь ваш
Tproger объединились с Paradox и запустили совместный проект для комьюнити разработчиков   Мы сделали два дизайна — теперь ваш ход. Вы за типичный или за токсичный вайб? Голосуйте за один из вариантов до 30 августа на сайте.   В конце месяца объявим победителя — дизайн, который сообщество реально протащило в прод.   И да, всё самое интересное будет в канале. Среди голосующих разыграем призы — так что не только банке достанется апгрейд.

LLM-агенты против ручного ресерча: кейс Bioptic в биофарме При разработке новых лекарств важно вовремя оценить конкурентную среду – какие препараты уже существуют или находятся в разработке для той же болезни. Такой анализ конкурентов обычно входит в due diligence проекта: инвесторы и фармкомпании вручную собирают данные из разных источников о всех потенциальных конкурентах целевого препарата. Команда стартапа Bioptic (сооснователь — Андрей Дороничев) предложила автоматизировать эту рутинную работу с помощью агентной AI‑системы на базе больших языковых моделей (LLM). Всем привет. Меня зовут Кирилл Пшинник, я научный сотрудник Университета Иннополис и CEO онлайн-университета zerocoder.ru. Сегодня узнал о еще одном важном шаге в деле ускорения анализа и сбора информации с помощью ИИ. На этом примере — в медицине. Читать Читать: https://habr.com/ru/articles/940806/ #ru @big_data_analysis | Другие наши каналы

Несогласованность эффектов или «Где деньги, Лебовски?» В статье рассматриваются проблемы, возникающие при оценке эффектов A/B-тестов и Causal Inference в ритейле, когда необходимо анализировать изменения выручки по различным категориям товаров и общей (тотал-) категории. Мы подробно рассмотрим, почему простое суммирование оценок эффектов по категориям не всегда дает корректную оценку для тотал-категории, и предложим эффективный способ решения этой проблемы. Читать: https://habr.com/ru/companies/X5Tech/articles/940488/ #ru @big_data_analysis | Другие наши каналы

Неожиданный результат: ИИ замедляет опытных разработчиков Мы провели рандомизированное контролируемое исследование (RCT), чтобы оценить, как инструменты искусственного интеллекта начала 2025 года влияют на продуктивность опытных open-source разработчиков, работающих в своих собственных репозиториях. Неожиданно оказалось, что при использовании ИИ-инструментов разработчики выполняют задачи на 19% дольше, чем без них — то есть ИИ замедляет их работу. Мы рассматриваем этот результат как срез текущего уровня возможностей ИИ в одном из прикладных сценариев. Поскольку системы продолжают стремительно развиваться, мы планируем использовать аналогичную методологию в будущем, чтобы отслеживать, насколько ИИ способен ускорять работу в сфере автоматизации R&D[1]. Подробности — в полной версии статьи. Читать: https://habr.com/ru/articles/936938/ #ru @big_data_analysis | Другие наши каналы

Развёртывание боевого кластера Cassandra. Часть 3 Это продолжение цикла, рассказывающего о практике развёртывания небольшого, но вполне производственного кластера Cassandra. В первой и второй частях мы продвинулись вперед вот по такому плану: 1. Анализ рабочей нагрузки и требований 2.Разработка схемы данных 3. Настройка хостовых машин 4. Настройка конфигурации Cassandra = ВЫ НАХОДИТЕСЬ ЗДЕСЬ = 5. Настройка топологии кластера 6. Подключение Prometheus Cassandra Exporter 7. Подключение Prometheus Node Exporter 8. Вывод всех метрик в Grafana 9. Проведение нагрузочного тестирования 10. Дополнительный тюнинг по результатам теста Двинемся дальше? Читать: https://habr.com/ru/articles/940268/ #ru @big_data_analysis | Другие наши каналы

Парсинг данных в Python: от простых строк до датасетов В этой статье мы разберём основы парсинга данных в Python. Мы начнём с простых строк с помощью регулярных выражений, перейдём к парсингу HTML с использованием библиотеки BeautifulSoup, познакомимся с pandas для работы с данными и, наконец, соберём всё вместе, чтобы спарсить реальный датасет (например, топ фильмов с IMDb) и сохранить его в CSV-файл. Читать: https://habr.com/ru/articles/940144/ #ru @big_data_analysis | Другие наши каналы

Личный топ методов Pandas Pandas — это изумительная библиотека на Python для анализа и обработки данных. Она настолько хороша, что проще сказать, чего она не умеет, чем перечислить все её возможности. В мире аналитики это настоящий швейцарский нож. В этой статье я хочу поделиться личным топом методов, которые помогают в первичной обработке больших данных. Читать: https://habr.com/ru/articles/940028/ #ru @big_data_analysis | Другие наши каналы

Apache Superset — почему все топы рынка выбрали именно его? Попытка по-иному ответить на вопрос "какую BI-системы выбрать"? Вместо сравнения систем сделаем проще - оценим рынок и расскажем о возможностях той системы, которую рынок предпочел Читать: https://habr.com/ru/articles/939876/ #ru @big_data_analysis | Другие наши каналы

Как крупные компании используют данные для стратегии? Финансовый директор Vopak Маргарета Хенрих-Квист делится опытом внедрения Oracle Fusion Data Intelligence для принятия важных управленческих решений и развития бизнеса. Читать подробнее #en @big_data_analysis | Другие наши каналы

Как Oracle Fusion Data Intelligence упрощает работу с документами Статья рассказывает, как возможности Data Augmentation и Semantic Model Extension в Oracle Fusion Data Intelligence помогают напрямую получать ссылки на вложения в счетах, что снижает ручную работу и повышает прозрачность данных. Читать подробнее #en @big_data_analysis | Другие наши каналы

Новая инициатива от команды Oracle Analytics Service Excellence направлена на поддержку и развитие сообщества Fusion Data Intelligence. Проект помогает создавать и распространять полезные аналитические артефакты, облегчая совместную работу и обмен знаниями. Узнайте подробнее. Читать подробнее #en @big_data_analysis | Другие наши каналы

Интеграция OpenAI LLM с Oracle Analytics В статье рассказывается, как подключить большие языковые модели OpenAI к Oracle Analytics. Подробно описан процесс получения API-ключей и настройки интеграции для расширения возможностей аналитики. Читать подробнее #en @big_data_analysis | Другие наши каналы

Как t2 масштабировал BI-аналитику на 4500+ пользователей: кейс миграции на FineBI Уходящие с рынка западные BI-решения оставили компании перед сложным выбором. Как найти альтернативу, которая не только заменит функционал, но и позволит масштабировать self-service аналитику на всю организацию? В этой статье делимся реальным кейсом компании t2 (бывший Tele2), которая за два года превратила FineBI в backbone корпоративной аналитики с одной из самых больших инсталляций в России. 400+ разработчиков отчетности, 3500+ общих лицензий, кластерная архитектура и автоматизированное обучение — рассказываем, как это работает на практике. Читать: https://habr.com/ru/companies/glowbyte/articles/939470/ #ru @big_data_analysis | Другие наши каналы

Мы писали ранее, что 12 сентября пройдёт big tech night. Событие придумали в Яндексе и организовали вместе со Сбером, X5, Т-Б
+5
Мы писали ранее, что 12 сентября пройдёт big tech night. Событие придумали в Яндексе и организовали вместе со Сбером, X5, Т-Банком и Lamoda. Впервые топовые IT-компании одновременно откроют двери офисов в Москве с 18:00 до 00:00 и покажут специалистам, где рождаются технологии. Пора рассказать о тех, кто выйдет на сцену⚡️ 📣 Кто и о чём расскажет на big tech night? Начинаем представлять спикеров и темы. Читайте на карточках. ➡️ А подробнее про доклады рассказываем на сайте Подписывайтесь: 💬 big tech night Реклама. Рекламодатель: ООО "Яндекс" ИНН 7736207543

Time Horizon моделей AI: почему рост скорости зависит от сферы применения В статье Measuring AI Ability to Complete Long Software Tasks (Kwa & West и др., 2025) команда METR ввела понятие 50% time horizon модели: это длительность задачи (в пересчете на время выполнения профессиональным подготовленным человеком), которую модель может автономно завершить с вероятностью 50%. Мы оценили time horizon у флагманских моделей, выпущенных с 2019 года, на бенчмарке, объединяющем три набора задач в области программирования и исследований, с длительностью от 1 секунды до 16 часов для человека (HCAST, RE-Bench и SWAA; далее — METR-HRS). METR обнаружила, что time horizon удваивается каждые 7 месяцев, с возможным ускорением до 4 месяцев в 2024 году. Существенным ограничением того анализа был домен задач: все они относились к программной инженерии или исследовательской деятельности, в то время как известно, что способности AI значительно варьируются между типами задач[1]. В этом исследовании мы рассматриваем, сохраняются ли аналогичные тренды к другим типам задач, включая автономное вождение и агентное использование компьютера, применяя методологию, позволяющую оценивать time horizon на менее детализированных данных. Данные для многих из этих бенчмарков менее надежны по сравнению с оригинальной работой, и результаты по каждому отдельному бенчмарку следует трактовать как шумные. Однако в совокупности они демонстрируют схожую динамику. Домен программного обеспечения и reasoning-задач — таких как научные QA (GPQA), математические соревнования (MATH, Mock AIME), полуреалистичные задачи по программированию (METR-HRS) и соревновательное программирование (LiveCodeBench) — показывает time horizon в диапазоне 50–200+ минут, который в настоящее время удваивается каждые 2–6 месяцев. Таким образом, ~100-минутные time horizons и ~4-месячное время удвоения, наблюдавшиеся на METR-HRS в исходной работе, скорее всего, не являются исключением. Читать: https://habr.com/ru/articles/936522/ #ru @big_data_analysis | Другие наши каналы

Как используются динтаблицы YTsaurus: рекламные профили поведенческого таргетинга Когда вы видите баннер, кликаете по рекламе или указываете, что вас не интересует тот или иной товар, — за кулисами происходит немало вычислений. Система поведенческого таргетинга, отвечающая за персонализацию рекламы в Яндексе, получает эти события, обновляет ваш профиль, а затем использует его, чтобы в следующий раз показать что‑то более подходящее. Сама по себе задача кажется очевидной: собирать события, обновлять профили, обеспечивать быстрое считывание информации. Но если заглянуть под капот, начинается настоящее инженерное приключение. Сотни тысяч событий в секунду, требование обработки в режиме exactly‑once, жёсткие ограничения по времени отклика, компромисс между скоростью и экономией ресурсов, и всё это — на фоне необходимости работать надёжно и с горизонтальным масштабированием. Меня зовут Руслан Савченко, в Yandex Infrastructure я руковожу разработкой динамических таблиц YTsaurus — системы, в которой поведенческий таргетинг хранит данные. В этой статье я подробно разберу кейс поведенческого таргетинга с динтаблицами: почему таблицы в памяти иногда тормозят из‑за аллокатора, зачем мы внедрили xdelta, как именно устроены агрегатные колонки и что пришлось сделать, чтобы миллисекунды отклика в 99,9 перцентиле стали реальностью. Читать: https://habr.com/ru/companies/yandex/articles/939078/ #ru @big_data_analysis | Другие наши каналы

Фильтры в таблицах В B2B-системах и корпоративных интерфейсах фильтры — не «приятный бонус», а спасательный круг в работе пользователя. Когда у вас таблица на 10 000 строк и 100+ колонок, обычным поиском или сортировкой не обойтись. Тут уже нужны сложные фильтры: с несколькими условиями, каскадными зависимостями, сохранёнными пресетами и продуманной логикой применения. В этой статье разберём, как подойти к проектированию таких фильтров с точки зрения дизайнера: что спросить у фронтендера и бэкендера, какие ограничения учесть заранее и как сделать так, чтобы фильтр реально помогал работать, а не превращался в ещё одну головную боль. Читать: https://habr.com/ru/articles/937918/ #ru @big_data_analysis | Другие наши каналы

Многофакторное сравнение пяти популярных вычислительных движков для больших данных Эволюция от Hadoop к cloud‑native и ИИ‑арх
Многофакторное сравнение пяти популярных вычислительных движков для больших данных Эволюция от Hadoop к cloud‑native и ИИ‑архитектурам. Многомерное сравнение Spark, Presto, Trino, ClickHouse и StarRocks по скорости, масштабируемости, кэшам, SQL/Python, HA и др. Читать: «Многофакторное сравнение пяти популярных вычислительных движков для больших данных» #ru @big_data_analysis | Другие наши каналы

Как адаптировать аналитику для тех, кто не хочет разбираться в графиках Если вы управляете достаточно крупным бизнесом, вы неизбежно будете собирать аналитические данные. Вы же хотите точно понимать, почему меняются показатели продаж или какие товары будут пользоваться спросом в следующем месяце. Звучит логично и понятно, пока вы не начнете плотно работать с цифрами и графиками. И тут, как и почти в любой сфере, кто-то рано или поздно должен был внедрить AI-ассистента. Под катом посмотрим, что из этого получилось. Читать: https://habr.com/ru/companies/selectel/articles/938944/ #ru @big_data_analysis | Другие наши каналы

Система метрик, или как навести порядок в голове бизнеса Зачем нужен фреймворк метрик? Общий ответ – для структуризации и порядка в головах бизнеса. В своей работе в разных командах я не раз сталкивалась с желанием стейкхолдеров отслеживать все метрики сразу, хаотично, без четкого понимания, зачем это нужно. А также с последующими попытками расписать и перечислить показатели, которые им кажутся важными, и побежать к аналитикам со срочными запросом всё посчитать и добавить на дашборд. В результате часто получалась монструозная картинка, не позволяющая определиться с фокусами и, как следствие, не удовлетворяющая самих стейкхолдеров. Ну, а если говорить более профессиональным языком, то система метрик может быть вам нужна в следующих случаях... Читать: https://habr.com/ru/articles/938912/ #ru @big_data_analysis | Другие наши каналы