Data Analysis / Big Data

Open in Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

Network:Типичный программист Russia177 035 Technologies & Applications26 838

2 753

Subscribers

+224 hours

+57 days

+2030 days

662

Post views

No data24 hours

No data48 hours

24.05%

Engagement rate

No data

Posts per day

Ads index

beta

Posts Archive

2 752

Пожиратель токенов (или нет): анатомия протокола MCP для ИИ-агентов Поводом написания этой статьи послужил подслушанный диалог: А на чем у вас агенты написаны? У нас на MCP! Для меня MCP всегда был просто протоколом, то есть именно способом отправки и обработки запросов. А когда я слушал выступления или читал некоторые статьи о том, как плох/хорош MCP, меня не покидало ощущение чего-то странного. Но все же решил, что это от незнания, и я чего-то не понимаю. А когда не понимаешь, но очень хочешь понимать, то самый лучший способ — это взять и разобраться. Именно это предлагаю и сделать в статье, а также замерить MCP, чтобы ответить на вечный вопрос: сколько сжирает MCP, подключать ли его вообще или и так сойдет? Читать: https://habr.com/ru/articles/956150/ #ru @big_data_analysis | Другие наши каналы

2 752

Зачем бизнесу GPT-платформа, а не просто LLM: опыт JET & Yandex GPT Lab Меня зовут Антон Чикин, я руковожу отделом интеллектуального анализа в «Инфосистемы Джет». В статье я попробую показать на практическом примере, почему корпоративный ИИ нельзя свести к установке готовой LLM — и что именно приходится выстраивать вокруг неё, чтобы получить реальную ценность для бизнеса. Этот материал будет полезен тем, кто отвечает за внедрение ИИ в компаниях среднего и крупного масштаба: ИТ-директорам, архитекторам корпоративных систем, специалистам по информационной безопасности и тем, кто рассматривает генеративный ИИ как инструмент автоматизации бизнес-процессов. Читать: https://habr.com/ru/companies/jetinfosystems/articles/956042/ #ru @big_data_analysis | Другие наши каналы

2 752

GigAPI — это лёгкий «тайм-серии-лейкхаус» на базе DuckDB + Parquet с FDAP-стеком Если вы когда-нибудь собирали аналитику по кликам, метрикам или логам, то знаете цену вопроса: хочется SQL за миллисекунды, хранение в дёшёвом объектном хранилище, минимум «танцев» с кластером и—если повезёт—MIT-лицензию без ловушек. На одном берегу — «тяжёлые» распределённые OLAP-системы (ClickHouse, Pinot, Druid), на другом — специализированные TSDB (InfluxDB, TimescaleDB, QuestDB). Между ними набирает силу «озёрный» подход: складывать сырые события в Parquet, а считать — встраиваемым движком с Arrow/FlightSQL поверх. GigAPI как раз из этой когорты: DuckDB + Parquet, чтение из локального диска или S3, запросы через FlightSQL (gRPC) и HTTP, режимы writeonly/readonly/compaction, один контейнер для старта и понятная философия «делай просто, делай быстро». Проект обещает суб-секундные аналитические запросы, компактизацию и дружбу с FDAP-миром (Arrow/DataFusion/Parquet/Flight) — всё то, что нравится инженерам, уставшим от «зоопарков» сервисов. Читать: https://habr.com/ru/articles/955560/ #ru @big_data_analysis | Другие наши каналы

2 752

Arc: Убийца ClickHouse на стероидах из DuckDB и Parquet? Разбираем новый движок для time-series Привет, Хабр! Если последние годы вас не отпускала фантомная боль от вечного выбора между ураганной скоростью ClickHouse, невозмутимой простотой SQLite и порой адской сложностью настройки InfluxDB, — возможно, вы, как и мы, дождались чего-то по-настоящему нового. На горизонте появился проект Arc от команды Basekick Labs. Это не просто очередная попытка, а дерзкая заявка на соединение всего лучшего из мира time-series и lakehouse-подхода. Забудьте о тяжёлых серверах и мучительной шардированной архитектуре. Arc предлагает: Читать: https://habr.com/ru/articles/955536/ #ru @big_data_analysis | Другие наши каналы

2 752

ClickHouse и Cassandra: что скрывают highload-системы 16 октября в 18:00 на митапе 43Tech — три реальных кейса от инженеров, которые ежедневно работают с высоконагруженными хранилищами и миллиардами записей: • Cassandra для маркировки товаров: как UDT помогают (и вредят), какие архитектурные решения работают и как можно оптимизирвать структуры данных; • ClickHouse без боли: эффективная запись данных, дедупликация и настройки, которые реально ускоряют вставку; • Узнаете про цену «нулевой потери данных», как выбирали между производительностью и надёжностью при использовании Cassandra. Митап пройдет в гибридном формате: вы можете присоединиться лично или онлайн. Участие бесплатное, ссылку на трансляцию пришлют накануне. Регистрация и подробности по ссылке: https://career.crpt.ru/events/database-meetup Информационный канал Чат для общения и нетворкинга Это #партнёрский пост

2 752

BI в закрытом контуре: технические вызовы развертывания и эксплуатации Бизнес-аналитику чаще внедряют в облаке или гибридной инфраструктуре. Но что делать, если по требованиям безопасности выход интернет недоступен, а BI‑система должна работать только внутри корпоративной сети? Эта статья будет полезна архитекторам, DevOps‑инженерам и администраторам, которым нужно развернуть BI‑платформу в изолированной среде. На примере Modus BI мы разберём ключевые технические трудности и покажем решения, проверенные в реальных проектах. Читать: https://habr.com/ru/companies/modusbi/articles/954862/ #ru @big_data_analysis | Другие наши каналы

2 752

Сбер заменил ИИ до 25% разработчиков — от джунов до лидов Сбер заменил ИИ до 25% IT-команды: тысячи разработчиков и тестировщиков уволены под видом «оптимизации», банк говорит об автоматизации Читать: «Сбер заменил ИИ до 25% разработчиков — от джунов до лидов» #ru @big_data_analysis | Другие наши каналы

2 752

Apache Cloudberry — открытое будущее Greenplum. Сравнение, архитектура, перспективы Если вы работаете с аналитическими базами данных, то наверняка слышали о Greenplum — одном из самых мощных MPP-решений (Massively Parallel Processing) на базе PostgreSQL. Однако в последние годы в экосистеме PostgreSQL появилось новое имя — Apache Cloudberry. На первый взгляд, это ещё один форк Greenplum. Но на деле Cloudberry — переосмысление архитектуры MPP-СУБД, выполненное с уважением к наследию Greenplum, но с современным кодом, ядром PostgreSQL 14+, открытым управлением через Apache Foundation и амбициозной целью стать по-настоящему открытой аналитической платформой уровня DWH. Читать: https://habr.com/ru/articles/955244/ #ru @big_data_analysis | Другие наши каналы

2 752

Продвинутый анализ на PySpark: учимся работать с рекуррентными соотношениями Обработка и анализ временных последовательностей (временных рядов) достаточно часто встречающаяся задача. Обычно она решается с помощью идентичных подходов и методов. Однако когда анализ временного ряда предполагает выражение каждого последующего элемента через предыдущие, возникают проблемы с эффективностью реализации такого анализа. Это особенно актуально в контексте больших данных. В данной статье я продемонстрирую подход к анализу и вычислению рекуррентных соотношений. В качестве примера будет представлена реализация на базе Apache Spark и Python метода экспоненциальной скользящей средней с использованием DataFrame API. Мы рассмотрим метод агрегации данных, совместимый со Spark Connect, который был добавлен в версию 3.1 (для Scala - начиная с версии фреймворка 3.0), а именно – функцию aggregate. Читать: https://habr.com/ru/companies/axenix/articles/952278/ #ru @big_data_analysis | Другие наши каналы

2 752

Данные WhatsApp и Telegram для ML-моделей: тренд или серый рынок? В этой статье я расскажу про новый тип данных для российского рынка - данные Whatsapp и Telegram: насколько они ценны и насколько легальны. Читать: https://habr.com/ru/articles/955030/ #ru @big_data_analysis | Другие наши каналы

2 752

Данные WhatsApp и Telegram для ML-моделей: тренд или серый рынок? В этой статье я расскажу про новый тип данных для российского рынка - данные Whatsapp и Telegram: насколько они ценны и насколько легальны. Читать: https://habr.com/ru/articles/955024/ #ru @big_data_analysis | Другие наши каналы

2 752

Собираем собственный ЦОД. 30 петабайт дискового пространства для предобучения моделей Как потратить почти полмиллиона долларов, чтобы собрать в центре Сан-Франциско хранилище данных объёмом 30 петабайт Мы собрали в центре Сан-Франциско центр для хранения данных с общим дисковым пространством, где хранятся видеоданные общей длительностью 90 миллионов часов. Зачем? Мы предобучаем модели, чтобы разобраться с использованием компьютеров. Дело в том, что видео гораздо крупнее, чем текстовые данные. Например, на обучение такой текстовой БЯМ как LLaMa-405B требуется ~60 ТБ текстовых данных, а на хранение видео нужно в 500 раз больше текстового пространства. За хранение всей этой информации на серверах AWS пришлось бы выложить 12 миллионов долларов в год, поэтому мы пошли другим путём и арендовали пространство в колокационном центре в Сан-Франциско. Так нам удалось снизить эти расходы примерно в 40 раз (до $354 тысяч в год, считая издержки на устаревание). Читать: https://habr.com/ru/articles/955002/ #ru @big_data_analysis | Другие наши каналы

2 752

Актуальные вопросы по ИИ и перспективным технологиям Эксперты Gartner дают краткие ответы на свежие вопросы клиентов о перспективных технологиях. Фокус на принятии решений: когда инвестировать в агентный ИИ и DSLM, какие метрики измерять и как масштабировать без потери контроля. Читать: https://habr.com/ru/articles/954788/ #ru @big_data_analysis | Другие наши каналы

2 752

Книга: «Грокаем структуры данных» Каждый разработчик знает, насколько важны структуры данных. Без них не обходится ни один серьезный проект, будь то оптимизация запросов, работа с Big Data или просто написание чистого и эффективного кода. Не зря же на собеседованиях постоянно спрашивают про деревья, хеш-таблицы и сложность алгоритмов! Вы только приступили к изучению структур данных? Хотите освежить знания, полученные в ходе обучения? В этой книге нет заумной математики, скучных доказательств и абстрактной теории. Вместо этого — понятные объяснения, рабочие примеры и реальные кейсы, с которыми ежедневно сталкиваются разработчики. Вы узнаете, как с помощью правильных структур данных ускорить поиск, эффективнее управлять очередями задач или, например, оптимизировать хранение данных. Книга построена по принципу «от простого к сложному»: начинается с базовых структур, таких как массивы и связанные списки, и постепенно переходит к более сложным — стекам, очередям, деревьям, хеш-таблицам и графам. Каждая глава содержит практические примеры, упражнения и наглядные иллюстрации, которые помогают закрепить материал. Вся теория подкреплена примерами на Python — одном из главных языков современной разработки. Если вы хотите не просто использовать структуры данных, а понимать их и применять осознанно — эта книга для вас. Читать: https://habr.com/ru/companies/piter/articles/954670/ #ru @big_data_analysis | Другие наши каналы

2 752

Оптимизация источников данных для ML моделей В этой статье хочется поделиться собственной методикой оптимизации источников данных для кредитного скоринга и представить ключевые результаты реальных замеров на российском рынке. Читать: https://habr.com/ru/articles/954826/ #ru @big_data_analysis | Другие наши каналы

2 752

Я «уволил» LLM с должности «мозга» проекта. И его производительность взлетела Помните свой первый «вау‑эффект» от LLM? Я помню. Возможность вести диалог, генерировать код, получать ответы на сложные вопросы — казалось, мы получили идеального партнера по мышлению. Но эйфория быстро угасла когда я начал использовать LLM для реальных, долгосрочных задач: рефакторинга сложного кода, написания архитектурной документации, анализа бизнес‑задач. И здесь проявилась фундаментальная проблема — «забывание». Читать: https://habr.com/ru/articles/954742/ #ru @big_data_analysis | Другие наши каналы

2 752

Greengage DB: новый open-source монстр MPP-аналитики. Конец эпохи Greenplum?* Что, если Greenplum пережил перерождение? Новый проект Greengage DB возвращает PostgreSQL в большую игру — теперь с авто-масштабированием, чистым ядром и реальной совместимостью. Разбираемся, почему этот форк может стать «Linux для аналитики». Читать: https://habr.com/ru/articles/954506/ #ru @big_data_analysis | Другие наши каналы

2 752

Южная Корея может навсегда потерять 858 ТБ государственных данных после пожара в дата-центре В результате пожара в государственном дата-центре NIRS в Южной Корее уничтожено до 858 ТБ данных, включая хранилище G-Drive без резервной копии. Четыре человека арестованы, восстановление сетей идёт медленно. Читать: «Южная Корея может навсегда потерять 858 ТБ государственных данных после пожара в дата-центре» #ru @big_data_analysis | Другие наши каналы

2 752

Oracle People Leaders: FDI для контроля соответствия В статье говорится, что Oracle People Leaders применяют технологию FDI для мониторинга кадрового соответствия нормативам, что повышает прозрачность процессов и ускоряет реагирование на нарушения. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 752

Oracle Fusion повышает продажи и прогнозы Глобальная компания в области материаловедения и цифровой идентификации использует Oracle Fusion Data Intelligence для оптимизации продаж, прогнозирования и управления производственными цепочками поставок. Подробности в статье. Читать подробнее #en @big_data_analysis | Другие наши каналы