Data Analysis / Big Data

Відкрити в Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

Сітка:Типичный программист Росія177 057 Технології та додатки26 806

2 751

Підписники

-224 години

+37 днів

+1830 день

662

Перегляди допису

Немає даних24 години

Немає даних48 годин

24.06%

Коефіцієнт залучення

Немає даних

Дописів на день

Ads index

beta

Архів дописів

2 751

Алгоритмы для работы с большими данными в Go: HyperLogLog и Count-Min Sketch Алгоритмы для работы с большими данными Всем привет! Для начала давайте разберем что такое вообще Алгоритмы для работы с большими данными, основная суть алгоритмов для работы с большими данными — это эффективная обработка огромных объёмов информации при минимальных вычислительных ресурсах (памяти, CPU, диске). Их суть — жертвовать точностью ради скорости и масштабируемости. Читать: https://habr.com/ru/articles/927212/ #ru @big_data_analysis | Другие наши каналы

2 751

Развёртывание боевого кластера Cassandra. Часть 2 Это продолжение цикла, рассказывающего о практике развёртывания производственного кластера Cassandra. В первой части мы начали продвигаться вот по такому плану: 1. Анализ рабочей нагрузки и требований 2. Разработка схемы данных 3. Настройка хостовых машин = ВЫ НАХОДИТЕСЬ ЗДЕСЬ = 4. Настройка конфигурации Cassandra 5. Настройка топологии кластера 6. Подключение Prometheus Cassandra Exporter 7. Подключение Prometheus Node Exporter 8. Вывод всех метрик в Grafana 9. Проведение нагрузочного тестирования 10. Дополнительный тюнинг по результатам теста Продолжим? Читать: https://habr.com/ru/articles/927132/ #ru @big_data_analysis | Другие наши каналы

2 751

Agile в сторону! Доверьте планирование своей жизни IT-колоде Тем более что наши арканы уже приготовили для вас послание. Переходите по ссылке, вытаскивайте карту и узнавайте, что вас ждёт сегодня, завтра и в другие дни спринта: https://tprg.ru/0xVi Реклама

2 751

Как уменьшить размер модели Power BI на 90% Вы когда-нибудь задумывались, что делает Power BI таким быстрым и мощным с точки зрения производительности? Настолько мощным, что он выполняет сложные вычисления над миллионами строк за мгновение. В этой статье мы подробно рассмотрим, что находится «под капотом» Power BI: как данные хранятся, сжимаются, запрашиваются и, наконец, возвращаются в отчёт. После прочтения, надеюсь, у вас появится лучшее понимание того, что происходит в фоновом режиме, и вы сможете оценить важность создания оптимальной модели данных для достижения максимальной производительности с использованием движка Power BI. Читать: https://habr.com/ru/companies/otus/articles/926904/ #ru @big_data_analysis | Другие наши каналы

2 751

Краткий обзор платформы данных Т-Банка Привет, Хабр! Меня зовут Дима Пичугин, и уже семь лет я занимаюсь различными компонентами T Data Platform. Эта статья — результат внутреннего аудита наших инструментов, но я подумал, что она может быть интересна не только нашим аудиторам, но и более широкой аудитории. Enjoy! Платформа данных в Т-Банке существует более 18 лет и за это время прошла значительный путь эволюции. Она помогает более чем 17 тысячам пользователей извлекать из данных ценную информацию для бизнеса. За последние годы подходы к работе с данными заметно изменились: индустрия постепенно отходила от классических концепций хранилищ данных по Инмону и Кимбеллу в сторону Data Lake, а затем — Lakehouse-архитектур. Вместе с отраслью менялась и наша платформа. В статье расскажу, как трансформировалась T Data Platform за 18 лет развития, и опишу ее текущее устройство — без погружения в технические детали, но с акцентом на общую архитектуру. Для тех, кому интересны отдельные инструменты или решения, оставлю ссылки на подробные материалы и выступления. Читать: https://habr.com/ru/companies/tbank/articles/926886/ #ru @big_data_analysis | Другие наши каналы

2 751

Простая смена подключения к базе данных в Oracle Analytics В статье рассказывается, как в Oracle Analytics можно менять подключение к базе данных на уровне таблиц без необходимости перестраивать отчёты и дашборды, сохраняя все изменения и рабочие процессы. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 751

MCP: новая игра на рынке искусственного интеллекта Всё, что нужно знать о Model Context Protocol (MCP) «Даже самые продвинутые модели ограничены своей изоляцией от данных — они заперты в информационных силосах и легаси-системах». — Anthropic о важности интеграции контекста Сегодняшние большие языковые модели (LLM) невероятно умны, но находятся в вакууме. Как только им требуется информация вне их «замороженных» обучающих данных, начинаются проблемы. Чтобы AI-агенты действительно были полезны, им нужно получать актуальный контекст в нужный момент — будь то файлы, базы знаний, инструменты — и даже уметь совершать действия: обновлять документы, отправлять письма, запускать пайплайны. Так сложилось, что подключение модели ко всем этим внешним источникам данных было хаотичным и нестабильным: разработчикам приходилось писать кастомные интеграции или использовать узкоспециализированные плагины под каждый API или хранилище. Такие «сделанные на коленке» решения были хрупкими и плохо масштабировались. Чтобы упростить это, Anthropic представила Model Context Protocol (MCP) — открытый стандарт, предназначенный для того, чтобы связать AI-ассистентов с данными и инструментами, подключая любые источники контекста. MCP был анонсирован в ноябре 2024 года. Тогда реакция была сдержанной. Но сегодня MCP — на волне: он уже обогнал LangChain по популярности и, по прогнозам, скоро обойдёт OpenAPI и CrewAI. Крупные игроки AI-индустрии и open source-сообщества начали активно поддерживать MCP, видя в нем потенциально революционный инструмент для построения агентных систем на базе LLM. Читать: https://habr.com/ru/articles/923650/ #ru @big_data_analysis | Другие наши каналы

2 751

Как мы строим антифрод в анонимных крипто-свапалках: опыт и грабли Когда речь заходит о криптовалютных свапалках и анонимных DEX, безопасность становится не просто приоритетом, а настоящим вызовом. Отсутствие централизованной модерации и KYC-процедур ставит перед разработчиками задачу создать эффективные системы, которые могут обнаруживать и предотвращать мошенническую деятельность, обеспечивая при этом минимальное вмешательство в пользовательский опыт. В этом посте я хочу рассказать о подходах и технологиях, которые мы применили для защиты анонимных крипто-платформ, таких как zixcrypto.com, и поделиться опытом разработки антифрод-системы для таких сервисов. Читать: https://habr.com/ru/articles/926264/ #ru @big_data_analysis | Другие наши каналы

2 751

Лучшие российские нейросети аналоги чата GPT, Chat-GPT на русском: ТОП-8 нейросетей, которые дают пользоваться западными нейросетями в России (GPT o4, Midjorney, Gemini, Dalle, Deepseek и др.) Подборка из 8 сервисов, которые позволяют использовать ChatGPT, Midjourney, DALL·E и другие нейросети в России — без VPN, с русским интерфейсом и полным доступом. Читать: «Лучшие российские нейросети аналоги чата GPT, Chat-GPT на русском: ТОП-8 нейросетей, которые дают пользоваться западными нейросетями в России (GPT o4, Midjorney, Gemini, Dalle, Deepseek и др.)» #ru @big_data_analysis | Другие наши каналы

2 751

Oracle Analytics Cloud вошла в список финалистов престижного конкурса Gartner 2025 Analytics and BI Bake-Off. Статья раскрывает, как инновационные AI-возможности OAC впечатлили жюри и зрителей, меняя представление об аналитических платформах. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 751

Oracle признан лидером в отчёте IDC MarketScape 2025 по платформам бизнес-аналитики. Компания выделяется благодаря встроенному ИИ, простоте использования и поддержке бизнес-пользователей. Oracle Analytics Cloud ускоряет принятие решений с помощью GenAI-инсайтов. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 751

Проверка данных с Fusion Data Intelligence FDI Data Validation позволяет сравнивать метрики между Fusion Data Intelligence и Oracle Transactional Business Intelligence для точной проверки достоверности данных. Такой подход помогает убедиться в корректности и согласованности информации. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 751

ИИ-магия: фронтенд, который думает Автор: Кристина Паревская, Neoflex Мы живем в мире быстро развивающихся технологий. С каждым годом frontend-разработка проще не становится. Сегодня frontend-разработчики могут не просто создавать обычные формы, но и игры, и даже запускать модели ИИ для выполнения задач, например, распознавания объекта. В данной статье будет рассказано, как на примере системы по распознаванию возгораний объекта в доме можно без backend части добавить в свое приложение модель для обнаружения пожара. Погружаемся в тему пожаров и возгораний Распознавание возгораний объектов на ранних стадиях является важной и актуальной проблемой в наши дни, решение которой снизит экономический риски и спасет жизни многих людей. Такие компании, как Johnson Controls, Honeywell International, Inc., GENTEX CORPORATION, Siemens, Robert Bosch GmbH, Halmaplc, Eaton, Raytheon Technologies Corporation уделяют свое внимание исследованиям в области распознавания возгораний объектов и предлагают свои решения по устранению пожаров. Этими компаниями движут желание помочь людям, быстрое развитие беспроводных технологий и развитие строительной отрасли, охватившей весь мир. Читать: https://habr.com/ru/companies/neoflex/articles/925926/ #ru @big_data_analysis | Другие наши каналы

2 751

Вот так подкрути геймификацию и мотивация болеть не будет В учебнике обществознания за 9 класс есть определение экономики как науки: «Экономика — наука о том, как люди удовлетворяют свои постоянно растущие потребности в условиях ограниченности ресурсов». Точно так и в разметке — нам нужно удовлетворить свои постоянно растущие потребности в объёмах и качестве разметки, а бюджет ограничен. Помочь нам в этом может система мотивации. Привет! Меня зовут Кузнецов Роман. Я занимаюсь разметкой и модерацией данных в Альфа-Банке. В этой статье хочу поднять извечную задачу — как мотивировать разметчиков делать много и качественно, но при этом за те же деньги (вместо разметчиков поставьте своё). Расскажу, как мы в банке нематериально мотивировали ребят, ввели геймификацию и даже повысили их творческую активность! Читать: https://habr.com/ru/companies/alfa/articles/924768/ #ru @big_data_analysis | Другие наши каналы

2 751

Собираем MVP product search: дообучение E5 и веб-сервис для сравнения поисквых выдач Что важнее: создать продукт, или доставить его до пользователя? Оба этапа необходимы. Сегодня обсудим второй. Как нам построить поисковую e-com систему. Покажем, что в слово логистика товара входят сложные задачи не только: перевезти наушники из Китая в Америку, но и настройка поисковой выдачи по запросу. Быстро соберем поисковой MVP-сервис. Дообучим модель E5 на реальных данных от Amazon. Определим метрики качества и сравним BM25, pretrain E5 и fine-tune E5. Так же взглянем глазами с отладочной информацией и проанализируем изменения поисковых выдач. И под конец обсудим каких технологий еще не хватает и можно добавить, если возникают соответствующие трудности. Погрузиться в семантический поиск → Читать: https://habr.com/ru/companies/datafeel/articles/925290/ #ru @big_data_analysis | Другие наши каналы

2 751

Настройка DBT для Fusion Data Intelligence: что нужно знать В статье рассказывается о ключевых требованиях для запуска Data Build Tool (DBT) в среде Fusion Data Intelligence. Узнайте, с чего начать и как правильно подготовить систему для успешной работы. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 751

Загрузка и обработка иерархических данных из Oracle EDMCS в Fusion Data Intelligence с помощью DBT. В статье подробно описан процесс интеграции и трансформации данных, который упрощает работу с корпоративной аналитикой и повышает эффективность управления информацией. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 751

Изучение Python за 2 недели через боль и дедлайн: личная история Изучил Python за короткий срок. Личная история. Взяли без знаний, но я смог до всяческих дедлайнов, пройдя огромное количество стресса, изучить язык программирования и даже этим спасти проект Читать: https://habr.com/ru/articles/925744/ #ru @big_data_analysis | Другие наши каналы

2 751

Линеризация в офлайн-тестах: как не стереть сигнал вместе с шумом Работаете с офлайн A/B-тестами в ресторанах? Тогда вы знаете, как шумят метрики: трафик скачет, дисперсия зашкаливает, а эффект тонет в данных. Я, Елена Малая, и это моя третья статья об офлайн-тестах (первая здесь: "Офлайн А/Б тесты в ресторанах фастфуда"). Моя задача — анализировать данные ресторанов (меньше 1000 точек, наблюдения — ресторан-день), где рандомизация невозможна, а мэтчинг — пока единственный вариант. Сегодня разберём, как линеризация помогает снизить дисперсию для метрик вроде среднего чека (ср. чек = выручка/чеки) и почему в офлайне она требует особой осторожности. Читать: https://habr.com/ru/articles/925666/ #ru @big_data_analysis | Другие наши каналы

2 751

DWH без иллюзий. Три реальных кейса внедрения корпоративного хранилища в ритейле, производстве и госсекторе Проект построения хранилища данных — это не просто внедрение технологий, а глубокая трансформация подходов к данным и аналитике, учитывающая текущее состояние процессов, стратегические цели, ресурсы и компетенции команды. Рассказываем про индивидуальный подход как основу успешного проекта DWH и делимся реальными кейсами внедрения: ✔️ Кейс 1. Свой коннектор к Oracle: когда Debezium подвел ✔️ Кейс 2. Миграция с Qlik: DWH между командами (в условиях командной фрагментации) ✔️ Кейс 3. Бюрократия против DWH: проект в около-госсекторе Читать: https://habr.com/ru/articles/925652/ #ru @big_data_analysis | Другие наши каналы