uz
Feedback
Data Analysis / Big Data

Data Analysis / Big Data

Kanalga Telegram’da o‘tish

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

Ko'proq ko'rsatish
2 751
Obunachilar
+224 soatlar
+77 kunlar
+2030 kunlar
Postlar arxiv
Настраиваем конфигурацию DAG в Apache Airflow так, чтобы меньше о ней думать В статье рассказали, как мы настроили и оптимизировали разработку загрузок для Apache Airflow и что для этого потребовалось. Читать: «Настраиваем конфигурацию DAG в Apache Airflow так, чтобы меньше о ней думать» #ru @big_data_analysis | Другие наши каналы

Настраиваем конфигурацию DAG в Apache Airflow так, чтобы меньше о ней думать В статье рассказали, как мы настроили и оптимизировали разработку загрузок для Apache Airflow и что для этого потребовалось. Читать: «Настраиваем конфигурацию DAG в Apache Airflow так, чтобы меньше о ней думать» #ru @big_data_analysis | Другие наши каналы

Простой и эффективный метод удаления дубликатов из таблицы Как быстро и просто удалить дубликаты данных в SQL-базе, чтобы изб
Простой  и эффективный метод удаления дубликатов из таблицы Как быстро и просто удалить дубликаты данных в SQL-базе, чтобы избежать ошибок в программном коде, который использует эти данные. Читать: «Простой  и эффективный метод удаления дубликатов из таблицы» #ru @big_data_analysis | Другие наши каналы

Нюансы обучения онлайн на факультете Искусственного интеллекта Советы выпускника онлайн-университета для тех, кто хочет извле
Нюансы обучения онлайн на факультете Искусственного интеллекта Советы выпускника онлайн-университета для тех, кто хочет извлечь из учебы как можно больше и дойти до конца. Читать: «Нюансы обучения онлайн на факультете Искусственного интеллекта» #ru @big_data_analysis | Другие наши каналы

Как «Строки» подбирают контент, который понравится читателям Рассказали, какие рекомендательные системы используют и как их у
Как «Строки» подбирают контент, который понравится читателям Рассказали, какие рекомендательные системы используют и как их улучшают в онлайн-сервисе для читающих людей от МТС. Читать: «Как «Строки» подбирают контент, который понравится читателям» #ru @big_data_analysis | Другие наши каналы

Почему внедрение LLM в АИС «Налог-3» неизбежно — и что это изменит в налоговом контроле После моей статьи про АИС «Налог-3» (как одну из самых мощных государственных IT-систем России) в комментариях больше всего спорили не про масштабы данных и вопроса, «видит ли ФНС всё». Основной скепсис вызвал мой тезис о необходимости внедрения больших языковых моделей (LLM) в работу налоговых органов. Основной аргумент в противовес моей позиции звучал так: «Зачем там нужен Искусственный Интеллект? Всё формализовано, достаточно жестких алгоритмов и грамотных шаблонов. Экспертная система справится сама, не надо усложнять». В этой статье я постараюсь привнести ясность в то, как происходит сбор доказательственной базы по налоговым правонарушениям и как формируется итоговый документ (акт и решение по налоговой проверки). Потому что в реальной налоговой проверке проблема не в том, чтобы найти риск или подсветить признаки. Это АИС «Налог-3» уже умеет делать достаточно хорошо. Проблема в другом - превратить массив фактов в доказательства и выводы, а затем изложить это в юридически выверенном тексте, который выдержит спор сначала на стадии возражений, потом в вышестоящем налоговом органе, а при необходимости и в суде. Если вы читаете меня впервые: я не аналитик со стороны и не «диванный эксперт». За моими словами 12 лет работы в налоговых органах, в том числе на руководящих должностях. Из системы я ушёл совсем недавно и прекрасно понимаю, как это работает изнутри. Читать: https://habr.com/ru/articles/982686/ #ru @big_data_analysis | Другие наши каналы

Системы для работы с данными: зачем нужны и как их построить Рассказываем, как построить качественную инфраструктуру для рабо
Системы для работы с данными: зачем нужны и как их построить Рассказываем, как построить качественную инфраструктуру для работы с данными, какие нужны специалисты и как выйти с решением на рынок. Читать: «Системы для работы с данными: зачем нужны и как их построить» #ru @big_data_analysis | Другие наши каналы

Дайджест Python #13: инструменты для Data Science и исполняемые файлы из скрипта Собрали лучшие материалы по Python с 1 по 14
Дайджест Python #13: инструменты для Data Science и исполняемые файлы из скрипта Собрали лучшие материалы по Python с 1 по 14 июля. Узнайте, как сделать из скрипта исполняемый файл и как настроить автопостинг в ВК. Читать: «Дайджест Python #13: инструменты для Data Science и исполняемые файлы из скрипта» #ru @big_data_analysis | Другие наши каналы

Почему Data Office – не модный термин, а новая карьерная возможность Потребность в специалистах по Data Office растёт. В стат
Почему Data Office – не модный термин, а новая карьерная возможность Потребность в специалистах по Data Office растёт. В статье рассказали, кто эти люди — и как устроена сфера в целом. Читать: «Почему Data Office – не модный термин, а новая карьерная возможность» #ru @big_data_analysis | Другие наши каналы

АИС «Налог-3»: почему это одна из самых мощных государственных IT-систем России За последнее десятилетие Федеральная налоговая служба (ФНС) совершила фундаментальный переход от традиционной модели администрирования к подходу, основанному на анализе больших баз данных. Если вы соприкасались с налоговой системой - проходили проверки, бывали на комиссиях в инспекциях, общались с налоговыми органами, то вы слышали про АИС «Налог-3», одну из самых масштабных государственных IT-платформ в России. Я проработал в системе налоговых органов 12 лет - от рядового инспектора в ИФНС до заместителя начальника отдела проведения налоговых проверок Управления ФНС - и наблюдал эту трансформацию изнутри. В этой статье я хочу показать, насколько эта система действительно мощная, как она эволюционировала, что она реально умеет сегодня и почему, несмотря на весь объём данных, это пока не «искусственный интеллект, который всё делает сам» Сразу обозначу границу: я не раскрываю никакой служебной информации. Всё, о чём в статье пойдёт речь, это обобщение моего опыта работы в службе и данные, которые размещены в открытом доступе. Из налоговых органов я ушёл относительно недавно (2 месяца назад), и за это время мало, что могло поменяться, поэтому информация все еще остается актуальной. Читать: https://habr.com/ru/articles/982504/ #ru @big_data_analysis | Другие наши каналы

CUPED на практике: когда помогает, когда мешает и что проверить перед применением CUPED часто рекомендуют как простой способ сделать A‑B тесты чувствительнее, но в реальных экспериментах он может как помочь, так и навредить. Причины почти всегда практические: историческая ковариата пересекается по времени с экспериментом, отличается единица анализа, есть пропуски или выбросы настолько велики и значительны, что оценка коэффициента становится неустойчивой. В этом разборе я покажу CUPED на примерах, близких к продовым метрикам вроде выручки на пользователя. Мы посмотрим, почему стандартный анализ плохо работает при выбросах, как меняется ширина доверительных интервалов при добавлении CUPED, и что происходит с мощностью и ошибкой первого рода. Отдельный акцент — как выбирать исторические данные для ковариаты и как не поймать утечку воздействия в предэкспериментальный период. В конце практический набор проверок, чтобы CUPED был полезным инструментом, но не источником искаженных выводов. Читать: https://habr.com/ru/articles/982280/ #ru @big_data_analysis | Другие наши каналы

5 признаков, что вам пора в Data Science Хотите в Data Science, но не знаете, какое направление выбрать? Собрали признаки, ко
5 признаков, что вам пора в Data Science Хотите в Data Science, но не знаете, какое направление выбрать? Собрали признаки, которые помогут определиться и выбрать профессию. Читать: «5 признаков, что вам пора в Data Science» #ru @big_data_analysis | Другие наши каналы

Как продажа виниловых пластинок сделала из режиссёра монтажа аналитика данных Рассказываем, как вдохновиться на переход в нов
Как продажа виниловых пластинок сделала из режиссёра монтажа аналитика данных Рассказываем, как вдохновиться на переход в новую профессию во взрослом возрасте и не бросить всё на полпути. Читать: «Как продажа виниловых пластинок сделала из режиссёра монтажа аналитика данных» #ru @big_data_analysis | Другие наши каналы

Дайджест Python #12: взлом ChatGPT и оптимизация Jupyter Notebook Собрали лучшие материалы по Python с 15 по 30 июня. Узнайте, как взломать ChatGPT и как компилировать типизированный Python. Читать: «Дайджест Python #12: взлом ChatGPT и оптимизация Jupyter Notebook» #ru @big_data_analysis | Другие наши каналы

Книги о машинном обучении для новичков Сделали для новичков в Machine Learning подборку из четырех книг, которые помогут обог
Книги о машинном обучении для новичков Сделали для новичков в Machine Learning подборку из четырех книг, которые помогут обогатить и упростить ваше обучение. Читать: «Книги о машинном обучении для новичков» #ru @big_data_analysis | Другие наши каналы

Как я вкатывался в Clickhouse Я блокчейн разработчик, и в проекте у нас базы на сотни гигабайт с децентрализованных бирж. Чтобы строить аналитические отчеты и делать агрегации, такие как вычисления цен, биржевых свечей, объемов торгов, цен на токены, мы используем БД Clickhouse. До этого я работал только с Postgres (и давно с MSSQL), и хочу рассказать, как я вкатывался, что удивило – практический опыт и WTFы. Прочитав эту статью вам, возможно, захочется сделать аналитику по своим данным в Clickhouse – возможно, ищете, что полезного освоить на длинных выходных. Итак, поехали! Читать: https://habr.com/ru/articles/982130/ #ru @big_data_analysis | Другие наши каналы

Дайджест Python #11: шаурмичная на Python и AI-плагины для разработки Лучшие статьи о Python с 1 по 15 июня: как готовить шау
Дайджест Python #11: шаурмичная на Python и AI-плагины для разработки Лучшие статьи о Python с 1 по 15 июня: как готовить шаурму с Python, как создать чатбот на ruT5 и какие есть AI-плагины для разработки. Читать: «Дайджест Python #11: шаурмичная на Python и AI-плагины для разработки» #ru @big_data_analysis | Другие наши каналы

Танцуют все — и даже рисунки! Рассказываем, как в Газпромбанке научились оживлять нарисованных человечков с помощью Data Scie
Танцуют все — и даже рисунки! Рассказываем, как в Газпромбанке научились оживлять нарисованных человечков с помощью Data Science и трёх групп ML-моделей. Читать: «Танцуют все — и даже рисунки!» #ru @big_data_analysis | Другие наши каналы

ИИтоги 2025 года Весь год я ежедневно следил за новостями в области искусственного интеллекта. И очень устал. Имена новых моделей, бьющих очередные бенчмарки, превращаются в шум, а мозг уже не реагирует на очередные срочные (!) сообщения инфлюэнсеров о БЕЗУМНОМ прорыве. На деле такое количество информации избыточно, если только вам профессионально не нужно следить за какой-либо областью. Но охота видеть развитие технологий широкими мазками, чтобы понимать изменения на горизонте месяцев и лет. Не найдя такой высокоуровневой подборки, которая бы меня устроила, я решил написать её сам. В этой статье вы найдёте описание развития ИИ за год. Что изменилось в технологиях за 2026 год? Какие компании и стартапы сейчас на слуху? Как ИИ влияет на экономику и регуляции? Помогает ли ИИ двигать науку и медицину? Ответы (с мемами!) смотрите в статье Читать: https://habr.com/ru/articles/982056/ #ru @big_data_analysis | Другие наши каналы

Какой вы аналитик? Холмс, Фрейд или Аристотель: определяем, на кого из известных аналитиков вы похожи. Читать: «Какой вы аналитик?» #ru @big_data_analysis | Другие наши каналы