Data Analysis / Big Data

Ir al canal en Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

Red:Типичный программист Rusia175 431 Tecnologías y Aplicaciones26 518

2 745

Suscriptores

+224 horas

-17 días

+530 días

662

Visitas de la publicación

Sin datos24 horas

Sin datos48 horas

24.11%

Tasa de compromiso

Sin datos

Mensajes por día

Ads index

beta

Archivo de publicaciones

2 745

Структура команды Data Science: ключевые модели и роли Если вы следили за мнениями специалистов в data science и прогностической аналитики, то, скорее всего, сталкивались с рекомендациями использовать машинное обучение. Как рекомендует Джеймс Ходсон в Harvard Business Review, умнее всего будет стремиться к решению самой лёгкой задачи, а затем масштабировать процессы на более сложные операции. Недавно мы обсуждали платформы machine-learning-as-a-service (MLaaS). Основной вывод из современных тенденций прост: машинное обучение становится более доступным для средних и мелких бизнесов, постепенно превращаясь в массовый товар. Ведущие поставщики (Google, Amazon, Microsoft и IBM) предоставляют API и платформы для выполнения основных операций ML без собственной инфраструктуры и большого опыта в data science. На первых этапах самым умным шагом будет выбор такого гибкого и экономного подхода. С ростом возможностей аналитики можно изменять структуру команды для ускорения её работы и расширения арсенала аналитики. В этот раз мы поговорим о структуре команд data science и их сложности. Читать: https://habr.com/ru/post/697630/

2 745

Парсинг Яндекс Карт или как найти целевую аудиторию Как написать парсер Яндекс Карт? А также аналитика данных организаций. Поиск целевой аудитории Читать: https://habr.com/ru/post/701478/

2 745

Как составить резюме Junior-аналитику, чтобы на него обратили внимание: секреты от Х5 Tech Привет, Хабр! Авторы этой статьи работают в команде больших данных в Х5 Tech. Мы решили объединить в статье наш личный опыт отбора кандидатов на позицию начинающего аналитика и дать несколько рекомендаций по составлению качественного резюме. Надеемся, что они окажутся полезными для тех, кто ищет работу своей мечты, и будет совсем здорово, если мы в итоге встретимся в X5 Tech. Читать: https://habr.com/ru/post/701442/

2 745

Highload++ 2022 в самом разгаре и прямо сейчас команда ВКонтакте рассказывает про техстратегию и архитектуру своих highload-проектов Любому высоконагруженному и развивающемуся проекту нужна стратегия технологического развития. И прямо сейчас команда ВКонтакте поделится принципами построения техстратегии и методами принятия стратегических решений на примере проекта с 16-летней историей, 100 млн пользователей в месяц и 8 млн строк кода бизнес-логики. А ещё расскажут про: — портерианский и ресурсный подходы к стратегированию; — отказоустойчивость и балансировку нагрузки более чем 20 000 серверов; — решения, которые позволяют делать 3,5 тысячи деплоев в год с winrate 97,7%; — систему сборки, которая позволяет собрать 8 млн строк кода и раскатать на 10 000 серверов за 7 минут. Подключайтесь, будет интересно: https://tprg.ru/QofR Реклама ООО «В Контакте» LjN8KazvP

2 745

Ambrosia – Open Source-библиотека для работы с A/B-тестами Всем привет! На связи Аслан Байрамкулов и Артем Хакимов из Big Data МТС. Мы вывели в OpenSource первую версию библиотеки под названием Ambrosia. Ее назначение – работа с A/B тестами и экспериментами. В этой статье мы расскажем о функционале библиотеки и напомним о ключевых этапах А/Б-тестирования. Читать: https://habr.com/ru/post/700992/

2 745

Alexa и Echo — на выход. Идут сокращения, бизнес-модель не оправдалась. «Салюту», «Марусе», прочим — приготовиться Голосовые ассистенты были любимым проектом лично Безоса. Он в них отчаянно верил, тратил любые бюджеты. А компания жгла прилично - в 2018 убыток был $5 млрд, в 2022 уже $10 млрд. Подразделение набрало больше 10 000 человек. Безос выверял каждую рекламную кампанию сам.Но теперь он прекратил следить за проектом. В подразделении - сокращения, уволились даже топ-менеджеры, ветераны. Умные колонки с голосовым ассистентом были хитом 2018 года. Сейчас в США почти 210 миллионов устройств с голосовыми ассистентами, у Amazon - 71 млн. Окей, вы поставили их у людей дома, а что с заработком? Большинство умных колонок продавались по себестоимости или в убыток. В Amazon эта стратегия была официальной. Цель была - не отдать пользователей конкурентам, "встать" в большинстве домов, а дальше зарабатывать на пользовательских потребностях. Увы, похоже, долгожданная монетизация никак не наступает и уже не наступит.В чём дело? И почему эти причины - общие для других флагманов, в том числе российских? 1) Идея была в том, что ассистент реально будет выполнять кучу задач. Но юзеры, оказалось, используют ассистентов не для тех вещей, где компания может заработать. На проигрывании музыки или погоде не заработать. 2) Сторонние разработчики не верят в экосистему и не создают для неё приложения, так как не видят отдачи. Интересно, как поживает экосистема "Салют" Сбера, если даже Амазон не вывез? 3) Огромный страх потери privacy, в том числе после скандалов о несанкционированной прослушке и потерях данных. Он мешает сделать ассистента реальным помощником во всём. Заказывать лекарства или переводить деньги через него - стрёмно. Доверите свои сокровенные заказы Яндексу и Сберу? В целом, сегодня voice assistant сегодня выглядят как прикольная, но так и не ставшая бизнесом игрушка. Безос перестал в него верить и тратить время. И, кажется, не зря. Написано для моего тг канала про дата-этику и технологии. Использован материал Business Insider Читать: https://habr.com/ru/post/701158/

2 745

ClickHouse: как обрабатывать big data в 800 раз быстрее Рассказываем о ClickHouse — инструменте, который позволяет в 800 раз быстрее оценивать big data в метрике сайтов. Читать: «ClickHouse: как обрабатывать big data в 800 раз быстрее»

2 745

Собрать за 60 секунд: кейс автоматизации получения данных из десятков подразделений Привет, Хабр! Меня зовут Сергей Корнеев, и я хочу рассказать о том, как мы организовали сбор данных в компании “Россети”. На момент запуска проекта я работал в “Россети.Цифра” и руководил внедрением BI-платформы. Нам с командой удалось решить проблему ручного сбора данных на базе Visiology Smart Forms, и именно об этом я расскажу сегодня. Читать: https://habr.com/ru/post/700900/

2 745

Операционализация аналитики c инструментами класса reverse ETL – опыт использования Census Сегодня Операционная аналитика и практики reverse ETL - не столько дань моде, сколько насущная потребность многих компаний. Создать идеальное Хранилище мало, ведь данные создают ценность только тогда, когда вы способны их использовать. В этой публикации я резюмирую свой опыт выбора решения класса reverse ETL: — Место reverse ETL в схеме потоков данных — Потребность в решении задач операционной аналитики — Различные способы организации reverse ETL — Кейс: Census для синхронизации данных в Pipedrive CRM Читать: https://habr.com/ru/post/700910/

2 745

Магнит ИТ на конференции Highload++ 2022: доклады экспертов, игры и воркшоп, розыгрыш классных подарков Ждём участников конференции HighLoad++ 2022 на стенде Магнит ИТ, мы приготовили много интересного. Читать: https://habr.com/ru/post/700924/

2 745

ETL и ELT: ключевые различия, о которых должен знать каждый ETL и ELT — самые широко используемые способы доставки данных из одного или нескольких источников в централизованную систему для удобства доступа и анализа. Обе этих методики состоят из этапов extract (извлечения), transform (преобразования) и load (загрузки). Разница заключается в последовательности действий. Хотя можно подумать, что небольшое изменение в порядке этапов никак не влияет, на самом деле для потока интеграции это меняет всё. В этом посте мы подробно рассмотрим процессы ETL и ELT, а также сравним их по важным критериям, чтобы вы могли понять, какой лучше подходит для вашего конвейера данных. Читать: https://habr.com/ru/post/695546/

2 745

«Бит за бит» и мифы об аудиостримингах Откуда берутся треки в плейлистах? Что такое качественная музыка? Победит ли нейросеть живую редакцию? Эти и другие вопросы обсуждаем в подкасте «Бит за бит» о музыке в IT и IT в музыке от HIFI-сервиса Звук. Из выпусков узнаете, как мы очутились в современном цифровом мире музыки с кучей фичей и алгормитов, и заглянете в закулисье разработки музыкальной индустрии. Первый эпизод уже можно послушать в приложениях Звук, Яндекс Музыка, Apple Podcasts и Castbox, а самые любопытные мифы про музыку, подкасты и другие звуки разбираем в наших карточках: https://tprg.ru/QTvq Реклама ООО «Звук»

2 745

Data Engineering Weekly #108 Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-108

2 745

Подборка актуальных вакансий — Cистемный аналитик Где: Москва, можно удалённо Опыт: от 3 лет — Системный аналитик Где: Москва Опыт: от 1 года — Middle / Senior Cистемный аналитик Где: Москва, можно удалённо Опыт: от 2 лет — Ведущий системный аналитик Где: Москва, можно удалённо Опыт: от 2 лет — Аналитик DWH Где: Москва, можно удалённо Опыт: можно без опыта — Младший инженер-аналитик SOC (1-ая линия) Где: Краснодар Опыт: от 1 года #вакансии #работа

2 745

Self-checkout takes another hit Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/11/self-checkout-takes-another-hit.html

2 745

Apache Spark на Kubernetes: какие уроки можно извлечь из запуска миллионов исполнителей Spark Команда VK Cloud перевела конспект доклада с конференции Data+AI Summit 2022. В своём выступлении Чжоу Цзян и Ааруна Годти из Apple описывают, как построили централизованный кластер Apache Spark на базе Kubernetes, который обрабатывает свыше 380 тыс. заданий Spark в день. Такой объем заданий поддерживает аналитические процессы и эксперименты дата-сайентистов компании Apple. Доклад целиком можно посмотреть здесь. Читать: https://habr.com/ru/post/698038/

2 745

Открытые данные. Как сматчить несматчиваемое или Нейросеть вам в помощь Привет, Точка на связи! Аналитик Никитин Александр и Head of ML Андрей Румянцев разобрались как с помощью машинного обучения смерджить несколько наборов данных из открытых источников и не сойти с ума. Open data, TF-IDF, faiss, pgvector, трансформеры и удивительное завершение нашего приключения — всё это под катом. Читать: https://habr.com/ru/post/699490/

2 745

«Светофор 3.0»: тонкости настройки ML для работы с поставщиками Мы продолжаем рассказ про нашу систему «Светофор 3.0», которая позволяет прогнозировать качество прямых поставок и экономить время на приемке товара. О том, как это работает и зачем нужно компании, вы можете прочитать в нашем предыдущем посте, а сегодня мы раскрываем техническую сторону вопроса — об алгоритме ML и его развитии, о схеме передачи данных и некоторых нюансах интеграции «Светофора 3.0» со складской системой. Читать: https://habr.com/ru/post/657875/

2 745

Репортаж с ViRush 2022: Презентация Visiology 3.0, BI в разных отраслях, сотни партнеров и успешная миграция с Tableau Привет, Хабр! На прошлой неделе состоялась ежегодная конференция ViRush, и этот пост предназначен для тех, кто на ней не был, но интересуется развитием BI на базе российских платформ в целом и Visiology в частности. Для самых занятых мы подготовили краткий репортаж с мероприятия. И если вы хотите узнать, почему мигрировать с Tableau нужно именно на Visiology, как переносить экспертизу из PowerBI, за счет чего корпорации МСП удалось сделать такие красивые дашборды, а также почему участники ViRush были так увлечены происходящим, давайте под кат. Читать: https://habr.com/ru/post/699818/

2 745

Как построить прогноз спроса и не потерять голову Всем привет! Представьте себе ситуацию: ваша уютная маленькая команда Data Science занимается прогнозированием спроса для пары десятков дарксторов с помощью какого-нибудь коробочного Prophet. И в один прекрасный день к вам приходит бизнес. Бизнес садится, закидывает ногу на ногу, закуривает сигару и говорит: «Мы хотим максимально автоматизировать закупки. Нам нужно, чтобы вы умели строить прогноз по всем товарам, старым и новым, для всех дарксторов, старых и новых. А их будет много, их будут сотни, тысячи, миллионы. А ещё у нас будет миллион видов скидок и разные типы ценообразования, и ещё куча промо-механик и конкурсов интересных. Мы хотим, чтобы прогноз обязательно адекватно на всё это реагировал». (с) Типичный Бизнес Хорошо, думаем мы, кажется, что это звучит нетрудно… С этой задачи начинается моя история о прогнозе спроса в Самокате. Меня зовут Мария Суртаева, я Data Scientist и расскажу о концепции прогноза спроса, его практических задачах и роли градиентного бустинга. Читать: https://habr.com/ru/post/698118/