es
Feedback
Data Analysis / Big Data

Data Analysis / Big Data

Ir al canal en Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

Mostrar más
2 745
Suscriptores
+224 horas
-17 días
+530 días
Archivo de publicaciones
#3 Нейронные сети для начинающих. Работа с изображениями в OpenCV. Алгоритм Canny Edge Detector Здесь должна быть шутка Сегодня я хочу представить вам третью статью из серии «Нейронные сети для начинающих». Мы научимся обрабатывать изображения и сохранять результаты в отдельные файлы. Вот небольшой список задач, которые будут разобраны ниже: 1. Преобразование изображения в оттенки серого. 2. Уменьшение размерности изображения (в пикселях) в 4 раза. 3. Нахождение и выделение (рамкой) самого тёмного объекта на изображении. Читать: https://habr.com/ru/post/694994/

Как понять, что пришло время внедрять платформу для анализа данных? Эффективные управленческие решения основаны на качественной аналитике данных. Но информации становится больше, а ее анализ — труднее. Всё чаще на помощь компаниям приходит прогнозная или предиктивная аналитика, позволяющая справиться с экспоненциальным ростом информации благодаря использованию методов машинного обучения. В этой статье мы рассмотрим предпосылки и признаки необходимости внедрения платформенных решений, а также укажем на аспекты, о которых надо помнить перед или при внедрении системы. Читать: https://habr.com/ru/post/695622/

Что ждет data-инжиниринг в будущем Отношение к data-инжинирингу и к профильным специалистам со временем меняется. Возможно ли, что в скором времени data-инженеры перестанут быть востребованными? Команда VK Cloud перевела статью о ближайшем будущем для всех тех, кто работает с данными. Что такое data-инжиниринг Давно ли работающие с данными компании открыли новую профессиональную область и мы услышали термин «data-инжиниринг»? Лет десять назад. Когда бизнес осознал, насколько полезными могут быть данные, спрос на data-инженеров резко вырос. По данным Google, отмечается экспоненциальный рост интереса к термину «data-инженер», который достиг пика примерно в 2020 году. Так что же такое data-инжиниринг, столь стремительно набравший обороты и остающийся востребованным вот уже несколько лет?  В традиционном понимании data-инженерами называют людей, занимающихся перемещением, формированием и преобразованием данных из источников с помощью инструментов извлечения аналитических сведений, которые нужны для работы разных отделов компании. Читать: https://habr.com/ru/post/693126/

Geointellect.Urban — индекс комфортности по кварталам Привет, Хабр! Я работаю аналитиком в компании “Центр пространственных исследований” и в этой статье расскажу об одном из инструментов, который мы используем при оценке удобства проживания в городе. Обеспечить комфортную среду проживания - одна из приоритетных целей городского развития. Но для ее достижения нужно заниматься постоянным мониторингом и модернизацией социальной инфраструктуры. К соц инфраструктуре относятся организации, связанные с системами здравоохранения и образования, сферами общественного питания, досуга и отдыха, транспорта и др. Отслеживание проблем в доступности и работе этих объектов нужно для поддержания, улучшения уровня жизни горожан. Поэтому возникает необходимость создания комплексного инструмента, который позволит оценить уровень удобства проживания в городе. Для решения этой задачи и был разработан Geointellect.Urban. В основе Geointellect.Urban  лежит математическая модель, которая описывает комфортность проживания в кварталах города с точки зрения доступности объектов инфраструктуры, таких как продуктовые магазины, аптеки, школы, детские сады, ТЦ, парки и прочее. Иными словами, он служит оценкой уровня благоустройства города. Его расчет основывается на построении и нахождении длин маршрутов от центроидов кварталов города до рассматриваемой группы объектов. При этом инструмент учитывает автомобильную или пешеходную доступность к объектам в зависимости от того, каким образом люди обычно до них добираются. Например, до аэропортов или ж/д вокзалов строятся маршруты на автомобиле, а до аптек и продуктовых магазинов - маршруты пешком. Полученное значение времени пути по кварталам нормируется: переводится в шкалу от 0 до 100, где 0 — лучшая доступность, 100 — худшая. Таким образом, мы получаем оценку привлекательности кварталов по разным параметрам. Данный индекс можно рассчитать по любому городу, имея данные о местоположении объектов инфраструктуры, делении города на кварталы, а также графы пешеходных и автомобильных дорог. Читать: https://habr.com/ru/post/695084/

Enterprise Data Warehouse: компоненты, основные концепции и типы архитектур EDW Ежедневно мы принимаем множество решений на основании предыдущего опыта. Наш мозг хранит триллионы бит данных о прошлых событиях и использует эти воспоминания каждый раз, когда мы сталкиваемся с необходимостью принятия решения. Как и люди, компании генерируют и собирают множество данных о прошлом, и эти данные можно использовать для принятия более осознанных решений. Наш мозг может и обрабатывать, и хранить информацию, а компаниям для работы с данными требуется множество разных инструментов. И одним из самых важных является корпоративное хранилище данных (enterprise data warehouse, EDW). В этой статье мы расскажем о том, что же такое EDW, каких типов они бывают и какие функции имеют, а также как они используются в обработке данных. Мы объясним, как корпоративные хранилища отличаются от обычных, какие типы хранилищ данных существуют и как они работают. В первую очередь мы хотим дать вам информацию о ценности для бизнеса каждого архитектурного и концептуального подхода к построению хранилища. Читать: https://habr.com/ru/post/693360/

Искусственный интеллект и большие данные помогают в поиске пропавших людей Это стало возможно благодаря некоммерческому проекту «билайн.Поиск», который помогает «ЛизаАлерт» в поиске пропавших. Вообще, билайн сильно прокачался в создании решений на основе ИИ и big data. Сейчас в их портфеле более 20 продуктов в различных направлениях на основе этих технологий, а за последний год количество таких направлений выросло на 50%. Это решения для медицины, антифрода, безопасности, туризма и многого другого. Узнать подробнее о решения билайна на основе ИИ и BigData, а также попробовать часть из них через демодоступ можно тут Реклама, ООО «Сайтсинг», рекламная кампания «Билайн»

Как мы делали МЦОД для самого холодного региона России Привет, Хабр! Меня зовут Федор Клименко, я СЕО компании GreenMDC – мы занимаемся разработкой и производством модульных дата-центров. И иногда доставляем и собираем наши МЦОДы в экзотических регионах. Например, в марте запустили МЦОД в Якутске, где зимой столбик термометра опускается до -60 градусов. Сегодня расскажу о том, как мы везли дата-центр за 9 000 км и собирали его при -30, сколько слоев одежды было на монтажниках, как мы нашли работающий при такой погоде кран и избежали пайки фреонопроводов на морозе. Предыстория Для начала скажу, что хоть и являюсь гендиром компании, но в душе остаюсь инженером и люблю путешествовать. А потому часто работаю «в полях» и лично принимаю участие в монтаже и запуске МЦОДов, особенно, если проект интересный – такой как в Якутске. Этот модульный ЦОД мы разработали по заказу «Республиканского центра информационных технологий» Республики Саха (Якутия) и сделали это в рамках проекта по цифровизации региональных госуслуг. Соответственно, МЦОД хранит и обрабатывает информацию, которая касается таких сфер жизни, как здравоохранение, образование, служба МЧС, банковские услуги, сельское хозяйство и др. Здесь, например, разместился портал госуслуг, мониторинг обстановки при ЧС, в том числе лесных пожаров, колл-центр 122, интеллектуальная транспортная система региона и единая система электронного документооборота. Читать: https://habr.com/ru/post/694694/

Как уменьшить размер образа Docker для JVM Если вы уже достаточно долго пишете на Kotlin, или Scala, или на любом другом языке, основанном на JVM, то могли заметить: начиная с Java 11 среда Java Runtime Environment (JRE) больше не поставляется в виде отдельного дистрибутива, а распространяется только в составе Java Development Kit (JDK). В результате такого изменения многие официальные образы Docker не предлагают вариант образа «только для JRE». Таковы, например, официальные образы openjdk, образы corretto от Amazon. В моем случае при использовании такого образа в качестве заготовки получался образ приложения, завешивавший на 414 MB, тогда как само приложение занимало всего около 60 MB. Мы стремимся к эффективной и бережливой разработке, поэтому такая расточительность для нас непозволительна. Давайте же рассмотрим, как можно радикально уменьшить размер Docker-образа для Java. Читать: https://habr.com/ru/post/692992/

Эволюция архитектуры данных: как потребности бизнеса изменили инструменты для хранения данных Команда VK Cloud перевела статью о том, как с течением времени менялась и развивалась архитектура данных и какие инструменты появлялись в ответ на потребности бизнеса. Введение Задачи по работе с данными отделяют от бизнес- и других аналитических задач (BI, дата-сайенс, когнитивные решения и т. п.) с тех пор, как появились первые ИТ-системы и бизнес-приложения. Из-за высокой ресурсоемкости рабочие нагрузки по аналитической обработке данных приходится отделять от ИТ-систем, отвечающих за бизнес-операции, иначе они столкнутся со сбоями и нехваткой ресурсов, что приведет к неудобствам для пользователей, работающих с системой. Читать: https://habr.com/ru/post/692554/

Introducing runtime roles for Amazon EMR steps: Use IAM roles and AWS Lake Formation for access control with Amazon EMR Read:
Introducing runtime roles for Amazon EMR steps: Use IAM roles and AWS Lake Formation for access control with Amazon EMR Read: https://aws.amazon.com/blogs/big-data/introducing-runtime-roles-for-amazon-emr-steps-use-iam-roles-and-aws-lake-formation-for-access-control-with-amazon-emr/

Непрерывное обучение для продакшен-систем Жизненный цикл машинного обучения Введение Методология agile-разработки ПО, популяризированная примерно в 2010 году манифестом Agile Software Development, продвигает идею адаптивного планирования, эволюционного развития, быстрой доставки и непрерывного совершенствования как ключевых свойств, обеспечивающих быстрый и гибкий отклик на постоянно ускоряющиеся изменения рынка и его требований. Поскольку линейные каскадные модели, позаимствованные из отраслей производства и строительства, оказались неспособны обеспечить конкурентное преимущество в постоянно усложняющемся и быстро меняющемся мире ПО, модели Agile и Scrum стали де-факто стандартом для современной разработки ПО. Но что произойдёт, когда мы осуществим переход к Software 2.0? Читать: https://habr.com/ru/post/686212/

Разбираемся с платформами обработки данных на примере барбершопа «Бородатый сисадмин». Какие бывают и всем ли они нужны Обычно тексты про работу с данными начинаются с числа, демонстрирующего объем производимых в мире данных. Или пассажа про то, что данные — новые золотые прииски («data is the new oil»). Это недалеко от правды: если раньше для понимания своих пользователей компаниям нужно было заказывать крупные социологические исследования, то сейчас, с глобальной цифровизацией, пользователи сами — осознанно или нет — предоставляет данные о себе. Обрабатывают данные, то есть вытаскивают из них пользу, совершенно разнопрофильные компании. Даже сеть семейных парикмахерских на районе может вести отчеты в Excel, используя ее как CRM-систему. На основе данных вывели список клиентов, давно не приходивших на стрижку? Самое время кинуть им sms с «индивидуальной» скидкой. В какой момент бизнесу стоит организовать целую платформу для обработки данных? Всегда ли обработка данных — это про big data? И какие варианты есть сейчас в России? Об этом всем — под катом. Читать: https://habr.com/ru/post/694006/

Get started with Apache Hudi using AWS Glue by implementing key design concepts – Part 1 Read: https://aws.amazon.com/blogs/b
Get started with Apache Hudi using AWS Glue by implementing key design concepts – Part 1 Read: https://aws.amazon.com/blogs/big-data/part-1-get-started-with-apache-hudi-using-aws-glue-by-implementing-key-design-concepts/

Собрали для вас небольшую подборку полезных Telegram-каналов Она пригодится и начинающим, и опытным разработчикам, которые хо
Собрали для вас небольшую подборку полезных Telegram-каналов Она пригодится и начинающим, и опытным разработчикам, которые хотят быть в курсе происходящего в мире IT и учиться новому: — канал для веб-разработчиков: @tproger_web; — для увлекающихся мобильной разработкой: @mobi_dev; — всё о Java: @a_cup_of_java; — тем, кто ищет интересные инструменты и библиотеки: @prog_tools. Выбирайте то, что интересно вам и вступайте!

Линейный прогноз в Tableau. Терапевтический очерк Линейный прогноз. Такой простой, понятный и востребованный, практически, в любой коммерческой отрасли. Казалось бы, посчитать его можно где угодно без особого труда. Но у Tableau на этот счет есть иное мнение... Читать: https://habr.com/ru/post/692692/

Теория временных рядов, применение трансформеров В этой статье, я опишу некоторые основные понятия в теории анализа временных рядов, классические статистические алгоритмы прогнозирования и интересные алгоритмы машинного обучения, которые применяются для временных рядов Если Вы готовы погрузиться в одну из очень интересных тем статистики и Вы любитель машинного обучения, продолжайте читать) Читать: https://habr.com/ru/post/693562/