Data Analysis / Big Data

Ir al canal en Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

Red:Типичный программист Rusia177 057 Tecnologías y Aplicaciones26 806

2 751

Suscriptores

-224 horas

+37 días

+1830 días

662

Visitas de la publicación

Sin datos24 horas

Sin datos48 horas

24.06%

Tasa de compromiso

Sin datos

Mensajes por día

Ads index

beta

Archivo de publicaciones

2 751

Особенности построения хранилища данных на базе ClickHouse в Yandex Cloud В данной статье делимся опытом внедрения решения на базе СУБД ClickHouse и сервисов Yandex Cloud. Мы не коснёмся тонких настроек ClickHouse или его масштабирования, но затронем достаточно интересные на наш взгляд темы: • как загружать данные из On-premise в облачный ClickHouse с использованием сервисов Yandex Cloud – Functions, Object Storage, Message Queue; • как обрабатывать/преобразовывать данные в облачном ClickHouse – очищать и строить витрины; какие «подводные камни» нам встретились на этом пути. Читать: https://habr.com/ru/companies/neoflex/articles/688126/ #ru @big_data_analysis | Другие наши каналы

2 751

От идеи до внедрения: как построить систему анализа данных для промышленного предприятия По данным Barc, ещё в 2015 году компании, использующие Big Data & Analytics, смогли на 8% увеличить доходы и на 10% снизить затраты. Сегодняшний тренд на цифровизацию и импортозамещение подталкивает руководителей активнее изучать и внедрять аналитику данных в работу своих предприятий. И если раньше анонсы о внедрении Big Data в основном были связаны с пилотными проектами, то сегодня промышленные компании всё чаще рассматривают работу с данными как важную часть корпоративной стратегии развития. Мы занимаемся разработкой ПО для промышленных предприятий, и сегодня обладаем достаточной экспертизой о трудностях, которые могут возникать на каждом из этапов внедрения анализа данных, а также об инструментах для их решения. В этой статье мы разберём весь путь внедрения анализа больших данных на предприятии с использованием этих продуктов. Читать: https://habr.com/ru/companies/factory5/articles/688396/ #ru @big_data_analysis | Другие наши каналы

2 751

Руководство по Human Pose Estimation Обычно эту задачу решают при помощи глубокого обучения. Это одна из самых интересных областей исследований, получившая популярность благодаря своей полезности и универсальности — она находит применение в широком спектре сфер, в том числе в гейминге, здравоохранении, AR и спорте. В этой статье приведён исчерпывающий обзор определения положения тела человека (Human Pose Estimation, HPE) и того, как оно работает. Также в ней рассматриваются различные подходы к решению задачи HPE — классические методы и методы на основе глубокого обучения, метрики и способы оценки, а также многое другое. Читать: https://habr.com/ru/articles/687728/ #ru @big_data_analysis | Другие наши каналы

2 751

Как базы данных «ключ-значение» обеспечивают производительность и масштабируемость без границ Команда VK Cloud перевела статью о базах «ключ-значение». Вы узнаете, в чем их преимущества перед другими БД, какие базы работают по этому принципу и чем они отличаются между собой. В чем суть баз «ключ-значение» Суть проста — объекты в них хранятся и извлекаются с помощью ключа. Так мы прощаемся с: * таблицами, столбцами и вводом ant data — всем, что можно так или иначе назвать blob-объектом; * отношениями между объектами; * сложными операциями. Что же мы получаем взамен, когда отбрасываем все это? Читать: https://habr.com/ru/companies/vk/articles/685402/ #ru @big_data_analysis | Другие наши каналы

2 751

Переезжаем на ClickHouse: 3 года спустя Три года назад Виктор Тарнавский и Алексей Миловидов из Яндекса на сцене HighLoad++ рассказывали, какой ClickHouse хороший, и как он не тормозит. А на соседней сцене был Александр Зайцев с докладом о переезде на ClickHouse с другой аналитической СУБД и с выводом, что ClickHouse, конечно, хороший, но не очень удобный. Когда в 2016 году компания LifeStreet, в которой тогда работал Александр, переводила мультипетабайтовую аналитическую систему на ClickHouse, это была увлекательная «дорога из желтого кирпича», полная неведомых опасностей — ClickHouse тогда напоминал минное поле. Три года спустя ClickHouse стал гораздо лучше — за это время Александр основал компанию Altinity, которая не только помогает переезжать на ClickHouse десяткам проектов, но и совершенствует сам продукт вместе с коллегами из Яндекса. Сейчас ClickHouse все еще не беззаботная прогулка, но уже и не минное поле. Александр занимается распределенными системами с 2003 года, разрабатывал крупные проекты на MySQL, Oracle и Vertica. На прошедшей HighLoad++ 2019 Александр, один из пионеров использования ClickHouse, рассказал, что сейчас из себя представляет эта СУБД. Мы узнаем про основные особенности ClickHouse: чем он отличается от других систем и в каких случаях его эффективнее использовать. На примерах рассмотрим свежие и проверенные проектами практики по построению систем на ClickHouse. Читать: https://habr.com/ru/companies/oleg-bunin/articles/328784/ #ru @big_data_analysis | Другие наши каналы

2 751

Почему data scientist — это не data engineer? «Ученый может открыть новую звезду, но не может создать её. Для этого ему пришлось бы обратиться к инженеру». Гордон Линдсей Глегг, «Дизайн дизайна» (1969) Несколько месяцев назад я писал о различиях между специалистами по теории и методам анализа данных (data scientist) и специалистами по обработке данных (data engineer). Я говорил об их навыках и общих отправных точках. Произошло кое-что интересное: data scientist'ы начали наступать, утверждая, что они на самом деле так же компетентны в области инженерии данных, как и специалисты по обработке данных. Это было интересно, потому что специалисты по обработке данных не высказывали возражений и не говорили, что они являются специалистами по теории анализа данных. Поэтому последние несколько месяцев я занимался сбором информации и наблюдением за поведением специалистов по теории анализа данных в их естественной рабочей среде. В этом посте я подробнее расскажу о том, почему data scientist не является data engineer'ом. Читать: https://habr.com/ru/companies/vk/articles/404811/ #ru @big_data_analysis | Другие наши каналы

2 751

Совмещение R и Python: зачем, когда и как? Наверное, многие из тех, кто занимается анализом данных, когда-нибудь думали о том, возможно ли использовать в работе одновременно R и Python. И если да, то зачем это может быть нужно? В каких случаях будет полезным и эффективным для проектов? Да и как вообще выбрать лучший способ совмещения языков, если гугл выдает примерно 100500 вариантов? Давайте попробуем разобраться в этих вопросах. Читать: https://habr.com/ru/companies/ods/articles/348260/ #ru @big_data_analysis | Другие наши каналы

2 751

Анализ тональности текстов с помощью сверточных нейронных сетей Представьте, что у вас есть абзац текста. Можно ли понять, какую эмоцию несет этот текст: радость, грусть, гнев? Можно. Упростим себе задачу и будем классифицировать эмоцию как позитивную или как негативную, без уточнений. Есть много способов решать такую задачу, и один из них — свёрточные нейронные сети (Convolutional Neural Networks). CNN изначально были разработаны для обработки изображений, однако они успешно справляются с решением задач в сфере автоматической обработки текстов. Я познакомлю вас с бинарным анализом тональности русскоязычных текстов с помощью свёрточной нейронной сети, для которой векторные представления слов были сформированы на основе обученной Word2Vec модели. Статья носит обзорный характер, я сделал акцент на практическую составляющую. И сразу хочу предупредить, что принимаемые на каждом этапе решения могут быть неоптимальными. Перед прочтением рекомендую ознакомиться с вводной статьей по использованию CNN в задачах обработки естественных языков, а также прочитать материал про методы векторного представление слов. Читать: https://habr.com/ru/companies/vk/articles/417767/ #ru @big_data_analysis | Другие наши каналы

2 751

Девять граблей Elasticsearch, на которые я наступил «Подготовленный человек тоже наступает на грабли. Но с другой стороны — там, где ручка.» Elasticsearch — прекрасный инструмент, но каждый инструмент требует не только настройки и ухода, но и внимания к мелочам. Некоторые — незначительны и лежат на поверхности, а другие спрятаны так глубоко, что на поиск уйдет не один день, не один десяток кружек кофе и не один километр нервов. В этой статье расскажу про девять замечательных граблей в настройке эластика, на которые я наступил. Давайте приступим Читать: https://habr.com/ru/companies/yoomoney/articles/419041/ #ru @big_data_analysis | Другие наши каналы

2 751

Deep Learning: Распознавание сцен и достопримечательностей на изображениях Время пополнять копилку хороших русскоязычных докладов по Machine Learning! Копилка сама не пополнится! В этот раз мы познакомимся с увлекательным рассказом Андрея Боярова про распознавание сцен. Андрей — программист-исследователь, занимающийся машинным зрением в компании Mail.Ru Group. Распознавание сцен — одна из активно применяемых областей машинного зрения. Задача эта посложнее, чем изученное распознавание объектов: сцена — более комплексное и менее формализованное понятие, выделить признаки труднее. Из распознавания сцен вытекает задача распознавания достопримечательностей: нужно выделить известные места на фото, обеспечив низкий уровень ложных срабатываний. Это 30 минут видео с конференции Smart Data 2017. Видео удобно смотреть дома и в дороге. Для тех же, кто не готов столько сидеть у экрана, или кому удобней воспринимать информацию в текстовом виде, мы прикладываем полную текстовую расшифровку, оформленную в виде хабростатьи. Перейти к текстовой версии Читать: https://habr.com/ru/companies/jugru/articles/419501/ #ru @big_data_analysis | Другие наши каналы

2 751

Зачем вам нужен Splunk? Аналитика событий безопасности Было ли нарушение информационной безопасности предприятия? Какие внутренние угрозы есть у организации? Как и насколько быстро мы можем обнаружить, заблокировать или остановить атаку? В этой статье мы расскажем, как вам может помочь Splunk в поиске ответов на эти вопросы. Читать: https://habr.com/ru/companies/tssolution/articles/419493/ #ru @big_data_analysis | Другие наши каналы

2 751

RabbitMQ — SQL Server Неделю или две назад я увидел сообщение на форуме RabbitMQ Users, о том, как наладить отправку сообщений из SQL Server в RabbitMQ. Поскольку мы плотно с этим работаем в Derivco, я оставил там некоторые предложения, а также сказал, что пишу в блоге о том, как это можно сделать. Часть моего сообщения была не совсем верной — по крайней мере, до этого момента (сорри, Бро, был очень занят). Потрясающая штука, этот ваш SQL Server. С его помощью очень легко поместить информацию в базу данных. Получить данные из базы с помощью запроса столь же просто. А вот получить только что обновленные или вставленные данные уже немного сложнее. Подумайте о событиях в реальном времени; совершена покупка — кого-то нужно уведомить об этом в тот же момент, как только это произошло. Возможно, кто-то скажет, что такие данные должны выталкиваться не из базы данных, а откуда-то еще. Безусловно, так оно и есть, но довольно часто у нас попросту нет выбора. Читать: https://habr.com/ru/articles/419457/ #ru @big_data_analysis | Другие наши каналы

2 751

«Мне сложно понять мотивацию data scientist’а, который не видит красоты в математике» — Кирилл Данилюк, Data Scientist Привет, Хабр! Data Science уже давно стала привлекательной областью, и все больше и больше людей хотят сменить свою профессиональную траекторию и начать работать с большими данными. Своей историей перехода в data science, советами для начинающих и продвинутых data scientist’ов поделился Кирилл Данилюк, Data Scientist компании RnD Lab. Кроме этого, поговорили о необходимых качествах data scientist’а, о разметке данных, об отличии ML Engineer от data scientist, текущих проектах, крутых командах и людях, чья работа вдохновляет. — Как ты пришел в data science? Чем тебя изначально привлекала область работы с данными? — У меня довольно нетипичный бэкграунд: в дату я пришел из мира яндексового PM’ства (Project Management — прим. автора), когда меня позвали в ZeptoLab, пожалуй, лучшую российскую игровую компанию. Я сделал им прототип аналитической системы, дэшборды, фактически в первый раз начав писать код, который использовал кто-то другой. Код был ужасный, но это была реальная практика. Формально, конечно, я координировал работу двух аутсорсеров, но код они писали именно по этому прототипу. Я тогда еще не знал, что примерно это и есть data science, что я им и занимаюсь, пусть парт-тайм. Так что знакомство случилось довольно органически. Уже тогда было видно, что идет целый сдвиг в парадигме разработки — вместо классического императивного программирования, когда ты жестко задаешь условия, наступает эра, когда машина сама с помощью данных сможет себя обучать. Видеть эту смену было невероятно круто, и очень хотелось попасть в число тех разработчиков новой эпохи. Читать: https://habr.com/ru/companies/newprolab/articles/419117/ #ru @big_data_analysis | Другие наши каналы

2 751

Big Data — бро или не бро В Москве прошла конференция Big Data, Meet Big Brother, организованная фондом Sistema_VC. Там было всякое: приехал израильский разработчик, который знает, как обрабатывать данные в сто раз быстрее всех. МТС сказал, что МТС умрет, если не станет IT компанией. Российские бизнесмены нагоняли тревогу, пытаясь ее развеять. Кажется, уже все привыкли, что в разговорах о больших данных, особенно если они философские, рано или поздно появится Оруэлловский суперзлодей Большой Брат — прямо как Гитлер во всех спорах в интернете. Организаторы не стали тянуть и обыграли штамп сразу в названии. Тревога — оправданная или нет — часть хайпа, что поделать. Читать: https://habr.com/ru/articles/418925/ #ru @big_data_analysis | Другие наши каналы

2 751

5 источников данных, которые превращают данные APM в аналитику производительности приложений В предыдущей статье мы писали, как Splunk можно использовать для аналитики работы приложений. А сегодня расскажем об основных источниках данных для аналитики производительности приложений, по версии Билла Эммента, директора по маркетингу решений в Splunk. Читать: https://habr.com/ru/companies/tssolution/articles/418599/ #ru @big_data_analysis | Другие наши каналы

2 751

Игра для улучшения качества Википедии Сегодня была анонсирована бета версия онлайн-игры WikiBest, которая является частью научных исследований в области качества данных в Википедии. Примечательно, что в настоящее время игра позволяет сравнивать качество данных в 5 языковых версиях Википедии: русский, украинский, белорусский, польский, английский. В скором будущем планируется расширить количество языков. Читать: https://habr.com/ru/articles/418713/ #ru @big_data_analysis | Другие наши каналы

2 751

RabbitMQ против Kafka: применение Kafka в событийно ориентированных приложениях В предыдущей статье мы рассмотрели шаблоны и топологии, применяемые в RabbitMQ. В этой части мы обратимся к Kafka и сравним её с RabbitMQ, чтобы получить некоторые представления об их различиях. Следует иметь в виду, что сравниваться будут скорее архитектуры событийно-ориентированных приложений, а не конвейеры обработки данных, хотя грань между этими двумя понятиями в данном случае будет довольно размытой. Вообще, это скорее спектр, чем четкое разделение. Просто наше сравнение будет сфокусировано на части этого спектра, связанной с событийно-управляемыми приложениями. Читать: https://habr.com/ru/companies/itsumma/articles/418389/ #ru @big_data_analysis | Другие наши каналы

2 751

Marvel: Infinity War или Как собрать данные под свой проект за пару минут У меня есть две сферы интересов. Первая: общество анонимных ленивых аналитиков данных, вторая: общество анонимных гиков. И если со второй у меня все ок, то с первой все сложнее. Когда говоришь людям, какие задачи решают аналитики данных, что они представляют? Ради эксперимента ввела в гугл определение и первое же: Читать: https://habr.com/ru/articles/412579/ #ru @big_data_analysis | Другие наши каналы

2 751

Памятки по искусственному интеллекту, машинному обучению, глубокому обучению и большим данным В течение нескольких месяцев мы собирали памятки по искусственному интеллекту, которыми периодически делились с друзьями и коллегами. В последнее время сложилась целая коллекция, и мы добавили к памяткам описания и/или цитаты, чтобы было интереснее читать. А в конце вас ждёт подборка по сложности «О большое» (Big-O). Наслаждайтесь. UPD. Многие картинки будут читабельнее, если открыть их в отдельных вкладках или сохранить на диск. Читать: https://habr.com/ru/companies/nix/articles/417935/ #ru @big_data_analysis | Другие наши каналы

2 751

Зачем вам нужен Splunk? Аналитика работы приложений Почему мобильное приложение вышло из строя? Можем ли мы выявить проблемы с приложениями до того, как с этим столкнутся конечные пользователи? Является ли последняя версия приложения лучше или хуже, чем предыдущие? В этой статье мы расскажем, как вам может помочь Splunk в поиске ответов на эти вопросы. Читать: https://habr.com/ru/companies/tssolution/articles/417909/ #ru @big_data_analysis | Другие наши каналы