Data Analysis / Big Data
Ir al canal en Telegram
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels
Mostrar más2 751
Suscriptores
-224 horas
+37 días
+1830 días
Archivo de publicaciones
Особенности построения хранилища данных на базе ClickHouse в Yandex Cloud
В данной статье делимся опытом внедрения решения на базе СУБД ClickHouse и сервисов Yandex Cloud. Мы не коснёмся тонких настроек ClickHouse или его масштабирования, но затронем достаточно интересные на наш взгляд темы:
• как загружать данные из On-premise в облачный ClickHouse с использованием сервисов Yandex Cloud – Functions, Object Storage, Message Queue;
• как обрабатывать/преобразовывать данные в облачном ClickHouse – очищать и строить витрины; какие «подводные камни» нам встретились на этом пути.
Читать: https://habr.com/ru/companies/neoflex/articles/688126/
#ru
@big_data_analysis | Другие наши каналы
От идеи до внедрения: как построить систему анализа данных для промышленного предприятия
По данным Barc, ещё в 2015 году компании, использующие Big Data & Analytics, смогли на 8% увеличить доходы и на 10% снизить затраты. Сегодняшний тренд на цифровизацию и импортозамещение подталкивает руководителей активнее изучать и внедрять аналитику данных в работу своих предприятий. И если раньше анонсы о внедрении Big Data в основном были связаны с пилотными проектами, то сегодня промышленные компании всё чаще рассматривают работу с данными как важную часть корпоративной стратегии развития.
Мы занимаемся разработкой ПО для промышленных предприятий, и сегодня обладаем достаточной экспертизой о трудностях, которые могут возникать на каждом из этапов внедрения анализа данных, а также об инструментах для их решения. В этой статье мы разберём весь путь внедрения анализа больших данных на предприятии с использованием этих продуктов.
Читать: https://habr.com/ru/companies/factory5/articles/688396/
#ru
@big_data_analysis | Другие наши каналы
Руководство по Human Pose Estimation
Обычно эту задачу решают при помощи глубокого обучения.
Это одна из самых интересных областей исследований, получившая популярность благодаря своей полезности и универсальности — она находит применение в широком спектре сфер, в том числе в гейминге, здравоохранении, AR и спорте.
В этой статье приведён исчерпывающий обзор определения положения тела человека (Human Pose Estimation, HPE) и того, как оно работает. Также в ней рассматриваются различные подходы к решению задачи HPE — классические методы и методы на основе глубокого обучения, метрики и способы оценки, а также многое другое.
Читать: https://habr.com/ru/articles/687728/
#ru
@big_data_analysis | Другие наши каналы
Как базы данных «ключ-значение» обеспечивают производительность и масштабируемость без границ
Команда VK Cloud перевела статью о базах «ключ-значение». Вы узнаете, в чем их преимущества перед другими БД, какие базы работают по этому принципу и чем они отличаются между собой.
В чем суть баз «ключ-значение»
Суть проста — объекты в них хранятся и извлекаются с помощью ключа. Так мы прощаемся с:
* таблицами, столбцами и вводом ant data — всем, что можно так или иначе назвать blob-объектом;
* отношениями между объектами;
* сложными операциями.
Что же мы получаем взамен, когда отбрасываем все это?
Читать: https://habr.com/ru/companies/vk/articles/685402/
#ru
@big_data_analysis | Другие наши каналы
Переезжаем на ClickHouse: 3 года спустя
Три года назад Виктор Тарнавский и Алексей Миловидов из Яндекса на сцене HighLoad++ рассказывали, какой ClickHouse хороший, и как он не тормозит. А на соседней сцене был Александр Зайцев с докладом о переезде на ClickHouse с другой аналитической СУБД и с выводом, что ClickHouse, конечно, хороший, но не очень удобный. Когда в 2016 году компания LifeStreet, в которой тогда работал Александр, переводила мультипетабайтовую аналитическую систему на ClickHouse, это была увлекательная «дорога из желтого кирпича», полная неведомых опасностей — ClickHouse тогда напоминал минное поле.
Три года спустя ClickHouse стал гораздо лучше — за это время Александр основал компанию Altinity, которая не только помогает переезжать на ClickHouse десяткам проектов, но и совершенствует сам продукт вместе с коллегами из Яндекса. Сейчас ClickHouse все еще не беззаботная прогулка, но уже и не минное поле.
Александр занимается распределенными системами с 2003 года, разрабатывал крупные проекты на MySQL, Oracle и Vertica. На прошедшей HighLoad++ 2019 Александр, один из пионеров использования ClickHouse, рассказал, что сейчас из себя представляет эта СУБД. Мы узнаем про основные особенности ClickHouse: чем он отличается от других систем и в каких случаях его эффективнее использовать. На примерах рассмотрим свежие и проверенные проектами практики по построению систем на ClickHouse.
Читать: https://habr.com/ru/companies/oleg-bunin/articles/328784/
#ru
@big_data_analysis | Другие наши каналы
Почему data scientist — это не data engineer?
«Ученый может открыть новую звезду, но не может создать её. Для этого ему пришлось бы обратиться к инженеру». Гордон Линдсей Глегг, «Дизайн дизайна» (1969)
Несколько месяцев назад я писал о различиях между специалистами по теории и методам анализа данных (data scientist) и специалистами по обработке данных (data engineer). Я говорил об их навыках и общих отправных точках. Произошло кое-что интересное: data scientist'ы начали наступать, утверждая, что они на самом деле так же компетентны в области инженерии данных, как и специалисты по обработке данных. Это было интересно, потому что специалисты по обработке данных не высказывали возражений и не говорили, что они являются специалистами по теории анализа данных.
Поэтому последние несколько месяцев я занимался сбором информации и наблюдением за поведением специалистов по теории анализа данных в их естественной рабочей среде. В этом посте я подробнее расскажу о том, почему data scientist не является data engineer'ом.
Читать: https://habr.com/ru/companies/vk/articles/404811/
#ru
@big_data_analysis | Другие наши каналы
Совмещение R и Python: зачем, когда и как?
Наверное, многие из тех, кто занимается анализом данных, когда-нибудь думали о том, возможно ли использовать в работе одновременно R и Python. И если да, то зачем это может быть нужно? В каких случаях будет полезным и эффективным для проектов? Да и как вообще выбрать лучший способ совмещения языков, если гугл выдает примерно 100500 вариантов?
Давайте попробуем разобраться в этих вопросах.
Читать: https://habr.com/ru/companies/ods/articles/348260/
#ru
@big_data_analysis | Другие наши каналы
Анализ тональности текстов с помощью сверточных нейронных сетей
Представьте, что у вас есть абзац текста. Можно ли понять, какую эмоцию несет этот текст: радость, грусть, гнев? Можно. Упростим себе задачу и будем классифицировать эмоцию как позитивную или как негативную, без уточнений. Есть много способов решать такую задачу, и один из них — свёрточные нейронные сети (Convolutional Neural Networks). CNN изначально были разработаны для обработки изображений, однако они успешно справляются с решением задач в сфере автоматической обработки текстов. Я познакомлю вас с бинарным анализом тональности русскоязычных текстов с помощью свёрточной нейронной сети, для которой векторные представления слов были сформированы на основе обученной Word2Vec модели.
Статья носит обзорный характер, я сделал акцент на практическую составляющую. И сразу хочу предупредить, что принимаемые на каждом этапе решения могут быть неоптимальными. Перед прочтением рекомендую ознакомиться с вводной статьей по использованию CNN в задачах обработки естественных языков, а также прочитать материал про методы векторного представление слов.
Читать: https://habr.com/ru/companies/vk/articles/417767/
#ru
@big_data_analysis | Другие наши каналы
Девять граблей Elasticsearch, на которые я наступил
«Подготовленный человек тоже наступает на грабли.
Но с другой стороны — там, где ручка.»
Elasticsearch — прекрасный инструмент, но каждый инструмент требует не только настройки и ухода, но и внимания к мелочам. Некоторые — незначительны и лежат на поверхности, а другие спрятаны так глубоко, что на поиск уйдет не один день, не один десяток кружек кофе и не один километр нервов. В этой статье расскажу про девять замечательных граблей в настройке эластика, на которые я наступил.
Давайте приступим
Читать: https://habr.com/ru/companies/yoomoney/articles/419041/
#ru
@big_data_analysis | Другие наши каналы
Deep Learning: Распознавание сцен и достопримечательностей на изображениях
Время пополнять копилку хороших русскоязычных докладов по Machine Learning! Копилка сама не пополнится!
В этот раз мы познакомимся с увлекательным рассказом Андрея Боярова про распознавание сцен. Андрей — программист-исследователь, занимающийся машинным зрением в компании Mail.Ru Group.
Распознавание сцен — одна из активно применяемых областей машинного зрения. Задача эта посложнее, чем изученное распознавание объектов: сцена — более комплексное и менее формализованное понятие, выделить признаки труднее. Из распознавания сцен вытекает задача распознавания достопримечательностей: нужно выделить известные места на фото, обеспечив низкий уровень ложных срабатываний.
Это 30 минут видео с конференции Smart Data 2017. Видео удобно смотреть дома и в дороге. Для тех же, кто не готов столько сидеть у экрана, или кому удобней воспринимать информацию в текстовом виде, мы прикладываем полную текстовую расшифровку, оформленную в виде хабростатьи.
Перейти к текстовой версии
Читать: https://habr.com/ru/companies/jugru/articles/419501/
#ru
@big_data_analysis | Другие наши каналы
Зачем вам нужен Splunk? Аналитика событий безопасности
Было ли нарушение информационной безопасности предприятия? Какие внутренние угрозы есть у организации? Как и насколько быстро мы можем обнаружить, заблокировать или остановить атаку? В этой статье мы расскажем, как вам может помочь Splunk в поиске ответов на эти вопросы.
Читать: https://habr.com/ru/companies/tssolution/articles/419493/
#ru
@big_data_analysis | Другие наши каналы
RabbitMQ — SQL Server
Неделю или две назад я увидел сообщение на форуме RabbitMQ Users, о том, как наладить отправку сообщений из SQL Server в RabbitMQ. Поскольку мы плотно с этим работаем в Derivco, я оставил там некоторые предложения, а также сказал, что пишу в блоге о том, как это можно сделать. Часть моего сообщения была не совсем верной — по крайней мере, до этого момента (сорри, Бро, был очень занят).
Потрясающая штука, этот ваш SQL Server. С его помощью очень легко поместить информацию в базу данных. Получить данные из базы с помощью запроса столь же просто. А вот получить только что обновленные или вставленные данные уже немного сложнее. Подумайте о событиях в реальном времени; совершена покупка — кого-то нужно уведомить об этом в тот же момент, как только это произошло. Возможно, кто-то скажет, что такие данные должны выталкиваться не из базы данных, а откуда-то еще. Безусловно, так оно и есть, но довольно часто у нас попросту нет выбора.
Читать: https://habr.com/ru/articles/419457/
#ru
@big_data_analysis | Другие наши каналы
«Мне сложно понять мотивацию data scientist’а, который не видит красоты в математике» — Кирилл Данилюк, Data Scientist
Привет, Хабр! Data Science уже давно стала привлекательной областью, и все больше и больше людей хотят сменить свою профессиональную траекторию и начать работать с большими данными. Своей историей перехода в data science, советами для начинающих и продвинутых data scientist’ов поделился Кирилл Данилюк, Data Scientist компании RnD Lab. Кроме этого, поговорили о необходимых качествах data scientist’а, о разметке данных, об отличии ML Engineer от data scientist, текущих проектах, крутых командах и людях, чья работа вдохновляет.
— Как ты пришел в data science? Чем тебя изначально привлекала область работы с данными?
— У меня довольно нетипичный бэкграунд: в дату я пришел из мира яндексового PM’ства (Project Management — прим. автора), когда меня позвали в ZeptoLab, пожалуй, лучшую российскую игровую компанию. Я сделал им прототип аналитической системы, дэшборды, фактически в первый раз начав писать код, который использовал кто-то другой. Код был ужасный, но это была реальная практика. Формально, конечно, я координировал работу двух аутсорсеров, но код они писали именно по этому прототипу. Я тогда еще не знал, что примерно это и есть data science, что я им и занимаюсь, пусть парт-тайм. Так что знакомство случилось довольно органически.
Уже тогда было видно, что идет целый сдвиг в парадигме разработки — вместо классического императивного программирования, когда ты жестко задаешь условия, наступает эра, когда машина сама с помощью данных сможет себя обучать. Видеть эту смену было невероятно круто, и очень хотелось попасть в число тех разработчиков новой эпохи.
Читать: https://habr.com/ru/companies/newprolab/articles/419117/
#ru
@big_data_analysis | Другие наши каналы
Big Data — бро или не бро
В Москве прошла конференция Big Data, Meet Big Brother, организованная фондом Sistema_VC. Там было всякое: приехал израильский разработчик, который знает, как обрабатывать данные в сто раз быстрее всех. МТС сказал, что МТС умрет, если не станет IT компанией. Российские бизнесмены нагоняли тревогу, пытаясь ее развеять.
Кажется, уже все привыкли, что в разговорах о больших данных, особенно если они философские, рано или поздно появится Оруэлловский суперзлодей Большой Брат — прямо как Гитлер во всех спорах в интернете. Организаторы не стали тянуть и обыграли штамп сразу в названии. Тревога — оправданная или нет — часть хайпа, что поделать.
Читать: https://habr.com/ru/articles/418925/
#ru
@big_data_analysis | Другие наши каналы
5 источников данных, которые превращают данные APM в аналитику производительности приложений
В предыдущей статье мы писали, как Splunk можно использовать для аналитики работы приложений. А сегодня расскажем об основных источниках данных для аналитики производительности приложений, по версии Билла Эммента, директора по маркетингу решений в Splunk.
Читать: https://habr.com/ru/companies/tssolution/articles/418599/
#ru
@big_data_analysis | Другие наши каналы
Игра для улучшения качества Википедии
Сегодня была анонсирована бета версия онлайн-игры WikiBest, которая является частью научных исследований в области качества данных в Википедии. Примечательно, что в настоящее время игра позволяет сравнивать качество данных в 5 языковых версиях Википедии: русский, украинский, белорусский, польский, английский. В скором будущем планируется расширить количество языков.
Читать: https://habr.com/ru/articles/418713/
#ru
@big_data_analysis | Другие наши каналы
RabbitMQ против Kafka: применение Kafka в событийно ориентированных приложениях
В предыдущей статье мы рассмотрели шаблоны и топологии, применяемые в RabbitMQ. В этой части мы обратимся к Kafka и сравним её с RabbitMQ, чтобы получить некоторые представления об их различиях. Следует иметь в виду, что сравниваться будут скорее архитектуры событийно-ориентированных приложений, а не конвейеры обработки данных, хотя грань между этими двумя понятиями в данном случае будет довольно размытой. Вообще, это скорее спектр, чем четкое разделение. Просто наше сравнение будет сфокусировано на части этого спектра, связанной с событийно-управляемыми приложениями.
Читать: https://habr.com/ru/companies/itsumma/articles/418389/
#ru
@big_data_analysis | Другие наши каналы
Marvel: Infinity War или Как собрать данные под свой проект за пару минут
У меня есть две сферы интересов. Первая: общество анонимных ленивых аналитиков данных, вторая: общество анонимных гиков. И если со второй у меня все ок, то с первой все сложнее. Когда говоришь людям, какие задачи решают аналитики данных, что они представляют? Ради эксперимента ввела в гугл определение и первое же:
Читать: https://habr.com/ru/articles/412579/
#ru
@big_data_analysis | Другие наши каналы
Памятки по искусственному интеллекту, машинному обучению, глубокому обучению и большим данным
В течение нескольких месяцев мы собирали памятки по искусственному интеллекту, которыми периодически делились с друзьями и коллегами. В последнее время сложилась целая коллекция, и мы добавили к памяткам описания и/или цитаты, чтобы было интереснее читать. А в конце вас ждёт подборка по сложности «О большое» (Big-O). Наслаждайтесь.
UPD. Многие картинки будут читабельнее, если открыть их в отдельных вкладках или сохранить на диск.
Читать: https://habr.com/ru/companies/nix/articles/417935/
#ru
@big_data_analysis | Другие наши каналы
Зачем вам нужен Splunk? Аналитика работы приложений
Почему мобильное приложение вышло из строя? Можем ли мы выявить проблемы с приложениями до того, как с этим столкнутся конечные пользователи? Является ли последняя версия приложения лучше или хуже, чем предыдущие? В этой статье мы расскажем, как вам может помочь Splunk в поиске ответов на эти вопросы.
Читать: https://habr.com/ru/companies/tssolution/articles/417909/
#ru
@big_data_analysis | Другие наши каналы
¡Ya disponible! Investigación de Telegram 2025 — los principales insights del año 
