Data Analysis / Big Data

Ir al canal en Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

Red:Типичный программист Rusia177 057 Tecnologías y Aplicaciones26 806

2 751

Suscriptores

-224 horas

+37 días

+1830 días

662

Visitas de la publicación

Sin datos24 horas

Sin datos48 horas

24.06%

Tasa de compromiso

Sin datos

Mensajes por día

Ads index

beta

Archivo de publicaciones

2 751

Как порталы открытых данных могут стимулировать рост экономики и инноваций Органы государственного управления не только скрывают колоссальное количество информации, но еще и создают огромный объем данных. Собственно, они являются одними из крупнейших источников данных в мире, исходные материалы, которыми они располагают, могут стоить больших денег. Согласно составленному в 2011 году прогнозу компании McKinsey, к 2020 году потенциальная ценность Больших данных для европейского сектора может возрасти до двухсот пятидесяти миллиардов евро в год. Большая часть этих данных создается на бюджетные средства, следовательно, было бы логично предоставить их для общественного использования. Это позволило бы людям создавать новые инновационные сервисы, которые могли бы оказать существенное влияние на экономический рост. Читать: https://habr.com/ru/companies/fabernovel/articles/221281/ #ru @big_data_analysis | Другие наши каналы

2 751

Тренды в онлайн образовании В последнее время на слуху феномен «муков» (MOOC) – массовых открытых онлайн курсов. Платформ для них создано большое множество. Есть мнение, что MOOC – это книги нового поколения (с видео, интерактивными задачами и социальной составляющей), которые одновременно «читают» десятки тысяч человек. Можно долго сравнивать «муки» с классическим образованием и спорить об их эффективности, но полезно воспринимать их как совершенно другой формат, очевидно со своими плюсами и минусами. При этом у онлайн образования есть большое концептуальное отличие от оффлайн образования – его проще измерить. А всё, что можно измерить, можно улучшить. В этом посте я поделюсь личными соображениями о том, куда движется онлайн образование на примере MOOC-ов, в том числе по мотивам посещения Coursera Partners' Conference, прошедшей 4 недели назад в Лондоне. Читать дальше про данные, специализации, смешанное обучение и платформу образовательных приложений Читать: https://habr.com/ru/companies/stepic/articles/221121/ #ru @big_data_analysis | Другие наши каналы

2 751

Data Mining в Big Data: рейтинг цитируемости СМИ в социальных медиа «Какой же аналитик не любит Big Data!» — так можно перефразировать популярную пословицу про быструю езду. 650 миллионов сообщений соцмедиа от 35 миллионов авторов, 358 миллионов ссылок, из которых 110 миллионов «коротких» — такой объем данных был проанализирован за март 2014г, чтобы составить рейтинг цитируемости СМИ. В данном посте мы поговорим о методолого-технологических аспектах, а также предложим обсудить идеи «углубленного бурения» Data Mining соцмедиа. Заинтересовавшихся приглашаем под кат. Читать: https://habr.com/ru/companies/palitrumlab/articles/220415/ #ru @big_data_analysis | Другие наши каналы

2 751

QlikView. Создадим свое первое приложение?… В этой статье я хочу описать основы использования продукта QlikView от компании QlikTech, предназначенный для бизнес-аналитики (Business intelligence). Осторожно, много спойлеров. Интересно? Добро пожаловать далее... Читать: https://habr.com/ru/articles/218737/ #ru @big_data_analysis | Другие наши каналы

2 751

Большие данные и их хранение Что такое большие данные? Ответ на этот вопрос зависит от того, кому и когда он задан. Возьмем обычного пользователя: пятнадцать лет назад объём данных в среднем домашнем компьютере исчислялся несколькими гигабайтами; теперь таких гигабайт сотни и даже тысячи. Более серьезный пример: датчики, установленные на Boeing Jet, генерируют примерно 10 ТБ данных с каждого двигателя всего лишь за 30 мин. То есть самолет, прилетевший из Москвы, скажем, в Новосибирск за 4 часа, даст нам примерно 160 ТБ данных. И это только с одного полета. На десерт можно подсчитать, сколько данных оставила человечеству прошедшая Олимпиада в Сочи: сотни спортсменов и данные о них, тысячи часов видео с соревнований, данные с камер слежения и т. д. Большие данные – это одновременно большие проблемы и большие возможности. Рассмотрим несколько типичных проблем, связанных с «Big data». Читать: https://habr.com/ru/companies/acronis/articles/218243/ #ru @big_data_analysis | Другие наши каналы

2 751

MongoDB от теории к практике. Руководство по установке кластера mongoDB Доброго времени суток, уважаемые читатели. В этом посте я хотел бы описать несколько примеров развертки mongoDB, отличия между ними, принципы их работы. Однако больше всего хотелось бы поделиться с вами практическом опытом шардирования mongoDB. Если бы этот пост имел план, он бы выглядел скорее всего так: 1. Вступление. Кратко о масштабировании 2. Некоторые примеры развертки mongoDB и их описание 3. Шардинг mongoDB Пункты 1 и 2 — теоретические, а номер 3 претендует на практическое руководство по поднятию кластера mongoDB и больше всего подойдет тем, кто столкнулся с этим в первый раз. Читать: https://habr.com/ru/articles/217393/ #ru @big_data_analysis | Другие наши каналы

2 751

Кризис докатился до облаков! Вышел новый отчет Forrester “A Better But Still Subpar Global Tech Market In 2014 and 2015”. В нем аналитики спешат сообщить, что рынок облачных вычислений в 2014 с трудом вырастет на 6%. Читать: https://habr.com/ru/articles/216487/ #ru @big_data_analysis | Другие наши каналы

2 751

Big data: размер имеет значение? Перед всеми веб-разработчиками встает задача индивидуальной выборки контента для пользователей. С ростом объема данных и увеличением их разнообразия обеспечение точности выборки становится все более важной задачей, оказывающей существенное влияние на привлекательность проекта в глазах пользователей. Если вышеописанное входит в сферу ваших интересов, то, возможно, данный пост натолкнет на какие-то новые идеи. В каждой эпохе развития IT-индустрии существовали свои buzzwords — слова, которые у всех были на слуху, каждый знал, что за ними будущее, но лишь немногие знали, что действительно стоит за этим словом и как им правильно воспользоваться. В своем время баззвордами были и «водопад», и «XML», и «Scrum», и «веб-сервисы». Сегодня одним из основных претендентов на звание баззворда №1 является «big data». С помощью больших данных британские ученые диагностируют беременность по чеку из супермакета с точностью, близкой к ХГЧ-тесту. Крупные вендоры создают платформы для анализа больших данных, стоимость которых зашкаливает за миллионы долларов, и нет сомнений, что каждый пиксель в любом уважающем себя интернет-проекте будет строиться с учетом больших данных не позднее, чем к 2020 году. Читать: https://habr.com/ru/companies/vk/articles/216401/ #ru @big_data_analysis | Другие наши каналы

2 751

Эффективность персональных рекомендаций: контекстный подход Персональные рекомендации, как первый этап персонализации Интернета в целом, направлены на облегчение поиска информации. Но целесообразность их использования остается достаточно спорной. У нас была возможность оценить эффективность наиболее популярных подходов к формированию рекомендаций пользователю. Наша система обработала информацию, полученную от нескольких сервисов (на правах партнеров), которые предлагали своим пользователям рекомендации информационного контента и рекламных баннеров и фиксировали реакцию пользователя на них (клик/отсутствие клика). Таким образом, для анализа мы получили 13,4 млн рекомендаций, сформированных на основе разных методов. Читать: https://habr.com/ru/articles/209554/ #ru @big_data_analysis | Другие наши каналы

2 751

Такси в Нью-Йорке: визуализация перемещений за год Наверное, в Нью-Йорке самый большой таксопарк в мире, или один из самых больших. За последний год, по данным MIT, 13500 такси перевезли более 17 миллионов пассажиров. Это, сами понимаете, очень много. Благодаря современным технологиям специалистам удалось перевести все данные по перемещениям такси (использовались GPS-координаты) за последний год в графику. И результат получился достаточно интересным. Читать: https://habr.com/ru/articles/215881/ #ru @big_data_analysis | Другие наши каналы

2 751

Hadoop, часть 3: Pig, обработка данных В предыдущей публикации мы подробно рассмотрели процесс сбора данных при помощи специализированного инструмента Flume. Но чтобы полноценно работать с информацией, мало ее просто собрать и сохранить: ее нужно обработать и извлечь из нее нечто нужное и полезное. Для обработки данных в Hadoop используется технология MapReduce. Читать: https://habr.com/ru/companies/selectel/articles/215307/ #ru @big_data_analysis | Другие наши каналы

2 751

Как обеспечить надежное хранение больших объемов данных в рамках умеренного бюджета Добрый день, Хабрахабр! Сегодня поговорим о том, как из-за роста объемов данных меняются требования к СХД и почему традиционные системы, которым мы привылки доверять, больше не могут справляться с расширением емкости и обеспечивать надежность хранения. Это мой первый пост после долгого перерыва, поэтому на всякий случай представлюсь — я Олег Михальский, директор по продуктам компании Acronis. Если вы следите за трендами в индустрии, наверняка уже сталкивались с таким понятием как software defined anything. Эта концепция подразумевает перенос на уровень программного обеспечение ключевых функций ИТ-инфраструктуры, обеспечивающих ее масштабируемость, управляемость, надежность и взаимодействие с другими частями. Gartner называет Software Defined Anything в числе 10 ключевых трендов 2014 года, а IDC уже опубликовала специальный обзор сегмента Software Defined Storage и предсказывает, что в к 2015 году только коммерческих решений данного типа будет куплено на 1,8 миллиарда долларов. Именно про СХД этого нового типа пойдет речь дальше. Читать: https://habr.com/ru/companies/acronis/articles/215007/ #ru @big_data_analysis | Другие наши каналы

2 751

Единый интерфейс управления рекламой на сайте Монетизация собственного проекта – всегда вызов. Самый простой вариант: поставить на него тизерную рекламу или контекст, и наблюдать, сколько денег капает в карман. Но этот же вариант часто оказывается разочаровывающим – заработок не стоит усилий по его приобретению. Так ли плоха тизерная/контекстная реклама для монетизации сайтов? Скорее всего, вы просто не умеете её готовить. В зависимости характера вашего трафика, его источников и состава, будет меняться прибыльность той или иной рекламной сети Читать: https://habr.com/ru/companies/advertone_ru/articles/214735/ #ru @big_data_analysis | Другие наши каналы

2 751

Что такое на самом деле Big Data и чем они прекрасны. Лекция Андрея Себранта в Яндексе Директор по маркетингу сервисов Яндекса Андрей Себрант рассказал студентам Малого ШАДа о том, что такое большие данные, и о тех, зачастую неожиданных местах, где они находят своё применение. Bid Data как понятие у всех на слуху уже не первый год. Но точное представление о том, что же представляет собой это понятие, есть далеко не у всех, особенно это касается людей за пределами IT-сферы. Проще всего несведущему человеку объяснить это на практическом примере. Два года назад огромная сеть магазинов Target стала использовать машинное обучение при взаимодействии с покупателями. В качестве обучающей выборки использовались данные, накопленные компанией за несколько лет. В качестве маркеров конкретных покупателей использовались банковские и именные скидочные карты. Алгоритмы проанализировали, как и в каких условиях менялись предпочтения покупателей и делали прогнозы. А на основе этих прогнозов покупателям делались всевозможные специальные предложения. Весной 2012 года разразился скандал, когда отец двенадцатилетней школьницы пожаловался, что его дочери присылают буклеты с предложениями для беременных. Когда сеть Target уже приготовилась признавать ошибку и извиняться перед обиженными покупателями, выяснилось, что девочка действительно была беременна, хотя ни она, ни ее отец на момент жалобы не знали об этом. Алгоритм отловил изменения в поведении покупательницы, характерные для беременных женщин. Конспект лекции Читать: https://habr.com/ru/companies/yandex/articles/214217/ #ru @big_data_analysis | Другие наши каналы

2 751

Можем ли мы доверять решению компьютера, если не можем его проверить? Если помните, Рей Курцвейл обещал приход сингулярности уже в 30 годах этого века. Похоже, что первые предвестники уже появляются: два бывших наших соотечественника, Алексей Лисица и Борис Конев, работающие в Ливерпульском университете, запустили на расчет задачу несоответствия Эрдеша. Задача считается неразрешенной, и программа, запущенная исследователями с задачей справилась. Но! Проблема в том, что доказательства решения сами по себе занимают 13 Гб (еще раз, текстовый лог-файл, по сути и являющийся доказательством, занимает 13 Гб) и с трудом поддается верификации. Отсюда напрашивается простой вопрос – можем ли мы доверять решению компьютера, если не в состоянии проверить его выкладки? Читать: https://habr.com/ru/articles/214229/ #ru @big_data_analysis | Другие наши каналы

2 751

Как сохранить олимпиаду? Все средства массовой информации в последнее врем живут и дышат только Олимпиадой. Дабы не нарушать этот тренд и не упускать возможность поделиться экспертизой вопроса хранения данных на подобном событии, позволю себе немного порассуждать на тему взаимного проникновения технологий в спорт и спорта в технологии. По некоторым данным олимпиада в Сочи стала большим событием не только для спортсменов и болельщиков, но и для российского IT сообщества, т.к. явила собой пример использования последних веяний IT индустрии для спортивных мероприятий. Внутри всё устроено следующим образом: Читать: https://habr.com/ru/companies/acronis/articles/213949/ #ru @big_data_analysis | Другие наши каналы

2 751

За посетителями аэропорта Ньюарка будут следить светодиодные лампы Имея головной офис в США, наша команда заинтересовалась новостями международного аэропорта Ньюарка. Ньюарка, расположенный в черте городов Ньюарк и Элизабет (Нью-Джерси) аэропорт, находится в 24 километрах к юго-западу от нью-йоркского района Мидтаун. Ньарка – второй по величине аэропорт после аэропорта Хьюстон Интерконтинентал авиакомпании Continental Airlines. И сегодня посетители терминала B в международном аэропорте Ньюарк Либерти могут заметить яркое, чистое освещение, интерьер аэропорта недавно дополнен 171 светодиодной лампой. Но посетители, вероятнее всего, не будет понимать, что эти светильники являются основой системы, которая за ними наблюдает. Читать: https://habr.com/ru/companies/telebreeze/articles/213355/ #ru @big_data_analysis | Другие наши каналы

2 751

Как мы используем инфраструктуру обработки данных в Sports.ru и Tribuna.com? Год назад мы отказались от всех публичных счетчиков в пользу закрытых сервисов и собственной инфраструктуры обработки данных. Собирая на Олимпиаде по 10 млн. хитов в сутки, мы нащупали предел доброты Google Analytics, за которым бесплатное обслуживание уже не возможно. Но теперь у нас есть свой лунапарк со сверткой и графиками, поэтому мы можем легко снизить интенсивность использования GA, сохранив за ним только аудиторские функции. О том, как мы собираем данные и как используем их в своей работе – в простыне с веселыми картинками внутри. Читать: https://habr.com/ru/companies/sports_ru/articles/212863/ #ru @big_data_analysis | Другие наши каналы

2 751

Распределение строк и доступ в СУБД Teradata (Primary Index) Предыдущий пост: Что такое Teradata? Как Teradata распределяет строки? * Teradata использует алгоритм хэширования для рандомного распределения строк таблицы между AMP-ами (преимущества: распределение одинаково, независимо от объема данных, и зависит от содержания строки, а не демографии данных) * Primary Index определяет, будут ли строки таблицы распределены равномерно или неравномерно между AMP-ами * Равномерное распределение строк таблицы ведет к равномерному распределению нагрузки * Каждый AMP отвечает только за свое подмножество строк каждой таблицы * Строки размещаются неупорядоченно (преимущества: не требуется поддержка сохранения порядка, порядок не зависит от любого представленного запроса) Primary Key (PK) vs. Primary Index (PI) Primary Key (первичный ключ) – это условность реляционной модели, которая однозначно определяет каждую строку. Primary Index – это условность Teradata, которая определяет распределение строк и доступ. Хорошо спроектированная база данных содержит таблицы, в которых PI такой же как и PK, а также таблицы, в которых PI определен в столбцах, отличных от PK, и может влиять на пути доступа. Читать: https://habr.com/ru/articles/209166/ #ru @big_data_analysis | Другие наши каналы

2 751

Как живется Data Mining компании: задачи и исследования Привет, Хабр! Наконец дошли руки Пришло время рассказать, чем занимается наша компания DM Labs в области анализа данных, помимо образовательной деятельности (о ней мы уже писали 1). За прошлый год мы начали плотно сотрудничать с институтом роботехники fortiss при Техническом университете Мюнхена (TUM) (совместно учим роботов не убивать людей), выпустили прототип антифрод системы, участвовали в международных конференциях по машинному обучению, и, самое главное, смогли сформировать сильную команду аналитиков. Теперь DM Labs объединяет в себе уже три направления: исследовательскую лабораторию, разработку готовых коммерческих решений и обучение. В сегодняшнем посте мы расскажем о них подробнее, подведем итоги прошедшего года и поделимся целями на будущее. Читать: https://habr.com/ru/companies/dmlabs/articles/207538/ #ru @big_data_analysis | Другие наши каналы