Data Analysis / Big Data
Ir al canal en Telegram
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels
Mostrar más2 744
Suscriptores
+224 horas
-97 días
+330 días
Archivo de publicaciones
Алгоритм рекомендаций Twitter: как он работает
Почти год назад Илон Маск предложил сделать алгоритм рекомендаций Twitter общедоступным. Недавно компания выложила исходный код своего алгоритма на GitHub.
В статье - перевод их блог-поста с описанием работы алгоритма рекомендаций.
Он подойдет:
- любым желающим узнать, как алгоритмы выбирают, что вам показать в ленте,
- Data Scientist-ам и ML-инженерам, как уникальный источник инсайтов о работе большой рекомендательной системы.
Читать: https://habr.com/ru/articles/727786/
AI-as-a-service: доступный ИИ и анализ данных
До недавнего времени многие компании отказывались от использования искусственного интеллекта в своем бизнесе, поскольку для этого требовались слишком большие затраты. Покупка необходимого оборудования и настройка программного обеспечения для запуска локального облачного ИИ обходится дорого. Добавьте к этому расходы на персонал, техническое обслуживание и перенастройку существующего оборудования, и ИИ станет непомерно дорогим для большинства организаций. Но все меняется с появлением такой услуги, как AI as a Service (AIaaS). О ней сегодня и поговорим.
Читать: https://habr.com/ru/companies/first/articles/728348/
11 советов для начинающих в SQL
SQL является одним из основных инструментов, используемых при работе с базами данных. Однако, многие программисты не пользуются всеми возможностями SQL, что приводит к меньшей производительности и более сложной работе с базой данных в целом.
В этой статье мы разберем 11 практических советов, которые помогут вам в обучение SQL.
Читать: https://habr.com/ru/articles/728420/
Long live anonymity
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/04/long-live-anonymity.html
Как мы создавали техкомьюнити
Мы – команда DataOffice Ростелекома. Мы занимаемся всеми большими данными нашей большой компании. Собираем данные из сотен систем источников, внедряем современные технологии, создаем собственные продукты для работы с данными и, конечно, используем технологии искусственного интеллекта.
Для того, чтобы заниматься большими данными такой большой компании нам нужна большая команда. У нас команда больше 300 человек и все они занимаются разными проектами, работают с разными технологиями, но все любят данные и очень любознательные.
Как мы создавали техкомьюнити
Читать: https://habr.com/ru/companies/rostelecom/articles/728128/
Подборка актуальных вакансий
— Аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет
— Product Analyst
Где: Москва, можно удалённо
Опыт: от 2 лет
— Аналитик
Где: удалённо
Опыт: от 2 лет
— Service Delivery Manager
Где: удалённо
Опыт: от 3 лет
— Системный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет
— Web-аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет
— Full-stack аналитик
Где: удалённо
Опыт: от 2 лет
— Системный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет
— Аналитик ПО Диасофт FA# (Digital Q)
Где: Москва, можно удалённо
Опыт: от 2 лет
— Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет
— Системный аналитик
Где: Москва
Опыт: от 1 года
— Младший инженер-аналитик SOC (1-ая линия)
Где: Краснодар
Опыт: от 1 года
#вакансии #работа
Evolving beyond data-driven
Many businesses proclaim, "We are a data-driven business" or "We make our decisions using data." But what does it really mean to be data-driven? Why is being Analytics-Driven the next step for businesses? In order to truly thrive in a modern analytics-driven culture, businesses need to evolve beyond just being data-driven and embrace modern analytics techniques like artificial intelligence and machine learning (AI/ML).
Read: https://blogs.oracle.com/analytics/post/evolving-beyond-datadriven
NER: Как мы обучали собственную модель для определения брендов. Часть 2
Привет всем! Сегодня продолжим рассказ о том, как наша команда Data Science из CleverData начала выделять бренды в строках онлайн-чеков. Цель такого упражнения — построение отчета для бренд-анализа, о котором мы подробно рассказали в первой статье на эту тему. Из второй части вы узнаете, как на базе пайплайна (сводки с данными) для получения разметки по брендам мы обучили собственную NER-модель.
Читать: https://habr.com/ru/companies/lanit/articles/725960/
Производительность и стабильность Knime на слабых компьютерах
Наступают времена, когда офисному сотруднику недостаточно знать Word и Excel в качестве минимального обязательного базиса программных продуктов. No-code/Low-code платформы и продукты - вот что незаметно становится обязательным для владения каждым. Эти платформы есть самый быстрый на сегодня способ без изучения языков программирования овладеть навыками использования искусственного интеллекта, машинного обучения, анализа big data, причём очень бигдата - на сотни миллионов строк.
Платформа Knime - один из таких инструментов. На первый взгляд это улучшенный Excel+BI. Но, когда посмотришь поглубже его возможности, то, очевидно - это обязательный инструмент будущего, по крайней мере для тех кто не являясь программистом хочет получить навыки как у программиста. Для простоты - Knime это "графическое" программирование. Берёшь квадратики, размещаешь в виде бизнес-процесса, соединяешь их между собой и оп! - уже провёл анализ маркетингового плана или парсинг сайтов конкурентов или анализ рекламных текстов с помощью NLP. Или, даже строишь приборную доску управления производственного предприятия будучи простым менеджером/инженером. Или ведёшь обработку научных данных.
Knime позволяет, конечно, и код писать, причём на трёх языках Python, Java, R, но это не обязательно. Бизнес-процессы знаешь, рисуешь? Вперёд!
Разумеется, при работе с огромными массивами данных, требования к компьютерным ресурсам возрастают. И что делать, если вам доступен простенький офисный или домашний компьютер? Или, если вы видите что аренда облачного ресурса на месяц дороже, чем купить компьютер с 64Гб оперативной памяти и процессором гоняющим Atomic Heart или Hogwartz Legacy на среднемалках?
Читать: https://habr.com/ru/articles/728204/
Полезные методы работы с данными в Pandas. Часть 2
В современном мире данных анализ временных рядов играет ключевую роль во многих отраслях, таких как финансы, розничная торговля, производство и маркетинг. Работа с временными рядами может стать сложным процессом из- за наличия трендов, сезонности и структурных изменений в данных.
Я продолжаю рассказывать о полезных, но менее известных методах работы с данными в Pandas, которые могут значительно повысить вашу эффективность при анализе и обработке данных. По данной ссылке вы можете прочитать первую статью.
В этой статье мы погрузимся в применение скользящих окон для вычислений и смещение данных для анализа временных рядов. Скользящие окна позволяют проводить агрегированные вычисления на подмножествах данных, что может быть полезно для определения трендов, сезонности и аномалий во временных рядах. Мы также изучим использование смещения данных для создания лаговых переменных и их применение в различных задачах прогнозирования.
Читать: https://habr.com/ru/companies/otus/articles/728118/
О чём все эти люди говорят, ChatGPT?
Всем привет! Я продуктовый аналитик компании Интерсвязь, и у меня, как и у многих, часто всплывает потребность в том чтобы «разложить по полочкам» кучу разных текстов. Например:
1. Я хочу знать, о чем вообще все отзывы в маркете про мой продукт.
2. У меня есть много писем от клиентов на разные темы, и я хочу их систематизировать.
3. Мне может понадобиться проанализировать старые обращения пользователей в техподдержку, которые не были размечены.
Читать: https://habr.com/ru/articles/727986/
Data Engineering Weekly #126
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-126
Напоминаем, что кроме этого канала у нас есть ещё более двух десятков каналов в Telegram по разным айтишным тематикам.
Изучить, что за направления там есть, выбрать понравившееся и подписаться можно в специальном канале с каналами: @tproger_channels
Реклама tproger.ru LjN8KH9ar
А работают ли игровые механики?
Этот вопрос мне задают постоянно.
Привет, Хабр! Меня зовут Тагир Хайрутдинов, я старший аналитик данных в Альфа-Банке. За прошлый год я посетил примерно 10 профильных конференций и прочих мероприятий. Когда на мероприятиях я рассказываю людям о том, что такое геймификация и какое влияние она оказывает на бизнес на примере проектов Альфы, то самый частый вопрос от маркетологов, овнеров, аналитиков и прочих — «А это реально работает?»
Да, геймификация действительно работает. Об этом и пойдет сегодня речь — я расскажу, что такое геймификация, какой эффект от неё получает бизнес и как мы используем игровые механики в Альфе. Делать я это буду на примере игры «Симулятор мошенника», в которой мы предлагали клиентам в форме игры проверить своё умение распознавать мошенников. Статья будет больше интересна аналитикам, продакт овнерам, маркетологам.
Читать: https://habr.com/ru/companies/alfa/articles/727606/
Strange PR for statistics
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/04/strange-pr-for-statistics.html
Появился новый информационно-развлекательный канал для ITшников «GoodIT / Гудит»
Он будет полезен аналитикам, разработчикам, архитекторам, DevOpsам и другим специалистам, ведь тут вы найдёте:
— разбор ошибок в построении IT архитектур и описания бизнес-процессов в BPMN 2.0;
— истории из практики бизнес-аналитиков и DevOPSов;
— обсуждение техник BABOK;
— статьи и видео от ведущих аналитиков и DevOPSов;
— логические загадки, головоломки, и, конечно же, юмор!
Подписывайтесь, чтобы не пропустить ничего интересного: @GoodIT_channel
Реклама ИП Отькало Артем Ильич LjN8KH9Mc
Основные инструменты для работы в Data Engineering: введение для начинающих Data Engineer'ов
Всем привет!
Меня зовут Надя, я занимаю должность Data Engineer в компании, которая специализируется на разработке мобильных игр. В этой статье я хочу поделиться информацией об основных инструментах, которые я использую в своей работе с данными, и рассказать о каждом из них подробнее.
Читать: https://habr.com/ru/articles/727560/
10 типичных ошибок в LinkedIn, которые пора исправить
LinkedIn является одной из основных социальных сетей для поиска работы в ИТ-отрасли. На 2023 год LinkedIn имеет более 810 миллионов пользователей, а ежемесячно активными пользователями является более 400 миллионов человек в мире и 6 миллионов пользователей Linkedin из России.
Когда пользователи откликаются на Remote вакансии в LinkedIn, они часто не получают ответов. Есть подходы, которые помогают увеличить количество ответов на запросы, например, прямое общение с работодателями через Inmails. Но для верного и результативного общения требуется сделать ряд подготовительных действий. Первое из которых - обновление профиля в LinkedIN и исправление наиболее частых ошибок.
Типичные ошибки встречаются довольно часто, и могут негативно повлиять на профиль пользователя, уменьшить его шансы на получение откликов, ответов и работы.
Не стоит повторять одни и те же ошибки. Здесь мы рассмотрим 10 типичных ошибок, которые совершают многие пользователи LinkedIN при создании профиля и поясняем, как повысить эффективность профиля за счет их исправления.
10 типичных ошибок в профиле LinkedIn:
Читать: https://habr.com/ru/articles/727466/
Евклидова, L1 и Чебышёва — 3 основные метрики, которые пригодятся в Data Science
Евклидово, L1 и Чебышёва — разбираемся, что это за расстояния и чем они друг от друга отличаются.
Читать: «Евклидова, L1 и Чебышёва — 3 основные метрики, которые пригодятся в Data Science»
Лучшие датасеты для машинного обучения и анализа данных
Для машинного обучения (и не только) требуется много хороших данных. Вместо того чтобы собирать их самому, можно воспользоваться готовыми датасетами.
Читать: «Лучшие датасеты для машинного обучения и анализа данных»
¡Ya disponible! Investigación de Telegram 2025 — los principales insights del año 
