ar
Feedback
Data Analysis / Big Data

Data Analysis / Big Data

الذهاب إلى القناة على Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

إظهار المزيد
2 745
المشتركون
-224 ساعات
-67 أيام
+1030 أيام
أرشيف المشاركات
Кластеризация множества объектов, алгоритм K-means++ Поступила задача выполнения кластеризации множества товаров, по их размерам (двумерная плоскость). Значения распределения: ширина и высота. После изучения вопроса, было найдено несколько подходящих алгоритмов, одним из самых распространенных оказался алгоритм под названием K-means, а так же его вариация K-means++. Плюсы, в отличии от классики, подошли более разумно к подбору начальных точек опоры, калибрующихся итерационно, до момента идентичности нескольких последовательных результатов. Читать: https://habr.com/ru/articles/829202/ #ru @big_data_analysis | Другие наши каналы

Как подготовить будущих аналитиков данных и ML-специалистов к реальным бизнес-задачам Будущие аналитики данных, BI-аналитики, ML-разработчики и Data Scientists используют готовые датасеты для выполнения студенческих заданий, чтобы научиться понимать принципы обработки данных, искать и валидировать гипотезы, строить предсказательные модели. Однако задачи, которые решают студенты, часто недостаточно полезны как для них самих, так и для владельцев данных. Студенты не получают опыт решения практических задач, а также понимания, что результат их работы может быть полезен для бизнеса. В статье разбираюсь, почему так происходит и как получить опыт, который пригодится в работе. Читать: https://habr.com/ru/articles/829170/ #ru @big_data_analysis | Другие наши каналы

Как мы делали умного помощника: Use Case внедрения умного чат-бота на основе подхода “Карта знаний” и LLM GigaChat Привет, Habr! Меня зовут Александр Сулейкин, архитектор Big Data решений, к. т. н. и CEO ИТ-компании “ДЮК Технологии”. Совместно с нашим экспертом по внедрению LLM, Анатолием Лапковым, мы подготовили статью по теме внедрения умного помощника в крупной некоммерческой организации. Под капотом - базовая модель от Сбера GigaChat, однако вся обвязка и подход к решению задачи - наши собственные. И это то, о чем пойдет речь в статье. Исходная проблема Одна из главных проблем использования LLM - это галлюцинации, которые появляются в результате неверного трактования моделью тех или иных запросов. Одна из основных причин - это разбиение исходного текста на чанки, которое, зачастую, делается с ошибками или неточностями в силу разных причин. По данной теме и детальнее про процесс разбиения на чанки и особенности процесса можно почитать, например, в этой статье: https://habr.com/ru/articles/779526/. Здесь лишь отметим, что процесс на данный момент сложно управляем, когда требуется повысить точность поиска наиболее релевантных векторов в векторной базе. В последних трендах для разбиения на чанки стали использовать те же LLM - подробнее о методах разбиения текста на чанки можно найти, например, тут: https://dzen.ru/a/Zj2O4Q5c_2j-id1H. Однако, несмотря на все текущие достижения по теме нарезки чанков, проблема качества поиска информации в них все еще остается. Многие области знаний, в том числе и помощники технической поддержки пользователей для любой сферы - требуют более качественных и точных ответов модели. Читать: https://habr.com/ru/articles/829022/ #ru @big_data_analysis | Другие наши каналы

Обновление Oracle Analytics Cloud: новые возможности в июле 2024 В июле 2024 Oracle Analytics Cloud получит обновление с новыми функциями. Улучшены AutoML модели, добавлены более продвинутые инструменты визуализации и ускорены опции загрузки данных. Эти изменения помогут пользователям быстрее принимать обоснованные решения на основе данных. Читать подробнее #en @big_data_analysis | Другие наши каналы

Анализ тенденций в области антифрода: как технологии проверки личности меняются и совершенствуются В современном мире антифрод — это скрытый, но ключевой элемент защиты как для крупных бизнесов, так и для небольших компаний. Некоторые платформы активно внедряют системы антифрода для обеспечения безопасности и доверия своим пользователям. Системы антифрода становятся все более сложными и интеллектуальными, основанными на анализе множества факторов из различных источников. Эти данные включают в себя информацию о взаимодействии пользователей с платформой, их поведении и целевых действиях. Однако, чтобы достичь такого уровня комплексности, эти системы прошли через множество изменений и улучшений. Ключевым аспектом этих изменений являются технологии проверки личности. Эффективная проверка личности стала одним из основных инструментов предотвращения мошенничества. В этой статье мы рассмотрим эволюцию технологий проверки личности, их противодействие мошенничеству и различные виды таких технологий. Читать: https://habr.com/ru/articles/828746/ @big_data_analysis ___ Другие наши проекты | Чат аналитиков данных

Войти в IT. Продуктовая аналитика. Гайд для новичков. Часть 1 Привет, Хабр! Я Денис, Продуктовый Аналитик с большим опытом, а также ментор. Через меня прошло большое количество людей, которым я помог по абсолютно разным вопросам: от помощи с резюме и подготовкой к собеседованию до полного проведения до первого оффера, я сам провёл большое количество собеседований. Я прошёл довольно тяжелый путь и попал в аналитику полностью с нуля, не проходя курсов от Яндекса, Скиллбокса и т.д. У меня ушло около 11 месяцев на весь путь, чтобы получить свой первый оффер в Т-Банк (Тинькофф), я самостоятельно изучал много нового материала, смотрел видео на ютубе, где-то искал бесплатные курсы и двигался к своей цели. Моя дорога была вовсе не прямой, я много чего изучал ненужного, где-то останавливался и сворачивал не туда. В этой статье я хочу дать подробный гайд, как стать продуктовым аналитиком. Поехали! Окунуться в продуктовую аналитику Читать: https://habr.com/ru/articles/828626/ @big_data_analysis ___ Другие наши проекты | Чат аналитиков данных

Играем в GOLF. Как обучить нейросети точно предсказывать геометрию молекул, используя малое число данных Привет! Меня зовут Артем Цыпин, я исследователь в Институте искусственного интеллекта AIRI. Наша команда занимается применением глубокого обучения в науках о жизни. В сферу наших интересов входят такие задачи как поиск новых лекарственных препаратов, дизайн материалов, анализ растворимости и другие. Как вы уже наверное догадались, мы не химики и молекулы в лаборатории не синтерзируем. Вместо этого мы учимся предсказывать их свойства на компьютерах, причём, привлекаем для этого нейросети — оказывается, так выходит сильно быстрее, чем с помощью традиционных квантовохимических пакетов. Но, есть и обратная сторона медали: чтобы нейросеть точно предсказывала энергии молекул, ей нужно очень много данных. Однако, мы нашли способ, как сильно ослабить это ограничение, и сегодня я вам о нём расскажу. Читать: https://habr.com/ru/companies/airi/articles/815113/ @big_data_analysis ___ Другие наши проекты | Чат аналитиков данных

МТС проводит пятый True Tech Arch: все для IT-архитекторов и не только Неравнодушные к IT-архитектуре приглашаются на юбилейн
МТС проводит пятый True Tech Arch: все для IT-архитекторов и не только Неравнодушные к IT-архитектуре приглашаются на юбилейный True Tech Arch — это несколько тем докладов от внешнего спикера и архитекторов МТС, много нетворкинга и активностей на площадке. Также для всех будет доступен "Открытый микрофон", а самым активным предложат полноразмерную Architectural Kata с предварительным отборочным этапом и открытым финалом. Места ограничены, платить не нужно, только лишь зарегистрироваться и получить приглашение. Это #партнёрский пост

7 способов выгрузить данные из 1С для бизнес-аналитики При загрузке данных из 1С во внешнюю BI-платформу обычно возникают трудности. 1C – закрытая проприетарная система, подключиться к которой напрямую и просто выгрузить данные без нарушения лицензионной политики нельзя. Как решить эту проблему? Рассматриваем 7 самых популярных способов извлечения данных из 1С для бизнес-аналитики, их плюсы и минусы. Читать: https://habr.com/ru/articles/827992/ @big_data_analysis ___ Другие наши проекты | Чат аналитиков данных

Продуктово-аналитический канал с нотками лайфстайла и прокачки софт-скилов заказывали? Значит вам в «Хочу в STEM» — его ведет
Продуктово-аналитический канал с нотками лайфстайла и прокачки софт-скилов заказывали?  Значит вам в «Хочу в STEM» — его ведет Саша — продуктовый аналитик в Avito. До этого Саша работала в Яндекс Поиске. Она делится аналитическими задачками на подумать (держат мозг в тонусе!) и рассказывает, как себя преподносить рекрутеру или оформить свой LinkedIn.  А еще вы найдете в канале полезные инсайты, которые важно для себя отсекать время от времени. Например, если вам обещают быстрый рост в компании, не ведитесь. И Саша рассказывает, почему. Если вы входите в аналитику и хотите знать, как готовиться к устройству на работу — обязательно подписывайтесь. Это #партнёрский пост

Предсказание выбытия насосов или как я вошел в data science Всем привет, меня зовут Богдан. В ML я начал свое посвящение осенью 2023 года и за этот год успел поработать над таким неоднозначным проектом как "Предсказание выбытия насосов". На данную тему на Хабре уже есть несколько статей, которые я в своё время нашел и опыт которых я пытался перенести в свой учебный big data пет проект :) ссылки на других ребят тут: ссылка 1 и ссылка 2 Хочу сказать что в данной статье не будет кода, она будет посвящена размышлениям, неудачам и иногда смешным попыткам решить данную проблему. Ну а также наверное где-то я буду кидать ссылки на совершенно разные вещи и немного похвастаюсь нашим финальным решением и тем, к чему меня привело участие во всем этом. Если вы хотите посмотреть на то как это реализовано под капотом, то добро пожаловать в репу на гитхабе Здесь расписано множество вещей, которые я успел попробовать пока работал над этой задачей в них входят как удачные решения, так и не очень. Читать: https://habr.com/ru/articles/827242/ @big_data_analysis ___ Другие наши проекты | Чат аналитиков данных

Подключение к Oracle Fusion Analytics Service через частную сеть Статья описывает, как настроить компоненты сети с собственным именем хоста для обеспечения приватного доступа к конечным точкам Oracle Fusion Analytics Service. Узнайте шаги и рекомендации для успешного подключения. Читать подробнее ___ Другие наши проекты

Все о Data Warehouse Централизованное хранилище данных (DWH) – ключевое звено бизнеса для хранения, анализа и отчетности. Узн
Все о Data Warehouse Централизованное хранилище данных (DWH) – ключевое звено бизнеса для хранения, анализа и отчетности. Узнайте о методах интеграции данных, преимуществах облачных решений и стоимости внедрения. Научитесь строить DWH с нуля и выбирайте оптимальную структуру для вашего бизнеса. Читать подробнее ___ Другие наши проекты

4 тренда аналитики данных для увеличения продаж Новый год — время обновлений и анализа актуальных розничных тенденций. В стат
4 тренда аналитики данных для увеличения продаж Новый год — время обновлений и анализа актуальных розничных тенденций. В статье обсуждаются четыре ключевых тренда: переход к омниканальным продажам, создание уникального клиентского опыта, динамическое ценообразование и эффективное взаимодействие с поставщиками. Поддержка этих инициатив аналитикой данных — залог успеха. К сожалению, текст статьи, предоставленный вами, слишком короткий и не содержит достаточной информации для создания осмысленного поста. Пожалуйста, предоставьте полный текст статьи или более содержательную часть, чтобы я мог выполнить вашу задачу. Читать подробнее ___ Другие наши проекты

Как BI-технологии помогают в анализе денежного потока Многие компании до сих пор используют Excel для анализа денежных потоко
Как BI-технологии помогают в анализе денежного потока Многие компании до сих пор используют Excel для анализа денежных потоков, хотя BI-технологии значительно облегчают этот процесс. BI позволяет автоматизировать прогнозирование, управлять рисками и получать актуальные данные. Узнайте, почему переход на BI-технологии выгоден даже для среднего бизнеса. Читать подробнее ___ Другие наши проекты

Как перевести корпоративную стратегию в KPI? Без правильных KPI даже самая блестящая стратегия может оказаться бесполезной. П
Как перевести корпоративную стратегию в KPI? Без правильных KPI даже самая блестящая стратегия может оказаться бесполезной. Пример Walmart показывает, как четко определенные KPI помогают команде понимать свои цели и достигать их. Узнайте, как BI-подходы помогут разработать и следить за KPI, обеспечивая успех вашей стратегии. Читать подробнее ___ Другие наши проекты

4 Вида Аналитики Данных для Улучшения Принятия Решений Узнайте о четырех типах аналитики данных — от описательной до предписы
4 Вида Аналитики Данных для Улучшения Принятия Решений Узнайте о четырех типах аналитики данных — от описательной до предписывающей. Эти методы помогают понять, что случилось, почему это произошло и что может произойти в будущем, а также какие действия следует предпринять. Получите ценные и основанные на данных инсайты! Не оставайтесь в неизвестности: Ваши данные могут рассказать всё! Получите полную видимость бизнеса с помощью наших аналитических услуг: изучайте прошлое, выявляйте коренные причины и наслаждайтесь точными прогнозами. Узнайте, как аналитика помогает понять ваш бизнес лучше! Читать подробнее ___ Другие наши проекты

PepsiCo: Успехи стратегии устойчивого развития по KPI PepsiCo запустила стратегию устойчивого развития до 2025 года, включающ
PepsiCo: Успехи стратегии устойчивого развития по KPI PepsiCo запустила стратегию устойчивого развития до 2025 года, включающую KPI для улучшения здоровья продукции. Компания публикует результаты, показывающие прогресс: в Q2 2017 органический рост выручки составил 3,1%. Однако достаточно ли этих данных для оценки успешности стратегии? Читать подробнее ___ Другие наши проекты

Spark vs. Hadoop: Что выбрать для работы с большими данными? Выбираете между Spark и Hadoop MapReduce? Оба фреймворка от Apac
Spark vs. Hadoop: Что выбрать для работы с большими данными? Выбираете между Spark и Hadoop MapReduce? Оба фреймворка от Apache управляют большими данными, но различаются методами обработки. Hadoop обрабатывает данные на диске, справляясь с масштабными задачами. В то время как Spark работает в памяти, обеспечивая более высокую скорость. Узнайте подробности в статье! Инновации в технологическом бизнесе: важные тенденции 2024 Время меняться! В статье обсуждаются ключевые направления для компаний в сфере технологий, включая возможности для журналистов и набор новых специалистов. Узнайте больше об изменениях и новых стандартах в 2024 году. Читать подробнее ___ Другие наши проекты

Что такое Big Data и как она используется? Статья от ScienceSoft подробно объясняет, что такое Big Data, её ключевые особенно
Что такое Big Data и как она используется? Статья от ScienceSoft подробно объясняет, что такое Big Data, её ключевые особенности и требования к её обработке. Также приводятся примеры использования данных из разных областей, таких как аналитика клиентов, промышленное и бизнес-процессов, а также обнаружение мошенничества. Hadoop vs. Apache Spark: Выбор фреймворков для обработки больших данных Hadoop и Apache Spark — популярные фреймворки для обработки больших данных. Hadoop подходит для распределенного хранения и параллельной обработки больших объемов данных, тогда как Spark обеспечивает обработку данных в памяти для аналитики в реальном времени. Узнайте, какой из них выбрать для вашего проекта. Читать подробнее ___ Другие наши проекты