Анализ данных (Data analysis)

50 259

🧹 Как почистить данные, не удаляя лишние знаки ➡️ Читать дальше @data_analysis_ml

50 259

✔️ Продвинутая работа с большими объемами данных Как часто вы сталкиваетесь с необходимостью выгрузить в MS Excel более миллиона строк? Все фильтры на выгрузку уже были наложены ранее, но, увы, она до сих пор «не проходит по габаритам». Перед нами встает дилемма – делить, или … воспользоваться готовыми решениями для python, не изучая python! Речь сегодня пойдет о трех библиотеках, которые позволяют писать код и при этом не писать его, а также оперировать внушительными объемами данных с минимальными знаниями английского языка или синтаксиса пресловутых «панд» (здесь и далее «панды»: pandas – open-source библиотека для python для работы с табличными данными – прим. автора). Для примера будем использовать объявления о продаже автомобилей Toyota с известного сайта. Первая библиотека, с которой хотелось бы Вас познакомить – Bamboolib. Не секрет, что панды питаются бамбуком, и, как за всякое пропитание, за него нужно платить. Да, у Bamboolib есть платная версия, в которой реализована поддержка Apache Spark, а также есть возможность использовать свои внутренние библиотеки и нет ограничения по плагинам, в остальном же достаточно бесплатной версии. ➡️ Читать дальше @data_analysis_ml

50 259

📊 Как создавать дашборды, которыми будут пользоваться Зачем нужен дашборд? Дашборды – экранные формы информационно-аналитических систем — это современные отчёты, позволяющие принять управленческое решение быстро и обосновано. Классический вариант – это бумажное сообщение в определенной форме, где изложены данные, характеризующие процессы и события. Сотрудники, принимающие решения, изучают материал – и решают, что делать или от чего воздержаться. Дашбордами пользуются в продажах, маркетинге, политике, производстве, охране природы, путешествиях и так далее. Современный цифровой дашборд работает быстрее своего бумажного аналога, может быть интерактивным и содержать данные для разных категорий пользователей. На тактическом уровне причины создания дашбордов могут быть разными: Оцифровка бумажных отчетных форм. Например, в компании для руководства регулярно готовилась презентация со вполне определенной информацией. Эту презентацию перевели в цифровой вид, автоматизировали сбор и обработку данных — и получили экранную форму в системе. Осознанная необходимость мониторинга в ходе развития. Компания проанализировала бизнес, выработала ряд гипотез, нуждающихся в проверке цифрами; описала ряд ключевых процессов — и сформулировала для них важные метрики (KPI). Для их визуализации и отслеживания построили дашборд. Обобщение или детализация информации. Дашборд по конкретному процессу уже был, но стало важно получить больше данных – или посмотреть на них под другим углом. Если появляются новые пользователи с новыми запросами – возможно, будет логичнее сделать для них новый дашборд на основе работающего, а не дополнять старый данными и функциями для управления их визуализацией. Копирование работающих решений из другой области. Взяли дашборд одного отдела — и внедрили его для других (с изменениями или без таковых); или же — посмотрели на конкурентов или партнеров и т.п. ➡️ Читать дальше @data_analysis_ml

50 259

🧬 Основы биоинформатики. Работаем с биологическими данными. Каждый, кто слышит словосочетание "язык программирования", наверняка представляет себе код или скрипт, который выполняет строгий порядок действий для решения сложной технической задачи. Если спросить прохожего, для каких целей используются языки программирования, первое, что придет ему на ум - разработка, а любой гуманитарий скажет, что это скучно и совершенно не интересно. Однако, мне хотелось бы развеять эти стереотипы. Учитывая современные тенденции роста научно-технического прогресса, важно отметить, что программирование перестало быть чисто "техническим" инструментом. Сегодня программирование позволяет не только создавать алгоритмы для управления техникой, но и делать научные открытия, например в биологии. Оно позволяет понять, как устроена биоинженерная машина внутри наших клеток, какие функции выполняет каждый отдельно взятый ген, какие гены ответственны за наши болезни, как вирусы и бактерии влияют на нас на молекулярном уровне, как создать новый фармацевтический препарат и множество других вопросов. Языков программирования в современном мире довольно много. Однако, для аналитических и научных задач самым распространенным является Python. Я думаю, что сейчас каждый хотя бы примерно представляет, что такое Python. Поэтому, я не буду останавливаться здесь подробно на его определении, скажу лишь следующее. Python - высокоуровневый язык программирования, который широко применяется в самых разных сферах деятельности: в разработке, в тестировании, в администрировании, в анализе данных, в моделировании, а также в науке. Широкое распространение он получил не только, благодаря своей простоте и лаконичности, но и в силу своей модульности, возможности интегрироваться с другими языками программирования и наличия большого количества пакетов для анализа больших данных и научных расчетов. Давайте посмотрим теперь, какие задачи биологии Python способен решить ➡️ Читать дальше @data_analysis_ml

50 259

Решение задач из области компьютерного зрения — одно из самых популярных направлений ML-разработки. А платформа ML Space — отличный инструмент для работы дата-инженеров и дата-сайентистов. Однако для хорошей работы модели нужны качественно размеченные данные. Поэтому команда Cloud запускает бесплатный вебинар, чтобы вы узнали: ✅ как собрать и качественно разметить большие объемы данных для задач компьютерного зрения на примере датасета жестов HaGRID, который размещен в DataHub ML Space и доступен в пару кликов для обучения модели. ✅ спикеры поделятся лайфхаками по работе с краудсорсинговыми платформами и пайплайном обучения классификаторов. ✅ как можно применять датасет HaGRID: от лайков к онлайн-выступлению до управления автомобилем. Вебинар будет полезен: дата-инженерам, дата-сайентистам и всем, кто неравнодушен к машинному обучению. Регистрируйтесь на вебинар на нашем сайте

50 259

📓 Алгоритмы обработки текста: 125 задач с решениями Сопоставление строк - одна из самых старых тем в теории алгоритмов, но по-прежнему занимает важное место в информатике. За прошедшие 20 лет мы видели технологические прорывы в таких разных приложениях, как информационный поиск и сжатие информации. Эта книга, представляющая собой богатое собрание задач и упражнений по важнейшим вопросам алгоритмов обработки текстов и комбинаторных свойств слов, предлагает студентам и исследователям приятный и прямой путь к изучению и практическому освоению концепций повышенного уровня. Задачи взяты из многочисленных научных публикаций - как уже ставших классическими, так и сравнительно новых. Начав с основ, авторы рассматривают все более сложные задачи по комбинаторным свойствам слов (включая слова Фибоначчи и Туэ-Морса), поиску строк в тексте (включая алгоритмы Кнута-Морри-са-Пратта и Бойера-Мура), эффективным структурам данных для представления текстов (включая суффиксные деревья и суффиксные массивы) и сжатия текста (включая методы Хаффмана, Лемпеля-Зива и Барроуза-Уилера). Издание будет полезно в качестве пособия для подготовки к олимпиадам по информатике. ➡️ Книга @data_analysis_ml

50 259

Ищем учеников на бесплатный интенсив по созданию искусственного интеллекта с нуля. Опыт программирования не важен!🤖 Гарантия трудоустройства всем выпускникам университета! Удаленная работа из любой точки мира! Всего за 3 вечера под руководством Дмитрия Романова - основателя Университета Искусственного Интеллекта, лидера обучения AI-разработке в РФ и СНГ, вы с легкостью напишете свой первый искусственный интеллект👨‍💻 Какие нейронные сети вы создадите? 👉Классификация марок молока 👉Классификация людей на входящих и выходящих из автобуса 👉Обнаружение возгораний 👉Оценка стоимости квартир 👉Классификация отзывов на Teslа 👉Оценка резюме соискателей 👉Прогнозирование стоимости полиметаллов 👉Сегментация изображений самолетов 👉Распознавание команд умного дома⠀ Лучше освоить навыки создания нейронных сетей вам помогут домашние задания с проверкой от кураторов.⠀ Приходите на бесплатный интенсив и напишите искусственный интеллект за 3 вечера💪 Регистрируемся тут

50 259

⚙️ 9 концепций, которые вы должны изучить для своих интервью по науке о данных С появлением Интернета бесконечные ресурсы доступны всего одним щелчком мыши, и в результате мы можем получить доступ к любой логике и синтаксисам, которые мы ищем, но это может быть как благословением, так и проклятием. Если не использовать разумно, чрезмерная зависимость от Интернета может замедлить нас. Мы склонны чрезмерно полагаться на Интернет для простой логики и синтаксиса Python, и поэтому мы не тренируем свой мозг запоминать эти концепции. Итак, каждый раз, когда мы используем даже часто используемые синтаксисы, мы привыкаем их гуглить — это нас тормозит, и другие видят в нас дилетантов. Итак, каково решение? Вы ищете синтаксис/концепцию в Google первые 2-3 раза, когда вы ее используете, а затем пытаетесь реализовать ее самостоятельно на 4-й раз. В этом блоге я познакомлю вас с некоторыми из наиболее эффективных концепций науки о данных, которые вам следует изучить, чтобы сэкономить время и стать более продуктивным специалистом по науке о данных. Если вы уже знакомы с этими концепциями, вы можете использовать этот блог, чтобы освежить свое понимание ➡️ Читать дальше @data_analysis_ml

50 259

Уже занимаетесь аналитикой, но для профессиональной работы с данными не хватает нужных знаний и инструментов? На курсе «Аналитик данных» от школы karpovꓸcourses за 5 месяцев вы научитесь всему необходимому для решения ваших рабочих задач — здесь вы не только изучите теорию, но и на практических кейсах отточите навыки работы со всеми актуальными инструментами для анализа данных. В программу курса входят: – Python и SQL – Git и Airflow – Теория вероятностей – Статистика и A/B-тесты – Продуктовая аналитика – Визуализация данных в Tableau Обучение построено на реальных задачах индустрии и проходит в формате буткемпа, когда максимум знаний даётся за минимальный срок. Преподаватели — специалисты с опытом работы в топовых IT-компаниях. Записывайтесь на курс по ссылке до 7 октября — по промокоду DAML30 вы получите скидку 10%. Также на сайте доступна бесплатная демоверсия — можете начать с неё. Ждём вас!

50 259

Уже занимаетесь аналитикой, но для профессиональной работы с данными не хватает нужных знаний и инструментов? На курсе «Аналитик данных» от школы karpovꓸcourses за 5 месяцев вы научитесь всему необходимому для решения ваших рабочих задач — здесь вы не только изучите теорию, но и на практических кейсах отточите навыки работы со всеми актуальными инструментами для анализа данных. В программу курса входят: – Python и SQL – Git и Airflow – Теория вероятностей – Статистика и A/B-тесты – Продуктовая аналитика – Визуализация данных в Tableau Обучение построено на реальных задачах индустрии и проходит в формате буткемпа, когда максимум знаний даётся за минимальный срок. Преподаватели — специалисты с опытом работы в топовых IT-компаниях. Записывайтесь на курс по ссылке до 7 октября — по промокоду DAML30 вы получите скидку 10%. Также на сайте доступна бесплатная демоверсия — можете начать с неё. Ждём вас!

50 259

✔️ PANDAS VS SQL для работы с данными. Еще порядка 10 лет назад для работы по исследованию данных было достаточно SQL как инструмента для выборки данных и формирования отчетов по ним. Но время не стоит на месте, и примерно в 2012 году стала стремительно набирать популярность Python-библиотека Pandas. И вот сегодня уже сложно представить работу Data Scientist’а без данного модуля. Не буду подробно углубляться в то, что предоставляют из себя оба инструмента ввиду их популярности среди аналитиков и исследователей данных, но небольшую справку все-таки оставим: Итак, SQL (язык структурированных запросов — от англ. Structed Query Language) — это декларативный язык программирования, применяемый для получения и обработки данных с помощью создания запросов внешне похожих по синтаксису на предложения, написанные на английском языке. Pandas — это модуль для обработки и анализа данных в табличном формате и формате временн́ых рядов на языке Python. Библиотека работает поверх математического модуля более низкого уровня NumPy. Название модуля происходит от эконометрического понятия «панельные данные» (или как его еще называют «лонгитюдные данные» — это данные, которые состоят из повторяющихся наблюдений одних и тех же выбранных единиц, при этом наблюдения производятся в последовательные периоды времени). ➡️ Читать дальше @data_analysis_ml

50 259

❗️Одно из ключевых требования для дата-инженера — знание Spark. 🚀Начните осваивать этот незаменимый инструмент уже 6 октября в 20:00 мск на бесплатном вебинаре «ФОРМАТЫ ДАННЫХ В SPARK» от OTUS. 📚На занятии мы: - Познакомимся с Spark API для работы с такими форматами, как XML, JSON, CSV, PARQUET, ORC, AVRO. - Обсудим их плюсы и минусы, поговорим о том, как будет строиться работа с форматами в будущем. - Проведем замеры, необходимые для выбора формата. 👉Регистрация на вебинар: https://otus.pw/fOOwN/ Открытый урок пройдет в рамках онлайн-курса «Spark Developer» для специалистов с опытом работы с базами данных. Реклама. Информация о рекламодателе на сайте otus.ru

50 259

Как использовать MSE в науке о данных В большинстве описаний среднеквадратичной ошибки (mean square errore, MSE) упускается один важнейший нюанс: метрики и функции потерь — это не совсем одно и то же. Для оценки и оптимизации производительности модели в машинном обучении нужны две отдельные функции потерь. MSE может быть либо тем, либо другим, либо третьим — выбор за исследователем. Чтобы было понятнее, что имеется в виду под оценкой производительности и оптимизацией, вместо отвлеченных рассуждений обратимся к конкретным примерам. Для демонстрации будем использовать среднеквадратичную ошибку (MSE), но имейте в виду: MSE — это полезная метрика, но не панацея. Итак, погрузимся в тему! Что такое MSE? Среднеквадратичная ошибка (MSE) — одна из множества метрик, которые используются для оценки эффективности модели. Для расчета MSE необходимо возвести в квадрат количество обнаруженных ошибок и найти среднее значение. Зачем вычислять MSE? Это можно сделать для 2 целей. Оценка производительности — визуальное определение того, насколько хорошо работает модель. Другими словами, это возможность быстро понять, с чем предстоит работать. Оптимизация модели позволяет выяснить, достигнуто ли наилучшее из возможных соответствий или же требуются улучшения. Другими словами, определить, какая модель максимально подходит для работы с выбранными точками данных. ➡️ Читать дальше 🎞 MSE @data_analysis_ml

50 259

Как использовать MSE в науке о данных В большинстве описаний среднеквадратичной ошибки (mean square errore, MSE) упускается один важнейший нюанс: метрики и функции потерь — это не совсем одно и то же. Для оценки и оптимизации производительности модели в машинном обучении нужны две отдельные функции потерь. MSE может быть либо тем, либо другим, либо третьим — выбор за исследователем. Чтобы было понятнее, что имеется в виду под оценкой производительности и оптимизацией, вместо отвлеченных рассуждений обратимся к конкретным примерам. Для демонстрации будем использовать среднеквадратичную ошибку (MSE), но имейте в виду: MSE — это полезная метрика, но не панацея. Итак, погрузимся в тему! Что такое MSE? Среднеквадратичная ошибка (MSE) — одна из множества метрик, которые используются для оценки эффективности модели. Для расчета MSE необходимо возвести в квадрат количество обнаруженных ошибок и найти среднее значение. Зачем вычислять MSE? Это можно сделать для 2 целей. Оценка производительности — визуальное определение того, насколько хорошо работает модель. Другими словами, это возможность быстро понять, с чем предстоит работать. Оптимизация модели позволяет выяснить, достигнуто ли наилучшее из возможных соответствий или же требуются улучшения. Другими словами, определить, какая модель максимально подходит для работы с выбранными точками данных. ➡️ Читать дальше 🎞 MSE @data_analysis_ml

50 259

DataWorkshop Машинное обучение, [28 сент. 2022 г., 20:16:24]: ⏰ 29 сентября в 18:30 (мск) пройдет live coding вебинар "Прогнозирование опозданий самолетов с помощью Machine Learning". 🚩 Регистрация ✅ Получите бесплатный доступ к серверу ✅ Попробуете себя в роли специалиста в Data Science ✅ Будете кодить на Python вместе с экспертом ✅ Сделаете прогноз на реальных данных ✅ Получите личную рекомендацию от эксперта ✅ Получите 100% практику Не получается быть на вебинаре в этот раз, подписывайтесь на их телеграм канал, чтобы не пропустить очередное полезное событие. это для канала machinelearning_ru А второй текст для data_analysis_ml ⏰ 29 сентября в 18:30 (мск) пройдет live coding вебинар "Прогнозирование опозданий самолетов с помощью Machine Learning". 🚩 Регистрация ✅ Получите бесплатный доступ к серверу ✅ Попробуете себя в роли специалиста в Data Science ✅ Будете кодить на Python вместе с экспертом ✅ Сделаете прогноз на реальных данных ✅ Получите личную рекомендацию от эксперта ✅ Получите 100% практику Не получается быть на вебинаре в этот раз, подписывайтесь на их телеграм канал, чтобы не пропустить очередное полезное событие.

50 259

🧩 FILL-MASK моделирование! Fill-mask моделирование – это задача маскирования некоторых слов в предложении и дальнейшее предсказание, какие слова должны заменить данные маски. Подобный тип задач используется для обучения больших моделей, направленных на решение специфических проблем. Например, данные модели применяются для извлечения информации из узкоспециализированных источников, что в дальнейшем позволит исследовать данные по заданной теме, извлекать необходимые объекты или классифицировать их. Fill-mask максимально полезен в том случае, когда необходимо получить статистическое понимание языка, на котором обучалась или будет обучаться модель. Принцип работы MLM (маскированное языковое моделирование) Для того, чтобы обучить модель определять и адекватно предлагать слова, которые можно будет вставить в пропуск, ей необходимо случайным образом маскировать 15% слов на входе до тех пор, пока она не сможет предсказать маскированные в предложении слова. Этот принцип значительно отличается от традиционных рекуррентных нейронных сетей, которые видят слова одно за другим, или от авторегрессионых GPT-моделей, которые внутри себя маскируют будущие лексемы. Fill-mask моделирование позволяет изучать двунаправленное представление предложения, иными словами, выражает объектные, определительные, обстоятельственные синтаксические отношения. ➡️ Читать дальше ⚙️ Модель @data_analysis_ml

50 259

🧩 FILL-MASK моделирование! Fill-mask моделирование – это задача маскирования некоторых слов в предложении и дальнейшее предсказание, какие слова должны заменить данные маски. Подобный тип задач используется для обучения больших моделей, направленных на решение специфических проблем. Например, данные модели применяются для извлечения информации из узкоспециализированных источников, что в дальнейшем позволит исследовать данные по заданной теме, извлекать необходимые объекты или классифицировать их. Fill-mask максимально полезен в том случае, когда необходимо получить статистическое понимание языка, на котором обучалась или будет обучаться модель. Принцип работы MLM (маскированное языковое моделирование) Для того, чтобы обучить модель определять и адекватно предлагать слова, которые можно будет вставить в пропуск, ей необходимо случайным образом маскировать 15% слов на входе до тех пор, пока она не сможет предсказать маскированные в предложении слова. Этот принцип значительно отличается от традиционных рекуррентных нейронных сетей, которые видят слова одно за другим, или от авторегрессионых GPT-моделей, которые внутри себя маскируют будущие лексемы. Fill-mask моделирование позволяет изучать двунаправленное представление предложения, иными словами, выражает объектные, определительные, обстоятельственные синтаксические отношения. ➡️ Читать дальше @data_analysis_ml

50 259

💻 Узнай, как начать карьеру в IT: оффлайн и за 1 день! Все работодатели – в 1-ом месте! 20 компаний, среди которых Сбер, VK, Яндекс, Kaspersky, Альфа-Банк и др. Они готовы взять начинающих IT-шников на стажировку или в штат 🔥 Почему это крутая возможность: • Лично познакомишься с HR и представителями компаний, • Прокачаешься на мастер-классах и Q&A-сессии, • Классно проведешь время с друзьями и поборешься за Apple AirPods Pro и Xiaomi Smart Band 7. Участие бесплатное❗️ Регистрируйся (и приходи) на «Найти IT»: 15 октября в Санкт-Петербурге, 25 октября в Москве.

50 259

🐼 Продвинутая работа с данными. 7 фишек pandas для науки о данных ➡️ Читать дальше @data_analysis_ml

50 259

💻 Типы таблиц в PostgreSQL: clustered, foreign, partitioned и inherited tables В статье речь пойдёт про кластеризованные, внешние, партицированные и наследуемые таблицы. Посмотрим на примеры их создания, области применения, плюсы и минусы их использования. Clustered tables — кластеризованные таблицы Мало кто любит хаос, всем нравится порядок. В рамках реляционных баз данных понятие хаоса тесно переплетено с хранением информации, потому что на протяжении своего жизненного цикла таблица постоянно видоизменяется. В процессе работы с РСУБД на уровне диска происходит постоянное изменение содержимого таблицы. Например, вы обновили данные и ваша обновлённая строка попала на другую страницу таблицы (тут надо оговориться про FILLFACTOR) с появлением мёртвой записи (dead tuple) в текущей позиции. Затем autovacuum-процесс удалил мёртвую запись, и освободившийся слот заполнился вновь поступившей строкой. ➡️ Читать дальше @data_analysis_ml

📈 نظرة تحليلية على قناة تيليجرام Анализ данных (Data analysis)

📊 مؤشرات الجمهور والحراك

📝 الوصف وسياسة المحتوى