Data Analysis / Big Data
前往频道在 Telegram
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels
显示更多2 743
订阅者
+224 小时
-77 天
+630 天
帖子存档
Practical issues in observational studies
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/03/practical-issues-in-observational-studies.html
Не понаслышке знаете SQL, ETL, DWH? Тогда у вас есть возможность получить оффер за выходные в команду Тинькофф
За прошлый год экосистема Тинькофф выросла в два раза — продуктами компании пользуются уже 28 млн клиентов. В связи с этим расширяется дата-команда: нужны дата-инженеры, системные аналитики DWH и разработчики ETL с опытом работы больше двух лет.
Пройти собеседование можно онлайн за выходные — на Data Weekend Offer. Если всё хорошо, вы получите оффер уже в понедельник.
Ближайшее мероприятие 11-12 марта. Успейте подать заявку до 7 марта: https://l.tinkoff.ru/wo.data_tinkoff
Реклама АО «Тинькофф Банк»
Дайджест Python #4: версия 3.12 и свой GPT за 60 строк кода
Собрали дайджест из лучших статей и новостей о Python с 14 по 28 февраля. Дайджест включает статьи и видео на русском и английском языках.
Читать: «Дайджест Python #4: версия 3.12 и свой GPT за 60 строк кода»
Дайджест Python #4: версия 3.12 и свой GPT за 60 строк кода
Собрали дайджест из лучших статей и новостей о Python с 14 по 28 февраля. Дайджест включает статьи и видео на русском и английском языках.
Читать: «Дайджест Python #4: версия 3.12 и свой GPT за 60 строк кода»
Чего компании ждут от специалистов по Data Science в 2023 году
Проанализировали несколько десятков вакансий и выяснили, что должен знать и уметь специалист по Data Science в 2023 году.
Читать: «Чего компании ждут от специалистов по Data Science в 2023 году»
Чего компании ждут от специалистов по Data Science в 2023 году
Проанализировали несколько десятков вакансий и выяснили, что должен знать и уметь специалист по Data Science в 2023 году.
Читать: «Чего компании ждут от специалистов по Data Science в 2023 году»
«Еще умнее — еще проще для пользователя»: CEO Postgres Pro Олег Бартунов о будущем СУБД, open source и астрономии
Большие данные — вещь относительная. Посмотрите на любого блогера: он генерирует кучу данных, в его телефоне десятки, а то и сотни гигабайтов изображений и видео. Если он не может обработать их с помощью подручных средств, их вполне можно считать большими данными.
При этом оцифрованная Библиотека конгресса в США совсем маленькая, хранить ее у себя дома может любой. Телескопы, на которых работают в Америке, могут производить несколько десятков терабайт за одну ночь. А радиотелескоп, размер которого квадратный километр, будет производить петабайты.
Читать: https://habr.com/ru/post/719424/
Как ускорить пилотные проекты по анализу больших данных
Всем привет! Меня зовут Диляра. Я дата-сайентист команды разработки F5 Platform — low-code платформы для аналитики данных средних и крупных предприятий. Наша команда разрабатывает математический сервис продукта, алгоритмы обработки данных и модели для пресейл и пилотных проектов, а также занимается их запуском в эксплуатацию.
В статье я расскажу о том, с какими типовыми проблемами мы столкнулись при внедрении F5 Platform, какой инструмент разработали для их преодоления, и как он помог нам ускорить проведение пилотных проектов. Я хочу поделиться историей создания F5 Future — no-code сервиса приложений, призванного облегчить работу дата-сайентистов и бизнес-пользователей при проверке гипотез и проведении пилотных проектов по анализу данных.
Читать: https://habr.com/ru/post/719396/
Generate OAC Snapshot using REST API
This blog will help you with the steps involved in generating OAC Snapshot using REST API
Read: https://blogs.oracle.com/analytics/post/generate-oac-snapshot-using-rest-api
В проекте avito.code новый выпуск с туториалом по Neovim
Инженер Авито Антон Губарев рассказал, как совмещать возможности редактора и запускать внешние утилиты на примере cURL.
Всего 11 минут кодинга, и вы сможете создать запрос к открытому API для выдачи набора необходимых постов через cURL, не выходя из Neovim.
Подробнее: https://tprg.ru/zU29
Реклама ООО «Авито Тех» LjN8JzLtx
Реализация мультиоблачной стратегии для Cloud Storage в Битрикс24
Битрикс24 — корпоративное SaaS-решение (Software as a Service, программное обеспечение как услуга), которым пользуются компании разного масштаба и профиля для коммуникации между сотрудниками, хранения файлов, документов, ведения CRM. Битрикс24 используют тысячи клиентов, каждый из которых генерирует и хранит на базе сервиса гигабайты и даже терабайты данных. Для их хранения используется объектное S3-хранилище Cloud Storage от VK Cloud.
Директор направления облачных сервисов Битрикс24 Александр Демидов рассказал команде VK Cloud, зачем понадобилось S3-хранилище, как его внедряли и интегрировали в архитектуру облачного сервиса Битрикс24.
Читать: https://habr.com/ru/post/717940/
Особенности автоматического дифференцирования в PyTorch. Часть 1
Привет! На связи команда «БАРС Груп». Мы разработали и совершенствуем российскую BI-платформу Alpha BI. Это возможно благодаря таким фреймворкам, как PyTorch.
PyTorch активно развивается более пяти лет и представляет собой целую экосистему для создания моделей машинного обучения на основе глубоких нейронных сетей. У подобных ИТ-продуктов широкий спектр применения. В частности, они помогают научному и бизнес-сообществу проводить исследования, вести разведку данных и проверять гипотезы. Несмотря на то, что на сегодняшний день это один из самых популярных фреймворков машинного обучения в мире, в рунете пока довольно мало статей о его технических особенностях. Попытаемся это исправить
Читать: https://habr.com/ru/post/719196/
Data Engineering Weekly #120
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-120
Как перебрать бэкенд так, чтобы для 20 миллионов юзеров всё прошло гладко?
На связи разработчики Дзена. На Дзене сотни тысяч авторов публикуют посты, лонгриды, длинные видео и короткие ролики, а умные алгоритмы подстраивают ленту под интересы миллионов пользователей.
За два года разработчики полностью переписали инфраструктуру — и ни юзеры, ни авторы контента не заметили перехода. В статье рассказали, как это удалось:
https://tprg.ru/fKMm
Пишем бота для генерации паролей
Нам понадобится:
1. Python — от версии 3.9 и выше.
2. Redis — быстрое key-value хранилище.
3. aiogram — для работы с Telegram Bot API, redis-py — для работы с Redis, XKCD-password-generator — для генерации, pydantic — для валидации данных.
4. И этот гайд от @Selectel: https://tprg.ru/MdV1
Реклама ООО «Селектел» LjN8KBQVe
Викторианская история больших данных
В весьма впечатлившей меня книге «Информация. История. Теория. Поток» Джеймса Глика, о которой я уже упоминал ранее, страннейшим образом обойдён вопрос о том, как возник феномен «Big Data». В той же книге упоминается первый авторский словарь английского языка, составленный в начале XVII века неким Кодри, а далее развивается идея о том, что феномен концептуализируется в языке после того, как попадает в словарь – в английской культуре таким словарём является оксфордский.
Тогда я попробовал проверить, когда же в английском и русском языке закрепилось понятие «BigData» и, соответственно, «большие данные». Распространено мнение, что выражение «BigData» впервые было употреблено в 2008 году в статье Клиффорда Линча «Big data: how do your data grow?», опубликованной в журнале «Nature», но даже это небольшое исследование подсказывает, что всё гораздо сложнее.
Читать: https://habr.com/ru/post/718846/
Invoke a Data Science Model from Oracle Analytics Cloud
This blog explains how to successfully invoke an OCI Data Science Model in OAC from data flows.
Read: https://blogs.oracle.com/analytics/post/invoke-a-data-science-model-from-oac
Register a Data Science Model in Oracle Analytics Cloud
This blog explains how to successfully register an OCI Data Science Model in OAC.
Read: https://blogs.oracle.com/analytics/post/register-a-data-science-model-in-oac
Create a Data Science Model for Oracle Analytics Cloud
Learn how to create a Project and Notebook session in OCI Data Science and build, train and save a Data Science model for OAC.
Read: https://blogs.oracle.com/analytics/post/create-a-data-science-model-for-oac
'Memory Saver' feature in Google Chrome may affect active usage of Oracle Analytics
Google Chrome Version 110 and Later 'Memory Saver' Feature May Affect Active Usage of Oracle Analytics
Read: https://blogs.oracle.com/analytics/post/memory-saver-feature-in-google-chrome-may-affect-active-usage-of-oracle-analytics
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
