cookie

We use cookies to improve your browsing experience. By clicking «Accept all», you agree to the use of cookies.

avatar

Anscombe's Quartet

Data/ML Engineering. Рассуждения по теме и не по теме.

Show more
Advertising posts
615
Subscribers
No data24 hours
-17 days
+4630 days

Data loading in progress...

Subscriber growth rate

Data loading in progress...

А еще у нас большой эвент намечается - ежегодный Data + AI Summit 2023. Я в этом году буду его смотреть в Берлине на Watch Party, 28 сентября, и буду рад видеть всех кто захочет поболтать про DE/ML. Помимо Берлина еще куча мест - приходите социализироваться и узнавать о новых направлениях в Lakehouse architectures: 🔗 RSVP Link
Show all...
Data + AI Watch Party

Join us to watch the live streaming of the Data + AI Summit Keynote, near you!

Залетайте послушать про Delta Lake и работу с этим форматом от одного из коммитеров в нативные Delta Lake коннекторы на разных языках (outside of Spark ecosystem). Robert Pack очень крутой технический эксперт из BASF, и он предметно понимает то, о чем говорит. 📍 Thursday, 15 June 2023, 18:00–19:00 CEST 🔗 RSVP Link
Show all...
D3L2: How BASF achieves global sustainability with Delta Lake w/ Robert Pack

Virtual Event - Join Robert Pack, Sr. Digital Expert Cloud Native Machine Learning Platform and Technology Principal at BASF as he discusses the relationship between process engineering and data engineering.

Fresh off the press - мой новый обширный блогпост о том как на чистом Python и с использованием Spark APIs (никаких ORM!) написать UI-приложение для разметки картинок. Бонус поинт - все данные лежат в клауд сторадже, следовательно и выгружать свои данные куда-то не надо (как и не надо пытаться запихивать эти картинки в БД). Работает эта вся магия на связке Dash (Pythonic framework for Data Applications), Databricks Connect “V2” и конечно же Lakehouse. https://polarpersonal.medium.com/building-an-image-classification-app-with-databricks-connect-v2-and-dash-3c7f855f6e6
Show all...
Building an image classification app with Databricks Connect “V2” and Dash

Going through the details of setting up and environment and building an image classification app with Databricks Connect and Dash.

Из практики я часто вижу как при дизайне дата приложений инженеры совершают небольшие ошибки и недочеты, не беря в расчет потенциал роста данных и изменения требований. По счастью Apache Spark достаточно гибок для того чтобы с его помощью писать выразительный код который может быть вполне себе лишен этих недостатков. Об этом по ссылке - https://polarpersonal.medium.com/on-the-importance-of-future-proof-data-architectures-and-how-apache-spark-helps-to-build-them-9237f8388476
Show all...
On the importance of future-proof data architectures, and how Apache Spark helps to build them

Why future-proof is so important for data architectures, and how Apache Spark helps to deliver it?

Нашел интересную статью от апреля 2021 в Microsoft WorkLab. В статье описывается влияние back-to-back meetings на мозговую активность и способность к фокусировке. Замеры показателей были сделаны с помощью EEG датчиков непосредственно на голове испытауемых (побольше бы таких исследований!). Саммари такое - мозг у кожаных мешков очень не любит стрессы и переключения контекста. Даже 10-ти минутный перерыв между встречами значительно снижает этот уровень стресса и позволяет куда эффективнее работать. https://www.microsoft.com/en-us/worklab/work-trend-index/brain-research
Show all...
Research Proves Your Brain Needs Breaks

In a study of brain wave activity, researchers found back-to-back virtual meetings are stressful. But the research also points to a simple remedy—short breaks.

Многие DS часто сталкиваются с необходимостью накидать какое-нибудь приложение для разметки сырых данных (например текста или картинок). Есть и готовые решения, но они обычно требуют выгрузки данных из формата в формат и вообще стоят денег. В такиз случаях возникает желание написать какой-нибудь простенький UI для работы с исходными данными, да так чтобы и данные никуда не копировать, а еще желательно чтобы все на Python было. Еще года 3-4 назад это было конечно сказкой, но вот с современной связкой Python + Dash + Databricks SQL это вполне себе реальная задачка, про которую я написал свежий пост: https://polarpersonal.medium.com/building-a-data-labeling-app-with-python-dash-and-databricks-lakehouse-48341f618b8f
Show all...
Building a data labeling app with Python, Dash, and Databricks Lakehouse

Writing a data labeling application on top of the Databricks Lakehouse platform with Python and Dash.

Интересная статья попалась мне в рекомендации на медиуме. Заголовок конечно зловещий, но что-то мне подсказывает что он вполне себе “жареный” (невольная игра слов). Насколько плохо надо уметь в финансовое планирование, чтобы работая хотя бы год-другой в гугле с шестизначной зп после налогов при увольнении оказаться в ситуации “flipping burgers is an only option”. В комментариях тем временем закоренелые любители рыночка (который все порешает) пишут о том как они на лету переобуваются в соцдемов. В целом история с layoff-ами в очередной раз намекает на две вещи: как обычно локальные и глобальные. На глобальном уровне в очередной раз выходит что концепт свободной руки рынка всем нравится только тогда, когда эта рука нежно их гладит. А вот когда эта самая рука гладить перестает, малоразмерные акторы этого самого рынка начинают задумываться про такие интересные вещи как социальное государство и профсоюзы. На локальном уровне понятна важность критического мышления и анализа ситуации, втч. изучать balance sheets и P&L statements работодателя, и сравнивать его с макроэкономическими показателями и поведением других компаний на рынке. Ну и конечно в качестве подстраховки стоит еще и развивать скиллы в каком-нибудь другом направлении, возможно связанном с айти, но не являющимся им напрямую (e.g. biotech / manufacturing / agriculture etc.). https://medium.com/@switchupcb/i-used-to-work-at-google-now-i-flip-burgers-2935cb062588
Show all...
I Used To Work At Google. Now I Flip Burgers.

“Do you want fries with that?” The customer in front of me had just finished ordering. Management says that you can never be too sure. So…

Написал небольшую заметку (серьезным постом это вряд ли можно назвать) с описанием некоторых полезных подходов при разработке Spark приложений на Scala. https://medium.com/@polarpersonal/useful-patterns-for-scala-spark-application-development-6799ca2ccb15 P.S. К сожалению у меня совсем плохо с "генерацией контента" в смысле современных социальных сетей. Эти самые соцсети как бы ожидают регулярной поставки (e.g. linkedin поощряет авторов за регулярность). В целом мотто современных соцсеток - "лучше чаще, а качество само собой". Я так не очень умею, обычно каждый пост три раза переписывается а потом удаляется. В паблик попадают только самые "насиженные" посты. В этот раз я решил попробовать написать совсем небольшой постец, буквально 3 min read (в сравнении - у предыдущего поста про E2E MLOps p1 таймер показывает 12 min read). Посмотрим как зайдет такой формат, пишите в комментах.
Show all...
Useful patterns for Scala Spark application development

A handful of useful patterns for Scala Spark app development, carefully collected from a real-life experiences.

не так давно переписал крупный кусок проекта на Python с использованием pydantic, и остался исключительно доволен. На удивление об этой библиотеке нет ни упоминаний на всяких курсах, я не видел ее активного использования где-то кроме веба, а она при этом абсолютно крутая и очень полезная, например для того чтобы держать сложные конфиги для пайплайнов etc. Поделился своими мыслями в блоге: https://polarpersonal.medium.com/quacks-like-a-duck-why-you-probably-should-use-pydantic-more-in-your-python-apps-197accf1fdfc
Show all...
“Quacks like a duck” — why you probably should use pydantic more in your Python apps

Make your Python apps more robust and protect yourself from future bugfixes by using pydantic — here is a quick how-to.

💻 Ну и к слову о позициях - у нас в Databricks в DACH регионе открыты позиции для Solutions Architect (Pre-sales / Professional Services). Требования по ссылкам ниже, если захотите подаваться через мой реферал - пишите, контакты в описании канала: - Pre-sales Solutions Architect - Solutions Architect
Show all...
Pre-sales Solutions Architect | Databricks

Pre-sales Solutions Architect, Munich, Germany at Databricks. Join us! Together we can use data to solve the challenges of tomorrow.

Choose a Different Plan

Your current plan allows analytics for only 5 channels. To get more, please choose a different plan.