cookie

Ми використовуємо файли cookie для покращення вашого досвіду перегляду. Натиснувши «Прийняти все», ви погоджуєтеся на використання файлів cookie.

avatar

partially unsupervised

@arsenyinfo пишет про software engineering и machine learning

Більше
Росія74 031Російська76 625Категорія не вказана
Рекламні дописи
6 630
Підписники
-124 години
+57 днів
+3230 днів

Триває завантаження даних...

Приріст підписників

Триває завантаження даних...

Это было предсказуемо: в 2024 легкая небрежность в тексте/коде окончательно стала премиальной и крафтовой. Пресный вежливый текст - значит, написано при помощи LLM (и даже без упражнений с промптами). Шероховатости придают эффект теплоты: человек не поленился и написал сам. Например, пишет мне рекрутер, и второй абзац его письма выглядит как LLM-summary моего линкедин-профиля. Дальше как-то автоматически сложно поверить его словам, что this is exactly the type of experience they are looking for. Или с другой стороны: проверяю тестовые задания, и довольно быстро калибруюсь. Например, много тривиальных комментариев, начинающихся с заглавной буквы и заканчивающихся точкой - явное свидетельство сгенеренного кода. Да ладно комментарии, я уже и по названиям переменных узнаю код авторства GPT.
# Init model.
model = Autoencoder.to(DEVICE)
criterion = nn.MSELoss()
Вообще, кстати, в этом тестовом использовать GPT не запрещено, но надо бы не только сгенерить решение, но и понять, что там происходит. В итоге больше всего сигнала в ответе на вопрос "почему это работает?". В итоге умение писать кое-как теперь вообще не имеет значения, а умение писать изящно (будь то текст или код) ценится как и раньше.
Показати все...
56😁 26👍 13
Фото недоступнеДивитись в Telegram
🤡 21🔥 1
Искренне считаю, что рекламировать неординарные вакансии - это добро, потому не стесняюсь разместить: 🔥 Wunder fund: вакансия Senior Data Researcher 🔥 TLDR: Wunder Fund, Senior Data Researcher, Алготрейдинг, HFT 🌍 Локация: Remote/Релокация в несколько стран 💰Вилка: от $5k до $7k на руки, иногда больше — договоримся (есть привязка к валюте, можем платить в долларах или крипте) 👁 Инфа: Мы — Wunder Fund, занимаемся высокочастотной торговлей (HFT) с 2014 года. Торгуем на 14 биржах по всему миру и наш дневной оборот больше $5 млрд. Сейчас ищем в команду Senior Data Researcher, который возглавит направление нейросетей в Wunder Fund. Вам предстоит обучать модели, проверять гипотезы и добиваться максимальной точности моделей. Задача похожа на Kaggle-соревнование, только модели и фичи должны считаться максимально быстро. Вы будете работать в сильной команде — это лучшие программисты, математики, физики, выпускники лучших вузов, победители соревнований и международных олимпиад. Наша сфера очень конкурентна, поэтому мы используем самые современные технологии, чтобы обеспечить максимальную скорость и точность наших систем. 🤓 Что вам понадобится - Хорошо знать Python и математику - Быть опытным практиком пристального вглядывания в данные - Иметь успехи в Kaggle соревнованиях (Kaggle Master/Grandmaster) - Иметь опыт успешного обучения трансформеров и LSTM. - Будет плюсом: опыт в соревнованиях по NLP, Speech Recognition. Условия: работа в команде выпускников МГУ и Физтеха, полная удаленка, гибкий график, ЗП по результатам собеседования от $5,000 до $7,000 на руки. Небольшой видос про data science у нас и исследования: https://youtu.be/in2wXwxeaqs Ссылка на вакансию: https://clck.ru/3A2CnM Как откликнуться: Пишите в ТГ @nedifar1703
Показати все...
Data science в Wunder Fund

Рассказываем немного про фонд и про то, как устроен дата саенс в высокочастотной торговле.

🤡 87👍 9👎 6 4💩 3🖕 3
Наша книга по ML System Design прошла третье - и последнее - ревью внутри паблишера. Я уже писал про ревью раньше, но вкратце процесс такой: издатель раздает 10+ потенциальным читателям текущую версию книги и заставляет писать много комментариев и отвечать на десятки вопросов. Ревью проводится после каждой трети книги, и потом анонимизированные комментарии сваливаются обратно авторам: чините, что считаете важным. По результатам ревью выглядит так, что мы наконец-то научились писать: оценки выросли 3.75 → 4.36 → 4.73. Во многом это вызвано тем, что книга "отлежалась" - много мелких улучшений по результатам первых ревью, отзывов читателей (большое вам спасибо!) и собственных переосмыслений/дополнений. Еще в комментариях написали, что книгу стоило бы назвать Principles of ML Design. Мы вообще-то так и хотели, но издательство вежливо проигнорировало наше мнение по этому вопросу. В общем, с нашей стороны все в целом готово, осталось пройти через пару кругов формальностей, дождаться корректуры, и тогда книга уйдет в печать (и все предзаказавшие печатную версию ее наконец-то получат). Зная неповортливость издательства, рассчитываю увидеть печатную версию к концу года. В раннем доступе было продано чуть больше тысячи экземпляров. До завтрашнего дня у издательства скидки 50% на все, но я ни на что не намекаю :)
Показати все...
👍 61🔥 32🍾 16 9
Беда пришла откуда не ждали: сегодня tensorboard насрал мне в штаны. Ковырял задачу, в которой без оценки глазами пока никак. Сгенерил все семплы, сложил в тензорборд, предусмотрительно запустил с -samples_per_plugin images=100000, начал анализировать. Размер датасета я знал, пролистал все картинки, нашел ошибки, и бодро подытожил в духе: "так, среди 200 семплов у нас 4 ошибки, error rate 2%, проблема незначительна". Подытожил настолько бодро, что даже CTO поверил. Внес небольшие изменения, пошел смотреть на различия и вдруг что-то зачесалось - как будто слишком быстро все просмотрел. Ну и оказалось, что в UI отображалась только примерно половина семплов. Пришлось вручную распарсить tensorboard-файл и со стыдом признаться, что в своей оценке масштаба проблемы я ошибся примерно вдвое.
Показати все...
😨 60🤔 5😁 4🖕 4👍 3🥴 1
Реклама, которую вы точно не ждали. Если вы склонны ворчать, что программирование стало скучным конвейером по перекладыванию протобафов для бесполезных фичей и крысиными гонками за новыми фреймворками, то вот вам шанс резко изменить свою жизнь! Мой старый кореш Алексей ищет программиста на Фортране для разработки симулятора физики плазмы. Достаточно даже опыта С/C++ и готовности этот самый Фортран освоить. Кроме того, не придется жить под мостом и питаться объедками: обещают платить вполне себе рыночные деньги 💰
Показати все...
Keep it simple, stupid!

Next Step Fusion,

https://nextfusion.org/

— люксембургский стартап в области fusion energy ищет программиста на Fortran и C/C++ для продолжения разработки симулятора физики плазмы NSF Simulator. Симулятор активно используется для симуляции и расчёта сценариев, а также в качестве окружения для тренировки ML-моделей. Первые задачи включают в себя завершение переноса части функциональности из фортран библиотеки в C++ wrapper, отладку приложения целиком, оптимизация по скорости, налаживание автоматического тестирования. Дальше будет интеграция с другими «кодами», доработки для использования в составе симуляционной платформы, доработки по запросу различных команд. Требования: 1️⃣ Fortran — работа с памятью, распараллеливание, методы экономии ресурсов, методы ускорения вычислений и т.д. Опыт с Fortran CUDA — большой плюс. 2️⃣ Знание C/C++ или острое желание быстро освоить. 3️⃣ Опыт в коммерческих проектах разработки ПО. 4️⃣ Опционально физика плазмы, матан и линейная алгебра. Задать вопросы и откликнуться на…

🤯 34👍 19🔥 13👏 3😁 2 1👻 1
Дата-дривен карго культ учит, что если метрики растут, а результат на глаз выглядит не очень, то метрики первичны, ведь они как будто имеют больший охват (например, весь тестовый датасет), чем то, что может увидеть один человек невооруженным взглядом. Я и сам долгое время был адептом этого тезиса, пока не наступил на достаточное количество граблей. Проблема в том, что сделать сбалансированную метрику или набор метрик всегда сложнее, чем кажется (завсегдатаи Kaggle не дадут соврать). Именно поэтому в реальности приходится не оптимизировать единственную метрику верхнего уровня, а делать набор метрик и следить за всеми, а потом принимать субъективное решение, когда одна метрика неизбежно вдруг пойдет вверх, а другая вниз. Буквально вчера на работе смотрел на результаты ML экспериментов и недоумевал: вариант, который и визуально мне нравился больше, и в теории должен был быть лучше, по метрикам выглядел хуже. Заподозрил проблему в недавно задизайненной метрике, поленился доказывать теорией, сделал "модель", которая генерила рандом с определенными свойствами и тут же выбил искомые 100%. Будь это корпорация с бездумной ориентацией на KPI, можно было бы закоммитить и бездельничать до конца квартала!
Показати все...
👍 98💯 28😁 6 5
Люблю всратую музыку, и потому suno.ai врывается на третье место generative AI приложений в моем личном рейтинге (сразу после ChatGPT и Github Copilot). Пост-панк на русском получается очень атмосферным без особых хлопот, с одного промпта, вот примеры: - Моя боль, мой стартап 🧑‍💻; - Коты не навещают меня в больнице 😿; - Такой молодой, такой тупой 👴
Показати все...
Моя Боль Мой Стартап (My Pain, My Start-Up) | Suno

post-punk gritty song. Listen and make your own with Suno.

🔥 52❤‍🔥 13😁 12
Как человек, который еще помнит про computer vision за пределами диплернинга, насладился статьей про дистилляцию LSD. Товарищ майор, я про line segment detector, а вовсе не про психоделики! 🚔 Идея подкупает простотой и элегантностью. В малоизвестной, но важной задаче нахождения отрезков (line segments) на картинке по-прежнему все не очень хорошо: есть классический алгоритм LSD - не очень стабильный, зато универсальный; есть сколько-то DL моделей, обученных на единственном датасете из 5000 картинок, они гораздо более устойчивы к шуму, но не обобщаются на другие датасеты. Авторы предлагают такое: - для генерации трейн сета применяем классический LSD к сотне аугментированных версий одной картинки; - превращаем найденные отрезки в distance/angle fields, то есть такое представление, где для каждого пикселя есть значение "в какую сторону и как далеко надо идти к ближайшему отрезку" и усредняем по этим аугментированным версиям; - учим классический Unet предсказывать такие поля; - обратно преобразуем предсказанные поля в отрезки. Быстро, эффективно, не требует ни ручной разметки, ни мощного железа. P.S. Если этот пост наберет сколько-то лайков, я напишу (или не напишу) метапост, как я читаю (или не читаю) статьи!
Показати все...
DeepLSD: Line Segment Detection and Refinement with Deep Image Gradients

Line segments are ubiquitous in our human-made world and are increasingly used in vision tasks. They are complementary to feature points thanks to their spatial extent and the structural...

👍 218🔥 19 12💯 1
Человек пришел в некий банк, чтобы закрыть мой счет по доверенности. В процессе у него спрашивают пароль от интернет-банка. Нахожу предполагаемый пароль в Bitwarden, передаю, и получаю ответ "не подходит, и даже не похож". Или операционисты в банках научились считать похожесть по соленым хэшам, или это худший театр безопасности, который я видел.
Показати все...
😁 151😱 9👍 6
Оберіть інший тариф

На вашому тарифі доступна аналітика тільки для 5 каналів. Щоб отримати більше — оберіть інший тариф.