topdatalab

Open in Telegram

Канал поддержки книги «Как монетизировать данные». Работаю над corpsignals.com

Russia269 706 Technologies & Applications36 420

1 353

Subscribers

+224 hours

+137 days

+9730 days

2 389

Post views

~ 57624 hours

~ 90848 hours

176.57%

Engagement rate

No data

Posts per day

Ads index

beta

Posts Archive

1 353

``` Roman, Turing buys operating history from companies like Retail Rocket for frontier AI training, and pays up to $1M for it. That's the record your team builds just by running: the code, the product decisions, the design, the tickets, the docs, the threads behind how you ship. We acquire a defined, de-identified copy of it. One time, under NDA, in an air-gapped environment. Your live systems and your business keep running exactly as they are, and you set what's in scope and what never leaves. Nothing gets priced off a description. If it's a fit, we pull a representative sample, QA it, and build one valuation from that. One number, one contract, and the whole thing from first conversation to signed contract can take under a month. Worth a look? Get in touch and I'll take it from there. If you'd rather get the full picture first, here's how it works. Vijay Krishnan Co-founder & CTO, Turing ``` похоже нужны данные для AI?

1 353

Что вы думаете об этом https://sierra.ai/blog/the-ai-native-interview Тут и AI кодинг и отдельно дебаггинг

1 353

Новая позиция, буду нанимать сразу двух человек. Dwelly постоянно покупает агенства недвижимости, а это значит, что очень много работы требуется с интеграцией данных в нашу систему. Не сильно сложная, но требующая максимальной внимательности! https://job-boards.eu.greenhouse.io/dwelly/jobs/4937564101

1 353

Сегодня Dwelly подняла 170 млн. Это значит, что продолжаю нанимать. Еще одна позиция будет, fully remote https://www.bloomberg.com/news/articles/2026-07-28/ai-startup-dwelly-raises-170-million-for-real-estate-rollup

1 353

Я нанимал из вышки (ВШЭ) и физтеха (МФТИ). И заметил одну интересную особенность, физтехи более амбициозны. У выпускников вышки более прямой карьерный трек. А вот у физтехов чаще стартапы появляются. PS: это мое субъективное мнение подкрепленное исключитально собственной статистикой

1 353

Ищу к себе двух инженеров, удаленка Вакансия ближе к разработке и ML https://job-boards.eu.greenhouse.io/dwelly/jobs/4929545101 Вакансия ближе к разработке https://job-boards.eu.greenhouse.io/dwelly/jobs/4928198101

1 353

Ducklake + DBT - случайно затер неправильными данными инкрементальные таблицы 🙁 но! Ducklake поддерживает версионность! А это значит их можно восстановить

memory D ATTACH 'ducklake:postgres:'
         AS ducklake (
             META_SECRET pg_metadata,
             DATA_PATH 's3://corpsignals/ducklake',
             METADATA_SCHEMA 'ducklake_catalog',
             OVERRIDE_DATA_PATH true
         );
memory D select count(*) from ducklake.intermediate.persons_all;

┌─────────────────┐
│  count_star()   │
│      int64      │
├─────────────────┤
│    10837423     │
│ (10.84 million) │
└─────────────────┘
memory D
memory D
memory D
memory D
memory D
memory D ATTACH 'ducklake:postgres:'
         AS ducklake_before_refresh (
             META_SECRET pg_metadata,
             DATA_PATH 's3://corpsignals/ducklake',
             METADATA_SCHEMA 'ducklake_catalog',
             SNAPSHOT_TIME '2026-06-25 08:34:00'
         );
memory D select count(*) from ducklake_before_refresh.intermediate.persons_all;
┌─────────────────┐
│  count_star()   │
│      int64      │
├─────────────────┤
│    16236012     │
│ (16.24 million) │
└─────────────────┘

вторая таблица - это прошлый snapshot. Видим, что там больше данных, и это праильно команды ROLLBACK нет, поэтому делаем влоб


CREATE OR REPLACE TABLE ducklake.intermediate.persons_all AS
SELECT * FROM ducklake_before_refresh.intermediate.persons_all;

1 353

Ну все, теперь без визы в UK. Через два года на паспорт (если власть не поменяется). Младший родившийся в Лондоне сын получит гражданство в этом году. PS: заплатил за эту процедуру 4000 фунтов :(. Гос бизнес

1 353

У меня тут у знакомых в разных компаниях идут сокращения. Больше всего режут IT. Причем так нормально, до половины состава. AI и прочее, не знаю к чему приведет. Но есть одна важный вопрос, который бы я спросил на собеседовании у человека, которого уволили. “Насколько ты был загружен в тот момент? А если было нечего делать, чего сам не ушел?” Одно дело все пахали, и например денег не подняли, закрылись. Другой момент, когда сидишь ровно, делать особо нечего, ну или делаешь что-то неважное - пора уходить самостоятельно. Да, работа это проект, и менять его лучше вовремя.

1 353

Неделю назад я вышел в Dwelly Group, чтобы заняться всем дата стеком. Они занимаются скупкой и AI автоматизацией агенств недвижимости в UK в разы повышая эффективность бизнеса. Недавно они подняли 93 mln. На заднем фоне очередное купленное агенство в Лондоне, которое нам нужно заинтегрировать.

1 353

Прошел год и теперь эта либа подходит для проверки JSON output даже у OpenAI моделей через API. Проблема: когда вам нужно, чтобы LLM модель выдавала JSON, его нужно проверять на валидность. Так вот https://dottxt-ai.github.io/outlines/latest/features/models/ библиотека умела раньше делать только для локальных моделей. А теперь и с OpenAI, его API умеет возвращать вероятности по топ токенам! Не нужно использовать отдельный API колл или валидацию, теперь все может работать из коробки. PS: deepseek там нет, но у меня исчезли проблемы после того, как снизил температуру модели до нуля

1 353

Похоже у меня получилось с Ducklake. Прикольная система, детали потом напишу. Stay tuned

1 353

Когда я вижу уже такие команды https://code.claude.com/docs/en/scheduled-tasks То радуюсь, командная строка снова в строю! Скоро наверное уже будет операционная система

1 353

Два года назад я купил сервак на ebay за 500 фунтов, и в нем 128 гб этой памати

1 353

Если вы не программируете, то я все рекомендую вам начать пользоваться приложениями Codex или Claude Work. Дело в ограничениях ChatGPT. Они выпилили оттуда возможность выполнения кода агентом. Даже сайты не спарсить, только проиндексированный контент. Что вам даст Codex - создания/выполнение tools с кодом, полностью написанным Codex. Подгружать файлы и тд. Меньша галюцинаций Просто поставьте себе одно из приложений Мои примеры: 1) Вчера я сделал data аналитика для corpsignals. Для этого я сделал три скила прямо из Codex App: - read-only доступ к моей БД Postgres c выполнением SELECT запросов, также поставил ограничение в 200 строк, чтобы не гонял всякую ерунду. Скилл написал shell скрипт, который просто отправляет запрос в БД прямо из командной строки. Почему не MCP? Читаю twitter, MCP сильнее выжирает токены по сравнению с инструментами командной строки. • аналитик CompaniesHouse - он проиндесировал документацию на их сайте, собрал у меня схемы данных • аналитик данных - он берет задачу и использую два склика выше делает анализ данных, сопоставляет с реальной жизнью и пишет отчеты Работает это очень круто, аналитикам данных пока не конец, но монотонную работу агент точно сделает Сейчас я пытаюсь это внедрить на работу, потому что это будет прям идеальный помощник для dbt или SQLMesh 2) Мне нужно было проанализировать контракт • завел папку • завел скилл адвоката, представляющего мои интересы • завел скилл прокурора, представляющего интересы другой стороны • запустил чат, попросил решить одну проблему и оценить риски - на выходе я получить письмо, чтобы закрыть риски Вам нужно уметь программировать все это и читать код. Но быть инженером своей задачи придется! PS: и еще Codex не будет вас в попку целовать, как это делает ChatGPT 🙂

1 353

Обнаружил письмо от Google в спаме ящика от Google :)

1 353

Сейчас перед сокращениями персонала сотрудников заставляют писать детальные инструкции по их работе. Это по сути готовые скиллы. Вчера я занялся этим на дата проекте. Писал их в GPT5.4 high. Но написал слишком общие вещи, капитан очевидность для хорошего инженера. Поэтому я стал просить GPT туда добавлять правила вручнузхъ

1 353

Про разработку агентами или вайб кодинге Мне очень не хватает инструмента, который будет тестировать изменения LLM агентами полностью симулируя систему. Есть ли такие уже готовые инструменты? Вот чтобы не среда разработки, а полностью независимый QA тестер

1 353

Очень много изменений пушим в SQLMesh каждый день. Иногда это приводило к недоступности данных для пользователей. Хоть SQLMesh работает на боевых базах, я добавил тестовую. Теперь схема выглядит так: Два раза тестируется, один раз на тесте, второй на проде. Стало безопасней! Push to sqlmesh_* branch | v Branch pipeline (auto, dwh_ci_test/dwh_test): migrate -> plan "$CI_COMMIT_BRANCH" --auto-apply -> audit -> invalidate "$CI_COMMIT_BRANCH" | +----+------------------------+ | | FAIL PASS Stop Create/reuse MR to main | v MR pipeline (auto): manual blocking gate on dwh: plan "$CI_COMMIT_BRANCH" --auto-apply -> audit | +--------+--------+ | | FAIL PASS Merge blocked Merge allowed | v Merge MR into main | v Main push pipeline (if sqlmesh/** changed): 1) Apply test env (dwh_ci_test/dwh_test): migrate -> plan --auto-apply -> audit 2) Run prod flow (sqlmesh_prod): plan --auto-apply -> run