topdatalab
前往频道在 Telegram
Канал поддержки книги «Как монетизировать данные». Работаю над corpsignals.com
显示更多1 257
订阅者
-124 小时
+17 天
-430 天
帖子存档
1 257
Ducklake + DBT - случайно затер неправильными данными инкрементальные таблицы 🙁
но! Ducklake поддерживает версионность! А это значит их можно восстановить
memory D ATTACH 'ducklake:postgres:'
AS ducklake (
META_SECRET pg_metadata,
DATA_PATH 's3://corpsignals/ducklake',
METADATA_SCHEMA 'ducklake_catalog',
OVERRIDE_DATA_PATH true
);
memory D select count(*) from ducklake.intermediate.persons_all;
┌─────────────────┐
│ count_star() │
│ int64 │
├─────────────────┤
│ 10837423 │
│ (10.84 million) │
└─────────────────┘
memory D
memory D
memory D
memory D
memory D
memory D ATTACH 'ducklake:postgres:'
AS ducklake_before_refresh (
META_SECRET pg_metadata,
DATA_PATH 's3://corpsignals/ducklake',
METADATA_SCHEMA 'ducklake_catalog',
SNAPSHOT_TIME '2026-06-25 08:34:00'
);
memory D select count(*) from ducklake_before_refresh.intermediate.persons_all;
┌─────────────────┐
│ count_star() │
│ int64 │
├─────────────────┤
│ 16236012 │
│ (16.24 million) │
└─────────────────┘
вторая таблица - это прошлый snapshot. Видим, что там больше данных, и это праильно
команды ROLLBACK нет, поэтому делаем влоб
CREATE OR REPLACE TABLE ducklake.intermediate.persons_all AS
SELECT * FROM ducklake_before_refresh.intermediate.persons_all;1 257
Ну все, теперь без визы в UK. Через два года на паспорт (если власть не поменяется). Младший родившийся в Лондоне сын получит гражданство в этом году.
PS: заплатил за эту процедуру 4000 фунтов :(. Гос бизнес
1 257
У меня тут у знакомых в разных компаниях идут сокращения. Больше всего режут IT.
Причем так нормально, до половины состава. AI и прочее, не знаю к чему приведет.
Но есть одна важный вопрос, который бы я спросил на собеседовании у человека, которого уволили.
“Насколько ты был загружен в тот момент? А если было нечего делать, чего сам не ушел?”
Одно дело все пахали, и например денег не подняли, закрылись. Другой момент, когда сидишь ровно, делать особо нечего, ну или делаешь что-то неважное - пора уходить самостоятельно. Да, работа это проект, и менять его лучше вовремя.
1 257
Неделю назад я вышел в Dwelly Group, чтобы заняться всем дата стеком. Они занимаются скупкой и AI автоматизацией агенств недвижимости в UK в разы повышая эффективность бизнеса. Недавно они подняли 93 mln.
На заднем фоне очередное купленное агенство в Лондоне, которое нам нужно заинтегрировать.
1 257
Прошел год и теперь эта либа подходит для проверки JSON output даже у OpenAI моделей через API.
Проблема: когда вам нужно, чтобы LLM модель выдавала JSON, его нужно проверять на валидность.
Так вот https://dottxt-ai.github.io/outlines/latest/features/models/ библиотека умела раньше делать только для локальных моделей.
А теперь и с OpenAI, его API умеет возвращать вероятности по топ токенам!
Не нужно использовать отдельный API колл или валидацию, теперь все может работать из коробки.
PS: deepseek там нет, но у меня исчезли проблемы после того, как снизил температуру модели до нуля
1 257
Похоже у меня получилось с Ducklake.
Прикольная система, детали потом напишу. Stay tuned
1 257
Когда я вижу уже такие команды https://code.claude.com/docs/en/scheduled-tasks
То радуюсь, командная строка снова в строю! Скоро наверное уже будет операционная система
1 257
Если вы не программируете, то я все рекомендую вам начать пользоваться приложениями Codex или Claude Work.
Дело в ограничениях ChatGPT. Они выпилили оттуда возможность выполнения кода агентом. Даже сайты не спарсить, только проиндексированный контент.
Что вам даст Codex - создания/выполнение tools с кодом, полностью написанным Codex. Подгружать файлы и тд. Меньша галюцинаций
Просто поставьте себе одно из приложений
Мои примеры:
1) Вчера я сделал data аналитика для corpsignals. Для этого я сделал три скила прямо из Codex App:
- read-only доступ к моей БД Postgres c выполнением SELECT запросов, также поставил ограничение в 200 строк, чтобы не гонял всякую ерунду.
Скилл написал shell скрипт, который просто отправляет запрос в БД прямо из командной строки.
Почему не MCP? Читаю twitter, MCP сильнее выжирает токены по сравнению с инструментами командной строки.
• аналитик CompaniesHouse - он проиндесировал документацию на их сайте, собрал у меня схемы данных
• аналитик данных - он берет задачу и использую два склика выше делает анализ данных, сопоставляет с реальной жизнью и пишет отчеты
Работает это очень круто, аналитикам данных пока не конец, но монотонную работу агент точно сделает
Сейчас я пытаюсь это внедрить на работу, потому что это будет прям идеальный помощник для dbt или SQLMesh
2) Мне нужно было проанализировать контракт
• завел папку
• завел скилл адвоката, представляющего мои интересы
• завел скилл прокурора, представляющего интересы другой стороны
• запустил чат, попросил решить одну проблему и оценить риски - на выходе я получить письмо, чтобы закрыть риски
Вам нужно уметь программировать все это и читать код. Но быть инженером своей задачи придется!
PS: и еще Codex не будет вас в попку целовать, как это делает ChatGPT 🙂
1 257
Сейчас перед сокращениями персонала сотрудников заставляют писать детальные инструкции по их работе.
Это по сути готовые скиллы.
Вчера я занялся этим на дата проекте. Писал их в GPT5.4 high. Но написал слишком общие вещи, капитан очевидность для хорошего инженера.
Поэтому я стал просить GPT туда добавлять правила вручнузхъ
1 257
Про разработку агентами или вайб кодинге
Мне очень не хватает инструмента, который будет тестировать изменения LLM агентами полностью симулируя систему.
Есть ли такие уже готовые инструменты? Вот чтобы не среда разработки, а полностью независимый QA тестер
1 257
Очень много изменений пушим в SQLMesh каждый день.
Иногда это приводило к недоступности данных для пользователей.
Хоть SQLMesh работает на боевых базах, я добавил тестовую.
Теперь схема выглядит так:
Два раза тестируется, один раз на тесте, второй на проде.
Стало безопасней!
Push to sqlmesh_* branch
|
v
Branch pipeline (auto, dwh_ci_test/dwh_test):
migrate -> plan "$CI_COMMIT_BRANCH" --auto-apply -> audit -> invalidate "$CI_COMMIT_BRANCH"
|
+----+------------------------+
| |
FAIL PASS
Stop Create/reuse MR to main
|
v
MR pipeline (auto):
manual blocking gate on dwh:
plan "$CI_COMMIT_BRANCH" --auto-apply -> audit
|
+--------+--------+
| |
FAIL PASS
Merge blocked Merge allowed
|
v
Merge MR into main
|
v
Main push pipeline (if sqlmesh/** changed):
1) Apply test env (dwh_ci_test/dwh_test): migrate -> plan --auto-apply -> audit
2) Run prod flow (sqlmesh_prod): plan --auto-apply -> run
1 257
Не секрет, что сейчас все SaaS боятся, что их заменят агенты. Венчурные инвесторы, кстати, бояться тоже, всегда спрашивают вопрос: какая у вас защита от замены AI?
Сегодня увидел интересный пост, как один стартап проходит через это, что его функционал замещает Claude. Что там рекомендуется в их области:
‘’’
Here are the big GTM categories today:
Own data — CRMs will be fine. Claude can't store your customer data.
Lead databases — Clay, Apollo, RB2B will be fine. Claude can't collect 1B phone numbers and emails.
Outreach automation — dead soon. You'll be able to tell Claude "Spam all YC founders offering my SaaS" and it'll just do it.
Outreach infra — also dead. Agents will soon buy domains and set up outreach automation on their own.
Niche tools — server-side tracking and similar will survive.
Creatives — mostly dead. In a few months Meta and Google will generate them inside ad accounts. There will be some players who do top-tier large volume creatives for huge advertisers, but for small businesses it'll be inside Google/Meta.
Enterprise complex workflows — like CDPs, customer engagement for huge brands. They are safe and will be doing exceedingly well. And waiting for more cool players in the space.
‘’’
https://x.com/irabukht/status/2025846968245948795?s=46&t=8Z86N8fXbK6h2ACsCoI3Dw
1 257
Запостили CorpSignals на producthunt не сильно заморачиваясь
https://www.producthunt.com/products/corpsignals
PS: Буду рад лайкам там
1 257
OpenAI задает свой формат документации
https://openai.com/index/harness-engineering/
AGENTS.md ARCHITECTURE.md docs/ ├── design-docs/ │ ├── index.md │ ├── core-beliefs.md │ └── ... ├── exec-plans/ │ ├── active/ │ ├── completed/ │ └── tech-debt-tracker.md ├── generated/ │ └── db-schema.md ├── product-specs/ │ ├── index.md │ ├── new-user-onboarding.md │ └── ... ├── references/ │ ├── design-system-reference-llms.txt │ ├── nixpacks-llms.txt │ ├── uv-llms.txt │ └── ... ├── DESIGN.md ├── FRONTEND.md ├── PLANS.md ├── PRODUCT_SENSE.md ├── QUALITY_SCORE.md ├── RELIABILITY.md └── SECURITY.mdно я упрямо следую принципу, что документация должна находится в модуле, который она описывает. Я не пойму зачем ее всю держать в отдельной папке. Планы я не храню, они устаревают быстрее, чем создаются.
1 257
Похоже OpenAi краулер сейчас самый мощный.
Опубликовал новый тип страниц, через минуту начались запросы (уже сотня)
proxy | 74.7.241.9 - - [16/Feb/2026:23:42:32 +0000] "GET /hscode/382491.html HTTP/2.0" 200 28918 "https://corpsignals.com/hscode/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.3; +https://openai.com/gptbot)" upstream_response_time=0.131 proxy | 74.7.241.9 - - [16/Feb/2026:23:42:32 +0000] "GET /hscode/283691.html HTTP/2.0" 200 26525 "https://corpsignals.com/hscode/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.3; +https://openai.com/gptbot)" upstream_response_time=0.131 proxy | 74.7.241.9 - - [16/Feb/2026:23:42:33 +0000] "GET /hscode/810295.html HTTP/2.0" 200 25833 "https://corpsignals.com/hscode/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.3; +https://openai.com/gptbot)" upstream_response_time=0.130 proxy | 74.7.241.9 - - [16/Feb/2026:23:42:33 +0000] "GET /hscode/940521.html HTTP/2.0" 200 36896 "https://corpsignals.com/hscode/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.3; +https://openai.com/gptbot)" upstream_response_time=0.141и он даже sitemap не прочитал
1 257
Прошел года как я внедрил SQLMesh в компании.
А это уже больше 1000 merge requests, 3700 коммитов.
Система живет и развивается. В этом месяце еще несколько человек в компании стали коммитить вместо того, чтобы ставить нам задачи.
1 257
Мое непопулярное мнение, ML и AI - где нужно сидеть постоянно над оптимизацией метрик жутко скучное занятие.
Дата инженерия даже интересней.
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
