topdatalab
Open in Telegram
Канал поддержки книги «Как монетизировать данные». Работаю над corpsignals.com
Show more1 260
Subscribers
No data24 hours
No data7 days
-130 days
Posts Archive
1 260
У меня тут у знакомых в разных компаниях идут сокращения. Больше всего режут IT.
Причем так нормально, до половины состава. AI и прочее, не знаю к чему приведет.
Но есть одна важный вопрос, который бы я спросил на собеседовании у человека, которого уволили.
“Насколько ты был загружен в тот момент? А если было нечего делать, чего сам не ушел?”
Одно дело все пахали, и например денег не подняли, закрылись. Другой момент, когда сидишь ровно, делать особо нечего, ну или делаешь что-то неважное - пора уходить самостоятельно. Да, работа это проект, и менять его лучше вовремя.
1 260
Неделю назад я вышел в Dwelly Group, чтобы заняться всем дата стеком. Они занимаются скупкой и AI автоматизацией агенств недвижимости в UK в разы повышая эффективность бизнеса. Недавно они подняли 93 mln.
На заднем фоне очередное купленное агенство в Лондоне, которое нам нужно заинтегрировать.
1 260
Прошел год и теперь эта либа подходит для проверки JSON output даже у OpenAI моделей через API.
Проблема: когда вам нужно, чтобы LLM модель выдавала JSON, его нужно проверять на валидность.
Так вот https://dottxt-ai.github.io/outlines/latest/features/models/ библиотека умела раньше делать только для локальных моделей.
А теперь и с OpenAI, его API умеет возвращать вероятности по топ токенам!
Не нужно использовать отдельный API колл или валидацию, теперь все может работать из коробки.
PS: deepseek там нет, но у меня исчезли проблемы после того, как снизил температуру модели до нуля
1 260
Похоже у меня получилось с Ducklake.
Прикольная система, детали потом напишу. Stay tuned
1 260
Когда я вижу уже такие команды https://code.claude.com/docs/en/scheduled-tasks
То радуюсь, командная строка снова в строю! Скоро наверное уже будет операционная система
1 260
Если вы не программируете, то я все рекомендую вам начать пользоваться приложениями Codex или Claude Work.
Дело в ограничениях ChatGPT. Они выпилили оттуда возможность выполнения кода агентом. Даже сайты не спарсить, только проиндексированный контент.
Что вам даст Codex - создания/выполнение tools с кодом, полностью написанным Codex. Подгружать файлы и тд. Меньша галюцинаций
Просто поставьте себе одно из приложений
Мои примеры:
1) Вчера я сделал data аналитика для corpsignals. Для этого я сделал три скила прямо из Codex App:
- read-only доступ к моей БД Postgres c выполнением SELECT запросов, также поставил ограничение в 200 строк, чтобы не гонял всякую ерунду.
Скилл написал shell скрипт, который просто отправляет запрос в БД прямо из командной строки.
Почему не MCP? Читаю twitter, MCP сильнее выжирает токены по сравнению с инструментами командной строки.
• аналитик CompaniesHouse - он проиндесировал документацию на их сайте, собрал у меня схемы данных
• аналитик данных - он берет задачу и использую два склика выше делает анализ данных, сопоставляет с реальной жизнью и пишет отчеты
Работает это очень круто, аналитикам данных пока не конец, но монотонную работу агент точно сделает
Сейчас я пытаюсь это внедрить на работу, потому что это будет прям идеальный помощник для dbt или SQLMesh
2) Мне нужно было проанализировать контракт
• завел папку
• завел скилл адвоката, представляющего мои интересы
• завел скилл прокурора, представляющего интересы другой стороны
• запустил чат, попросил решить одну проблему и оценить риски - на выходе я получить письмо, чтобы закрыть риски
Вам нужно уметь программировать все это и читать код. Но быть инженером своей задачи придется!
PS: и еще Codex не будет вас в попку целовать, как это делает ChatGPT 🙂
1 260
Сейчас перед сокращениями персонала сотрудников заставляют писать детальные инструкции по их работе.
Это по сути готовые скиллы.
Вчера я занялся этим на дата проекте. Писал их в GPT5.4 high. Но написал слишком общие вещи, капитан очевидность для хорошего инженера.
Поэтому я стал просить GPT туда добавлять правила вручнузхъ
1 260
Про разработку агентами или вайб кодинге
Мне очень не хватает инструмента, который будет тестировать изменения LLM агентами полностью симулируя систему.
Есть ли такие уже готовые инструменты? Вот чтобы не среда разработки, а полностью независимый QA тестер
1 260
Очень много изменений пушим в SQLMesh каждый день.
Иногда это приводило к недоступности данных для пользователей.
Хоть SQLMesh работает на боевых базах, я добавил тестовую.
Теперь схема выглядит так:
Два раза тестируется, один раз на тесте, второй на проде.
Стало безопасней!
Push to sqlmesh_* branch
|
v
Branch pipeline (auto, dwh_ci_test/dwh_test):
migrate -> plan "$CI_COMMIT_BRANCH" --auto-apply -> audit -> invalidate "$CI_COMMIT_BRANCH"
|
+----+------------------------+
| |
FAIL PASS
Stop Create/reuse MR to main
|
v
MR pipeline (auto):
manual blocking gate on dwh:
plan "$CI_COMMIT_BRANCH" --auto-apply -> audit
|
+--------+--------+
| |
FAIL PASS
Merge blocked Merge allowed
|
v
Merge MR into main
|
v
Main push pipeline (if sqlmesh/** changed):
1) Apply test env (dwh_ci_test/dwh_test): migrate -> plan --auto-apply -> audit
2) Run prod flow (sqlmesh_prod): plan --auto-apply -> run
1 260
Не секрет, что сейчас все SaaS боятся, что их заменят агенты. Венчурные инвесторы, кстати, бояться тоже, всегда спрашивают вопрос: какая у вас защита от замены AI?
Сегодня увидел интересный пост, как один стартап проходит через это, что его функционал замещает Claude. Что там рекомендуется в их области:
‘’’
Here are the big GTM categories today:
Own data — CRMs will be fine. Claude can't store your customer data.
Lead databases — Clay, Apollo, RB2B will be fine. Claude can't collect 1B phone numbers and emails.
Outreach automation — dead soon. You'll be able to tell Claude "Spam all YC founders offering my SaaS" and it'll just do it.
Outreach infra — also dead. Agents will soon buy domains and set up outreach automation on their own.
Niche tools — server-side tracking and similar will survive.
Creatives — mostly dead. In a few months Meta and Google will generate them inside ad accounts. There will be some players who do top-tier large volume creatives for huge advertisers, but for small businesses it'll be inside Google/Meta.
Enterprise complex workflows — like CDPs, customer engagement for huge brands. They are safe and will be doing exceedingly well. And waiting for more cool players in the space.
‘’’
https://x.com/irabukht/status/2025846968245948795?s=46&t=8Z86N8fXbK6h2ACsCoI3Dw
1 260
Запостили CorpSignals на producthunt не сильно заморачиваясь
https://www.producthunt.com/products/corpsignals
PS: Буду рад лайкам там
1 260
OpenAI задает свой формат документации
https://openai.com/index/harness-engineering/
AGENTS.md ARCHITECTURE.md docs/ ├── design-docs/ │ ├── index.md │ ├── core-beliefs.md │ └── ... ├── exec-plans/ │ ├── active/ │ ├── completed/ │ └── tech-debt-tracker.md ├── generated/ │ └── db-schema.md ├── product-specs/ │ ├── index.md │ ├── new-user-onboarding.md │ └── ... ├── references/ │ ├── design-system-reference-llms.txt │ ├── nixpacks-llms.txt │ ├── uv-llms.txt │ └── ... ├── DESIGN.md ├── FRONTEND.md ├── PLANS.md ├── PRODUCT_SENSE.md ├── QUALITY_SCORE.md ├── RELIABILITY.md └── SECURITY.mdно я упрямо следую принципу, что документация должна находится в модуле, который она описывает. Я не пойму зачем ее всю держать в отдельной папке. Планы я не храню, они устаревают быстрее, чем создаются.
1 260
Похоже OpenAi краулер сейчас самый мощный.
Опубликовал новый тип страниц, через минуту начались запросы (уже сотня)
proxy | 74.7.241.9 - - [16/Feb/2026:23:42:32 +0000] "GET /hscode/382491.html HTTP/2.0" 200 28918 "https://corpsignals.com/hscode/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.3; +https://openai.com/gptbot)" upstream_response_time=0.131 proxy | 74.7.241.9 - - [16/Feb/2026:23:42:32 +0000] "GET /hscode/283691.html HTTP/2.0" 200 26525 "https://corpsignals.com/hscode/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.3; +https://openai.com/gptbot)" upstream_response_time=0.131 proxy | 74.7.241.9 - - [16/Feb/2026:23:42:33 +0000] "GET /hscode/810295.html HTTP/2.0" 200 25833 "https://corpsignals.com/hscode/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.3; +https://openai.com/gptbot)" upstream_response_time=0.130 proxy | 74.7.241.9 - - [16/Feb/2026:23:42:33 +0000] "GET /hscode/940521.html HTTP/2.0" 200 36896 "https://corpsignals.com/hscode/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.3; +https://openai.com/gptbot)" upstream_response_time=0.141и он даже sitemap не прочитал
1 260
Прошел года как я внедрил SQLMesh в компании.
А это уже больше 1000 merge requests, 3700 коммитов.
Система живет и развивается. В этом месяце еще несколько человек в компании стали коммитить вместо того, чтобы ставить нам задачи.
1 260
Мое непопулярное мнение, ML и AI - где нужно сидеть постоянно над оптимизацией метрик жутко скучное занятие.
Дата инженерия даже интересней.
1 260
Я думаю только мертвый не слышал про MoltBot/ClawBot
Тут оказывается вышел подскаст с ним https://newsletter.pragmaticengineer.com/p/the-creator-of-clawd-i-ship-code
Я пишу 100% кода на AI, и поддерживаю около двух больших проектов.
Как я это делаю писал тут https://t.me/topdatalab/521
И я как сооснователь Retail Rocket, где очень небольшая команда инженеров работала над продуктом и сделала его без всякого AI.
Попробую написать про мой взгляд.
1 Managing a dev team teaches you to let go of perfectionism: a skill important when working with AI agents. Running PSPDFKit with 70+ people forced Peter to accept that code wouldn't always match his exact preferences. This makes him more efficient when working with agents today.
И да, и нет. Все зависит от ответственности. Писать Corpsignals да, писать автопилот, отчетность для FCA, "водитель" сердца, космический корабль - нет! Не думаю, что Питер не стал бы писать автопилот для своего авто или контролер сердечного ритма для своей матери.
С другой стороны 80% проектов или внутренних инструментов можно собрать из г и палок.
PS: иногда команды разработки занимаются излишним перфекионизмом, но для бизнеса это не всегда нужно
2 Close the loop: AI agents must be able to verify their own work. Peter designs systems so agents can compile, lint, execute, and validate output themselves.
Согласен
3 Pull requests are dead, long live “promot requests.” Peter now views PRs as “prompt requests” and is more interested in seeing the prompts that generated code than the code itself. Interestingly, this is exactly what my brother, Balint Orosz said when he explained that they reject almost all external pull requests from Craft Agents, but take the core idea and use them as prompts later.
Только для проектов "и так сойдет". Мне BugBot от Курсора находит много неприятных мелких багов в PR
4 Code reviews are dead for this workflow—architecture discussions replace them. Even in Discord, he doesn’t talk code with his core team: they only talk about architecture and big decisions.
Опять зависит от уровня ответсвенности.
5 Runs 5-10 agents and stays in the “flow” state. Peter queues up multiple agents working on different features simultaneously.
Иногда так делаю, но очень устаю
6 Spend a lot of time planning out the work the agent will do, and prefers using Codex. Peter spent a surprisingly long time going back-and-forth with an agent to come up with a solid plan. He challenges the agent, tweaks it, pushed back. When he is satisfied with the plan, he kicks it off, and moves on to the next one. He likes using Codex because Codex goes off and does long-running tasks: Claude Code comes back for clarifications, which he finds distracting — given he fleshed out a plan already.
Абсолютно согласен, но я делаю первый план всегда в Cursor, так как он индексирует всю кодовую базу, а Codex нет
7 Under-prompt intentionally to discover unexpected solutions. Peter sometimes gives vague prompts to let the AI explore directions he hadn't considered.
Это хорошая штука
8 Local CI beats remote CI for agent-driven development. Peter runs tests locally through his agents rather than waiting for remote CI pipelines. He does this because he doesn’t want to wait an extra 10-ish minutes for a remote CI to run, when his agents can run tests locally.
Согласен, но тесты LLM пишут хреново, может у меня такой опыт
9 Most code is boring data transformation—focus energy on system design instead. Peter argues that the majority of application code is just “massaging data in different forms” and doesn’t warrant obsessive attention.
Согласен
10 Engineers who thrive with AI care about outcomes over implementation details. Peter observes engineers who love to solve algorithmic puzzles to struggling going “AI-native” like he has. People who love shipping products, on the other hand, excel.
Согласен
Добавлю еще про ведение документации! Это важно для долгоиграющих проектов. Они держат контекст, который невозможно выразить кодом
1 260
Интересный инсайд про сотрудников, которые продают.
Уже несколько человек часами сидят на corpsignals.com.
С одним из них пообщался вчера вечером.
Оливер из Бирмиргема, продает в холодную, сказал, что сервис ему очень нравится, так как значительно повысилась его продуктивность в поиске лидов.
Он поделился ссылкой с одним из своих коллег.
Но больше никому рассказывать не будет, даже руководителю.
Все дело в том, что у него зарплата привязана к его личным продажам. И он заинтересован наименьшими усилиями получать больше.
Что с этим делать пока не знаю.
PS: а сервис и правда получился отличный, кто о нем знает, сидят там часами.
1 260
Знаете, что в последних Chrome есть нейросеть?
https://developer.chrome.com/docs/ai/summarizer-api
попробуйте открыть в последней версии Chrome, и вставить какой-нибудь текст.
Вы получите довольно неплохое summary.
Мне лично понравилось тем, что теперь пользователи могу делать несложную обработку данных прямо на сайте нагружая свои GPU прямо из браузера.
PS: хочу уже сделать - пользователь заходит на страницу и часть конента переписывается прямо у него на глазах!
Available now! Telegram Research 2025 — the year's key insights 
