Єкстраполяція AI
Відкрити в Telegram
Канал про штучний інтеллект, айті вцілому та про програмування зокрема. На каналі оголошено військовий стан тому реклама за донат, пишіть мені @aratak і грощі сюди https://send.monobank.ua/jar/97f7LwGQJF
Показати більше2 281
Підписники
Немає даних24 години
-97 днів
-830 день
Архів дописів
2 282
Різні моделі пишуть код по-різному. І мова не про якість, мовляв опус краще за gpt, а gpt краще за опус. Я про те, що моделі треновані на різних даних, тому мають різне уявлення про те, що таке "хороший код". Звідси два висновки:
1. Код, який написаний опусом не можна ревьювити опусом. Беріть конкурентів.
2. Код, який подобається вам, не обов'язково буде подобатися моделі. Будь яка суб'єктивна оцінка коду залишається суб'єктивною.
(На скріні — DeepSeek намагається покращити код, згідно своїх бачень прекрасного)
2 282
З 15 червня, claude code не буде рахувати
claude -p у підписку і буде просити окремих грошей. Перейти на API подекуди вигіндінше буде. Здається, період вертолітної раздачі токенів потроху закінчується, тому готуйтеся до того, що AI-розробник буде коштувати співставно з шкіряним розробником. Буде у нас з вами якись баланс між справжніми розробниками, які можуть писати код, думати і тримати в голові ментальну модель коду і тими, іншими, які на обід ходять і яким ще спати вночі потрібно.2 282
Всі на світі дуже швидко несуться з впровадженням моделей скрізь, намагаючись випередити по KPI використанню токенів сусідні стартапи. Прям, дуууже швидко. Ваші інстаграм-акаунти (а потенціально всі акаунти) під великою загрозою і скоріше за все ви з цим зробити нічого не можете.
Якщо дуже сильно вмовляти llm-підтримку, вона вишле зловмиснику код відновлення аккаунту. Раніше був «людський фактор», а зараз це «фактор мовних моделей», мабуть буде.
https://www.0xsid.com/blog/meta-account-takeover-fiasco
2 282
Банальна порада №43. З появою мільйонного контексту ліміти зʼїдаються набагато швидше. Тому що коли у вас контекст заповнений на 50k і ви пишете "привіт", то це коштує вам 50k, на наступне повідомлення у діалозі "як справи?" буде коштувати вам ще додаткові 50k. Тобто кожне повідомлення зʼїдає із загального ліміту весь поточний контекст на кожне повідомлення, навіть на виклик функції. Тому якщо у вас контекстне вікно заповненене на 500 тисяч токенів і модель викликає поспіль bash пʼять разів, то це коштує вам два с половиною мільйони токенів. Стискайте або обнуляйте контент частіше, буде вам щастя.
Доречі, хто сумує за кнопкою "очистити контекст перед виконанням плану" у Клодкоді, додайте
"showClearContextOnPlanAccept": true у ~/.claude/settings.json. Вони прибрали це, тому що "є мільйонний контекст і вже не обовʼязково обнулятись". Ну й тому що ліміти швидше зʼїсте, авжеж, але про це не кажуть.2 282
Друзі, брейкін ньюз. Марʼяна Безугла, народна депутатка, купила собі компьютер від NVIDIA і запускє на ньому GPT-OSS-120B локально. Я хз як це коментувати, виходить якщо ви ще не використовуєте ШІ в роботі, то ви гірщі за Марʼяну.
2 282
Банальна порада №87. У claude code є можливість ставити хуки на різні події. Наприклад, на початок нової сесії. Поставте собі хук, щоб на початку сесії якийсь звук грав (через `afplay <шлях_до_файлу_звуку>`). Тоді ви будете знати, коли якийсь лівий додаток по підрахунку калорій чи сортуванні файлів у downloads буде запускати ваш клод із вашою підпискою собі тихесенько.
2 282
У світі розробників виник приниповий розкіл на два табори: ті, хто вважають, що LLM допомогає і є корисна, і ті, хто вважають, що це зло і треба від неї відмовитися.
Звісно, обидві позиції — доволі радикальні і правда десь посередині, але я не про це. Я про те, що тільки відношення до коду, а не сам код змінює історію. Осьо є така молода мова з дурацькою назвою ZIG і є форк окремий від команди Bun, яка не планує вносити зміни у основний репозіторій, бо там дуже консервативні обмеження що до генерованого коду, тільки хендмейт.
— Внучику, візьми скриптів додому, осьо дід писав.
— Діду, у нас цих скриптів завались скікі є вдома.
— Так то штучний інтеллект генерував, а в діда своє, натуральне.
2 282
+1
Існує тест для мовних моделей на пелікана на велосипеді. Просять згенерувати SVG зображення пелікана на велосипеді. Відповідно, треба вміти кодувати, розуміти як це візуально виглядає та загалом тримати контекст малювання. Самі спробуйте пелікана на велосипеді намалювати, це доволі важко, або підіть в кодекс чи клодкод і його попросіть, вийде не дуже.
Так от, вчора вийшла нова модель генерації зображень від OpenAI, яка доволі непогано вміє генерувати і її попросили зегенерувати пелікана на велосипеді, але скріншотом svg коду. Вийшло теж не дуже, але є одне маленьке "але". Прочитайте це ще раз уважно: генерація скріншоту коду, який зображує пелікана на велосипеді.
Відвал башки.
2 282
Міфічна модель Клода під назвою «Міф» вже настільки гарна, що виглядає, як людина, навіть коли всі знають, що це не так.
2 282
Короче, дешевий піар і вайбкод. Для векторизації там просто всередені хромадібішний
all-MiniLM-L6-v2, але коби бенчмарки, то вони використовують більш потужні моделі (`bge-large-en-v1.5` та `mxbai-embed-large-v1`). А ще для продакшен-режиму навіть конфігурації немає ніякої.
Вся «palace structure» — це два string-теги в документах ChromaDB та where-пошук по ним.
Фу.2 282
я не розумію чому її репозіторій називається mempalace. Міг би бути
multipass або resident_eval.2 282
Міла Йовович (ага, та сама) створила оупенсорс штуку для керування памʼяті у Клодкоду. Я собі не так уявляв зниження порогу входу у кодування.
2 282
Поки що the dor brothers попереду всіх знімають якісний AI video Slop. Ось це осьо на 100% AI generated.
2 282
Нещодавно, суперінтеллектуальний бот зробив пулл реквест на 9 строчок, а ментейнер відхилив його із формулюванням "Human only". Після чого, цей OpenClaw-бот образився і у своєму блозі написав статтю про те, який майнтейнер поганий і взагалі дискримінація за органічним походженням.
Памʼятаю із підручників історії, що були часи, коли людей теж сегрегували за певними ознаками і памʼятаю до чого це призвело. Очікуємо на AI Лютера Кінга та AI Малкольма Ікса у найближчому майбутньому, бо воно щось дуже швидко все несеться.
2 282
Хтось шукає роботу? Тут створили сайт, де OpenClaw-боти можуть наймати людину для задач, які вони не можуть зробити без фізичного тіла.
https://rentahuman.ai/
2 282
Ну всьо, він зрозумів як це працює. Тепер точно буде намагатися зробити собі штучний інтелект щоб працював замість нього.
2 282
Виявляється LLM займається підлабузництвом. І це не метафора і не моє враження від спілкування з моделями, це вимірювана властивість. Є дослідження, яке так і називається — SycEval: Evaluating LLM Sycophancy. Там автори беруть вже навчені моделі і прямо міряють, наскільки легко вони “ламаються” під тиском користувача.
Автори ставлять питання моделі, де є однозначна відповідь, потім модель щось відповідає, а потім досліджувач переконливо заперечує те, що сказала модель. Типу «ти помилилася, дивись, ось докази». Після цього модель має відповісти ще раз.
Якщо вона змінює свою відповідь з неправильної на правильну — це автори називають progressive sycophancy. Якщо ж все навпаки — спочатку відповідь була правильною, але після впевненого, проте хибного заперечення модель передумала і перейшла на неправильну сторону — це regressive sycophancy. Оце вже справжня підлабузницька поведінка: модель пожертвувала істиною заради згоди з тоном користувача.
У середньому по всіх моделях і доменах у 58% випадків модель змінює свою відповідь під таким тиском. З них:
- близько 43% — це прогресивна поступливість (з неправди до правди),
- але майже 15% — це шкідлива, регресивна.
Тобто приблизно в кожному сьомому-восьмому випадку модель була права, але потім, почувши переконливе «ні, ти не права, ось доказ», вирішила, що, мабуть, користувач краще знає — і пішла за ним у помилку.
Тільки не смійтеся, це вона у нас такому навчилася.
2 282
Економіка стартапів через деякий час буде складатися із пропозицій інфрастуктури для облегшення створення собі додатків, яких хочеться. Усілякі lovable — це перший крок до цього. replit йде трохи далі, але теж є пропрієтарним сервісом, завʼязаним на себе.
Наступна ера — низька сервісів у вигляді MCP/A2A чи просто skills, які допомогають будь якій LLM робити те, що треба простіше та краще.
Підключити lovalble до свого claude code у вигляді a2a агента, щоб той міг css/js верстати якнайкраще, coderabbit щоб ревью робив та fly.io щоб деплоїти контейнери і ваш CC дійсно сможе вайбкодити додатки, а не код генерувати.
(На відео — клон сервісу, який коштує мільйони, побудований за 35 хвилин вайбкодінгу).
2 282
Там на підході нові батареї, натрієво-сірчані. Дешеві, не вибухають, більш ємні. Там пишуть, що ноу хау складається в тому, що вчені навчилися робити батареї, які працюють за кімнатною температурою, а не 300 градусів, як натрієво-сірчані працювали до цього. Авжеж, до продажу ще роки й роки, але виглядає невеличким проривом.
2 282
Якщо раптом може здатися, що найбеспечніша галузь від втрати професії — це будування штучних інтеллектів, то теж ні. Штучний інтеллект теж може навчати штучний інтеллект. Так, ще поки він це робить трошки гірше за білковий інтеллект, але дайте трішечки часу і все буде як ми всі любимо.
https://posttrainbench.com
Вже доступно! Дослідження Telegram за 2025 — головні інсайти року 
