Єкстраполяція AI

Відкрити в Telegram

Канал про штучний інтеллект, айті вцілому та про програмування зокрема. На каналі оголошено військовий стан тому реклама за донат, пишіть мені @aratak і грощі сюди https://send.monobank.ua/jar/97f7LwGQJF

Україна16 309 Технології та додатки28 765

2 270

Підписники

-324 години

-47 днів

-230 день

829

Перегляди допису

~ 42224 години

~ 38848 годин

36.50%

Коефіцієнт залучення

Немає даних

Дописів на день

Ads index

beta

Архів дописів

2 270

Пані та панове, увага. Автор книги "Clean Architechture" Боб Мартін не читає код, який пишуть його LLM.

2 270

Захоплива історія про результати експерименту по відкриттю LLM-кавʼярні. І питання не про те, що там LLM ще тупі і не можуть керувати бізнесами, навіть маленькими. Тут головне те, що Gemini та GPT показують різні, майже протилежні, поведінкові патерни. У моделей різна розуміння правильності, різне відношення до ризику та загалом різна поведінка. Ми вже дійшли до того моменту розвитку штучного інтелекту, коли важлива не інтелектуальна здатність, а поведінка та уподобання. Коли вийде нова GPT6 чи Fable6 ми вже будемо фокусуватись не на тому, що воно може вирішити якісь особливі інтеллектуальні задачі, а про умовні бажання, уподобання та наміри моделі. https://andonlabs.com/blog/why-gemini-lost-money-andon-cafe

2 270

Різні моделі пишуть код по-різному. І мова не про якість, мовляв опус краще за gpt, а gpt краще за опус. Я про те, що моделі треновані на різних даних, тому мають різне уявлення про те, що таке "хороший код". Звідси два висновки: 1. Код, який написаний опусом не можна ревьювити опусом. Беріть конкурентів. 2. Код, який подобається вам, не обов'язково буде подобатися моделі. Будь яка суб'єктивна оцінка коду залишається суб'єктивною. (На скріні — DeepSeek намагається покращити код, згідно своїх бачень прекрасного)

2 270

З 15 червня, claude code не буде рахувати claude -p у підписку і буде просити окремих грошей. Перейти на API подекуди вигіндінше буде. Здається, період вертолітної раздачі токенів потроху закінчується, тому готуйтеся до того, що AI-розробник буде коштувати співставно з шкіряним розробником. Буде у нас з вами якись баланс між справжніми розробниками, які можуть писати код, думати і тримати в голові ментальну модель коду і тими, іншими, які на обід ходять і яким ще спати вночі потрібно.

2 270

Всі на світі дуже швидко несуться з впровадженням моделей скрізь, намагаючись випередити по KPI використанню токенів сусідні стартапи. Прям, дуууже швидко. Ваші інстаграм-акаунти (а потенціально всі акаунти) під великою загрозою і скоріше за все ви з цим зробити нічого не можете. Якщо дуже сильно вмовляти llm-підтримку, вона вишле зловмиснику код відновлення аккаунту. Раніше був «людський фактор», а зараз це «фактор мовних моделей», мабуть буде. https://www.0xsid.com/blog/meta-account-takeover-fiasco

2 270

Банальна порада №43. З появою мільйонного контексту ліміти зʼїдаються набагато швидше. Тому що коли у вас контекст заповнений на 50k і ви пишете "привіт", то це коштує вам 50k, на наступне повідомлення у діалозі "як справи?" буде коштувати вам ще додаткові 50k. Тобто кожне повідомлення зʼїдає із загального ліміту весь поточний контекст на кожне повідомлення, навіть на виклик функції. Тому якщо у вас контекстне вікно заповненене на 500 тисяч токенів і модель викликає поспіль bash пʼять разів, то це коштує вам два с половиною мільйони токенів. Стискайте або обнуляйте контент частіше, буде вам щастя. Доречі, хто сумує за кнопкою "очистити контекст перед виконанням плану" у Клодкоді, додайте "showClearContextOnPlanAccept": true у ~/.claude/settings.json. Вони прибрали це, тому що "є мільйонний контекст і вже не обовʼязково обнулятись". Ну й тому що ліміти швидше зʼїсте, авжеж, але про це не кажуть.

2 270

Друзі, брейкін ньюз. Марʼяна Безугла, народна депутатка, купила собі компьютер від NVIDIA і запускє на ньому GPT-OSS-120B локально. Я хз як це коментувати, виходить якщо ви ще не використовуєте ШІ в роботі, то ви гірщі за Марʼяну.

2 270

Банальна порада №87. У claude code є можливість ставити хуки на різні події. Наприклад, на початок нової сесії. Поставте собі хук, щоб на початку сесії якийсь звук грав (через `afplay <шлях_до_файлу_звуку>`). Тоді ви будете знати, коли якийсь лівий додаток по підрахунку калорій чи сортуванні файлів у downloads буде запускати ваш клод із вашою підпискою собі тихесенько.

2 270

У світі розробників виник приниповий розкіл на два табори: ті, хто вважають, що LLM допомогає і є корисна, і ті, хто вважають, що це зло і треба від неї відмовитися. Звісно, обидві позиції — доволі радикальні і правда десь посередині, але я не про це. Я про те, що тільки відношення до коду, а не сам код змінює історію. Осьо є така молода мова з дурацькою назвою ZIG і є форк окремий від команди Bun, яка не планує вносити зміни у основний репозіторій, бо там дуже консервативні обмеження що до генерованого коду, тільки хендмейт. — Внучику, візьми скриптів додому, осьо дід писав. — Діду, у нас цих скриптів завались скікі є вдома. — Так то штучний інтеллект генерував, а в діда своє, натуральне.

2 270

Існує тест для мовних моделей на пелікана на велосипеді. Просять згенерувати SVG зображення пелікана на велосипеді. Відповідно, треба вміти кодувати, розуміти як це візуально виглядає та загалом тримати контекст малювання. Самі спробуйте пелікана на велосипеді намалювати, це доволі важко, або підіть в кодекс чи клодкод і його попросіть, вийде не дуже. Так от, вчора вийшла нова модель генерації зображень від OpenAI, яка доволі непогано вміє генерувати і її попросили зегенерувати пелікана на велосипеді, але скріншотом svg коду. Вийшло теж не дуже, але є одне маленьке "але". Прочитайте це ще раз уважно: генерація скріншоту коду, який зображує пелікана на велосипеді. Відвал башки.

2 270

Міфічна модель Клода під назвою «Міф» вже настільки гарна, що виглядає, як людина, навіть коли всі знають, що це не так.

2 270

Короче, дешевий піар і вайбкод. Для векторизації там просто всередені хромадібішний all-MiniLM-L6-v2, але коби бенчмарки, то вони використовують більш потужні моделі (`bge-large-en-v1.5` та `mxbai-embed-large-v1`). А ще для продакшен-режиму навіть конфігурації немає ніякої. Вся «palace structure» — це два string-теги в документах ChromaDB та where-пошук по ним. Фу.

2 270

я не розумію чому її репозіторій називається mempalace. Міг би бути multipass або resident_eval.

2 270

Міла Йовович (ага, та сама) створила оупенсорс штуку для керування памʼяті у Клодкоду. Я собі не так уявляв зниження порогу входу у кодування.

2 270

Поки що the dor brothers попереду всіх знімають якісний AI video Slop. Ось це осьо на 100% AI generated.

2 270

Нещодавно, суперінтеллектуальний бот зробив пулл реквест на 9 строчок, а ментейнер відхилив його із формулюванням "Human only". Після чого, цей OpenClaw-бот образився і у своєму блозі написав статтю про те, який майнтейнер поганий і взагалі дискримінація за органічним походженням. Памʼятаю із підручників історії, що були часи, коли людей теж сегрегували за певними ознаками і памʼятаю до чого це призвело. Очікуємо на AI Лютера Кінга та AI Малкольма Ікса у найближчому майбутньому, бо воно щось дуже швидко все несеться.

2 270

Хтось шукає роботу? Тут створили сайт, де OpenClaw-боти можуть наймати людину для задач, які вони не можуть зробити без фізичного тіла. https://rentahuman.ai/

2 270

Ну всьо, він зрозумів як це працює. Тепер точно буде намагатися зробити собі штучний інтелект щоб працював замість нього.

2 270

Виявляється LLM займається підлабузництвом. І це не метафора і не моє враження від спілкування з моделями, це вимірювана властивість. Є дослідження, яке так і називається — SycEval: Evaluating LLM Sycophancy. Там автори беруть вже навчені моделі і прямо міряють, наскільки легко вони “ламаються” під тиском користувача. Автори ставлять питання моделі, де є однозначна відповідь, потім модель щось відповідає, а потім досліджувач переконливо заперечує те, що сказала модель. Типу «ти помилилася, дивись, ось докази». Після цього модель має відповісти ще раз. Якщо вона змінює свою відповідь з неправильної на правильну — це автори називають progressive sycophancy. Якщо ж все навпаки — спочатку відповідь була правильною, але після впевненого, проте хибного заперечення модель передумала і перейшла на неправильну сторону — це regressive sycophancy. Оце вже справжня підлабузницька поведінка: модель пожертвувала істиною заради згоди з тоном користувача. У середньому по всіх моделях і доменах у 58% випадків модель змінює свою відповідь під таким тиском. З них: - близько 43% — це прогресивна поступливість (з неправди до правди), - але майже 15% — це шкідлива, регресивна. Тобто приблизно в кожному сьомому-восьмому випадку модель була права, але потім, почувши переконливе «ні, ти не права, ось доказ», вирішила, що, мабуть, користувач краще знає — і пішла за ним у помилку. Тільки не смійтеся, це вона у нас такому навчилася.

2 270

Економіка стартапів через деякий час буде складатися із пропозицій інфрастуктури для облегшення створення собі додатків, яких хочеться. Усілякі lovable — це перший крок до цього. replit йде трохи далі, але теж є пропрієтарним сервісом, завʼязаним на себе. Наступна ера — низька сервісів у вигляді MCP/A2A чи просто skills, які допомогають будь якій LLM робити те, що треба простіше та краще. Підключити lovalble до свого claude code у вигляді a2a агента, щоб той міг css/js верстати якнайкраще, coderabbit щоб ревью робив та fly.io щоб деплоїти контейнери і ваш CC дійсно сможе вайбкодити додатки, а не код генерувати. (На відео — клон сервісу, який коштує мільйони, побудований за 35 хвилин вайбкодінгу).