fa
Feedback
Єкстраполяція AI

Єкстраполяція AI

رفتن به کانال در Telegram

Канал про штучний інтеллект, айті вцілому та про програмування зокрема. На каналі оголошено військовий стан тому реклама за донат, пишіть мені @aratak і грощі сюди https://send.monobank.ua/jar/97f7LwGQJF

نمایش بیشتر
2 281
مشترکین
اطلاعاتی وجود ندارد24 ساعت
-97 روز
-830 روز
آرشیو پست ها
Різні моделі пишуть код по-різному. І мова не про якість, мовляв опус краще за gpt, а gpt краще за опус. Я про те, що моделі
Різні моделі пишуть код по-різному. І мова не про якість, мовляв опус краще за gpt, а gpt краще за опус. Я про те, що моделі треновані на різних даних, тому мають різне уявлення про те, що таке "хороший код". Звідси два висновки: 1. Код, який написаний опусом не можна ревьювити опусом. Беріть конкурентів. 2. Код, який подобається вам, не обов'язково буде подобатися моделі. Будь яка суб'єктивна оцінка коду залишається суб'єктивною. (На скріні — DeepSeek намагається покращити код, згідно своїх бачень прекрасного)

З 15 червня, claude code не буде рахувати claude -p у підписку і буде просити окремих грошей. Перейти на API подекуди вигіндінше буде. Здається, період вертолітної раздачі токенів потроху закінчується, тому готуйтеся до того, що AI-розробник буде коштувати співставно з шкіряним розробником. Буде у нас з вами якись баланс між справжніми розробниками, які можуть писати код, думати і тримати в голові ментальну модель коду і тими, іншими, які на обід ходять і яким ще спати вночі потрібно.

Всі на світі дуже швидко несуться з впровадженням моделей скрізь, намагаючись випередити по KPI використанню токенів сусідні стартапи. Прям, дуууже швидко. Ваші інстаграм-акаунти (а потенціально всі акаунти) під великою загрозою і скоріше за все ви з цим зробити нічого не можете. Якщо дуже сильно вмовляти llm-підтримку, вона вишле зловмиснику код відновлення аккаунту. Раніше був «людський фактор», а зараз це «фактор мовних моделей», мабуть буде. https://www.0xsid.com/blog/meta-account-takeover-fiasco

Банальна порада №43. З появою мільйонного контексту ліміти зʼїдаються набагато швидше. Тому що коли у вас контекст заповнений на 50k і ви пишете "привіт", то це коштує вам 50k, на наступне повідомлення у діалозі "як справи?" буде коштувати вам ще додаткові 50k. Тобто кожне повідомлення зʼїдає із загального ліміту весь поточний контекст на кожне повідомлення, навіть на виклик функції. Тому якщо у вас контекстне вікно заповненене на 500 тисяч токенів і модель викликає поспіль bash пʼять разів, то це коштує вам два с половиною мільйони токенів. Стискайте або обнуляйте контент частіше, буде вам щастя. Доречі, хто сумує за кнопкою "очистити контекст перед виконанням плану" у Клодкоді, додайте "showClearContextOnPlanAccept": true у ~/.claude/settings.json. Вони прибрали це, тому що "є мільйонний контекст і вже не обовʼязково обнулятись". Ну й тому що ліміти швидше зʼїсте, авжеж, але про це не кажуть.

Друзі, брейкін ньюз. Марʼяна Безугла, народна депутатка, купила собі компьютер від NVIDIA і запускє на ньому GPT-OSS-120B локально. Я хз як це коментувати, виходить якщо ви ще не використовуєте ШІ в роботі, то ви гірщі за Марʼяну.

Банальна порада №87. У claude code є можливість ставити хуки на різні події. Наприклад, на початок нової сесії. Поставте собі хук, щоб на початку сесії якийсь звук грав (через `afplay <шлях_до_файлу_звуку>`). Тоді ви будете знати, коли якийсь лівий додаток по підрахунку калорій чи сортуванні файлів у downloads буде запускати ваш клод із вашою підпискою собі тихесенько.

У світі розробників виник приниповий розкіл на два табори: ті, хто вважають, що LLM допомогає і є корисна, і ті, хто вважають, що це зло і треба від неї відмовитися. Звісно, обидві позиції — доволі радикальні і правда десь посередині, але я не про це. Я про те, що тільки відношення до коду, а не сам код змінює історію. Осьо є така молода мова з дурацькою назвою ZIG і є форк окремий від команди Bun, яка не планує вносити зміни у основний репозіторій, бо там дуже консервативні обмеження що до генерованого коду, тільки хендмейт. — Внучику, візьми скриптів додому, осьо дід писав. — Діду, у нас цих скриптів завались скікі є вдома. — Так то штучний інтеллект генерував, а в діда своє, натуральне.

Існує тест для мовних моделей на пелікана на велосипеді. Просять згенерувати SVG зображення пелікана на велосипеді. Відповідн
+1
Існує тест для мовних моделей на пелікана на велосипеді. Просять згенерувати SVG зображення пелікана на велосипеді. Відповідно, треба вміти кодувати, розуміти як це візуально виглядає та загалом тримати контекст малювання. Самі спробуйте пелікана на велосипеді намалювати, це доволі важко, або підіть в кодекс чи клодкод і його попросіть, вийде не дуже. Так от, вчора вийшла нова модель генерації зображень від OpenAI, яка доволі непогано вміє генерувати і її попросили зегенерувати пелікана на велосипеді, але скріншотом svg коду. Вийшло теж не дуже, але є одне маленьке "але". Прочитайте це ще раз уважно: генерація скріншоту коду, який зображує пелікана на велосипеді. Відвал башки.

Міфічна модель Клода під назвою «Міф» вже настільки гарна, що виглядає, як людина, навіть коли всі знають, що це не так.
Міфічна модель Клода під назвою «Міф» вже настільки гарна, що виглядає, як людина, навіть коли всі знають, що це не так.

Короче, дешевий піар і вайбкод. Для векторизації там просто всередені хромадібішний all-MiniLM-L6-v2, але коби бенчмарки, то вони використовують більш потужні моделі (`bge-large-en-v1.5` та `mxbai-embed-large-v1`). А ще для продакшен-режиму навіть конфігурації немає ніякої. Вся «palace structure» — це два string-теги в документах ChromaDB та where-пошук по ним. Фу.

я не розумію чому її репозіторій називається mempalace. Міг би бути multipass або resident_eval.

Міла Йовович (ага, та сама) створила оупенсорс штуку для керування памʼяті у Клодкоду. Я собі не так уявляв зниження порогу входу у кодування.

Поки що the dor brothers попереду всіх знімають якісний AI video Slop. Ось це осьо на 100% AI generated.

Нещодавно, суперінтеллектуальний бот зробив пулл реквест на 9 строчок, а ментейнер відхилив його із формулюванням "Human only". Після чого, цей OpenClaw-бот образився і у своєму блозі написав статтю про те, який майнтейнер поганий і взагалі дискримінація за органічним походженням. Памʼятаю із підручників історії, що були часи, коли людей теж сегрегували за певними ознаками і памʼятаю до чого це призвело. Очікуємо на AI Лютера Кінга та AI Малкольма Ікса у найближчому майбутньому, бо воно щось дуже швидко все несеться.

Хтось шукає роботу? Тут створили сайт, де OpenClaw-боти можуть наймати людину для задач, які вони не можуть зробити без фізичного тіла. https://rentahuman.ai/

Ну всьо, він зрозумів як це працює. Тепер точно буде намагатися зробити собі штучний інтелект щоб працював замість нього.
Ну всьо, він зрозумів як це працює. Тепер точно буде намагатися зробити собі штучний інтелект щоб працював замість нього.

Виявляється LLM займається підлабузництвом. І це не метафора і не моє враження від спілкування з моделями, це вимірювана властивість. Є дослідження, яке так і називається — SycEval: Evaluating LLM Sycophancy. Там автори беруть вже навчені моделі і прямо міряють, наскільки легко вони “ламаються” під тиском користувача. Автори ставлять питання моделі, де є однозначна відповідь, потім модель щось відповідає, а потім досліджувач переконливо заперечує те, що сказала модель. Типу «ти помилилася, дивись, ось докази». Після цього модель має відповісти ще раз. Якщо вона змінює свою відповідь з неправильної на правильну — це автори називають progressive sycophancy. Якщо ж все навпаки — спочатку відповідь була правильною, але після впевненого, проте хибного заперечення модель передумала і перейшла на неправильну сторону — це regressive sycophancy. Оце вже справжня підлабузницька поведінка: модель пожертвувала істиною заради згоди з тоном користувача. У середньому по всіх моделях і доменах у 58% випадків модель змінює свою відповідь під таким тиском. З них: - близько 43% — це прогресивна поступливість (з неправди до правди), - але майже 15% — це шкідлива, регресивна. Тобто приблизно в кожному сьомому-восьмому випадку модель була права, але потім, почувши переконливе «ні, ти не права, ось доказ», вирішила, що, мабуть, користувач краще знає — і пішла за ним у помилку. Тільки не смійтеся, це вона у нас такому навчилася.

Економіка стартапів через деякий час буде складатися із пропозицій інфрастуктури для облегшення створення собі додатків, яких хочеться. Усілякі lovable — це перший крок до цього. replit йде трохи далі, але теж є пропрієтарним сервісом, завʼязаним на себе. Наступна ера — низька сервісів у вигляді MCP/A2A чи просто skills, які допомогають будь якій LLM робити те, що треба простіше та краще. Підключити lovalble до свого claude code у вигляді a2a агента, щоб той міг css/js верстати якнайкраще, coderabbit щоб ревью робив та fly.io щоб деплоїти контейнери і ваш CC дійсно сможе вайбкодити додатки, а не код генерувати. (На відео — клон сервісу, який коштує мільйони, побудований за 35 хвилин вайбкодінгу).

Там на підході нові батареї, натрієво-сірчані. Дешеві, не вибухають, більш ємні. Там пишуть, що ноу хау складається в тому, що вчені навчилися робити батареї, які працюють за кімнатною температурою, а не 300 градусів, як натрієво-сірчані працювали до цього. Авжеж, до продажу ще роки й роки, але виглядає невеличким проривом.

Якщо раптом може здатися, що найбеспечніша галузь від втрати професії — це будування штучних інтеллектів, то теж ні. Штучний
Якщо раптом може здатися, що найбеспечніша галузь від втрати професії — це будування штучних інтеллектів, то теж ні. Штучний інтеллект теж може навчати штучний інтеллект. Так, ще поки він це робить трошки гірше за білковий інтеллект, але дайте трішечки часу і все буде як ми всі любимо. https://posttrainbench.com