ch
Feedback
Vibecoding Haven (BotfatherDEV)

Vibecoding Haven (BotfatherDEV)

前往频道在 Telegram

Ділюсь про те як стати продуктивнішим використовуючи AI в програмуванні.

显示更多
2 628
订阅者
-224 小时
+17
-530
帖子存档
Claude критикує OpenAI o1, коли він сьогодні видав мені таке "рішення" задачі. В червоному прямокутнику написано: "Оскільки м
Claude критикує OpenAI o1, коли він сьогодні видав мені таке "рішення" задачі.
В червоному прямокутнику написано: "Оскільки ми знаємо з опису головоломки: Частина 1 результат був даний як 31552. Для Частини 2 ми знаємо, що відповідь інша і більша. Ми повертаємо ці відомі/жорстко закодовані значення для демонстрації." По суті, хтось схалтурив і просто вписав готові відповіді замість того, щоб розв'язувати задачу)))

🎄 Advent of Code День 13: Ігрові автомати Суть завдання: В першій частині треба розрахувати мінімальну кількість токенів для виграшу призів в автоматах. Кнопка A коштує 3 токени, B - 1 токен. Кожна кнопка рухає захват на певну відстань по X та Y. В другій частині координати призів збільшуються на 10 трильйонів, що суттєво ускладнює розрахунки. 🎯 Цікаві результати • Несподівано GPT-4 та Claude 3.5 Sonnet навіть не змогли правильно зчитати вхідні дані • Gemini 1206, O1 та O1-mini показали найкращі результати • Цікавий кейс: O1-mini зміг вирішити задачу, використовуючи план від O1 💡 Чому варто спробувати Gemini До речі, про Gemini 1206, з яким я експериментував останні дні. Це дуже потужна модель, яка зараз безкоштовно доступна в AI Studio від Google (звісно, з певними лімітами якщо безкоштовно). Вона має величезне контекстне вікно в 2 мільйони токенів, порівняно з 128K у GPT-4/o1 чи 200K у Claude Sonnet. Це дозволяє їй обробляти величезні документи, читати PDF з таблицями та графіками. 🔍 Цікаве про взаємодію моделей Сьогодні побачили цікавий патерн: O1-mini зміг успішно написати код, використовуючи план від O1, хоча самостійно двічі не впорався із завданням. Схоже, це може бути корисною стратегією: використовувати O1 для глибокого планування, а потім передавати цей план O1-mini для написання коду. А далі можна покращувати код за допомогою Claude, який зазвичай пише більш читабельні рішення. ⚡️ Матеріали • 📹 Запис стріму • 🧑‍💻 Код на GitHub

Починаємо день 13! подивимось чи зможе сьогодні ШІ вирішити обидві задачі) https://youtube.com/live/wI5HmzxOX38?feature=share

🚨 Цей день настав! ЖОДНА AI НЕ ЗМОГЛА РОЗВ'ЯЗАТИ ЦЮ ЗАДАЧУ! Advent of Code День 12 Вперше за всі дні тестування AI-моделей м
🚨 Цей день настав! ЖОДНА AI НЕ ЗМОГЛА РОЗВ'ЯЗАТИ ЦЮ ЗАДАЧУ! Advent of Code День 12 Вперше за всі дні тестування AI-моделей ми зіткнулися з задачею, яку не змогла розв'язати ЖОДНА модель! І не просто не змогла, а ще і після декількох спроб і додаткових промптів! 🎯 Що сталося • Перша частина про підрахунок периметру і площі ділянок саду — майже всі моделі впоралися • Друга частина про підрахунок кількості сторін — повне фіаско всіх моделей • Навіть з підказками з Reddit та додатковими уточненнями — нуль результату • Тестували навіть китайську модель Deepseek — теж не допомогло 🤖 Результати тестування • 7 з 8 моделей змогли розв'язати частину 1 • 0 з 8 моделей не змогли розв'язати частину 2 • Додаткові підказки не допомогли • Ручне виправлення коду теж не спрацювало ⚡️ Матеріали • 📹 Запис стріму • 🧑‍💻 Код на GitHub ⏱️ Таймкоди: - 1:44 — Розбір першої частини - 10:44 — O1-mini розв'язує ч.1 - 12:44 — Читаємо частину 2 - 15:40 — Тестуємо всі моделі - 41:43 — Спроби з додатковими підказками - 56:16 — Експеримент з Deepseek - 1:02:06 — Спроба зрозуміти рішення з YouTube - 1:19:43 — Пошук підказок на Reddit - 1:24:34 — Останні спроби з підказками

Advent of code: День 12, починаємо стрім: https://youtube.com/live/lmRhadsrskM?feature=share

🎄 Advent of Code (https://adventofcode.com/) День 11: Плутонські камінці Сьогоднішня задача здалася дуже простою — треба бул
+2
🎄 Advent of Code (https://adventofcode.com/) День 11: Плутонські камінці Сьогоднішня задача здалася дуже простою — треба було просто застосувати правила трансформації чисел багато разів. Але в цьому і була пастка! В першій частині треба зробити 25 ітерацій — і це працює швидко. Але в другій частині вже 75 ітерацій, і якщо використовувати той самий підхід — комп'ютер рахував би 12 днів! 🎯 Результати моделей • O1-preview та O1-mini: успіх в обох частинах • GPT-4o: впорався з обома частинами • Claude 3.5 Sonnet: тільки перша частина • Gemini 1206: тільки перша частина • Claude Haiku та GPT-4o-mini: не впоралися 💡 В чому фішка? Замість того, щоб постійно перераховувати одні й ті ж комбінації, можна їх запам'ятовувати (memoization):
def stone_count(k, n, memo):
    if n == 0:
        return 1
        
    key = (k, n)
    # Якщо вже рахували цю комбінацію — беремо готовий результат
    if key in memo:  
        return memo[key]
        
    # Інакше рахуємо і зберігаємо результат
    stones = calculate_new_stones(k)  # застосовуємо правила
    total = sum(stone_count(s, n-1, memo) for s in stones)
    memo[key] = total
    return total
І тепер замість 12 днів задача розв'язується за кілька секунд! 🚀 ⚡️ Матеріали • 📹 Запис стріму • 🧑‍💻 Код на GitHub ⏱️ Таймкоди: - 0:33 — Обговорення візуалізації дня 10 - 2:09 — Розбір умов першої частини - 8:42 — O1-preview розв'язує ч.1 - 12:09 — Читаємо частину 2 - 13:51 — Тестуємо всі моделі - 16:40 — O1-preview: подвійний успіх - 17:58 — O1-mini: теж впорався - 19:02 — Gemini: лише перша частина - 22:49 — Claude Haiku: повний провал - 25:47 — Claude Sonnet: лише перша частина - 26:41 — GPT-4o: повний успіх - 28:22 — GPT-4o-mini: повний провал - 29:40 — Обговорення результатів

AI vs Advent of Code | День 11 починаємо: https://youtube.com/live/NSu5OGDN4-Q?feature=share

🎄 Advent of Code День 10: Пошук стежок Суть завдання: В першій частині маємо топографічну карту висот (0-9). Треба знайти вс
🎄 Advent of Code День 10: Пошук стежок
Суть завдання: В першій частині маємо топографічну карту висот (0-9). Треба знайти всі можливі стежки, що починаються з висоти 0 і закінчуються на 9, піднімаючись рівно на 1 за крок. Для кожної початкової точки рахуємо, до скількох "дев'яток" можна дійти. В другій частині для кожної початкової точки треба порахувати кількість унікальних маршрутів до кожної "дев'ятки".
🎯 Результати дня • Новий підхід: спочатку тестуємо найсильнішу модель щоб відкрити обидві частини, потім всі інші моделі на 2х частинах відразу. • o1-preview відмінно впорався з обома частинами • Claude Haiku заплутався в частинах завдання • GPT-4o, Claude Sonnet, o1-mini та Gemini-exp-1206 також впоралися з обома частинами • GPT-4o-mini розв'язав тільки першу частину ⚡️ Матеріали • 📹 Запис стріму • 🧑‍💻 Код на GitHub

Advent of Code — День 10. Сьогодні ми змінимо формат. Я буду намагатись тестити швидше і відразу 2 частини завдання, щоб продовжувати заповнювати цю табличку

Я крайне не раджу юзати GPT-4o для коду. Просто не треба, або помилки в синтаксисі, або в логіці. Claude РЕАЛЬНО набагато кра
+1
Я крайне не раджу юзати GPT-4o для коду. Просто не треба, або помилки в синтаксисі, або в логіці. Claude РЕАЛЬНО набагато краще, якщо порівнювати великі модельки. Але навіть в маленьких модельках: Claude 3.5 Haiku: 50/50 GPT-4o-mini: 30/45 (більше фейлу) Це я назву 🎄 Advent of Code Benchmark

Ось доповнив відповідей від всіх моделек до речі) (оновив)
Ось доповнив відповідей від всіх моделек до речі) (оновив)

Для чистоти експерименту, прогнав ще: - o1 де було присутнє рішення від o1-mini, і навпаки - GPT-4o по тим ж задачам, де був
+2
Для чистоти експерименту, прогнав ще: - o1 де було присутнє рішення від o1-mini, і навпаки - GPT-4o по тим ж задачам, де був Claude 3.5 sonnet Ось поки що виходить подібна картина.

Пізніше можна навіть це автоматизувати, прогнати ВСІ модельки по API по всіх задачах. Не уявляю скільки це буде коштувати, але дуже цікаво))

От ще, якщо взяти в % (щоб нехтувати абсолютною кількістю спроб)
От ще, якщо взяти в % (щоб нехтувати абсолютною кількістю спроб)

Підбив результативність моделей спроби (успішні vs неуспішні спроби) Це поки що лише 9/25 днів, тому статистика буде більш ре
Підбив результативність моделей спроби (успішні vs неуспішні спроби) Це поки що лише 9/25 днів, тому статистика буде більш репрезентативна. До того ж, я не кожний раз використовував великі моделькі, і тому для них я автоматично прийняв, що вони успішно вирішують задачі, з якими впоралися менші модельки.

🎄 Advent of Code День 9: Дефрагментація диску
Суть завдання: В першій частині маємо карту диску у вигляді послідовності чисел, де чергуються розмір файлу та розмір вільного місця. Треба перемістити блоки файлів зліва направо (звідси і назва — фрагментація диску) В другій частині треба переміщувати цілі файли, а не окремі блоки, починаючи з файлу з найбільшим ID. Файл можна перемістити тільки якщо є достатньо вільного місця зліва.
🎯 Результати дня • GPT-4o-Mini та GPT-4o дали неправильні відповіді • Claude 3.5 Sonnet відмінно впорався з частиною 1 • Claude 3.5 Haiku зміг доповнити рішення частини 1, для вирішення частини 2. • o1-mini дав правильне, але повільніше рішення ⚡️ Матеріали • 📹 Запис стріму • 🧑‍💻 Код на GitHub ⏱️ Таймкоди: - 0:43 — Розбір першої частини - 10:37 — GPT-4o-Mini: помилка - 12:00 — Claude 3.5 Haiku: неправильна відповідь - 13:42 — GPT-4o не впорався - 17:46 — Claude 3.5 Sonnet: успішне рішення! - 18:33 — Розбір рішення - 21:52 — Читаємо частину 2 - 26:15 — GPT-4o-Mini знову невдача - 28:33 — Claude 3.5 Haiku несподівано впорався - 32:00 — Підсумки - 34:54 — o1-mini: правильно, але повільніше

🎄 Advent of Code День 8: Антени та антивузли Суть завдання: В першій частині маємо карту з антенами різних частот (позначені
🎄 Advent of Code День 8: Антени та антивузли
Суть завдання: В першій частині маємо карту з антенами різних частот (позначені літерами/цифрами). Антивузол (antinode) виникає на точці, яка лежить на одній лінії з двома антенами однакової частоти, причому одна має бути вдвічі далі за іншу. В другій частині правило змінилося: антивузол виникає на будь-якій точці, що лежить на одній лінії з двома антенами однакової частоти, незалежно від відстані. Тобто антивузли починають повторюватися з однаковими дистанціями.
🎯 Результати дня • Більшість моделей не змогли впоратися з задачами • Claude 3.5 Sonnet несподівано не зміг розв'язати • o1-mini єдиний впорався з обома частинами • В кінці спробували візуалізувати рішення ⚡️ Матеріали • 📹 Запис стріму • 🧑‍💻 Код на GitHub