ch
Feedback
AI4Dev — AI for Development

AI4Dev — AI for Development

前往频道在 Telegram

Что надо знать, чтобы остаться востребованным ИТ специалистом в мире с LLM? • Обзоры продуктов, фреймворков и способы взаимодействия с LLM для разработки софта • Реальные кейсы, pet и бизнес проекты с LLM • Публичные лекции В будущее берут не всех!

显示更多
5 242
订阅者
+124 小时
+157
+7430
帖子存档
МТС вслед за Яндексом представили свой on-premise сервис генерации и автодополнения кода Kodify. Обещают: Генерация и автодоп
+1
МТС вслед за Яндексом представили свой on-premise сервис генерации и автодополнения кода Kodify. Обещают: Генерация и автодополнение кода, Повышение продуктивности, Анализ и оптимизация кода, Многоязычная поддержка (пока Python и Java). Попробовать можно прямо на странице с описанием или запросить коммерческое предложение. Мы попробовали, и оно действительно что-то автопродлевает, а вот сгенерить код по описанию не удалось.

Завтра, 24 октября, в 12:00 доктор технических наук Владимир Крылов расскажет о программной оптимизации текстов (и промптов)
Завтра, 24 октября, в 12:00 доктор технических наук Владимир Крылов расскажет о программной оптимизации текстов (и промптов) в своей новой лекции. Она обещает быть очень насыщенной ☺️ Вы узнаете: 🔸 Как работают фреймворки TextGrad и DSPy? 🔸 Какие задачи позволяют решить эти технологии оптимизации? 🔸 Как строить RAG с использованием DSPy и что это позволяет достигнуть? 🔸 Как можно оценить перспективы использования технологий программной генерации промптов? Подключайтесь! Будем транслировать на наш YouTubе и в этот телеграм-канал.

Денис Ширяев опубликовал первые результаты его "эмпирического тестирования" . С лету все выглядит сырым, но привлекательным! Что заметил из тестов: – Агент отказывается писать комментарии или посты (в канал отказался постить, хотя нашел и я залогинился – должен был обозвать вас кожаными мешками) – У него проблемы со скролом страницы поиска, и он так зависает (случайно попадает в футер и не знает что делать) – Пока ощущения будто дурачка за компьютер посадил, но понятно куда идет – Нашел мне место где можно выпить вкусного пива и отметил его на карте, всем пока.

Anthropocene представил далеко идущую новаторскую новую возможность: использование LLM для работы с компьютером. Доступно сегодня в API , с разработчики могут направлять Клода на использование компьютеров так, как это делают люди, — глядя на экран, перемещая курсор, нажимая кнопки и печатая текст. Claude 3.5 Sonnet — первая передовая модель ИИ, предлагающая использование компьютера в публичной бета-версии. На данном этапе она все еще экспериментальная — порой громоздкая и подверженная ошибкам. Открыта бета-версия использование компьютера для получения отзывов от разработчиков и ожидается, что со временем эта возможность будет быстро улучшаться. Картина робот за клавиатурой компьютера стала реальностью.

Авторы Chatbot Arena выпустили бесплатное расширение для VS Code, которое даёт возможность тестировать LLM модели для программирования. Copilot Arena предлагает на выбор несколько вариантов автодополнений от разных моделей. Кажется отдельная арена в виде плагина может поднять на новый уровень процесс оценки моделей для кода, особенно учитывая, что автодополнения не особенно охвачены бенчмарками, рейтингами и исследованиями. В режиме арены, с постоянно новыми пользовательскими данными нет конкретного набора задач (бенчмарка), на которых можно было бы переобучить (overfitting) модель ради попадания в топ рейтинга без реально хорошего результата, а значит результаты будут относительно точными. PS: Не забывайте, что ваш код будет отправляться хостерам моделей на арене. Для опенсорсных проектов или личных экспериментов это вполне ок, но если вы создаете что-то коммерческое, наверняка вы подписывали договор, что никому не будете показывать ваш код.

Perplexity представили внутренний поиск по знаниям для бизнес клиентов. Теперь пользователи смогут одновременно искать информацию как в файлах своей организации, так и в интернете. Кроме того, компания запускает Spaces (не только для бизнеса) - ИИ хабы для совместной работы, которые можно настроить под конкретные нужды команды, будь то исследовательский проект, подготовка коммерческих предложений или создание учебных материалов. Новые возможности: - Загружать и хранить файлы (поддерживаются форматы pdf, txt, csv, xlsx, pptx, docx) - Искать информацию в файлах и в интернете - Выбирать предпочтительную модель ИИ - Задавать собственные инструкции для получения нужных ответов - Приглашать других пользователей для совместной работы Для корпоративных клиентов Perplexity обещает высокий уровень безопасности и конфиденциальности данных. В ближайшем будущем планируется добавить интеграцию с Crunchbase и FactSet.

"Мощь ИИ в вашем ПК: генеративные модели на потребительском оборудовании" — лекция, с которой выступит СТО компании Raft Алек
"Мощь ИИ в вашем ПК: генеративные модели на потребительском оборудовании" — лекция, с которой выступит СТО компании Raft Александр Константинов 16 октября в 12:00. Вы узнаете, как разворачивать и использовать модели Llama 3.1 на видеокартах вроде RTX 4090 и получить преимущества ИИ прямо у себя дома или в офисе. Подключайтесь и задавайте вопросы!

Во вторник, 15 октября, в 12:00 Анна Авдюшина расскажет об архитектуре и проектировании ML-систем на нашем YouTube-канале. Ан
Во вторник, 15 октября, в 12:00 Анна Авдюшина расскажет об архитектуре и проектировании ML-систем на нашем YouTube-канале. Анна преподаёт на факультете «Программная инженерия и компьютерная техника» и является инженером центра «Сильный искусственный интеллект в промышленности» университета ИТМО. На лекции рассмотрим ключевые аспекты разработки и развертывания систем на основе машинного обучения: выбор компонентов и их интеграции, управление данными, оркестрацию важных этапов жизненного цикла ML-проектов, от исследования данных и разработки модели до её масштабирования и поддержки на этапе эксплуатации. Подключайтесь! Будем транслировать не только на наш YouTubе, но и прямо здесь — в этот телеграм-канал.

Взяли интервью у Дмитрия Рожкова, автора канала Senior Software Vlogger, чтобы обсудить результаты его тестирования шести AI-
Взяли интервью у Дмитрия Рожкова, автора канала Senior Software Vlogger, чтобы обсудить результаты его тестирования шести AI-программистов. Дмитрий рассказал, способны ли современные ИИ-агенты справиться с реальными задачами и как эти кремниевые разработчики повлияют на ИТ-индустрию. Смотрите интервью на нашем YouTube-канале или слушайте подкаст!

"Как сравнивают LLM: бенчмарки" — новая лекция доктора технических наук Владимира Крылова на нашем YouTube-канале. Есть и в в
"Как сравнивают LLM: бенчмарки" — новая лекция доктора технических наук Владимира Крылова на нашем YouTube-канале. Есть и в виде подкаста. Из лекции вы узнаете: 🔸какие бенчмарки для определения лучших моделей сейчас наиболее типичны; 🔸как применяется шахматный рейтинг ELO для бенчмаркинга; 🔸что такое Leaderboard Arena; 🔸какие частные, но важные бенчмарки применяются для проблемно ориентированных моделей и мультимодальных LLM. Появились вопросы — задавайте в комментариях!

В продолжение: Для этого проект использует две модели o1-mini (можно изменить в настройках), одна говорит что добавлять и менять, а вторая - исполняет. Как пишет автор, первым делом он подключил своего агента к работе над собственным же кодом.

https://github.com/Doriandarko/o1-engineer Инструмент командной строки, разработанный для помощи разработчикам в эффективном управлении и взаимодействии с их проектами. Используя мощь API OpenAI, o1-engineer предоставляет такие функции, как генерация кода, редактирование файлов, планирование проекта и обзор кода, чтобы оптимизировать ваш рабочий процесс разработки. Не хотите попробовать o1 в разработке кода?

Многие приложения , работающие с локальными данными и использующие LLM, как правило содержат решения, основанные на RAG. Разработчиков может оказаться интересным ознакомиться с итогами недавно завершившегося РАГатона в https://github.com/trustbit/RAGathon . Есть все исходники победителей. Нет только самих данных. Но они доступны в Сети.

Уже завтра, 3 октября, в 12:00 доктор технических наук Владимир Крылов расскажет о бенчмарках для LLM в своей новой лекции. Р
Уже завтра, 3 октября, в 12:00 доктор технических наук Владимир Крылов расскажет о бенчмарках для LLM в своей новой лекции. Рассмотрим современные методы оценивания способностей больших языковых моделей решать различные задачи. Вы узнаете: 🔸какие бенчмарки для определения лучших моделей сейчас наиболее типичны; 🔸как применяется шахматный рейтинг ELO для бенчмаркинга; 🔸что такое Leaderboard Arena; 🔸какие частные, но важные бенчмарки применяются для проблемно ориентированных моделей и мультимодальных LLM. Подключайтесь! В этот раз будем транслировать не только на наш YouTubе, но и прямо здесь — в этот телеграм-канал. Выбирайте, где вам удобнее ☺️

По бенчмарку QuixBugs см https://jkoppel.github.io/QuixBugs/

Если кто не знает, есть такое направление в разработке ПО называется Automated Program Repair (APR). Качество инструментов для фикса багов измеряется на бенчмарке QiixBugs. Исследователи попробовали пофиксить с помощью новых моделей OpenAI o1-preview и o1-mini. Получились такие результаты : в тестах последних итераций QiixBugs модель успешно исправила все 40 ошибок, превзойдя производительность предыдущих версий по различным показателям, таким как уровень успешного фикса и эффективность реагирования. Может теперь останутся только фичи, а багов не будет совсем? https://theministryofai.org/from-bugs-to-breakthroughs-how-gpt-01-is-revolutionizing-the-world-of-automated-code-repair/

Microsoft встроили в Visual Studio искусственный интеллект в механизм создания брейкпоинтов с условиями. IDE на прокачку, как в старом шоу на MTV: «Чтобы ты мог использовать LLM, когда дебажишь свой код написанный LLM, для проекта, использующего LLM». Речь идет о брейкпоинтах со сложными условиями, в духе пропустить 5000 циклов for и отловить вызов функции с определёнными значениями параметров. Вот тут AI сам предложит вам эти самые значения (предположу, что ориентируясь на граничные значения допустимых диапазонов). Не уверен, что это очень полезная функция, но если рассматривать ее как часть процесса, в котором роботы сами пишут код и сами же исправляют ошибки, то начинает просматриваться ценность.

Подоспели первые комментарии от https://t.me/sergiobulaev Сергея: 1. Не думайте о ней как об обычной чат-модели. Это полноценный агент, работающий самостоятельно. Используйте её как умного друга, которому вы отправляете сообщение с просьбой разобраться в вопросе. Она ответит продуманными разъяснениями, разложенными по шагам. (И да, не нужно просить её думать по шагам — она и так так делает.) 2. Запишите и спроектируйте свой промпт заранее, в заметках или с помощью другой модели. Сделайте его подробным, распишите шаги и процессы, дайте как можно больше полезной информации. 3. Используйте o1-mini для задач, не требующих обширных знаний, но требующих пошагового размышления. 4. o1 обычно выдаёт сначала части решения, а потом и полное решение. o1-mini — шаги решения. 5. Как бы смешно это ни казалось, когда просите что-то изменить или дополнить, потратьте время на чёткое объяснение. Модели будет проще рассуждать, опираясь на ваши пояснения. Сегодня она довольно часто думала больше минуты. А представьте, что будет, если она будет думать часами? Это ведь уже вполне реально представить. Вот примеры промптов от OpenAI:
Instructions: - Given the React component below, change it so that nonfiction books have red text. - Return only the code in your reply - Do not include any additional formatting, such as markdown code blocks - For formatting, use four space tabs, and do not allow any lines of code to exceed 80 columns
[CODE] или
I want to build a Python app that takes user questions and looks them up in a database where they are mapped to answers. If there ia close match, it retrieves the matched answer. If there isn't, it asks the user to provide an answer and stores the question/answer pair in the database. Make a plan for the directory structure you'll need, then return each file in full. Only supply your reasoning at the beginning and end, not throughout the code.
или
What are three compounds we should consider investigating to advance research into new antibiotics? Why should we consider them?
Кстати, через Open Router o1 доступна всем (прямо всем), если что. Сергей Булаев AI 🤖 - об AI и не только

Посмотрели, хитрые (и не очень) задачки из Linguistic Benchmark Questions вроде той что на картинке или про братьев и сестер
+1
Посмотрели, хитрые (и не очень) задачки из Linguistic Benchmark Questions вроде той что на картинке или про братьев и сестер новая OpenAI o1-preview решает - надо пробовать с программированием!

Кого интересует более подробно