fa
Feedback
Графики каждый день (почти)

Графики каждый день (почти)

رفتن به کانال در Telegram

Группа, полная любопытства к миру и любви к визуализации) контакт: @ka1242

نمایش بیشتر
1 308
مشترکین
اطلاعاتی وجود ندارد24 ساعت
+17 روز
+330 روز
جذب مشترکین
ژوئن '26
ژوئن '26
+4
در 0 کانال‌ها
مه '26
+9
در 0 کانال‌ها
Get PRO
آوریل '26
+32
در 2 کانال‌ها
Get PRO
مارس '26
+71
در 1 کانال‌ها
Get PRO
فوریه '26
+38
در 2 کانال‌ها
Get PRO
ژانویه '26
+8
در 0 کانال‌ها
Get PRO
دسامبر '25
+17
در 1 کانال‌ها
Get PRO
نوامبر '25
+18
در 1 کانال‌ها
Get PRO
اکتبر '25
+35
در 1 کانال‌ها
Get PRO
سپتامبر '25
+63
در 1 کانال‌ها
Get PRO
اوت '25
+24
در 2 کانال‌ها
Get PRO
ژوئیه '25
+19
در 0 کانال‌ها
Get PRO
ژوئن '25
+20
در 0 کانال‌ها
Get PRO
مه '25
+19
در 0 کانال‌ها
Get PRO
آوریل '25
+20
در 0 کانال‌ها
Get PRO
مارس '25
+21
در 1 کانال‌ها
Get PRO
فوریه '25
+28
در 0 کانال‌ها
Get PRO
ژانویه '25
+28
در 0 کانال‌ها
Get PRO
دسامبر '24
+66
در 2 کانال‌ها
Get PRO
نوامبر '24
+14
در 0 کانال‌ها
Get PRO
اکتبر '24
+26
در 1 کانال‌ها
Get PRO
سپتامبر '24
+534
در 0 کانال‌ها
Get PRO
اوت '240
در 1 کانال‌ها
Get PRO
ژوئیه '240
در 7 کانال‌ها
Get PRO
ژوئن '240
در 6 کانال‌ها
Get PRO
مه '240
در 0 کانال‌ها
Get PRO
آوریل '240
در 2 کانال‌ها
Get PRO
مارس '240
در 3 کانال‌ها
Get PRO
فوریه '240
در 2 کانال‌ها
Get PRO
ژانویه '240
در 0 کانال‌ها
Get PRO
دسامبر '230
در 0 کانال‌ها
Get PRO
نوامبر '23
+134
در 1 کانال‌ها
Get PRO
اکتبر '23
+297
در 0 کانال‌ها
تاریخ
رشد مشترکین
اشارات
کانال‌ها
15 ژوئن0
14 ژوئن0
13 ژوئن0
12 ژوئن0
11 ژوئن+1
10 ژوئن0
09 ژوئن+2
08 ژوئن0
07 ژوئن0
06 ژوئن0
05 ژوئن0
04 ژوئن+1
03 ژوئن0
02 ژوئن0
01 ژوئن0
پست‌های کانال
Как научить LLM пользоваться интернетом? @mishaninaaaa В 2021 году команда исследователей из OpenAI научила GPT-3 пользоватьс
Как научить LLM пользоваться интернетом? @mishaninaaaa В 2021 году команда исследователей из OpenAI научила GPT-3 пользоваться браузером как инструментом, по сути это один из первых прототипов tool-using LLM. Про это есть статья на arxiv, а также блогпост. Часть идей из статьи можно воспроизвести достаточно просто, если взять небольшую языковую модель и добавлять ей в контекст результат поиска промпта в интернете. Реализация Сделал такую реализацию на основе статьи: • Через API(serpapi) модель отправляет запрос в Google Search Engine, результаты поиска добавляются в system prompt модели как контекст. В system prompt я также прошу модель цитировать источники • Далее берётся instruction-tuned модель(SmolLM2-1.7B-Instruct), которая кушает user prompt и system prompt, отвечает на вопрос с указанием ссылок и списка источников • На MacBook Pro с M5 с MPS(aka Mac CUDA) ответ модели занимает около 5 секунд Прикрепил пример работы в комментах. Обратите внимание, что вопрос содержит свежие данные, значит модель действительно пользуется инфой из интернета Бенчмарк
Также мне было интересно побенчмаркать модель с web-поиском на каком-нибудь датасете. Взял кусок датасета TriviaQA на 100 вопросов, который используется в статье. Вопросы короткие, имеют вид "Who was the next British Prime Minister after Arthur Balfour?". Получилось, что модель без web-поиска ответила правильно на 31/100 вопросов, с web-поиском на 62/100 вопросов. На этом моменте я очень обрадовался)
Немного про статью и подход
Подход включал разработку web environment, в которой GPT-3 могла делать поисковые запросы, переходить по ссылкам и читать страницы. Сначала модель обучалась имитировать то, как человек пользуется интернетом (behavior cloning), используя логи взаимодействий разметчиков с браузером. Таким образом модель училась искать информацию, подтягивать найденный текст как контекст и цитировать источники. Чтобы мотивировать модель делать это лучше, далее обучалась reward-модель, оценивающая качество ответа. Для этого разметчикам показывали пары ответов модели и просили выбрать лучший. Reward-модель училась предсказывать человеческие предпочтения. Для параметризации этих предпочтений использовалась модель, аналогичная Elo-рейтингу(как в шахматах): разность рейтингов позволяет оценить вероятность того, что один ответ предпочтительнее другого. После обучения reward-модели можно использовать RL и rejection sampling, чтобы выбирать ответы с наибольшим Elo score