YUV.AI - בינה מלאכותית בעברית
الذهاب إلى القناة على Telegram
YUV.AI - בינה מלאכותית בעברית 👉 https://yuv.ai 👈
إظهار المزيد2 428
المشتركون
+124 ساعات
لا توجد بيانات7 أيام
+5530 أيام
أرشيف المشاركات
איך נטפליקס ויוטיוב יודעים להמליץ לנו על תכנים שעשויים לעניין אותנו? כי עוד לפני שנים רבות הם הטמיעו AI במערכות שלהם כדי להבין טוב יותר את המשתמשים.
כשאנחנו מדברים על AI ועל למידת מכונה, אנחנו לפעמים לא יודעים שמתחת למכסה המנוע מסתתר עולם שנקרא "מדעי הנתונים" או Data Science. העולם הנסתר הזה, בעצם מנסה לפתור בעיות באמצעות הוכחות מספריות.
נבין את זה רקע באמצעות הצד ההפוך - נניח שאנחנו לא משתמשים בניתוח של נתונים. נניח שאנחנו נטפליקס, יש לנו המון תכנים, אנחנו רוצים למכור חבילות צפייה למשתמשים ולהרוויח כמה שיותר. אחלה. יש לנו מיליוני לקוחות וימבה כסף.
אז איפה הבעיה? שזה שיש לנו מוצר מגניב ולקוחות משלמים זה מעולה. אבל מה אם היינו יכולים גם לנסות להבין את הצופים? איך היינו ניגשים לזה?
היינו צריכים לאסוף מידע. כמה מנויים יש לנו, לאיזה מסלולים, מהם התכנים המובילים, באילו קטגוריות, מה מעניין משתמשים ומה לא, האם מגדר מסוים אוהב תוכן בסגנון אחד ומגדר אחר בסגנון שני? ומה לגבי מדינות? אולי בארץ אחת אוהבים סגנון A ואילו במקום אחר אוהבים B? ואולי גם נוכל לנסות להבין איזה תכנים יעניינו את הצופים? כי אם הם צפו ב-1 ו-2 ו-3, אולי יעניין אותם גם 4? אם צפיתי בהארי פוטר - האם אוהב את שר הטבעות? אם אני אוהב את סיינפלד (מה שנכון), האם אוהב גם את חברים (מה שסביר אבל פחות מסיינפלד. כן. פחות מסיינפלד)?
למה כל זה בכלל מעניין אותנו? כי אם נצליח להבין את המשתמשים שלנו, נוכל ליצור חוויה "תפורה" אישית לכל אחד ואחת. נמליץ לכל צופה על תוכן שרלוונטי ספציפית אליה\ו. ואז מה? יצפו יותר, יתמכרו יותר, יאהבו יותר, ירגישו שמכירים אותם יותר, הרווחים יגדלו, והחוויה תהיה טובה יותר.
ואיך אנחנו יכולים לעשות את זה?
אנחנו יכולים להגדיר מה הפעולות שעליהן נשמור מידע בבסיס הנתונים שלנו. למשל - איזור, תוכן, משך צפייה, נושאים, סדרות ועוד. לאחר מכן, נוכל לייצא דוח ולעבור ידנית על הטבלה ולנסות להסיק מסקנות. ניתוח נתונים זה נקרא. אבל ידנית זה קשה מאוד. בטח כאשר יש טונות של דאטה. טונות של מידע. מאיפה בכלל מתחילים?!
אז מסתבר שעוד לפני שנים רבות ניסו לפתור בעיות כאלה ועוד. איך? ישבו וחשבו, ואמרו: רגע, זה טונות של מידע. מה אם במקום לנתח את כל המידע הזה ידנית, פשוט נאגור אותו בכמויות ואז נזין אותו לתוך תוכנה שתנסה לזהות דפוסים, סוגים של צופים, חלוקה לקבוצות מסוימות? אולי כך נבין טוב יותר את הצופים שלנו?
כאן העלילה מסתבכת כי אנו נאלצים שוב לחזור רגע אחורה ולתהות: מה הבעיה שאנחנו מנסים לפתור? הנה מספר דוגמאות:
1. איך אנחנו מציגים המלצות לצופים על תכנים שבאמת יעניינו אותם? אנחנו לא רוצים להציג תכנים אלימים לאנשים שצופים רוב הזמן בקומדיה רומנטית למשל.
2. מה המחיר המקסימלי שלקוח ישלם על חבילת צפיה, ועל איזה מסלול הכי משתלם לתת לו את ההנחה, או מה הסיכוי שלקוח מסוים יקח מסלול יקר יותר אם נלחץ לו על נקודה מסוימת?
3. הונאות. האם מתבצעות הונאות בעת תשלום? האם ניתן לזהות תוקפים שמנסים לגשת לחשבון של לקוח ממקום אחר פתאום?
כדי להצליח לפתור כל אחת מהבעיות הללו, אנחנו צריכים מידע, דאטה, והמון ממנו. בכמויות. דאטה על משתמשים. ברגע שיש לנו את זה, אנחנו יכולים להחליט האם אנחנו רוצים גם לתייג ידנית מה נחשב לקוח "טוב" ומה לא, מה הסיכוי באחוזים שלקוח מסוים ירכוש מסלול פרימיום ומה לא, מתי הצגנו מודעה רלוונטית ומתי לא.
ברגע שיש לנו מספיק דאטה, אנחנו יכולים להחליט באיזה אלגוריתמים של למידת מכונה נרצה להשתמש, בהתאם למה שאנחנו בעצם מנסים לנבא. כאמור, יש סוגים שונים, רבים מאוד. וזה הקטע המאתגר: להבין באיזה לוגיקה משתמשים. אבל ברגע שמחליטים, ויש לנו גם דאטה, אנחנו מתחילים תהליך אימון של מודל. במסגרתו, המכונה לומדת את המידע היטב, ומתחילה תהליך אימון שבסופה נקבל קובץ כלשהו שיישמר בצד. לאחר מכן, בכל פעם, לפני שנציג לצופה המלצה מסוימת, אנחנו נעביר את המידע על המשתמש למודל, והוא ינבא מה הסיכוים שזה התוכן הרצוי, ובמידה והסיכויים גבוהים - רק אז ההמלצה תוצג.
זה קצה הקרחון. ובעצם מונחים טכניים שהזכרתי כאן כוללים:
1. למידת מכונה
2. למידת מכונה "לא מושגחת" שמסוגלת לזהות דפוסים \ דימיון בדאטה (CLUSTERING)
3. למידת מכונה "מפוקחת" או "מושגחת" שלומדת לנבא תוצאות בהתאם לתיוג שהוזן למידע מלכתחילה
מקצת הכלים שבהם מבצעים שימוש כדי לפתור את הבעיות האלה:
1. פייתון כמובן (pandas, numpy)
2. scikit-learn חבילת אלגוריתמים של למידת מכונה
3. חבילות Machine Learning לפיתוח כמו PyTorch ו-TensorFlow
תיארתי כאן הכל בצורה כללית מאוד, כדי לשמור על פשטות. עם הזמן נצלול עוד ועוד למונחים נוספים. אבל לסיכום: באמצעות מודלים של למידת מכונה, אנחנו יכולים ליצור מודל שילמד לבד איך לפתור את הבעיה שברצוננו לפתור.
קבלו 30 שניות על הכלי המדהים ששודרג לאחרונה ויוצר תמונות עם טקסט מוטמע בצורה מטריפה!
https://vt.tiktok.com/ZSFUrF58a/
תשומת לב זה כל מה שאנחנו צריכים? בואו נבין איך AI מצליח להשיב לנו בצורה אנושית - מתחת למכסה המנוע - אבל לא יותר מדי.
לפני שנשיב על זה, צריך להבין שעוד הרבה לפני עידן OpenAI היו טכניקות לבצע את זה. הרעיון די זהה: לאמן מודל שפה על כמות של טקסט כך שהוא יצליח לחזות את התו או המילה הבאה. כאשר נזין טקסט כלשהו, אותו מודל שאומן מראש על כמות גדולה של טקסט, ינסה להבין את הטקסט, ועל בסיס הידע שהוא אומן עליו, הוא גם ינחש את התו או המילה הבאה.
דוגמא כדי שנבין: לקחנו את כל האנציקלופדיה של בריטניקה לנוער (כן, אני קשיש והיה לנו כזה בבית), הזנו אותה לרשת נוירונים, ביצענו למידה ״עמוקה״, שמתאמנת על המידע, מבינה איזה מילים אמורות להגיע אחרי איזה מילים, וגם אם נזין מילים שלא הופיעו בשלב האימון, נצפה שהמודל ידע להשיב לנו. התשובה היא בעצם ניחוש סטטיסטי. בגלל שהוא קרא המון ולמד הקשרים, הוא גם מניח הנחות של איזו מילה תהיה להבא.
כך אם הוא התאמן על כל האנציקלופדיה, אם אשאל שאלה בסגנון של ״אריק אינשטיין היה״ - הוא אמור לדעת להשלים. ואם הגדלנו לעשות ואימנו את המודל גם על סוג של שאלות ותשובות, הוא ידע לענות. ״מי זה אריק איינשטיין?״ אמור לתת לנו את התשובה. לא מידע. אלא מהסקת מסקנות סטטיסטיות.
טוב. אז כל זה כבר היה לנו בסוגים שונים של רשתות נוירונים, בהן GCU ו RNN, שזה רשתות נוירונים מסוגים שונים, שמסוגלות לקבל גודל מסוים של טקסט וממנו לנסות להבין הקשרים. אבל החיסרון שלהם היה חוסר היכולת לקבל כמות גדולה מאוד של טקסט. הצורה שבה הם עובדים לא מאפשרת הבנה עמוקה מדי, מחסור בהקשרים, בשל חוסר קיבולת להסיק מטקסטים ארוכים.
ואז ב-2017 הגיע מאמר שבו מפורטת ארכיטקטורת טרנזפורמרים שנשענת על מנגנון תשומת לב. Attension. כאן החידוש הוא שבהינתן המשאבים הנכונים, אין הגבלה לגודל כמות הטקסט בשלב האימון, כך שניתן להסיק מסקנות גם מטקסטים גדולים מאוד. ויותר מזה - הוכח שככל שיש יותר מידע ויותר משאבים, גם התוצאות של החיזוי מוצלחות יותר! ולא רק זה, אלא הצורה שבה ההקשרים בין המילים מתבצעת, עובדת לתפארת. ואיך? לוקחים דגימות רנדומליות מטקסט האימון, המודל מצייר לעצמו טבלה עם ניקוד, ובה ניקוד לכל מילה שאמורה להיות הבאה בתור (בצורה הגיוניות), כמו ״אני אוהב לאכול״, אוהב יקבל ניקוד שמסמל שהוא כנראה צריך להיות אחרי אני, ולאכול אחרי אוהב, וכך הלאה.
טקסט הופך להקשרים, הקשרים למספרים, מספרים לניקוד, ניקוד לרף שמסמל את הסף לניבוי בהצלחה של המילה הבאה. הקסם הזה הוא מה שמאפשר לטרנזפורמרים להיות ככ עוצמתיים. לתת את המשקל ואת תשומת הלב להקשרים הנכונים, להניח הנחות, להבין מטקסט גדול, וכל זה באמצעות מנגנון די מרשים של מקודד ומפענח, מקודד שהופך קטעים טקסטואליים לייצוג מספרי, ומפענח שבצורה איטרטיבית (חוזרת ונשנית) מקבל את הפלט מהמקודד, ממיר אותו לטקסט, ומזין אותו שוב לעצמו, ומייצר שוב את המילה הבאה.
טרנזפורמר קיים גם במודל BERT של גוגל וגם ב GPT (זה ה-T בסוף). למה אצל גוגל זה כישלון ואצל OpenAI זו הצלחה מסחררת? בגלל האופן שבו מיושמת ארכיטקטורת הטרנספורמים והדרך שבו מנגנון תשומת הלב עובד, בגלל שיטת האימון וצורת הלמידה, ובגלל הטקסט והFine Tuning של OpenAI שלא רק משלים טקסט אלא גם מאפשר עבודה של שאלות ותשובות.
מדובר באוקיינוס של מידע, בבחינת ״רב הנסתר על הגלוי״, ויש פה עוד המון מידע שלא פירטתי לגביו ברמת המכניקה של ארכיטקטורת הטרנזפורמרים, אבל גם אם הבנו את הבסיס - זכינו. ולסיכום:
טרנזפורמר הוא סוג של מודל שמאומן על ידי למידת מכונה מסוג רשת נוירונים, למידה עמוקה
ככל שיש לרשת יותר דאטה ויותר כוח מחשוב - תוצאת הניבוי של המודל טובה יותר
ב-2017 הוצג מנגנון תשומת הלב וארכיטקטורת הטרנזפורמרים המאפשרת קידוד ופענוח בצורה גאונית. המאמר פורסם ע״י צוות של Google Brain, בו גם איליה סוצקובר הישראלי, לימים ממייסדי OpenAI והנמסיס המושבע של סם אלטמן.
אילון מאסק שמתעב את גוגל ומייקרוסופט שכנע את סוצקובר לעבור מגוגל, השקיע 50 מיליון דולר, קבע שהשם הוא OpenAI כדי לעקוץ את גוגל שהיא מודל סגור - ורצה שהחברה תהיה מלכ״ר. מוסד ללא כוונת רווח. לימים עם הצלחתה של החברה, אלטמן יעשה קומבינה, יקים חברת בת, שיהיה לה מותר לקבל השקעות של עד פי 100 מההשקעה הראשונית. קרי עד 5 מיליארד דולר. כיום אילון מאסק תבע את OpenAI היות והיא כבר שווה 90 מיליארד דולר, מה שוודאי סותר את מטרת הקמתה ואת ההשקעה הראשונית. מאסק גם הכריז על מודל שפה משלו, גרוק, שאמור לדעתי להיות מעניין מאוד על אף שהרבה סבורים שזו בדיחה לא מוצלחת שלו. אני חושב אחרת.
זה היה על טרנזפורמרים. יהיו שיכעסו כי קיצרתי טכנית, יהיו שיאהבו, יהיו מי שיגידו שלא דייקתי. אבל זה הבסיס במבט על. מקווה שנהניתם!
*יובל אבידני*
הפעם בפינתנו ״AI בקטנה״: בואו נדבר על איך עובד מודל שפה
#מודלשפה #LLM #בינהמלאכותית #למידתמכונה #טרנזפורמרים #טרנספורמרים #טרנזפורמר #טרנספורמר #AI #ML #MachineLearning #Transformers #Transformer
אזהרה ⚠️ תוקפים מנצלים את ההתלהבות ממודל הטקסט לווידאו החדש SORA ושותלים קישורים זדוניים ושקריים!
שימו לב ש OpenAI טרם פתחו את הגישה לציבור, ובמידה ותפתח, הגישה תהיה דרך הכתובת של האתר של OpenAI כפי שכל הכלים נגישים כך!
*יובל אבידני*
איך נשמע לכם סוכן AI שמבין לבד כמה הוא מסוגל לזכור ומתנהל בהתאם? זה מה ש-MemGPT מאפשר.
אז היום מסרב להסתיים: אנו עדים למירוץ מרתק בין מודלים גדולים של שפה. היות והזיכרון שלהם מוגבל, הם עומלים קשה כדי להרחיב את חלון ההקשר שלהם. קרי: את הכמות שהם מסוגלים לזכור בשיחה.
התחלנו עם כ-4000 אסימונים, המשכנו ל-8000, משם ל-16000 ול-32000, קלוד היה חלוץ עם 100,000, ואז OpenAI עם 128,000, משם קלוד עם 200,000, גוגל ג׳ימיני עם מיליון (מהלא קשורים..), עכשיו קלוד מדביק למיליון, ובקרוב GPT-5 גם יגיע לזה ואף יותר ויתן נוק אאוט משלו.
מירוץ משוגע של מי זוכר יותר. חשוב להבין, ככל שהיכולת לזכור משתפרת, כך התשובות על מאגרי ידע שמקושרים למודל השפה - טובות יותר. היום בגלל בעיות בגודל חלון ההקשר, אנחנו חותכים את המידע לחתיכות, ממירים אותו למספרים ושומרים אותו בצורה מיוחדת, אחר כך כשאנחנו שואלים שאלות, השאלות הופכות למספרים, ובאמצעות טכניקה מיוחדת משווים בין המספרים של השאלה למספרים של המידע ששמור בצד בצורה מיוחדת, ואם יש התאמה בקרבה המספרית, המספרים הקרובים נשלפים והופכים חזרה לטקסט וזה מה שאנחנו מקבלים. זו טכניקת שליפה שנקראת RAG. ההמרה למספרים נקראת Embeddings.
את כל זה אפשר לבצע יחסית בקלות בין בקוד עם לנגצ׳יין המלך, בין עם FlowiseAI (ללא קוד), בין עם Botpress, Voiceflow, Officely ועוד.
מלבד מירוץ גודל חלון הקונטקסט, קיימת טכניקה נוספת בשם MemGPT שבעצם, כדברי האגדה אנדרי קפארתי הגאון, מסתכלת על מודל שפה כשכבת הליבה של מערכת הפעלה ולא כצ׳אטבוט. כך בעצם היא משתמשת במודל השפה כדי ללמד אותו מה מגבלת הזיכרון שלו, שומרת מידע על הכונן של המחשב, ובעצם הופכת את הצ׳אט למעין חיפוש תמידי. לא רק השוואה מספרית, אלא מודל השפה בוחר מה לשמור בצד ומה לא (כמו שמירה בדיסק), לאחר מכן בכל שאלה המודל יודע מה לשלוף ומה לא, ומה לשמור בחלון ההקשר ומה לא.
כדי שנבין, לנגצ׳יין המלך כולל מספר טכניקות של זיכרון כפי שכתבתי בהרחבה בעבר. אך MemGPT מסתכל על הכל אחרת, והיישום של לנגצ׳יין כלול ב MemGPT תחת קטגוריה של זיכרון ״שיחה״, אך הוא מכיל קטגוריות נוספות בעלות עוצמה שממצבות אותו ביתרון על פני יכולות הזיכרון של לנגצ׳יין.
קחו את זה, חברו את זה ל AutoGen שהזכרתי, ויש לכם חתיכת פצצה של סוכני AI. עכשיו קחו את זה לשירות לקוחות, למכירות, לתמיכה, לפסיכולוגיה, לרפואה. וואו על היכולות. איזה כיף. אשרי הדור הזה!
*יובל אבידני*
אוקיי, וואו: אנתרופיק, האמא של מודל השפה ״קלוד״ משחררת את קלוד 3, מודל שפה משודרג שלכאורה מנצח את GPT-4 בכל הפרמטרים (אני ספקן וזהיר אבל קלוד חמוד אז מפרגן לו. בניגוד ל…)
מה חדש בו?
תומך בחלון הקשר של 200 אלף טוקנים, ומסוגל להתמודד עם שיחה שבה יש מיליון טוקנים (כמו ג׳ימיני), ולפי הדיווחים גם מסוגל לתשאל בסיס נתונים גדול.
אזכיר שקלוד היה מודל הדגל המתחרה בGPT-4 בזמנו, עם עברית מושלמת, וחירטוטים שהשם יעזור. הפעם נקווה שהוא מדויק יותר, אפשר לתת לו זהויות, פרסונות, הוא גם מולטימודל, משמע מסוגל לקבל גם טקסט וגם תמונות!
זה באמת מסקרן. היידה קלוד!
*יובל אבידני*
אוקיי שימו לב לזה: יצירת צוות של סוכנים בממשק, ללא קוד, וביצוע משימה בצורה אוטונומית!
כאן המשימה הייתה:
1. תאתר 5 מאמרים מאתר ספציפי שבו מתפרסמים מחקרים
2. צור תמונות עם דאלי (מודל יצירת התמונות של OPENAI שהוטמע גם במייקרוסופט)
3. צור קובץ PDF עם תמונה רלוונטית בעמוד הראשון, סיכום בעמוד השני שגולש גם לעמוד השלישי
כל זה הושלם בערך ב-45 שניות. ללא קוד. היכולת הזו מתאפשרת דרך היכולת של מייקרוסופט שנקראת AutoGen, ומאפשר ליצור צוותים של סוכני AI, להגדיר תקשורת ביניהם, ואת כל זה לנהל גם בממשק שנקרא AutoGen Studio.
אף פעם לא נמאס לראות את היכולות האלה משתפרות!
*יובל אבידני*
רגע לפני שבת - DeepLearning ומטא, משחררים קורס חינמי של הנדסת פרומפטים עם לאמה-2, שווה מאוד!
שבת שלום,
*יובל אבידני*
https://www.deeplearning.ai/short-courses/prompt-engineering-with-llama-2/
אמאלה איזה שווה אני!
יש אתר כל כך צנוע שנקרא KREA AI שלא רק שיצר את התמונה הזו (עזבו את הזיופים - זה בכלל המודל של סטייבל דיפיוז׳ן XL), גם ביצע החלפת פנים לפנים שלי, וגם הצליח לבצע שיפור איכות של התמונה המקורית, שנקראת בעגה המקצועית Upscale, בצורה מעוררת השתאות.
אז יש לי אמונים שאני שומר ל Artflow, אבל קודם לכן יש את KREA שאשאר נאמן גם לה - וכדאי גם לכם. איזה יפה לי וולברין!
עליתי על עוד משהו גאוני - מוקי הוא וולברין!
https://vt.tiktok.com/ZSFS2aAJL/
תם עידן ההתלהבות מ-AI, מה הלאה? בואו נדבר לאן פנינו מועדות, לעניות דעתי.
מודלים של שפה הסעירו את העולם כי הם נתנו לנו את היכולת לתשאל מידע מבלי להגדיר ידנית שאלות ותשובות. הקסם שלהם הוא היכולת לחבר אותם לאתרים ולאפליקציות שלנו ולתת להם להשיב ולחרטט בחינניות על אף המגבלות שלהם.
בהקשר של ייצור מדיה כמו מוזיקה תמונות וידאו, מודלים אחרים כמו רשתות GAN ליצירת דמויות שמעולם לא היו קיימות, הן אלה שהטריפו אותנו. כי פתאום לא צריך להיות גאוני פוטושופ או מפיקים כדי ליצור. היכולת לכתוב טקסט ולקבל מדיה היא ממש קסם אמיתי.
בינה מלאכותית יוצרת, כזו שמסוגלת ליצור, בין טקסט בין מדיה, היא זו שכיף לנו להתאהב בה. הולכים שבי אחריה. מדברים על סכנות, על הזדמנויות. על שחקנים זמרים ומתכנתים שעלולים לאבד את העבודה שלהם. אבל גם על אותם אנשים, שכנפי ציפור הדימיון שבהם יעופו לגבהים אדירים עכשיו כי אין להם שום מגבלות ליצירה. גם אם השם סוגר דלת - הוא פותח חלון. שדרכו נעוף גבוה.
ומאז עצרנו. הכל אותו הדבר אבל פשוט משתפר יותר ויותר. החכמה הגדולה היום, היא להבין איך להטמיע את היכולות האלה בארגונים, באיזה צמתים כן, באיזה לא, מתי לחבר אוטומציה ומתי אי אפשר. איך ליצור תוכן לעסק, איך לעזור למנהלי המשרד, איך לייעל עבודה מול לקוחות, איך ליצור משהו שיש לו משמעות גם לאחר.
הרצאות, סדנאות, ייעוצים, זה באמת כיף ואחלה ונחמד. אבל אני את הז׳יטונים שלי היום מניח על 2 דברים:
1. הטמעת AI בארגונים. איפיון הארגון. הבנת שיטת העבודה. המלצות פרקטיות להכנסת כלים תוך ייעול העבודה ושמירה על אבטחת מידע גבוהה.
2. צלילה לעומק בכל הקשור ליצירת מודלים מותאמים אישית, של למידת מכונה, ליצירת ניבוי / חיזוי, מדויק ויעיל יותר לעסקים. בין אם זה אבחונים רפואיים, ניבוי סגירת עסקאות נדל״ן, הבנה בזמן אמת של סנטימנט בשיחת טלפון מול לקוח בשיחת מכירה או שירות, ועוד.
ואיך אפשר בלי כמה המלצות?
כדי להטמיע AI בארגון, צריך קודם כל להבין מה הארגון עושה בכלל. מה שיטות העבודה היומיומיות הקיימות. החל משיחות טלפון דרך מענה למיילים וכלה בפגישות זום, תוכניות עבודה ועוד.
ברגע שמבינים את התהליך, צריך לחשוב איפה אפשר לשלב מודל שפה כמו פורטל פנימי לעובדים, אתר חיצוני לשירות לקוחות, מוקד שירות טלפוני, מענה למיילים, פרסום ברשתות חברתיות. וזה על קצה המזלג.
משם אפשר להתקדם לחיבורי אוטומציות כמו Zapier או Make ודומיו, שהאפשרויות שם אינסופיות.
ובכל הקשור לאימון מודלים, כאן נכנס עולם שלם שבעצם בא ואומר: יש לנו מידע. המון מידע. בין אם זה מעסקאות שביצענו. בין אם זה רישומים רפואיים. בין אם זה קמפיינים מוצלחים או ערימות של ניירת.
בואו נקח את המידע הזה ועל בסיסו ננסה לנבא את העתיד. מי חולה ומי לא, מי רמאי ומי לא, בכמה תעלה מניה מסוימת, מה יהיה מחיר אמיתי של עסקת ליסינג אל מול קנייה באופן פרטי, ועוד ועוד ועוד. אינספור אפשרויות. סופר מעניין. ומעניין שזה רץ כבר המון שנים אבל בזכות מודלים של שפה וגם רשתות נוירונים, סופסוף ניתן גם להטמיע מודלים כאלה לתשאול בשפה טבעית, זה קסם אמיתי. פיתוח מודלים כאלה והטמעתם בשילוב מודל שפה.
כל זה בעיני זה בחזרה לעתיד. מתקדמים אל עבר העתיד באמצעות חזרה לעבר שבו כבר מזמן יצרו מודלים.
מקווה שנהניתם,
*יובל אבידני*
זכיתי לכתוב על DeepFake למגזין החדשנות המדהים של אלתא(תעשייה אווירית)!
אשמח מאוד אם תקראו, אני בעמוד 18-19, ובכלל יש הרבה תוכן מעניין ששווה לכם לעקוב! אני מאוד אהבתי!
תודה למלי מרטון, עורכת המגזין, על ההזדמנות!
https://online.fliphtml5.com/fjjdt/ckmf/index.html#p=1
המבחן האמיתי של האם אנחנו מבינים מה זה AI או לא, הוא באמצעות מענה לשאלה: האם אני בכלל צריך AI לטובת משימה מסוימת או שלא?
לדוגמא:
אם אנחנו רוצים להפריד רעש מקטע קול - האם צריך AI בשביל זה או שמדובר בסינון ברמת תוכנה?
ואם אנחנו רוצים להשתמש בפילטר על וידאו - האם צריך AI בשביל זה או לא?
ואם אנחנו רוצים אוטומציה ברשתות החברתיות - האם צריך AI בשביל זה או לא?
האמת היא שבהמון מקרים נבין מהר מאוד שלא צריך AI.
מתי כן צריך AI?
כשאנחנו רוצים לחבר מודלים של שפה
כשאנחנו רוצים ליצור תמונות / סרטונים / מוזיקה באמצעות תיאורים טקסטואליים
כשאנחנו רוצים לתמלל / לתרגם
כשאנחנו רוצים לפתור בעיות כמו ניבוי של ערך מספרי בהינתן משתנים רבים - למשל, ניבוי מחיר של דירה
כאשר אנו רוצים להבין האם יש סיכוי שמשתמש ילחץ על מודעה פרסומית או לא
כאשר יש לנו ערימות של נתונים ואנחנו רוצים לחלק אותם לקבוצות כדי להבין אם יש מאפיינים דומים
או אפילו כשאנחנו רוצים שמודל ישפר את עצמו כמו מחשב שמבין איך לשחק או בכלל לפתור בעיה באמצעות שיפור עצמי.
מתי לא צריך AI?
כשלא מחברים מודל שפה בהכרח, אלא משתמשים במילות מפתח
כשאפשר לפתור בעיות באמצעות קוד קלאסי / אוטומציות פשוטות יחסית
כשאין לנו כמויות של דאטה שאנו מעוניינים להשיג ניבוי כלשהו לפיתרון בעיה
כשיש לנו יכולת להשתמש בפילטר לקול / לתמונה / לווידאו
לא חכמה לזרוק את המילה AI על כל דבר,
כן חכמה לזרוק את המילה AI כשמבינים מתי יש בה צורך.
ובהקשר של מודלים גדולים של שפה, לא לקבל את התשובות כאמת, אלא לבדוק! הם טועים המון. במיוחד בבעיות מתמטיות או שאלות רציניות. הם גם ישתפרו אבל לא לקבל את הכל כאמת מוחלטת.
ברגע שמבינים למה כן AI ולמה לא, מתחילים באמת להבין מה זה AI לעומק. לא כבאזוורד, אלא ככלי אמיתי לפיתרון בעיות.
*יובל אבידני*
הרבה דובר על Fine Tune. עוד מודל ששופר, עוד גרסא, עוד חידוש. אבל מה זה לכל הרוחות ואיך זה עוזר לנו? בואו נדבר על זה.
אנחנו כבר יודעים שיש לנו מודלים גדולים של שפה, LLMs. כאלה שאפשר לשאול אותם שאלות ולקבל תשובות. המודלים האלה אומנו על המון מידע כך שמאגר הידע שלהם אדיר. דמיינו את כל האינטרנט מונח בכף ידו של מודל שפה כלשהו. איזה ידע! אז עם כמות ידע כזו - איפה הבעיה?
מודל שפה מצליח לחזות את המילה הבאה. הוא מבין מה אנחנו שואלים (אלא אם זה מודל של גוגל חלילה), מנבא את המילה הבאה וכך בעצם משיב לנו, בהסתמך על הידע שברשותו (אלא אם הוא הוזה).
אבל מה אם לא מספיק לנו סתם ניבוי של המילה הבאה? מה אם היינו רוצים שיהיה למודל השפה אופי אחר, שהוא ישיב בצורה מסוימת (למשל בסגנון של אילון מאסק), או שהוא יתן משקל רב יותר למאגר ידע מסוים, למשל - לפוסטים של Reddit. שכל שאלה שנשאל, נקבל תשובה שמבוססת על הידע ב Reddit ולא סתם מהאינטרנט.
ומה אם גם אנחנו רוצים שהמודל לא סתם ינבא מילה, אלא גם ישיב בצורה של שאלה ותשובה. של שיחה. כמו צ׳אט מול נציג שירות. מה שנקרא Assistant?
יש לנו יכולת כיום להשתמש בטכניקת ״שליפת״ תשובות ממאגרי מידע. זה מה שנקרא RAG. לוקחים מידע, ממירים אותו למספרים באמצעות תהליך שנקרא Embeddings, שומרים את המידע בצד, בבסיס נתונים מיוחד, ווקטורי, ולאחר מכן בכל שאלה שאנו שואלים - גם היא הופכת למספרים, ונשלחת לבסיס הנתונים המיוחד לשלוף תשובות שקרובות בערכן המספרי לשאלה ששאלנו. אבל לא מספיק לשמור מידע בצד ולשאול עליו. יש כאן בעיות כמו הקשר לא מספיק גדול, בעיות באיכות התשובות ועוד.
כדי לפתור את זה, יש לנו יכולת לבצע Fine Tune, כיוונון, למודלים של שפה. כך אנחנו לא סתם מפנים למידע, אלא אנחנו ממש מוסיפים שכבות של פרמטרים (נוירונים, משקולות) לרשת הנוירונים המקורית, ובכך משנים ממש את עצם ההתנהגות של המודל עצמו. זה לא הוספה של קומה לידע, אלא שינוי של תצורת הרשת עצמה. יש טכניקות כאלה שמצריכות משאבים רבים עד כדי מחשבים חזקים. אך יש גם טכניקות אחרות, מבוססות מחקר של מייקרוסופט ומטא, שנקראות LoRA או QLoRA, שמאפשרות להוסיף את השכבות האלה לרשתות הנוירונים המקוריות, וכך באמצעות הוספה של יחסית מעט מידע, נקבל יכולת לשלוט ברשת עצמה. בהתנהגות שלה. לא רק RAG אלא ממש התנהגות אחרת של הרשת עצמה.
מי שזה מצלצל לו, LoRA גם משמש אותנו בעולמות אימון מודלים של תמונה כמו סטייבל דיפיוז׳ן. מדובר ביצירת מודלים שמשקלם קטן, והם נוספים בשאילתא לתשאול המודל המקורי והכבד. אך במקום לאמן מודל כבד, מספיק לצרף את הקובץ הקליל הזה ומתאפשר לנו לקבל תשובות אחרות ואיכותיות יותר בהרבה ממודל השפה.
אז לסיכום:
- ביצוע Fine Tune למודל שפה מאפשר לנו לשנות את הרכב רשת הנוירונים ולגרום למודל השפה להתנהג אחרת (כמו להיות עוזר של ממש ולא רק מנבא מילים)
- באמצעות שימוש בטכניקות כמו LoRA או QLoRA אנחנו יכולים ליצור מודלים קלי משקל שמשפיעים על המודלים הכבדים ומשנים את ההתנהגות שלהם
- מדובר ביכולת מאוד מעניינת, שאנו מעת לעת שומעים עליה, כמו עוד מודל Fine Tune ללאמה 2 או למודלים אחרים. זה לא רק לבנות ידע, אלא ממש לשנות התנהגות.
ואם יש לכם דיוקים למה שכתבתי אשמח לקרוא, ומקווה שהחזקתם מעמד!
*יובל אבידני*
متاح الآن! بحث تيليغرام 2025 — أهم رؤى العام 
