en
Feedback
nVision Digital AI בינה מלאכותית, טכנולוגיה חידושים, vibe coding ומה שבינהם

nVision Digital AI בינה מלאכותית, טכנולוגיה חידושים, vibe coding ומה שבינהם

Open in Telegram

הערוץ שמביא לכם חדשות על כל מה שחדש בתחום הAI, וה vibe coding , מודלים, כלים, וחידושים

Show more
471
Subscribers
+124 hours
+87 days
+1230 days
Posts Archive
אם אתם במקרה משתמשים כבדים של fable או סתם מוכנים לשלם אקסטרא כסף בשביל לעבוד עם המודל, שימו לב שאנתרופיק יכולה לגבות את הכסף
אם אתם במקרה משתמשים כבדים של fable או סתם מוכנים לשלם אקסטרא כסף בשביל לעבוד עם המודל, שימו לב שאנתרופיק יכולה לגבות את הכסף אבל בפועל לנתב את העבודה לאופוס. ראו תלונה של מישהו שהשקיע מעל 300 דולר כש75 אחוז מזה הלך לאופוס.

בוקר אור, זו תזכורת למי שלא שם לב : היה איפוס אתמול באנתרופיק, מזכיר שאיפוסים באנתרופיק מתאפסים לזמן המקורי. תרגום לעברית פשוטה: אם האיפוס שלכם הוא יום שבת בערב וזה אופס אתמול, אז יש לכם 100 אחוז מחדש לנצל עד שבת בערב ואז יתאפס לכם שוב. אם האיפוס שלכם היה אתמול בבוקר, אז ״הפסדתם״ , מה שהספקתם הספקתם ומה שלא. באסה. בcodex אגב כבר היו 4 איפוסים שאפשר לצבור. עוד כמה מילים על פייבל, כאמור שותה טוקנים כאילו אין מחר, מוגבל ל50 אחוז מהסשן, ובחינם עד 7/7 אח״כ זה כבר עובר רק לextra usage.

עוד קצת מידע חשוב, אם אתם בקטע של פייבל זה לא שעכשיו יש לכם 100 אחוז פייבל, זה 50 אחוז מהמכסה השבועית, אח״כ- או שתשלמו או שתעברו למודל אחר. וכל זה עד ה7 ליולי, כמובן. אח״כ זה נטו בתשלום

קניתם מנוי ל glm? (מזכיר שיש 10 אחוז הנחה בחבר מביא חבר דרך https://nvision.me) ועכשיו היישום הרשמי של z.ai שימוש דרכו 1.5 פעמים הגדלת המכסה. נחמד https://zcode.z.ai/en

אני אשים פה משהו קצת נראה לא מעניין, קצת נראה לא קשור, בטוח יחליק להמון אנשים מתחת לרדאר אני חושב שזה סוג של רגע שמשנה דברים. תראו מה קלאודפלייר הודיעו : We're opening the waitlist for our Monetization Gateway, which will allow you to charge for any web page, dataset, API, or MCP tool behind Cloudflare. The charges will settle in stablecoins over the x402 open protocol. https://blog.cloudflare.com/monetization-gateway/?utm_campaign=cf_blog&utm_content=20260701&utm_medium=organic_social&utm_source=twitter זה לא רק אתם תחשבו גדול יותר תחשבו סוכנים. כלכלת סוכנים.

ככה גוגל משיקים את המוצר הפחות שווה בתצורה של ״שיפרנו לכם את החיים.״ אבל אם נקצר הם הכניסו את זה לסטיצ. רוצים ליצור אתר ? סטיצ - שלבו אותו עם קלוד או agy שיווק https://x.com/stitchbygoogle/status/2072030987501162952?s=46

ומסתבר שזה ערב נחמד לעולם ה ai Nano banana lite 2 Gemini Omni flash הראשון לייצור תמונות מוזלות השני ליצירת Video אגב - זה הז
ומסתבר שזה ערב נחמד לעולם ה ai Nano banana lite 2 Gemini Omni flash הראשון לייצור תמונות מוזלות השני ליצירת Video אגב - זה הזמן לציין שלא כתבתי על זה אבל יצאו כמה מודלי וידיאו סיניים חדשים לאחרונה, מי שצריך שווה להציץ שם.

עוד משהו מעניין שמצאתי תכירו את קוויתוס או Qwythos אם השם נשמע לכם מוכר זה בגלל שמדובר במודל Qwen3.5-9B פרמטרים שגם עבר קוונטיזציה (יש מאמר למעלה !!!!) וגם עם חלון הקשר של 1M טוקנים. המודל עבר fine-tun ואומן על יותר מ-500 מיליון טוקנים של נתונים סינתטיים מ-Claude Mythos-5 ו-Claude Fable-5 של Anthropic. בעצם המודל נבנה כדי לשחזר את סגנון החשיבה, ה-CoT (Chain of Thought) והיכולות המתקדמות של Mythos-5 אבל בגרסה פתוחה, לא מצונזרת ומקומית. אנשים כבר מדברים על לשרשר כמה כאלה לראות איך זה עובד טוב. https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M-GGUF

כל מי שעשה מתישהו בניה רצינית, יודע שצריך code review. תעשייה רותחת. לפני כמה חודשים הבאתי לכם קוד ל3 חודשים חינם. היום (או אם נדייק אתמול) גרפטייל הוציאו מסלול חדש - עד 50 pr בחודש חינם!!!) לא הרבה אם אתם עושים פיתוח עצבני ועל כל דבר מייצרים pr לא מעט אם אתם עובדים נכון על מוצר משלכם. מומלץ בחום https://x.com/dakshgup/status/2071610227800334461/video/1?s=46

בזמן שישנתם, טיבו, מ OpenAI איפס מחדש את המכסות בcodex (משהו כמו 2:30 בבוקר שעון ישראל ) אני חושב שזו פעם שלישית השבוע. הוא ג
בזמן שישנתם, טיבו, מ OpenAI איפס מחדש את המכסות בcodex (משהו כמו 2:30 בבוקר שעון ישראל ) אני חושב שזו פעם שלישית השבוע. הוא גם כתב פוסט ארוך ממש על מה הייתה הבעיה… אם נהיה כנים לא התעמקתי. אני זוכר שהיו תלונות על אנתרופיק שנה שעברה שהמודלים דפוקים והם התעלמו במשך כמה חודשים (לי למשל ענו בתמיכה אחרי שביטלתי את המנוי שהיה לי אז) ורק אחרי כמה חודשים טובים פתאום הם מצאו 3 בעיות. פה - לפחות כפי שנראה OpenAI מקשיבה, חוקרת ומוצאת את הבעיות ואפילו מפצה - את כולם לא רק חלק ומיידית ואפילו פעמיים. אם למישהו יש דילמה בין איזו חברה עדיפה כרגע - לדעתי הוא קיבל את התשובה. על הדרך הוא הבטיח שבמהלך ה24 שעות הבאות נקבל עוד איפוס לצבירה. אז אני לא מאמין שהם יגדילו את האיפוסים הצבורים ל4, אז אם כבר הפעלתם איפוס - הרווחתם אחד חדש, ואם לא בכל מקרה קיבלתם איפוס.

דיברנו על זה שאילון מאסק תיכף מביא את grok 4.5 מודל של 1.5 טרה שלדבריו רמת אופוס. שזה נחמד כי עד עכשיו הרמה הייתה לא משהו מיו
דיברנו על זה שאילון מאסק תיכף מביא את grok 4.5 מודל של 1.5 טרה שלדבריו רמת אופוס. שזה נחמד כי עד עכשיו הרמה הייתה לא משהו מיוחד בגרוק. בנוסף שימו לב שיש פה כמה דברים מיוחדים, הוא מסביר שהם ישחררו מודל אחת לחודש המודל מאומן על הדאטה של cursor שהם קנו בתמורה ל60 מיליארד. אם לה ניסיתם - גרוק בתמונות וסרטונים מעולה. פרופורציות : אופוס הוא 1T ויש לאילון גם מודלים של 5T ו-10T שבייצור כרגע.

כמה מילים על מודלים בקוד פתוח, codex, מכסות ואיפוסים. אם יש לכם codex ומנוי gpt אז יש כמה דברים שכדאי שתדעו : 1. אפשר לעבוד ע
כמה מילים על מודלים בקוד פתוח, codex, מכסות ואיפוסים. אם יש לכם codex ומנוי gpt אז יש כמה דברים שכדאי שתדעו : 1. אפשר לעבוד עם קודקס עם מודלים בקוד פתוח. הסבר פה https://developers.openai.com/codex/config-advanced#oss-mode-local-providers 2. החברים בOpenAI מדי פעם מאפסים מכסות אבל הם גם יצרו מעין בנק של מכסות איפוס (עד 3 ) ומאפשרים לכם לצבור אותם ולאפס כרצונכם. מה זה אומר ? שאם פתאום סיימתם מכסה שבועית או חמש שעתית אבל פחות מומלץ, אתם יכולים פשוט לאפס והופה המכסה מלאה. עד היום הם נתנו 3 איפוסים. אחד מוגבל ל30 ימים בערך. ועל הדרך שוב איפסו הלילה. 3. המכסה שלכם בקלוד קוד מקבילה למכסה בצאט נכון? לא ב OpenAI. מכסות שונות. בגדול קיבלתם כפול - גם בצ׳אט וגם בטרמינל 4. קודקס עושה הרבה יותר מאשר סתם לתכנת. באמת המון. תתעניינו זה מוצר משופר מאוד שיש לו המון יכולות

זה יכול להיות מעניין למחקר, לאופטימיזציות קיצוניות, או לתרחישים מאוד מסוימים, אבל בדרך כלל ככל שיורדים נמוך יותר, כך הסיכון לפגיעה מורגשת גדל. חשוב גם להבין שלא תמיד מקוונטזים את כל המודל באותה צורה. לפעמים משאירים חלקים מסוימים בדיוק גבוה יותר, כי הם רגישים יותר. לפעמים עושים קוונטיזציה שונה לשכבות שונות. כלומר, זה לא רק "להקטין את כל המספרים", אלא לבחור איפה אפשר לחסוך ואיפה עדיף לא לגעת יותר מדי. *>>>>>>>>* לכל מי שדילג על ההסבר הטכנולוגי המעמיק - זה החלק שבו אתם מצטרפים אלינו שוב *<<<<<<* למה זה עוזר כל כך הרבה? צוואר בקבוק של מודלים גדולים הוא לא רק "כמה הם חכמים", אלא גם כמה יקר להזיז ולחשב את כל המספרים שלהם כל הזמן. כשמודל רץ, צריך לטעון את המשקלים שלו לזיכרון ולעבוד עליהם שוב ושוב. אם כל משקל תופס פחות מקום, יש פחות עומס על הזיכרון, פחות תעבורה פנימית, ולעיתים גם אפשר לבצע חישובים מהר יותר. במערכות גדולות זה מתורגם לדברים מאוד פרקטיים: פחות זיכרון GPU. יותר בקשות במקביל על אותה חומרה. זמני תגובה טובים יותר. עלות הפעלה נמוכה יותר. סיכוי טוב יותר להריץ מודל גם על מחשבים מקומיים או שרתים פחות יקרים. במילים אחרות, קוונטיזציה לא נועדה "לשפר את האינטליגנציה" של המודל. היא נועדה לשפר את היעילות שלו. מודל ״רגיל״ ירוץ על מחשב יקר, עם מאות ג׳יגה זיכרון, אפילו מעל 1000 גיגה, מודל עם קוונטיזציה יכול לתת לנו את אותם פיצ׳רים כמעט, אבל הפעם לרוץ על מכונה זולה הרבה יותר. לדוגמא, מה שהבאתי למעלה עם המודל של glm שnvidia עשתה לו קוונטיזציה. אז איפה המחיר? כמו שאמרתי למעלה, המחיר האפשרי הוא ירידה באיכות. לפעמים היא כמעט לא מורגשת, ולפעמים כן. אם הקוונטיזציה נעשתה טוב, הרבה משתמשים לא ירגישו הבדל משמעותי בשימוש רגיל. אבל יש תרחישים שבהם ההשפעה כן יכולה לצוף: משימות שדורשות דיוק גבוה מאוד. קוד, מתמטיקה או לוגיקה מורכבת. הקשרים ארוכים במיוחד. מצבים שבהם המודל כבר מלכתחילה עובד קרוב לגבול היכולת שלו. לכן כשמפרסמים גרסה מקוונטזת של מודל, לא נכון לשאול רק "האם היא מהירה יותר", אלא גם "מה היא איבדה בדרך". לפעמים התשובה היא "מעט מאוד", ולפעמים לא. למה שומעים על זה יותר בזמן האחרון? הסיבה די פשוטה: המודלים כבר גדולים, חזקים ויקרים מספיק כדי שהשאלה של יעילות תהפוך לשאלה מרכזית, לא לשולית. לפני כמה שנים עצם היכולת לבנות מודל גדול הייתה הסיפור. היום הסיפור הוא גם איך מפעילים אותו בצורה סבירה. לא רק במעבדה, אלא בשירות אמיתי, עם משתמשים אמיתיים, תקציב אמיתי, וחומרה שלא תמיד בלתי מוגבלת , לכן גם קידום של גרסאות מקוונטזות או תשתיות שמותאמות לקוונטיזציה, זה לא "עוד פיצ'ר" או סתם הודעה לעיתונות או טוויטר, אלא זה חלק מהמאמץ להפוך מודלים גדולים למשהו שאפשר באמת לפרוס, לשרת, ולתחזק בלי לשלם מחיר עצום על כל הרצה. נסכם , השורה התחתונה היא שקוונטיזציה היא דרך לייצג מודל בצורה קומפקטית יותר: פחות זיכרון, פחות עלות, ולעיתים גם יותר מהירות. הרעיון נשמע טכני, אבל המשמעות שלו מאוד מעשית. בסוף, לא תמיד השאלה היא מי בנה את המודל הכי חזק, אלא מי הצליח לקחת מודל חזק ולהפעיל אותו בצורה יעילה בלי לפגוע יותר מדי באיכות. אני אשמח להערות, הארות, תגובות וכל דבר אחר שאני אדע אם קראתם, עניין אתכם ושהיה שווה להשקיע :)

ביקשתם הסבר ״קצר״ על קוונטיזציה , אז בבקשה : מהי קוונטיזציה של מודלים, ולמה זה חשוב? מי שעוקב אחרי הערוץ או בכללי מתעניין שם לב שלאחרונה רואים יותר ויותר הכרזות על גרסאות ״מקוונטזות״ של מודלים גדולים. למי שלא עוקב מקרוב, זה נשמע כמו פרט טכני קטן. אבל בפועל, זה אחד הדברים שמשפיעים הכי הרבה על השאלה אם מודל מסוים הוא רק מרשים על הנייר, או באמת שימושי וזמין להפעלה בעולם האמיתי. נתחיל עם הגדרה פשוטה : קוונטיזציה היא תהליך שבו מקטינים את הדיוק המספרי שבו המודל מיוצג ומחושב. המטרה היא לגרום לו לתפוס פחות זיכרון, לרוץ מהר יותר, ולעלות פחות בזמן ההפעלה — בלי לאבד יותר מדי מהאיכות המקורית. אם היינו צריכים לחשוב על דימוי, אני חושב שהדימוי הכי פשוט להבנה הוא מעבר מקובץ תמונה כבד מאוד לגרסה דחוסה וחכמה שלו. לא מוחקים את התמונה, ולא בונים אותה מחדש. פשוט מייצגים את אותו מידע בצורה יעילה יותר. לפעמים כמעט לא רואים הבדל, ולפעמים כן. כולם מכירים את זה, כי כולכם העברתם תמונות מהסלולרי למחשב או ששלחתם תמונה במייל או בוואטסאפ. בסוף, כל הסיפור הוא עד כמה הצליחו לחסוך בלי לשלם מחיר מורגש בתוצאה. אז או קיי, לפני שבכלל מנסים להבין מה זה קוונטיזציה , איך היא עובדת או למה צריך אותה, צריך לשאול , ממה מודל בכלל בנוי? בוא ננסה להסביר נושא שצריך בשבילו קורס שלם של כמה שעות, בכמה משפטים, וגם ננסה לגרום לזה להיות הגיוני, מובן ויחסית - פשוט : מודל שפה בנוי מהמון מאוד מספרים. המספרים האלה נקראים משקלים, או פרמטרים. הם לא "ידע" במובן האנושי, אלא ערכים מספריים שהמודל למד בזמן האימון. במהלך האימון, המערכת משנה שוב ושוב את המספרים האלה עד שנוצרת התנהגות שמאפשרת לה לחזות את הטוקן הבא, לענות על שאלות, לסכם טקסט, לכתוב קוד וכן הלאה. כל משקל כזה הוא מספר. אבל לא רק הערך שלו חשוב — גם האופן שבו שומרים אותו בזיכרון חשוב. אם שומרים כל מספר בדיוק גבוה, צריך יותר זיכרון. אם מייצגים אותו בדיוק נמוך יותר, חוסכים מקום ומשאבים. במודלים גדולים, מדובר בכמות עצומה של מספרים. לכן גם שינוי קטן באופן הייצוג של כל אחד מהם מצטבר מהר מאוד לחיסכון גדול. אם יש מודל עם מיליארדי פרמטרים (ונניח glm 5.2 מכיל בערך 753 מיליארד כאלה, תחשבו שניה על המספר הזה לרגע), ההבדל בין ייצוג כבד לייצוג חסכוני יכול להיות ההבדל בין "צריך שרת חזק מאוד" לבין "אפשר להריץ את זה על חומרה הרבה יותר סבירה". *>>>>>>>>* >חשבתי לעצור פה, אבל אם אתם רוצים עוד יותר עומק, להבין מה משתנה ברמה הטכנולוגית, תקראו גם את הקטע הבא, ואם ההסבר הטכנולוגי עד לפה הספיק לכם, דלגו עד לחלק של ״למה זה עוזר כל כך הרבה״, למי ש״נשאר״ -בואו נבין שניה ביחד, מה מה בדיוק משתנה ברמה הטכנית, וננסה שההסבר בכל זאת יהיה פשוט *.<<<<<<<<* מחשב שומר מספרים בפורמטים שונים. חלק מהפורמטים נותנים דיוק גבוה יותר, וחלק נותנים ייצוג חסכוני יותר. במודלים, הפורמט הזה קובע כמה ביטים מוקדשים לכל מספר. ככל שמשתמשים ביותר ביטים, אפשר לייצג טווח רחב יותר של ערכים ובדרך כלל גם יותר דיוק. ככל שמשתמשים בפחות ביטים, הייצוג נהיה זול יותר — אבל גם גס יותר. כאן נכנסת הקוונטיזציה: במקום לשמור את המשקלים שעליהם דיברנו קודם, בפורמט מדויק יחסית, ממירים אותם לפורמט קטן יותר. למשל, מעבר מייצוג של 16 ביט לייצוג של 8 ביט או 4 ביט. במקרים מסוימים רואים גם 2 ביט או אפילו 1 ביט, אבל שם כבר מדובר בפשרה הרבה יותר חריפה. למה זו פשרה? כי כשמורידים את מספר הביטים, אי אפשר לייצג כל מספר בדיוק המקורי שלו. אם קודם היה למודל טווח עדין מאוד של ערכים קרובים זה לזה, עכשיו חלק מהערכים "מעוגלים" לרמות קבועות. כלומר, במקום מספר מדויק מאוד, שומרים קירוב. הקירוב הזה לא תמיד הורס את המודל. להפך: הרבה פעמים מתברר שהמודל לא באמת צריך את מלוא הדיוק בכל משקל ובכל שכבה כדי לתפקד היטב. זאת בדיוק הסיבה שקוונטיזציה עובדת לא רע בהרבה מקרים. מצד שני, אם מקטינים יותר מדי, או עושים את זה בצורה לא זהירה, מתחילים לאבד מידע שהמודל כן צריך. מה זה אומר בפועל: 8, 4, 2, 1 ביט ייצוג של 8 ביט נחשב בדרך כלל לפשרה די נוחה. הוא נותן חיסכון משמעותי לעומת ייצוגים מדויקים יותר, ובמקרים רבים שומר על איכות טובה מאוד. לכן הוא נפוץ יחסית גם בסביבות ייצור. ייצוג של 4 ביט כבר יותר אגרסיבי. כאן החיסכון בזיכרון בולט יותר, ולעיתים גם שיפור היעילות משמעותי יותר. מצד שני, צריך לבצע את ההמרה בזהירות, כי כבר יש יותר סיכוי לפגיעה באיכות. כשזה נעשה טוב, 4 ביט יכול להיות נקודת איזון טובה מאוד, במיוחד להרצה מקומית או לשירותים שרוצים לצמצם עלויות. ייצוג של 2 ביט ו-1 ביט דוחף את הרעיון הזה עוד צעד קדימה. שם כבר אין הרבה "מדרגות" לייצוג מספרים, ולכן כל משקל נשמר בצורה מאוד גסה.

אם עקבתם או לא, hermes הוא אחד הסוכנים המעניינים יותר שיש, חופף בחלק מהזמן לopenclaw אבל מכיל יש גם אפליקציה לdesktop. אני אשחק איתו יותר כדי שיהיו לי תובנות, כמובן נשלט מהטלגרם, וואטסאפ וכו׳, צריך ״מוח״ , שזה api של llm כלשהו, אבל פה זה נהיה מעניין. אני רוצה להזכיר לכם שיש מושג שנקרא moe, שזה אומר שאם נניח יש מודל של 700 מיליארד פרמטרים, אז הוא במקום שכולם יתפקדו עם כל בקשה, המודל (ואני מסביר את זה הכי פשטני וגס) מפעיל כל פעם x מומחים, שכל אחד מהם נניח 20 מיליארד פרמטרים, ואז זה חוסך עלויות, זיכרון וכו׳. כזכור, אחרי grok heavy , אנדרי קרפתי ייצר את הllm council, ואחריו לא מזמן היה את fusion של openrouter ושבוע שעבר את המודל היפני שהוא אורקסטרציה של מודלים, ועכשיו, גם hermes מאפשר לעבוד עם moa כפי שהם קוראים לזה, או mixture of agents שזה בדיוק הקונספט של תעביר את הבקשה , אורקסטרטור יפעיל x סוכנים ואז בסוף תקבל תשובה.... כמובן שאפשר דרכם, ואפשר ״בחינם״ כשאתם מספקים את הllm... https://x.com/nousresearch/status/2070610321278988385?s=46

אני מקווה שהglm יעבוד למי שמנסה. זה ספר בשם gmi cloud שחגג מיליון צפיות באייגנט שלו. כרגיל במקרים כאלה צפוי גם אופציה של 429 או rate limit כשכל העולם ואישתו יחגגו על הapi ובחדשות אחרות גם אלטמן מתנצל שוב על נושא ה״יש לנו מודל חדש אבל ממשלת ארה״ב לא נותנת לנו לתת לכם אותו אז אנחנו רק מספרים לכם עליו אבל בקרוב אולי תוכלו לקבל אותו גם , נראה איך , נעדכן אתכם ….״ https://x.com/sama/status/2070607488274358364?s=46 הוא גם טען שהוא עונה על שאלות למי שיש ושהמודל יהיה 750 טוקנים לשניה ביולי. זה המון. ומהצד השני, טיבו מעדכן על איפוס חינם שכולם מקבלים כי היו קצת תלונות של אנשים. לדעתי זה האיפוס הצבור השלישי שאמור להיות לכם. https://x.com/thsottiaux/status/2070653282440405046?s=46

החדשות הטובות : api של glm 5.2 חינם לגמרי ל12 שעות החדשות הרעות , ראיתי את זה עכשיו וזה התחיל לפני 11 שעות אם מישהו ער, פנוי ורוצה להתנסות מקווה שתספיקו להוציא מזה איזה שעה שימוש – Go to website : console.gmicloud.ai – Put in code : "GLMFree0626" – Generate a free API key – base_url = "api.gmi-serving.com/v1" – api_key = "$GMI_API_KEY" – select model (zai-org/GLM-5.2-FP8) Works with OpenCode, OpenClaude, Cursor, Zed, Hermes, and pretty much any OpenAI-compatible client.