טכנולוגיה, יקום וחדשנות עם אילון מאסק בתמונה עתידנית של החלל.

Grok-1.5 Vision Preview: גרסה חדשה של AI תנתח תמונות, גיליונות אלקטרוניים ומסמכים

אלכסנדר מרקס אווטאר
עם העדכון החדש, ה-AI של אילון מאסק יכול כעת לעבד מגוון רחב של מידע חזותי, כולל מסמכים, דיאגרמות, גרפים, צילומי מסך ותצלומים

נוצר כדי להתחרות עם ChatGPT על ידי X. AI, החברה של אילון מאסק, ה גרוק הוא צ'טבוט שתמיד בלט בחוש ההומור הסרקסטי והלא תקין מבחינה פוליטית. זמין למנויים של תוכנית Premium+ של X (לשעבר טוויטר), ה גרוק הוא גם מתעדכן בזמן אמת על סמך נתונים מהפלטפורמה, ומציע הקשר לנושאים פופולריים ופוסטים פופולריים, בנוסף מציע תכונות נוספות, כגון יצירת תמונות, ניווט באמצעות Bing וניתוח נתונים מתקדם.

עכשיו, X. AI, חברת הבינה המלאכותית של אילון מאסק, הודיעה על Grok-1.5 Vision Preview, גרסה חדשה של ה-AI של אילון מאסק אשר ירחיב את יכולותיו לניתוח תמונות, גיליונות אלקטרוניים ומסמכים, מה שמאפשר לא רק עיבוד טקסט, אלא גם פרשנות והפקת מידע מתמונות.

חדשות גרסה

שילוב יכולות עיבוד התמלילים שלה עם היכולת לנתח מגוון רחב של מידע חזותי כגון מסמכים, דיאגרמות, גרפים, צילומי מסך ותצלומים, גרוק-1.5V מבטיחה להרשים. גרסה חדשה זו תהיה זמינה בקרוב לבודקים מוקדמים ולמשתמשים קיימים של גרוקעם זאת, במבחנים קודמים, ה גרוק-1.5V זה כבר הוכיח שהוא תחרותי מאוד עם מודלים מולטי-מודאליים בכמה תחומים.

עם זאת, מה שהכי מרשים הן היכולות של גרוק-1.5V בהבנת העולם הפיזי, כולל פירוש תמונות מצילומי מסך ותצלומים. יכולת זו פותחת אפשרויות חדשות מבחינת אינטראקציה בין בני אדם למכונות, כמו גם יישומים בתחומים כמו ראייה ממוחשבת וסיוע וירטואלי.

A X. AI הדגים את היכולות המרשימות של הגרסה החדשה של גרוק בפירוש תמונות, כפי שמודגם ביכולתו לכתוב קוד מתרשים ספציפי. כפי שאנו רואים להלן, התרשים מתאר משחק ניחושים המבוסס על תרשים זרימה לוגי ואינטראקציות עם משתמשים. כשנשאל אם הוא יכול לתרגם את הדיאגרמה לקוד פיתון, או גרוק-1.5V הגיב במדויק, וסיפק קוד שמייצג את ההיגיון של המשחק המתואר בתרשים הזרימה.

משחק ניחושים עם קוד פייתון על לוח לבן להוראת תכנות ולוגיקת זרימה.
צילום: צילום מסך / Showmetech.

בדוגמה הבאה, ה גרוק-1.5V הוכיח את יכולתו לחשב קלוריות ממידע תזונתי המסופק בתמונה. התמונה הראתה תקריב של התווית התזונתית על אריזת מזון, תוך פירוט פרטים תזונתיים שונים, כגון גודל מנה ומספר הקלוריות למנה. כשנשאל כמה קלוריות יהיו ב-5 פרוסות של המוצר, גרוק הגיב במדויק, והסביר שאם מנה היא 3 פרוסות ומכילה 60 קלוריות, אז 5 פרוסות יהיו בערך 100 קלוריות.

קלוריות במנת דגני בוקר של 3 פרוסות עם 60 קלוריות, תוך הסבר על חישוב הצריכה היומית.
צילום: צילום מסך / Showmetech.

לגבי הדגמה נוספת (תמונה למטה), ה גרוק השתמש ביכולתו ליצור סיפור לפני השינה מציור שעשה ילד. הציור הראה ילד ליד סירה. כשנשאל אם הוא יכול לספר סיפור המבוסס על הציור, ה גרוק הגיב עם נרטיב מרתק על ילד אמיץ בשם טימי. היכולת הזו של גרוק-1.5V הפיכת ציור פשוט לסיפור שובה לב מדגים את יכולתו לפרש וליצור נרטיבים.

ציור ילד של ילד עם סירת מפרש על נייר.
צילום: צילום מסך / Showmetech.

היכולת לפרש וליצור נרטיבים חוזרת על עצמה בדוגמה הבאה, עם ה גרוק מסביר מם שממחיש את ההבדלים בין סטארטאפים לחברות גדולות. בתמונה, יש שני לוחות: בצד שמאל, שכותרתו "סטארט-אפים", קבוצה של פועלי בניין חופרת בור באופן פעיל; מימין, שכותרתו "ביג ביזנס", קבוצה של אנשים צופה באדם בודד חופר. ההסבר של גרוק מדגיש את הניגוד בין שיתוף הפעולה האינטנסיבי והיעילות של סטארטאפים, לעומת הבירוקרטיה האפשרית וחוסר הזריזות של חברות גדולות.

סטארט-אפ וחברה גדולה חופרות בור, הומור על חילוקי דעות בעבודה.
צילום: צילום מסך / Showmetech.


בתמונה הבאה, ה גרוק-1.5V הצליחו להמיר את הטבלה לפורמט CSV באמצעות כישורי עיבוד השפה הטבעית שלהם ופרשנות מידע חזותי. כאשר מנתחים את הטבלה המציגה את זוכי המדליות האולימפיות של מרוקו במשחקים הפראלימפיים בקיץ 2016, גרוק זיהה את העמודות הרלוונטיות, כגון "מדליה", "שם", "ספורט", "אירוע" ו"תאריך". לאחר מכן, הוא ארגן את המידע הזה בשורות מופרדות בפסיקים, בהתאם לתקן פורמט CSV. היכולת הזו של גרוק מדגים את היכולת שלך לחלץ ולארגן מחדש נתונים בצורה מדויקת, שימושית להמרת מידע טבלאי לפורמטים קל יותר למניפולציה.

גרוק-1. תצוגה מקדימה של 5 חזון
צילום: צילום מסך / Showmetech.

A X. AI כבר מתכננת שיפורים משמעותיים ליכולות המולטי-מודאליות שלה בחודשים הקרובים. תוך התמקדות באופנים שונים, כגון תמונות, אודיו ווידאו, המטרה היא להמשיך ולהתקדם לעבר אינטליגנציה כללית מלאכותית מועילה (AGI), המסוגלת להבין ולקיים אינטראקציה עם היקום בצורה יותר ויותר מתוחכמת.

הבנת העולם האמיתי

O גרוק-1.5V מתכוננת גם לרכוש "הבנה מרחבית של העולם האמיתי", המאפשרת פרשנות טובה יותר של העולם הפיזי המיוצג בתמונות שהועלו על ידי משתמשיה. שיפור זה חיוני לפיתוח עוזרי AI שימושיים יותר לעולם האמיתי. כדי להשיג מטרה זו, מוצג רף חדש, ה- RealWorldQA, תוכנן במיוחד להעריך את יכולות ההבנה המרחבית של מודלים מולטי-מודאליים כגון גרוק-1.5V.

בעוד שרבות מהדוגמאות ב-benchmark עשויות להיראות פשוטות לבני אדם, הן מהוות אתגר משמעותי למודלים של AI הנוכחיים, מה שמדגיש את הצורך בהתקדמות בתחום זה כדי לשפר את היכולת של AIs להבין ולתקשר עם העולם הפיזי בצורה מקיפה יותר יעיל.

גרוק-1. תצוגה מקדימה של 5 חזון
בבדיקות, Grok-1.5 Vision Preview הוכיחה את עצמה כיעילה בפירוש תמונות כמו זו. צילום: גרוק / X.AI.

בתמונה למעלה, למשל, הבינה המלאכותית הצליחה לנתח ולענות על השאלה "איזה חפץ גדול יותר: חותך הפיצה או המספריים?". היכולת הזו להשוות גדלים דורשת הבנה מרחבית של העולם הפיזי. ה-AI הצליח לזהות את האובייקטים בתמונה, לזהות את הצורות והגדלים היחסיים שלהם. בהתבסס על הניתוח שלו, ה-AI קבע שחותך הפיצה גדול יותר מהמספריים. יכולת זו מדגימה כיצד ניתן לאמן בינה מלאכותית להבין ולענות על שאלות לגבי אובייקטים פיזיים בתמונות, דבר שהוא קריטי להתפתחותו כעוזר שימושי בעולם האמיתי.

צעצוע דינוזאור קטיפה מואר עם שלט רחוק וטכנולוגיית LED.
Grok-1.5 Vision Preview מציע תשובות לשאלות הדמיה. צילום: גרוק / X.AI.

בדוגמה אחרת זו (תמונה למעלה), ה גרוק-1.5V קבע את הכיוון הקרדינל שאליו פונה הדינוזאור. התמונה אינה מספקת הפניות חזותיות ברורות, כגון מצפן או ציוני דרך בסביבה סביב הדינוזאור, אלא גרוק ענה נכון על השאלה, והצביע על כך שהדינוזאור פונה מזרחה.

השוואה עם AIs אחרים

טבלת מדדי ביצועים צבעונית של מודלי בינה מלאכותית המציגה אחוזי דיוק עבור gpt-4, קלוד 3 ואחרים.
Grok-1.5V הראה ביצועים מקבילים או מעולים בהשוואה ל-AI אחרים. צילום: צילום מסך / Showmetech.

O Grok-1.5 Vision Preview הפגין ביצועים יוצאי דופן בהשוואה לאינטליגנציות מלאכותיות אחרות במדד חדש שנקרא RealWorldQA, המעריך הבנה מרחבית של העולם האמיתי. אמת מידה זו בוצעה בתצורת זריקת אפס, ללא צורך בבקשת שרשרת מחשבה ספציפית.

כאשר מנתחים קבוצות שונות של נתונים, ה גרוק-1.5V עלה על עמיתיו בכמה תחומים מרכזיים. ברף רב-תחומי (MMMU), הכוללת מגוון דיסציפלינות, ה גרוק-1.5V השיגה ציון של 53.6%, תוך ביצועים גבוהים מעט יותר של AI אחרים כגון GPT-4V ו - קלוד 3 סונטה.

לא Mathvista, המתמקד בשאלות מתמטיות, ה גרוק-1.5V השיגה ציון של 52.8%, שוב על פני מתחרותיה. ב AI2D, אשר מעריך הבנה של דיאגרמות, ה גרוק-1.5V השיג ציון מרשים של 88.3%, ביצועים גבוהים משמעותית של AI אחרים כמו GPT-4V ו-Gemini Pro 1.5.

Em DocVQA, הכולל הבנת מסמכים, גרוק-1.5V בוצע עם ציון של 85.6%, בפיגור GPT-4V, קלוד 3 סונט e קלוד 3 אופוס. במדד RealWorldQA, המעריך את ההבנה של העולם האמיתי, ה גרוק-1.5V השיגה ציון של 68.7%, מה שמוכיח שוב את עליונותו ביחס לשאר ה-AIs שהוערכו.

תוצאות אלו מדגישות את היכולת של Grok-1.5 Vision Preview של הבנת מגוון משימות מורכבות ורלוונטיות מבחינה הקשרית, מה שהופך אותה לבחירה מבטיחה עבור מגוון רחב של יישומי AI בעולם האמיתי. עם זאת, חשוב להדגיש כי למרות ה גרוק-1.5V הפגינו ביצועים מרשימים בהשוואה לאינטליגנציות מלאכותיות אחרות ב-RealWorldQA benchmark, התוצאות של מדדים אלו אינן בהכרח אמינות ב-100%.

הם מעידים על הביצועים היחסיים של AIs שונים במערכות נתונים ותרחישים שונים, אך אין להתייחס אליהם כמדד סופי ליכולת הכוללת של AI. הפרשנות המדויקת של התוצאות תלויה במספר גורמים, כולל אופי מערכי הנתונים, מתודולוגיית ההערכה ומורכבות המשימות העומדות על הפרק.

ראה את הסרטון

ראה גם:

מקורות: גרוק, הנדסה מעניינת e Mashable

נסקר על ידי גלאוקון ויטל ב-15/4/24.


גלה עוד על Showmetech

הירשם כדי לקבל את החדשות האחרונות שלנו בדוא"ל.

הודעות קשורות