תמונה של llm על רקע עם אלמנטים אחרים

Inside LLMs: איך ChatGPT חושב

אוואטר של לואיס אנטוניו קוסטה
הבן מה זה LLMs וכיצד הם עובדים, המוח מאחורי סוכני AI כמו ChatGPT

כל מי שנשאל איך ה ChatGPT, סוכן ה-AI הפופולרי ביותר כיום עובד, לרבים תהיה התשובה על קצה הלשון: בינה מלאכותית. אבל התשובה הזו מאוד מעורפלת. למרות היותו אחד מתחומי המחקר עם המחקר והפיתוח הגדולים ביותר כיום בתחום המחשוב, בינה מלאכותית מקיפה מספר נושאים מדעיים.

אחד מהם הוא המפתח מאחורי האופן שבו ChatGPT ורוב סוכני הבינה המלאכותית הזמינים באינטרנט עובדים: LLMs. במאמר זה נחקור בפירוט כיצד המושג הזה חולל מהפכה בבינה המלאכותית ובעולמנו.

מהם מודלים של שפה גדולה (LLMs)?

דגמי שפה גדולים (LLMs, Large Language Models, בפורטוגזית) הם אלגוריתמים עבור למידה עמוקה (למידה עמוקה, בפורטוגזית) המסוגלת לבצע סדרת משימות עיבוד שפה טבעית (עיבוד שפה טבעית, בפורטוגזית). וואו, כל כך הרבה ראשי תיבות, נכון?

LLMs משתמשים במודלים של שנאים ומאומנים באמצעות מערכי נתונים מסיביים. כמה דוגמאות למערכי נתונים פופולריים הם: LAION-2B-en, CCAW e WikiText-103. מודל שנאי עשוי להיראות כמו רובוט שהופך למכונית, אך בתחום AI זו הארכיטקטורה הנפוצה ביותר עבור LLM.

השנאי מורכב מא קוֹדַאִי (מקודד, בפורטוגזית) וא מפענח (מפענח, בפורטוגזית). בעיקרון, המקודד אחראי על הפרדת מילים של משפט או טקסט לחלקים קטנים הנקראים אסימונים, והמפענח מבצע פעולות מתמטיות לזיהוי יחסים בין האסימונים הללו.

ארכיטקטורת שנאים פשוטה
ארכיטקטורת השנאי מקודדת מילים ומשפטים במקודד ומפענח אותן עם המפענח שישמש את ה- LLM. (תמונה: Showmetech)

ההבדל הגדול בין רובוטריקים לארכיטקטורה בה נעשה שימוש לפני שנים, LSTM (זיכרון ארוך טווח קצר, או Long Short Term Memory), היא ששנאים עובדים עם מנגנוני תשומת לב עצמית, כלומר, הם מסוגלים ללמוד מהר יותר כאשר בוחנים חלקים ממשפט או אפילו ההקשר שלו, כדי ליצור תחזיות.

LLMs הן מערכות AI רב-תכליתיות, שבנוסף ליכולת לעבד שפה אנושית, יכולות לבצע גם משימות אחרות כמו ניתוח מבני חלבון ויצירת קוד תכנות. כדי לתפקד ביעילות, לימודי LLM דורשים הדרכה מוקדמת וכוונון קפדני כדי לטפל בפונקציות כמו סיווג טקסט, סיכום ותשובות לשאלות, מה שהופך אותם לבעלי ערך עבור תעשיות כמו בריאות, פיננסים ובידור.

מרכיבי מפתח

LLMs מורכבים משכבות מרובות של רשתות עצביות. ברשת עצבית (רשת נוירונים, באנגלית), בעצם משתנה משמש כקלט, מעובד עם משקלים שונים ומשוואות מתמטיות על ידי שכבה אחת או יותר, ונוצר ערך פלט.

הסוג הראשון של רשת עצבים הקיימת ב-LLMs הוא שכבת ההטמעה (שכבת הטבעה, באנגלית). הוא אחראי על תהליך ההטמעה, לכידת הסמנטיקה והמשמעות התחבירית של הקלט, כך שהמודל יוכל להבין את ההקשר.

לאחר מכן יש לנו את שכבת ההזדמנויות (FFN, Feedforward Network, באנגלית) המורכבת משכבות מרובות המחוברות זו לזו אשר הופכות את כניסות ההטמעה. בתהליך זה, שכבות אלו מאפשרות למודל לאסוף הפשטות ברמה גבוהה יותר, כלומר להבין את כוונת המשתמש עם קלט הטקסט.

מרכיבים מרכזיים של LL מתואר
הרשת העצבית, השכבה הטבעה ורשת ההזנה הם מרכיבי המפתח לתפקוד של LLM. (תמונה: Showmetech)

לאחר מכן, יש לנו את השכבה החוזרת המפרשת את המילים בטקסט הקלט ברצף. הוא אחראי ללכוד את הקשר בין מילים במשפט.

אחרון חביב, יש לנו את מנגנון הקשב המאפשר ל-LLM להתמקד בחלקים בודדים של טקסט הקלט הרלוונטיים למשימה שהוקצתה. שכבה זו מאפשרת למודל לייצר את התפוקות המתאימות והמדויקות ביותר.

איך הם עובדים

כעת, כשאנחנו יודעים מה הם LLMs ומהם מרכיבי המפתח שלהם, אנחנו יכולים להבין בצורה ברורה יותר כיצד הם עובדים. בעיקרון, LLMs מבוססי שנאים לוקחים קלט, מקודדים אותו ואז מפענחים אותו כדי לייצר פלט חזוי. עם זאת, לפני ש-LLM יכול לקחת קלט טקסט וליצור פלט חזוי, הוא זקוק לאימון לביצוע פונקציות כלליות וכוונון עדין כדי לאפשר לו לבצע משימות ספציפיות.

אימון מקדים (אימון מקדים, באנגלית) הוא תהליך קלאסי בתחום של למידת מכונה (למידת מכונה, באנגלית) בתוך בינה מלאכותית. תהליך זה, כפי שהשם מרמז, מורכב מהכשרה מוקדמת של LLMs באמצעות מערכי נתונים טקסטואליים גדולים של טריליוני מילים מאתרים כגון ויקיפדיה, GitHub, בין אחרים. אחרי הכל, ה-LLM צריך ללמוד מאיפשהו, כמו ילד קטן, נכון?

במהלך שלב זה, ה-LLM מבצע מה שנקרא למידה ללא פיקוח (למידה ללא פיקוח, באנגלית) - תהליך שבו מערכי נתונים פשוט נקראים ללא הוראות מניפולציה ספציפיות. במילים אחרות, ללא "מדריך", אלגוריתם ה-AI של ה-LLM עצמו אחראי ללימוד המשמעות של כל מילה והקשרים ביניהם. בנוסף, LLM גם לומד להבחין בין מילים על סמך הקשר. לדוגמה, היא לומדת להבין אם "ימין" פירושו "נכון" או שהוא רק "ההפך משמאל".

עכשיו תהליך הכוונון העדין (כוונון עדין, באנגלית) משמשת "להתאים" במדויק את ה-LLM לביצוע ביעילות משימות ספציפיות, כגון תרגום טקסט, אופטימיזציה של ביצועיו. התאמת הנחיות (שאלות והוראות שניתנו ל-LLM) פועלת כמעין כוונון עדין, שכן היא מסוגלת לאמן את המודל לבצע משימה מסוימת.

מודלים של למידת מכונה: אימון מקדים, למידה ללא פיקוח וכיוונון עדין.
תהליך העיצוב מאחורי LLM מורכב משלושה שלבים עיקריים: אימון מקדים, למידה ללא פיקוח וכוונון עדין. (תמונה: Showmetech)

כדי שמודל שפה גדול יבצע משימה ספציפית, כגון תרגום, עליו להיות מכוון למשימה הספציפית הזו. כוונון עדין מייעל את הביצועים עבור משימות ספציפיות.

כוונון מהיר משרת פונקציה דומה לכוונון עדין, הכשרת מודל לביצוע משימה ספציפית באמצעות הנחיות של מעט ניסוי, או הנחיות אפס ניסוי. להלן דוגמה לתרגיל "ניתוח סנטימנטים" באמצעות הנחיה של כמה יריות:

Texto de entrada: Essa casa é linda!
Sentimento da frase: Positivo

Texto de entrada: Essa casa é horrível!
Sentimento da frase: Negativo

בהתבסס על התוצאות שהתקבלו בדוגמה זו, LLM יבין, דרך המשמעות הסמנטית של "נורא" ומכיוון שסופקה דוגמה הפוכה, שהסנטימנט של המשתמש בדוגמה השנייה הוא "שלילי".

תרחישי שימוש

כפי שהזכרנו קודם, ניתן להשתמש ב-LLM למספר מטרות:

  • אִחזוּר מֵידַע: במקרה זה אנו יכולים לדמיין את השימוש בו במנועי חיפוש באינטרנט, כגון גוגל או בינג. כאשר משתמש משתמש בתכונת החיפוש של שירותים אלה, הוא משתמש ב-LLMs כדי לייצר מידע בצורה של תגובה לבקשתו. LLMs מסוגלים לאחזר מידע, לסכם אותו ולתקשר את התגובה בצורה של שיחה עם המשתמש.
  • יצירת טקסט וקוד תכנות: LLMs הם ה"מנוע" העיקרי מאחורי AI Generative כמו ChatGPT, ויכולים ליצור טקסט וקוד תכנות על סמך קלט והנחיות. לדוגמה, chatGPT מסוגל להבין דפוסים ויכול להגיב ביעילות לבקשות משתמשים כגון "כתוב שיר על פרחים בסגנון מנואל בנדיירה" או "כתוב קוד Python המסוגל למיין רשימה של סרטים בסדר אלפביתי".
  • צ'טבוטים ו-Conversational AI: LLMs כבר מסוגלים להציע שירות לקוחות באמצעות סוכני צ'טבוט המשוחחים עם צרכנים, מפרשים את משמעות השאלות והחששות שלהם, ומציעים תשובות מתאימות או הדרכה.

בנוסף לתרחישי השימוש הללו, LLMs מתגלים ככלי AI מבטיח בתחומי הטכנולוגיה, הבריאות והמדע, השיווק, המשפטים וגם לשימוש במערכות בנקאיות. כדי לתת לך מושג, LLMs מסוגלים כרגע לחזות ברמת דיוק גבוהה את התרחשות של סרטן השד פשוט מנתח סטים של דגימות תאים ברמת דיוק גבוהה יותר מאשר רופאים מנוסים רבים.

רובוט מדבר עם רופא על רקע עם גרפיקה
תחום הבריאות יכול ליהנות מאוד משימוש ב- LLMS לאוטומציה של משימות. (תמונה: רפרודוקציה/קוגיטוטק)

לימודי תואר שני ושנאי טרום-אימונים (GPT)

O שנאי מיומן גנראטיבי (GPT) הוא סוג מסוים של LLM המשתמש בארכיטקטורת שנאי ופותח על ידי חברת Openai. זה נועד להבין, לייצר ולתפעל שפה טבעית (כמו פורטוגזית או אנגלית) בצורה יעילה ומציאותית ביותר.

לפירוט השם, נוכל להבין טוב יותר מהו GPT:

  • מוֹלִיד (גנרטיבי, בפורטוגזית): מציין שהמודל יוצר טקסט, כלומר הוא מסוגל לייצר משפטים חדשים, תשובות, סיכומים, קודים וכו'.
  • מאומן מראש (אומן מראש, בפורטוגזית): המשמעות היא שהוא מאומן מראש על כמות גדולה של טקסט מהאינטרנט, כגון ספרים, מאמרים, אתרי אינטרנט ואחרים. לאחר מכן ניתן להתאים אותו למשימות ספציפיות.
  • שַׁנַאי: כפי שהזכרנו קודם לכן, זוהי ארכיטקטורת הרשת העצבית המספקת את הבסיס למודל. זה מאוד בר-מקביל (יכול לבצע מספר משימות בו-זמנית) ויעיל בטיפול ברצפים ארוכים של טקסט.
Openia Chatgpt עם מוח בצד ומעגלים אלקטרוניים
ChatGPT, מחברת OpenAI, הוא סוכן ה-AI המפורסם ביותר שמשתמש במודל ה-GPT. (תמונה: רפרודוקציה/ידע)

ההבדל הגדול בין GPT ללימודי LLM אחרים הוא שלב ההכשרה שלו, המורכב מ-3 תהליכים שונים:

  • אימון מקדים: כמויות אדירות של נתונים מופקות מהאינטרנט, ספרים ואפילו סרטונים ומוזיקה, ואז מעובדים לאסימונים.
  • הוראות כוונון עדין: כאן "מלמדים" את המודל כיצד עליו להגיב להוראות ספציפיות, תוך יישור תגובותיו כך שיהיו מדויקות יותר.
  • למידת חיזוק על ידי משוב אנושי: בדומה לכוונון עדין, כאן ה"הוראה" נעשית באמצעות משוב אנושי שגורם לתהליך של "למידת חיזוק", כאשר ה-AI לומד מה "נכון" ומה "לא נכון" באמצעות חזרות ומידע שמסופקים על ידי גורם חיצוני, במקרה זה, המשתמש שמשתמש ב-AI.

היסטוריה: ממיליארדי מילים לטקסטים מורכבים

למרות שהפריחה במודלים של שפה התרחשה רק ב-2017, מאז 1990 מודלי היישור של IBM היו חלוצים במודלים סטטיסטיים של שפות. בשנת 2001, מודל שהוכשר על 3 מיליון מילים השיג את "מצב אמנות" מבחינת דיוק בפירוש טקסטים ובניית משפטים מגובשים.

בינה מלאכותית וטכנולוגיה במוקד, תוך הדגשת משאבים חדשניים והתקדמות טכנולוגית מודרנית.
מיליון על מיליון, LLMs הפכו חזקים יותר וביצעו משימות מורכבות יותר. (תמונה: Reproduction/Singularity Hub)

משנת 2012 ואילך רשתות עצביות זכה לגדולה יותר בעולם ה-AI ועד מהרה החל לשמש למשימות שפה. בשנת 2016, גוגל אימצה את תרגום מכונה עצבית (תרגום מכונה עצבית, בפורטוגזית) תוך שימוש במודלים המבוססים על תפיסה זו. בשנת 2018, חברת OpenAI הלכה על כל הקופה בפיתוח סוכני AI המבוססים על LLMs והשיקה את GPT-1 לבדיקה, ורק בשנה שלאחר מכן החל GPT-2 למשוך תשומת לב ציבורית בגלל השימושים הלא אתיים הפוטנציאליים שלו.

בשנת 2020 ה GPT-3 הגיע עם גישה מוגבלת רק דרך API, אבל רק בשנת 2022 תפס ChatGPT (סוכן הבינה המלאכותית "מופעל" על ידי GPT-3) את תשומת הלב של הציבור ברחבי העולם.
GPT-4 אמור להשיק בשנת 2023 עם יכולות רב-מודליות, אם כי פרטים טכניים לא פורסמו. בשנת 2024 השיקה OpenAI את דגם o1, התמקד ביצירת שרשראות ארוכות של היגיון. כלים אלה הניעו את האימוץ הנרחב של לימודי LLM בתחומי מחקר מגוונים.

צ'אטגפט, בינה מלאכותית, עוזר וירטואלי, חדשנות טכנולוגית.
החל משנת 2022, LLMs צברו בולטות עולמית כאשר נעשה בהם שימוש ב-ChatGPT, אחד מסוכני ה-AI הפופולריים בכל הזמנים. (תמונה: רפרודוקציה/OpenAI)

נכון לשנת 2024, כל ה-LLMs הגדולים והיעילים ביותר מבוססים על ארכיטקטורת השנאים, כאשר חלק מהחוקרים מתנסים ובודקים עם ארכיטקטורות אחרות, כגון רשתות עצביות חוזרות ונשנות (רשתות עצביות חוזרות, בפורטוגזית).

היתרונות והמגבלות של לימודי תואר שני

עם מגוון רחב של יישומים, LLMs מועילים במיוחד לפתרון בעיות שכן הם מספקים מידע בסגנון ברור ופשוט שקל למשתמשים להבין. בנוסף, ניתן להשתמש בהם לתרגום שפה, השלמת משפטים, ניתוח סנטימנטים, מענה לשאלות, משוואות מתמטיות ועוד.

הביצועים של LLMs משתפרים כל העת ככל שהם גדלים ככל שמתווספים יותר נתונים ופרמטרים. במילים אחרות, ככל שתלמדו יותר, אתה מקבל טוב יותר. בנוסף, מודלים בשפה גדולה יכולים להציג את מה שמכונה "למידה בהקשר." לאחר הכשרה מראש של LLM, ההנחיה המעטה מאפשרת למודל ללמוד מהנחיה ללא פרמטרים נוספים. בדרך זו הוא לומד ברציפות.

על ידי הדגמת למידה בהקשר, תלמידי LLM לומדים במהירות מכיוון שהם אינם דורשים משקל, משאבים ופרמטרים נוספים לאימון. הם מהירים במובן זה שהם לא דורשים הרבה דוגמאות כדי להפוך ל"אינטליגנטים" יותר.

למידה מוחית ממספר מקורות
כמו כל האלגוריתמים מבוססי בינה מלאכותית, LLMs לומדים טוב יותר ככל שהם צורכים ומנתחים יותר נתונים. (תמונה: שכפול / מובנה)

תכונה מרכזית של LLMs היא היכולת שלהם להגיב לשאילתות בלתי צפויות. תוכנית מחשב מסורתית, למשל, מקבלת פקודות בתחביר המקובל שלה או מקבוצה נתונה של קלט משתמש. מצד שני, LLM יכול להגיב לשפה אנושית טבעית ולהשתמש בניתוח נתונים כדי לענות על שאלה או בקשה לא מובנית בצורה הגיונית. בעוד שתוכנת מחשב טיפוסית לא תזהה הנחיה כמו "מהן חמש להקות הרוק הגדולות בהיסטוריה?", LLM יכול להגיב עם רשימה של חמש להקות כאלה והסבר משכנע למדי למה הן הטובות ביותר.

עם זאת, מבחינת המידע שהם מספקים, LLMs יכולים להיות אמינים רק כמו הנתונים שהם מקבלים. אם הם יקבלו מידע שקרי בשלב הטרום-הכשרה, הם יספקו מידע שקרי בתגובה לשאילתות המשתמשים. לפעמים אנשי LLM יכולים גם "להזות" על ידי יצירת תשובות ואפילו מקורות ספרותיים מזויפים כאשר הם אינם מסוגלים לייצר תשובה מדויקת.

לדוגמה, בשנת 2022, סוכנות הידיעות חברה מהירה שאל את ChatGPT על הרבעון הפיננסי הקודם של החברה טסלה. בעוד ש-ChatGPT סיפק כתבה חדשותית קוהרנטית בתגובה, חלק ניכר מהמידע הכלול בו הומצא. מכיוון שמדובר במערכת מבוססת בינה מלאכותית, ידוע שהיא משתפרת כל הזמן, אך עדיין לא נכון לסמוך על 100% מהתגובות שמפיקות LLMs.

מבחינת האבטחה, יישומים הפונים למשתמש המבוססים על LLMs מועדים לאגים כמו כל יישום אחר. ניתן גם לתמרן חומרי LLM באמצעות קלט זדוני כדי לספק סוגים מסוימים של תגובות על פני אחרים, כולל תגובות מסוכנות או לא אתיות.

לגו צ'טבוט עושה טעויות במשימות
מערכות AI המבוססות על LLMs עדיין אינן חסינות תקלות, ועלולות לעשות טעויות ולהגיב עם מידע שקרי. (תמונה: Reproduction/IEEE Spectrum)

לבסוף, אחת מבעיות האבטחה עם LLMs היא שמשתמשים יכולים להעלות נתונים מאובטחים וסודיים כדי להגדיל את הפרודוקטיביות שלהם. אבל LLMs משתמשים בקלט שהם מקבלים כדי להכשיר את המודלים שלהם, ואינם מתוכננים להיות כספות מאובטחות, מכיוון שהם יכולים לחשוף נתונים רגישים בתגובה לשאילתות של משתמשים אחרים.

לימודי תואר שני והאינטליגנציה מאחורי מילים

כמו ילד משוחרר בספרייה ענקית, LLMs הן מערכות AI חכמות שלומדות להבין ולשחזר שפה אנושית טבעית על סמך כמויות אדירות של נתונים. תוך מתן יתרונות רבים למשתמשים רגילים והפיכתם לכלי עזר רב עוצמה בסביבה המקצועית, עדיין יש ללמוד היטב את היכולות והסכנות של LLMs.

ואתה, מה חשבת על ההסבר במאמר זה על לימודי תואר שני? השאירו את דעתכם בתגובות.

ראה עוד

מקורות: חיפוש אלסטי, CloudFare, יבמ

נסקר על ידי טיאגו רודריגס בתאריך 16/04/2025


גלה עוד על Showmetech

הירשם כדי לקבל את החדשות האחרונות שלנו בדוא"ל.

הודעות קשורות