לכל אחד יש היום איזושהי דוגמה מגניבה איך סוכני AI חכמים מכינים להם קפה בבוקר, שואבים את הבית ומקפלים את הכביסה. גם אני רציתי כזה, אז החלטתי לנסות ולייצר לי צוות של סוכנים חכמים שימצאו לי עבודה חדשה.
לא, אני לא מחפש כרגע עבודה (אבל תמיד פתוח לרעיונות מעניינים).
המטרה היא ליצור סוכני AI שישתמשו במודלי שפה גדולים (LLM) בכדי למצוא לי משרה שתואמת להגדרות שהם קיבלו.
קצירת משרות
לצורך הפרוייקט הזה הייתי זקוק לאוסף משרות שהסוכנים יוכלו לבדוק. החלטתי לגרד משרות מלינקדאין בעיקר בגלל שהן באנגלית (לא רציתי כרגע להתעמק ביכולות של LLM בשפת הקודש), יחסית מובנות ויש הרבה כאלו.
בכמה שורות קוד פשוטות הצלחתי לאסוף מספר רב של משרות מוצעות בישראל מלינקדאין. בכוונה לא הגדרתי שום סינון נוסף פרט לישראל, כדי לראות איך הסוכנים יתמודדו עם הקריטריונים שלי בהמשך.
זה הקוד ששימש לאיסוף המשרות:
קיבלתי אוסף של קבצי json, אחד לכל משרה, במבנה הכללי הזה:
אספתי כמה מאות משרות, שלצורכי הפרוייקט הזה נראה לי מספק למדי (אבל אם אתם שוקלים להקים חברת השמה משלכם – צריך להשקיע הרבה יותר – לאסוף עוד משרות, מעוד מקורות וכו').
הכנת קורות החיים
לצורך ההמשך לקחתי את קורות החיים שלי, שהיו בפורמט וורד, וביקשתי מצ'ט גי.פי.טי. להמיר לי אותם לקובץ MD (מרקדאון).
כעת יש לנו את כל הנתונים הבסיסיים להמשך העבודה וליצירת הסוכנים.
לא רוצה להיות חבר של סם אלטמן. בעצם, לא אכפת לי להיות חבר שלו – רק שלא יביא איתו את צ'ט גיפיטי. לא רוצה שג'פטו ילמד אותי, יכיר אותי או ישתמש בנתונים האישיים שלי.
חברות ה-AI שמספקות צ'טים מבוססי LLM זקוקות לכמויות אדירות של מידע, טקסטואלי בעיקרו, לאימון מודלי השפה שלהם. אחת הדרכים בהן הן משיגות את המידע הזה היא באמצעות זחלני רשת (התכוונתי ל-web crawlers, מה לעשות שבעברית זה נשמע פומפוזי) הסורקים דפים באתרים שונים ברשת ומשתמשים בתוכן המצוי שם בכדי לאמן את מודלי השפה שלהם. בכדי להיות הוגן – גם הזחלנים של מנועי החיפוש (גוגל, בינג וכו') עושים את זה, והגרוע מכל – זחלנים ומאנדקסים זדוניים שסורקים את האתרים השונים בגדי למצוא חולשות שניתן לנצל לפריצה ולשליטה.
קיים ויכוח ארוך, שלא נכנס אליו עכשיו, האם תוכן שהונגש לעולם באתר שלי שייך לי או ניתן לניצול ע"י אחרים, כמו חברות ה-AI, לצרכיהם. אני לא משפטן ולא מתיימר להכריע בסוגיות כאלו, אבל הייתי רוצה שתהיה לי שליטה מסויימת בשימוש שיעשה בתוכן שלי. מצד אחד הייתי רוצה לאפשר לחיפושים למצוא תוכן רללונטי באתר. לדוגמה: אני מארח את אפליקציית עץ המשפחה באתר שלי. גוגל איפשר לי במשך השנים למצוא קרובי משפחה רחוקים ו/או אבודים שהגיעו לאתר באמצעות חיפושים שערכן, יצרו איתי קשר – וכך נולדו הכרויות חדשות ומרגשות. מצד שני – לא רוצה שישתמשו בתיזהשלי לדוקטורט שעמלתי עליה רבות.
מנגנון שליטה מסויים, רב שנים הינו הגדרת התוכן שמותר לאנדקס בקובץ ה- robots.txt באתר. זחלנים הגונים יצייתו להוראות שבו וידלגו על התוכן שאינני רוצה שיראו. ברור שזחלנים זדוניים לא יצייתו, אך האם זחלני AI ידועים יצייתו? דוגמה להגדרות כאלו מאחד הדומיינים שלי:
User-agent: *
Disallow: /css/
Disallow: /img/
לאחרונה קראתי פוסט על מלכודת דבש (honey pot) אכזרית שפיתח בחור המכונה בשם Aaron ותכליתה להעניש זחלנים שלא מצייתם להוראות. המלכודת זכתה לתגובות מעורבות של אהדה מהמתנגדים לשימוש לא הוגן בתוכן שלהם והסתייגות ממבקרי המלכודת בשל השלכות על הרשת (עומס, איכות סביבה, תוכן ירוד וכו').
המאפיינים העיקריים של המלכודת
המלכודת (שנקראת בור הזפת בתיעוד) קרויה Nepenthes, שמו של הצמח הטורף. היא מיועדת בעיקר לזחלני AI/LLM אבל כמו הצמח – "תטרוף" כל מי שיקלע לשם.
במהלך פעולתה מייצרת המלכודת מספר אינסופי של דפי תוכן, שבכל אחד מהם קישורים רבים המפנים לתוך בור הזפת. התוכן בדפים מיוצר אקראית, אבל באופן דטרמיניסטי – מה שמאפשר להם להראות כדפים רגילים שאינם משתנים.
השהייה מכוונת הוכנסה כדי למנוע מזחלנים להעמיס את השרת עליו מאוחסן האתר, וכדי לבזבז את זמנם בהמתנה.
יש אופציה להוסיף מרקוב-באבלר לדפים, כדי לתת לזחלנים טקסט לאימן מודלי השפה שלהם, בתקווה שיאיץ בסופו של דבר את קריסת המודל.
חלק מהזחלנים עוזבים אם התוכן לא חוזר בפרק זמן נתון. לצורך כך התוכן מוחזר מיידית בפיסות קטנות כדי להחזיק את החיבור חי ולהעמיס על הזחלן ככל האפשר.