סם אלטמן – עזוב אותי!

לא רוצה להיות חבר של סם אלטמן. בעצם, לא אכפת לי להיות חבר שלו – רק שלא יביא איתו את צ'ט גיפיטי. לא רוצה שג'פטו ילמד אותי, יכיר אותי או ישתמש בנתונים האישיים שלי.

חברות ה-AI שמספקות צ'טים מבוססי LLM זקוקות לכמויות אדירות של מידע, טקסטואלי בעיקרו, לאימון מודלי השפה שלהם. אחת הדרכים בהן הן משיגות את המידע הזה היא באמצעות זחלני רשת (התכוונתי ל-web crawlers, מה לעשות שבעברית זה נשמע פומפוזי) הסורקים דפים באתרים שונים ברשת ומשתמשים בתוכן המצוי שם בכדי לאמן את מודלי השפה שלהם. בכדי להיות הוגן – גם הזחלנים של מנועי החיפוש (גוגל, בינג וכו') עושים את זה, והגרוע מכל – זחלנים ומאנדקסים זדוניים שסורקים את האתרים השונים בגדי למצוא חולשות שניתן לנצל לפריצה ולשליטה.

קיים ויכוח ארוך, שלא נכנס אליו עכשיו, האם תוכן שהונגש לעולם באתר שלי שייך לי או ניתן לניצול ע"י אחרים, כמו חברות ה-AI, לצרכיהם. אני לא משפטן ולא מתיימר להכריע בסוגיות כאלו, אבל הייתי רוצה שתהיה לי שליטה מסויימת בשימוש שיעשה בתוכן שלי. מצד אחד הייתי רוצה לאפשר לחיפושים למצוא תוכן רללונטי באתר. לדוגמה: אני מארח את אפליקציית עץ המשפחה באתר שלי. גוגל איפשר לי במשך השנים למצוא קרובי משפחה רחוקים ו/או אבודים שהגיעו לאתר באמצעות חיפושים שערכן, יצרו איתי קשר – וכך נולדו הכרויות חדשות ומרגשות. מצד שני – לא רוצה שישתמשו בתיזהשלי לדוקטורט שעמלתי עליה רבות.

מנגנון שליטה מסויים, רב שנים הינו הגדרת התוכן שמותר לאנדקס בקובץ ה- robots.txt באתר. זחלנים הגונים יצייתו להוראות שבו וידלגו על התוכן שאינני רוצה שיראו. ברור שזחלנים זדוניים לא יצייתו, אך האם זחלני AI ידועים יצייתו? דוגמה להגדרות כאלו מאחד הדומיינים שלי:

User-agent: *
Disallow: /css/
Disallow: /img/

לאחרונה קראתי פוסט על מלכודת דבש (honey pot) אכזרית שפיתח בחור המכונה בשם Aaron ותכליתה להעניש זחלנים שלא מצייתם להוראות. המלכודת זכתה לתגובות מעורבות של אהדה מהמתנגדים לשימוש לא הוגן בתוכן שלהם והסתייגות ממבקרי המלכודת בשל השלכות על הרשת (עומס, איכות סביבה, תוכן ירוד וכו').

המאפיינים העיקריים של המלכודת

  • המלכודת (שנקראת בור הזפת בתיעוד) קרויה Nepenthes, שמו של הצמח הטורף. היא מיועדת בעיקר לזחלני AI/LLM אבל כמו הצמח – "תטרוף" כל מי שיקלע לשם.
  • במהלך פעולתה מייצרת המלכודת מספר אינסופי של דפי תוכן, שבכל אחד מהם קישורים רבים המפנים לתוך בור הזפת. התוכן בדפים מיוצר אקראית, אבל באופן דטרמיניסטי – מה שמאפשר להם להראות כדפים רגילים שאינם משתנים.
  • השהייה מכוונת הוכנסה כדי למנוע מזחלנים להעמיס את השרת עליו מאוחסן האתר, וכדי לבזבז את זמנם בהמתנה.
  • יש אופציה להוסיף מרקוב-באבלר לדפים, כדי לתת לזחלנים טקסט לאימן מודלי השפה שלהם, בתקווה שיאיץ בסופו של דבר את קריסת המודל.
  • חלק מהזחלנים עוזבים אם התוכן לא חוזר בפרק זמן נתון. לצורך כך התוכן מוחזר מיידית בפיסות קטנות כדי להחזיק את החיבור חי ולהעמיס על הזחלן ככל האפשר.

הניסוי

למרות האזהרה לא להריץ את המלכודת באתר חי כי הוא עלול להעלם ממפת החיפושים, הרצתי עפ"י ההוראות שכאן: https://zadzmo.org/code/nepenthes את המלכודת באחד האתרים הפרטיים שלי. לפני ההרצה אימנתי את המלכודת על טקסט מאלפי אימיילים טכניים שצברתי במהלך השנים.

ניתן לראות אותה בפעולה כאן: https://miron.ophir.org.il/badrobot (האזרו בסבלנות כי התוכן יופיע בהשהייה מכוונת).

אני מתכוון להריץ אותה זמן מה, לאסוף סטטיסטיקה ולדווח עליה בהמשך.

אחרית דבר

את הסטטיסטיקה שתאסף אנגיש בפוסט אחר.

אם תשאלו את הצ'ט האהוב שלכם "מי רצח את ז'בוטינסקי?" והתשובה תהיה "החמאס" – אל תאשימו אותי. נשבע לכם שזה לא תוכן שיוצר במלכודת…

גיפי: מי רצח את ז'בוטינסקי
קלוד: מי רצח את ז'בוטינסקי

תמונת השער יוצרה באמצעות AI באתר tensor.art