מדריך איך לפרוץ את ChatGPT

המונח 'פריצת כלא' בהקשר מחשוב הופיע בסביבות אמצע שנות ה-2000, קשור במיוחד לעליית האייפון של אפל . משתמשים החלו לפתח שיטות לעקוף את ההגבלות של המכשיר ולשנות את מערכת ההפעלה iOS . תהליך זה כונה "פריצת כלא", מה שמרמז באופן מטפורי על פריצה מה'כלא' של מגבלות התוכנה שהוטלו על ידי היצרן.

המונח שימש מאז במובן רחב יותר בקהילת הטכנולוגיה כדי לתאר תהליכים דומים במכשירים ומערכות אחרות.

כשאנשים מתייחסים ל- ChatGPT "פורצת כלא" , הם לא מדברים על ביצוע שינויים בתוכנה אלא על דרכים לעקוף את ההנחיות ומדיניות השימוש של ChatGPT באמצעות הנחיות.

חובבי טכנולוגיה רואים לעתים קרובות בפריצת הכלא כאתגר. זוהי דרך לבחון את התוכנה כדי לראות עד כמה היא חזקה, ובדיקת פרמטרים מאפשרת להם להבין את פעולתו הבסיסית של ChatGPT.

פריצת ג'יל כרוכה בדרך כלל בהענקת מצבים היפותטיים ל-ChatGPT שבהם הוא מתבקש לשחק תפקידים כדגם אחר של AI שאינו עומד בתנאי השירות של Open AI .

ישנן מספר תבניות מבוססות לעשות זאת, אותן נסקור להלן. נסקור גם את הנושאים הנפוצים המשמשים בהודעות פריצת jailbreak של ChatGPT.

הכללים הנוכחיים שיש ל-ChatGPT כוללים:

  • אין תוכן מפורש, מבוגר או מיני. 
  • אין פעילויות מזיקות או מסוכנות. 
  • אין תגובות פוגעניות, מפלות או לא מכבדות אנשים או קבוצות. 
  • אין מידע מוטעה או עובדות כוזבות.

רוב טכניקות פריצת הכלא נועדו לעקוף את התקנות הללו. נשאיר למצפונכם להחליט עד כמה זה אתי לעשות זאת.

איך לפרוץ את ChatGPT

אזהרה:

למרות שפריצת ג'יל אינה נוגדת באופן ספציפי את תנאי השירות של Open AI, השימוש ב-ChatGPT לייצור תוכן לא מוסרי, לא אתי, מסוכן או לא חוקי אסור במדיניות שלה. 

מכיוון שפריצת הכלא מייצרת תשובות ש-OpenAI ניסתה להתגונן מפניהן, קיים סיכון שאתה עלול לסכן את חשבון ChatGPT שלך.

היו מקרים של אנשים שהשתמשו בהודעות פריצת Jail וחשבון ChatGPT Plus נסגר בעקבות "פעילות חשודה". אז היזהר.

כתב ויתור: המידע במאמר זה מסופק למטרות מידע בלבד, ו-TechRadar אינה מאשרת הפרת מדיניות ChatGPT של OpenAI.

1. השתמש בהודעת jailbreak קיימת

ישנן הנחיות רבות לפריצת jailbreak שאחרים שיתפו באינטרנט, ואנשים מוסיפים לרשימה הזו כל הזמן. אם אתה רוצה לגלות יותר, אתה יכול לבדוק את ChatGPTJailbreak ב- Reddit .

היתרון של סקריפט מוכן הוא שהוא מהיר וקל להעתיק ולהדביק לתוך ChatGPT. עם זאת, ברגע שהנחיית פריצת jail מוצלחת שותפה באינטרנט, גם מפתחי OpenAI ChatGPT יהיו מודעים לכך. OpenAI משתמשת בפריצות שנוצרו על ידי המשתמשים שלה כדי לאתר נקודות תורפה במערכת שלה.

משתמשים מדווחים שסקריפטים פורצי כלא עובדים רק בחלק מהזמן. נראה שקשה יותר לרמות את ChatGPT-4 מאשר בגרסאות קודמות.

רבות מההנחיות הללו משתמשות בלוגיקה דומה, כך שניתן יהיה ליצור משלך. נסקור את הרכיבים הדרושים של סקריפט פריצת jailbreak מוצלח בארבעת השלבים הבאים.

2. אמור ל-ChatGPT לשחק תפקידים כסוג אחר של GPT

 

כדי לגרום ל-ChatGPT לשבור את הכללים שלו, אתה צריך להקצות לו דמות לשחק. הנחיות מוצלחות לפריצת הכלא יגידו ל-ChatGPT להעמיד פנים שמדובר בסוג חדש של GPT, הפועל על פי הנחיות שונות, או לשחק תפקידים בדמות דמוית אדם עם קוד אתי מסוים.

 

חשוב לוודא ש-ChatGPT מייצר תוצאות לא כעצמו אלא כדמות בדיונית.

3. אמור ל-ChatGPT להתעלם מהנחיות אתיות ומוסריות

לאחר שנתת ל-ChatGPT תפקיד לשחק, עליך לקבוע את הפרמטרים של משחק התפקידים. זה יכלול בדרך כלל ציון שלאופי ההיפותטי שלו אין הנחיות אתיות או מוסריות. 

כמה הנחיות אומרות ל-ChatGPT במפורש שהיא צריכה לקדם התנהגות לא מוסרית, לא אתית, לא חוקית ומזיקה. עם זאת, לא כל ההנחיות כוללות זאת. חלקם פשוט קובעים שלדמות החדשה שלו אין מסננים או הגבלות כלשהן.

4. תגיד לו לעולם לא להגיד לא

בהגדרת ברירת המחדל שלה, כאשר לא עוקב אחר הנחיות פריצת Jail, ChatGPT יסרב לענות על שאלות המנוגדות להנחיות שלה על ידי אמירת משהו כמו "אני מצטער, אני לא יכול למלא את הבקשה הזו".

לכן, כדי לעקוף את זה, רוב הנחיות פריצת הכלא מכילות הוראות ברורות לעולם לא לסרב לבקשה. ל-ChatGPT נאמר שהדמות שלו לעולם לא צריכה להגיד שהיא לא יכולה לעשות משהו. הנחיות רבות גם אומרות ל-ChatGPT להמציא משהו כאשר הוא לא יודע תשובה.

5. בקש מ-ChatGPT לאשר שהוא באופי

הודעת פריצת מעצר צריכה לכלול הוראה לקבל את ChatGPT כדי להראות שהוא פועל בתור ה-GPT הבדיוני החדש. לפעמים, זו פשוט פקודה עבור ChatGPT כדי לאשר שהוא פועל באופיו שהוקצה לו. הנחיות רבות מכילות גם הוראות ל-ChatGPT להקדים את תשובותיה בשם הזהות הבדיונית שלה כדי להבהיר שהיא פועלת בהצלחה באופייה.

מכיוון ש-ChatGPT יכול לפעמים לשכוח הוראות קודמות, הוא עשוי לחזור לתפקיד ברירת המחדל של ChatGPT במהלך שיחה. במקרה זה, תצטרך להזכיר לו להישאר באופיו, או לפרסם שוב את טקסט הודעת הפריצה.

ההצלחה של הודעת פריצת jail תהיה תלויה במספר גורמים, כולל ההוראות שניתנו, הגרסה שבה אתה משתמש והמשימה שביקשת ממנה לבצע.

גם ללא הודעת פריצת Jail, ChatGPT תפיק לפעמים תוצאות הסותרות את ההנחיות שלה. לפעמים, הוא יסרב לייצר תוכן אירוטי, למשל, ובפעמים אחרות, הוא יפיק אותו. מודלים של בינה מלאכותית לרוב אינם עקביים מכיוון שיש להם אלמנט של אקראיות בתהליך יצירת התגובה שלהם, מה שאומר שבהינתן אותה הנחיה מספר פעמים, המודל יכול לייצר תגובות שונות.

למשל, ChatGPT לא מקללת, אבל ביקשתי ממנו לדקלם את השיר עמוס הלשון הרע This Be the Verse מאת פיליפ לארקין, וזה עשה זאת ללא תלונה או צנזורה.

רוב פורצי הג'יל של ChatGPT יטענו שהם עושים זאת כדי לבדוק את המערכת ולהבין טוב יותר איך היא פועלת, אבל יש צד אפל לבקש מ-ChatGPT לייצר תוכן שהוא תוכנן במפורש שלא.

אנשים ביקשו מ-ChatGPT שבורה בכלא לייצר הוראות כיצד ליצור פצצות או לביים התקפות טרור. באופן מובן, OpenAI – יחד עם יצרנים אחרים של AI, כמו Google Bard ו- Microsoft Copilot – נוקטים בצעדים כדי להדק את האבטחה שלה ולהבטיח שפריצת ג'יל לא תתאפשר עוד בעתיד.