כנס ISCOL 2025, אוניברסיטת בר-אילן, 18 בדצמבר 2025, הצגת פוסטר
TwoHillsLab: פלטפורמה ניתנת להרחבה לניתוח כמותני של טקסטים מקראיים בעברית, החושפת מבנים מקראיים הרלוונטיים ל-Retrieval-Augmented Generation (RAG)
גיא שקד
אוניברסיטת בר-אילן – המחלקה להיסטוריה יהודית ויהדות זמננו
Two Hills Lab
תקציר
TwoHillsLab (TwoHillsLab.org) היא פלטפורמה אינטרנטית חופשית לניתוח כמותני רחב־היקף של המקרא העברי וקורפוסים קשורים.
אנו בוחנים חזרתיות של “מילות פתיחה” בראשי פרקים כרמזים לסגמנטציה. ממצאינו מציעים שכללי החלוקה (סגמנטציה) של המקרא לפרקים מקבילים ודומים לעיתים לחלק מתהליכי חלוקת טקסטים ל"מקטעים" (chunking) הנהוגים בRetrieval-Augmented Generation (RAG) עבור צ'אטבוטים מבוססי LLM (כגון צ'אטגי'פיטי, ג'מיני, קלוד ואחרים).
מוטיבציה
טקסטים מקראיים דיגיטליים מזמינים גישות של בלשנות חישובית. המטרה איננה להחליף את תחום הפילולוגיה כפי שנהוג כיום, אלא לספק פרמטרים כמותניים גלובליים אשר (i) מדגישים מבנה, (ii) מציפים מקרים ותוצאות שכדאי לחקור, ו-(iii) מאפשרים השוואות חדשניות בין ספרים, פרקים ופסוקים.
פלטפורמה
TwoHillsLab היא פלטפורמה חופשית אינטרנטית לניתוח כמותני של טקסטים מקראיים
תוצאה מפתיעה חדשה מבית Two Hills Lab: מילות פתיחה בראשי פרקים כרמז לשיטת הסגמנטציה של התנ"ך הדומה לשיטות הנהוגות בRAG.
באמצעות TwoHillsLab, נבנתה רשימה של מילות הפתיחה בראש פרקי התנ"ך. בעקבות זאת נוצרה הבחנה של שלושה דפוסים כלליים חוזרים מבחינת המילה הפותחת את כל הפרקים של ספרי התנ"ך:
- חזרתיות רציפה (עם מעט חריגים): פרקים רבים ברצף נפתחים באותה מילה, לעיתים עם וריאציות קטנות.
דוגמה (ויקרא פרקים 11–27): חזרה על המילה הפותחת וַיְדַבֵּר (“וידבר”) בראש פרקים עוקבים, עם וריאציות קלות.
וַיְדַבֵּ֧ר וַיְדַבֵּ֥ר וַיְדַבֵּ֣ר וַיְדַבֵּ֥ר וַיְדַבֵּ֣ר וַיְדַבֵּ֤ר וַיְדַבֵּ֥ר וַיְדַבֵּ֥ר וַיְדַבֵּ֥ר וַיְדַבֵּ֥ר וַיֹּ֤אמֶר וַיְדַבֵּ֥ר וַיְדַבֵּ֥ר וַיְדַבֵּ֥ר וַיְדַבֵּ֤ר לֹֽא־תַעֲשׂ֨וּ וַיְדַבֵּ֥ר
2. חזרתיות עם קטיעות: מילת פתיחה דומיננטית חוזרת, אך הרצף נקטע מדיי פעם (או מספר רב של פעמים) על־ידי מילות פתיחה אחרות.
דוגמה (ישעיהו פרקים 13–24): חזרה על המילה הפותחת מַשָּׂא (“מַשָּׂא”) עם פרקים הנפתחים עם מילים אחרות, לסירוגין.
מַשָּׂ֖א כִּי֩ מַשָּׂ֖א שִׁלְחוּ־כַ֥ר מַשָּׂ֖א ה֥וֹי מַשָּׂ֖א בִּשְׁנַ֨ת מַשָּׂ֖א מַשָּׂ֖א מַשָּׂ֖א הִנֵּ֧ה
3. חזרתיות נמוכה / או כלל ללא דפוס חזרה נראה לעין: המילים בפתיחת הפרקים העוקבים הינן שונות ללא דפוס חזרה מובהק כלשהו.
דוגמה (דברי הימים ב׳ פרקים 1–11):
וַיִּתְחַזֵּ֛ק וַיִּסְפֹּ֨ר וַיָּ֣חֶל וַיַּ֙עַשׂ֙ וַתִּשְׁלַם֙ אָ֖ז וּכְכַלּ֤וֹת וַיְהִ֞י וּמַֽלְכַּת־שְׁבָ֗א וַיֵּ֥לֶךְ וַיָּבֹ֣א
שלושת דפוסים מובחנים אלו של חזרתיות של מילות פתיחה בתחילת פרקים עוקבים בתנ"ך, יכולים להיבחן מהבחינה החישובית ולהיות מאפיינים השוואתיים של ספרים, ז׳אנרים, ושכבות עריכה.
ניתן למסגר תיאוריה וממצאים אלו בהקשר לבינה המלאכותית באופן הבא:
הקומפוזיציה והעריכה המקראית, ולאחר מכן החלוקה של התנ"ך, מתבססת בין השאר על רצפים של פרקים המסומנים במילות פתיחה חוזרות. דבר זה הינו מקביל לפרקטיקה מודרנית מרכזית שמשמשת ב-RAG את מערכות הבינה המלאכותית לסגמנטציה של טקסטים ארוכים, לצורך הגעה לתוצאות ו"תשובות" משופרות ואיכותיות.
מגבלות
לא כל הספרים או הקטעים שנבחנו בתנ"ך מתיישרים באופן נקי מלא עם הדפוסים הכלליים שנחשפו; סטיות צפויות ולעיתים הן גם מקור לעניין רב.
למחקר עתידי
מחקר סגמנטציה בבינה מלאכותית: כימות רמזי גבול המבוססים על מילות פתיחה לצרכי סגמנטציה ב-RAG, ובדיקת השאלה האם הם משפרים איכות תוצאות "תשובות" הבינה המלאכותית.
סיכום
TwoHillsLab מדגישה כיצד סימני גבול עריכתיים לחלוקת הטקסט (למשל, מילים פותחות חוזרות בתחילת פרקים עוקבים במקרא) עשויים להשתלב ואף לסייע בשכלול מערכות NLP מודרניות—בייחוד כאלו המשתמשות בחלוקות של טקסטים שונים ארוכים המשמשות צ'אטבוטים, באמצעות RAG לשיפור איכות ה"תשובות" שלהם כמו גם במניעת "הלוצינציות" הקיימות כיום במערכות בינה מלאכותית לעיתים.
לבסוף, הקבלות ראשוניות אלה בין חקר התנ"ך וכתבים עתיקים אחרים לבין שיטות פעולה ואופן הפעולה של מערכות בינה מלאכותית, מציעות סדר יום מחקרי רחב יותר: אם פרמטר מבני אחד שנבדק (חלוקת התנ"ך לפי מילים הפותחות פרקים) מתיישר עם פרקטיקות ב-AI, ראוי לבחון האם מאפיינים נוספים של הקומפוזיציה והעריכה המקראית עשויים גם הם להוות השראה, או סיוע לבניית צ'אטבוטים משופרים של בינה מלאכותית.