יעקובוב פיתוח תוכנה

תוכנות, תוספים, מדריכים, ועוד...


זיהוי תוים OCR - שאלות נפוצות

כיצד לאמן את התוכנה לפענח נכון אותיות שבורות אנכית?

שאלה:

לפעמים יש אותיות שבורות אנכית, במיוחד האות מ' בכתב רש"י בספרים מסויימים, ולפעמים התוכנה מזהה כל חצי כאות בפני עצמה, כיצד אפשר ללמד את התוכנה שתחבר את שני השברים לאות אחת?

תשובה:

רוב הפעמים התוכנה יודעת לחבר את שני חצאי האות ביחד ולפענח נכון, אך לעיתים יש צורך להורות לתוכנה שהחצי הימני אינו אות שלימה אלא יש לחברו לאות שאחריו, באופן הבא:

  • פתח את "תקן אות אות" כמו בצילום המסך הבא, ולחצן על המקש F2 - יתקבל חצי ימני של עיגול.

  • לחלופין, אפשר ללמד את התוכנה שהחצי השני הוא חצי שמאלי על ידי המקש F3 - יתקבל חצי שמאלי של עיגול. מכאן ואילך התוכנה תחבר את החצי השמאלי לאות שלפניו.

איזה חצי עדיף ללמד החצי הימני או השמאלי? תשובה: החצי שהמראה שלו יותר יחודי ופחות דומה לאות תקינה כל שהיא למשל האות ו'.

חשוב: מקשי F2 וF3 עובדים באותה צורה גם בכרטיסיה אימון ולא רק ב"תקן אות אות".

כיצד לאמן את התוכנה לפענח נכון אותיות שבורות אנכית

האם התוכנה יכולה לפענח כתב יד?

תוכנת "זיהוי תוים OCR" לא מיועדת לכתב יד שנכתב על ידי אדם, רק לכתב מרובע ולכתב יד של מחשב כמו בדוגמא הבאה:

התוכנה מפענחת גופן כתב יד

יתכן שבעתיד נשכלל את התוכנה שתוכל לפענח גם כתבי יד אנושיים. אם אתם זקוקים לתכונה זו פנו אלינו, וכאשר יתאספו מספיק דורשים - נעבוד על זה.

האם התוכנה יכולה לפענח דף מרובה טקסטים כמו דף של גמרא?

יש אפשרות לבחור טקסים גם אם הם לא בצורת מלבן פשוט, וכן, יש לתוכנה יכולת לזהות אוטומטית איזורי טקסט אלו ולבחור אותם, וכמו שמודגם בתמונה הבאה:

בחירה אוטומטית של איזורי הטקסט גם בטקסטים מרובים

מה המשמעות של הצבעים שרואים בחלון הפיענוח?

ככלל, כל הצבעים נועדו להסב את תשומת ליבו של המשתמש לאותיות הצבועות כיון שהפיענוח שלהן מסופק.

כל צבע מורה על סיבה שונה שבגללה התוכנה החליטה לתת ציון פיענוח נמוך לאותה אות:

  • צבע ורוד - אותיות מחוברות או דבוקות שהופרדו אוטומטית.
  • צבע טורקיז - אות העומדת במקום לא צפוי, כגון אות ו' שיורדת מתחת לקו הבסיס של השורה.
  • צבע סלמון בהיר - אות שהייתה שבורה אנכית וחוברה לאות אחת באופן אוטומטי, מצוי באות מ' בכתב רש"י.
  • צבע ירוק בהיר - שני הפיענוחים שקיבלו את הציון הכי גבוה - לא זהים, למשל שני הפיענוחים הכי טובים הם ה' וח'.
  • צבע זהב - תוקן על פי הגיון, כגון שהאות ניראית כמו ם' סופית באמצע מילה ותוקן לס' או אות אחרת שמתאימה לאותו מקום.
  • צבע מגנטה - אות שחלק מהמבנה שלה לא מתאים לפיענוח, למשל הפיענוח הוא ת' אבל יש רווח לבן בין הרגל השמאלית לגג כך שיתכן שזו ה'.

כמו כן התוכנה צובעת מילים שלימות באופן הבא:

  • צבע אפרסק - מילים שתוקנו אוטומטית על פי מילון מילים מצויות.
  • צבע שזיף - מילים שלא קיימות במילון מילים מצויות.

כיצד אפשר לפענח תמונה מצילום מסך?

שאלות דומות:

  • כיצד להעתיק תמונה ולהמיר אותה לטקסט?
  • כיצד לשפר את פיענוח הOCR שבאוצר החכמה ומאגרים אחרים?

תשובה:

  1. העתיקו תמונה - על ידי צילום מסך [בעזרת "כלי החיתוך" או בכל דרך אחרת]
  2. בתוכנת זיהוי תוים OCR, לחצו על תפריט "הוסף", "הוסף תמונה מלוח ההדבקה" - והתמונה שהעתקתם תופיע בתוך התוכנה.
  3. כעת תוכלו לפענח אותה כמו כל תמונה רגילה שמוסיפים לתוכנה.

להלן הדגמה בתמונה מונפשת:

פיענוח תמונה מלוח ההדבקה

האם אפשרי שתיקונים שעושים בפיענוח יכנסו מיד למילון הפעיל?

שאלות דומות:

  • האם אפשר שהתוכנה לא תחזור על אותה טעות אחרי שכבר תיקנתי אותה בתיבת הפיענוח?
  • האם תיקוני טעויות שאני עושה בטקסט הפיענוח - נכנסים למילון הפעיל?

תשובה:

תיקונים שעושים בתיבת הפיענוח הם תיקונים מקומיים, ולא נכנסים למילון הפעיל. לכן, אם רוצים שהתיקונים ישפיעו על פיענוחים עתידיים - מומלץ שלא לתקן בתוך תיבת הפיענוח אלא רק דרך הדיאלוג "תקן והוסף למילון".

אפשר לפתוח את "תקן והוסף למילון" בכמה דרכים:

  1. לחיצה ימנית בתוך תיבת הפיענוח, יופיע תפריט הקשר עם הפקודות: "תקן והוסף למילון הפעיל" ו"תקן מילה נוכחית והוסף למילון הפעיל".
  2. מקש F2 - אם אין טקסט נבחר: יפתח דיאלוג "תקן והוסף למילון" עם כל הטקסט המפוענח, אם יש טקסט נבחר: יפתח דיאלוג "תקן והוסף למילון" עם הטקסט הנבחר בלבד.
  3. מקש F3 - יפתח דיאלוג "תקן והוסף למילון" עם המילה שבה נמצא הסמן בלבד.
  4. בריחוף מעל מילה שתוקנה על פי מילון מילים מצויות או מילה שלא קיימת במילון מילים מצויות - מופיע תפריט עם פקודה "תקן אות אות..." שתפתח את המילה בדיאלוג "תקן והוסף למילון".

להלן הדגמה בתמונה מונפשת:

תקן והוסף למילון

כיצד ניתן להגדיר שהתוכנה תתעלם מלכלוכים?

שאלות דומות:

  • כיצד התוכנה מתמודדת עם לכלוכים במהלך זיהוי התווים?
  • מדוע התוכנה מפענחת לכלוכים כאותיות?
  • האם אפשר לאמן את התוכנה מה נחשב לכלוך?

תשובה:

1. זיהוי אוטומטי של לכלוכים קטנים
התוכנה מוגדרת כברירת מחדל למחוק לכלוכים קטנים אוטומטית במהלך הזיהוי. גודל הלכלוכים נקבע אוטומטית על בסיס המבנה הכללי של הכתב בתמונה, כך שהתוכנה מזהה את הגודל הסטנדרטי של לכלוך קטן לפי ההקשר.

2. הגדרת גודל לכלוך ידנית לפי שטח בפיקסלים
אם עדיין נשארים לכלוכים בתמונה, ניתן לקבוע באופן ידני את גודל השטח בפיקסלים שהתוכנה תזהה כלכלוך למחיקה. בתפריט "אפשרויות" ניתן להגדיר שהלכלוך יהיה, למשל, כל שטח שגודלו פחות מ-30 פיקסלים. כך התוכנה תמחק כל מה שנמצא מתחת לשטח שהוגדר, במקום לפעול לפי הגדרה אוטומטית.

3. טיפול בלכלוכים בגודל הדומה לסימני פיסוק (נקודה ופסיק או גרש וכדומה)
במקרים בהם יש לכלוכים בגודל הדומה לנקודה או פסיק, לא כדאי להשתמש בהגדרה הכללית של מחיקת לכלוך, שכן היא עשויה למחוק סימני פיסוק חשובים בטקסט. במקרה כזה, ניתן לפתוח את דיאלוג "תקן והוסף למילון" באמצעות הקשה על F2 או F3 (ראה פירוט כאן). בתוך הדיאלוג יוצגו האותיות שזוהו, יש לשים את הסמן בתיבת הפיענוח שליד הלכלוך וללחוץ על F4, מה שיציב סמל של אשפה. לאחר מכן לוחצים על "אישור", והלכלוך יימחק מהתמונה.

להלן הדגמה בתמונה מונפשת:

מחיקת לכלוכים