יעקובוב פיתוח תוכנה

פתרונות תוכנה מתקדמים

מזהה שגיאות OCR

בודק טקסט חכם המזהה תווים חשודים או שגויים על פי ההקשר.
הכלי מותאם במיוחד לטקסטים תורניים שעברו סריקה (OCR), כמו קטעים מאוצר החכמה, היברובוקס ותוכנות דומות. בטקסטים מודרניים (כגון חדשות) ייתכנו תוצאות פחות מדויקות.

המודל עודכן בתאריך: 29/04/2025 קרא עוד...
היסטוריית גרסאות:
  • גירסה 1: גירסה ראשונה – שוחררה ב' ניסן תשפ"ה (31/03/2025)
  • גירסה 2: מדויקת וחכמה יותר – שוחררה י' ניסן (08/04/2025)
  • גירסה 3: עם הרבה שיפורים – שוחררה א' אייר (29/04/2025)
📘 מידע למתקדמים (מודל, ביצועים, מגבלות) קרא עוד...

המודל פועל ברמת תו (Character-Level) ומבצע סיווג של כל תו בטקסט לפי ההקשר שבו הוא מופיע.

הקלט עובר טרום־עיבוד הכולל הסרת ניקוד וטעמים, ולאחר מכן טוקניזציה מותאמת אישית (Custom Char Tokenizer) שפותחה במיוחד עבור העברית.

כיסוי תחומים: המודל אומן על מאגר רחב הכולל תנ"ך (כולל אונקלוס), משנה, גמרא, ספרי הלכה ושו"ת – ראשונים ואחרונים, וכן עלונים תורניים. הוא אינו כולל טקסטים קבליים או לשון זוהר (ארמית מסוג שונה), ולא טקסטים בני־זמננו (Modern Texts) כמו חדשות, מאמרים עיתונאיים, מיילים או שיח ברשתות.

חשוב: המערכת נועדה לזיהוי שגיאות OCR בלבד – כלומר תווים שהשתבשו בעת סריקה או פענוח חזותי של טקסט מודפס. היא אינה מזהה שגיאות כתיב או טעויות הקלדה (כגון החלפת תווים סמוכים במקלדת), שאינן אופייניות לשגיאות OCR.

בטקסטים בעלי סגנון חריג או לא צפוי (כגון קבלה, זוהר או שפה מודרנית), ייתכן שהמערכת תסמן תווים תקינים כשגויים – זאת משום שמבנים לשוניים מסוג זה לא נכללו בתהליך האימון, ולכן אינם מזוהים כהקשרים "רגילים".

המערכת פועלת עצמאית בשרת האתר (Locally on Server) – ללא תלות בשירותי ענן, API חיצוני או חיבור לרשת כלשהי. כל תהליך הבדיקה נעשה מקומית ומאובטח, מבלי לשלוח את הטקסט לגורם שלישי.

נסה תכונות מתקדמות בחינם
קבל תכונות חכמות על ידי התחברות לחשבון שלך.
הקלד או הדבק טקסט ולחץ "בדוק"