פרטי תוכנה:
שרלוק הולמס הוא מנוע חיפוש אוניוורסלי, מערכת לאיסוף ויצירת אינדקס של נתונים טקסטואליים (קבצי טקסט, דפי אינטרנט, וכו '), הן מקומי והן ברשת.
מאפיינים :.
- אוסף קבצים דרך HTTP או מהקבצים מקומיים
- מנתח קבצי טקסט, HTML, PDF, וכמה פורמטים אחרים באמצעות מנתחים חיצוניים (כגון MS Word וPostScript).
- כל המערכת היא מודולרית, כך הוסיף המקורות שלך נתונים או מנתחים הוא חיבור פשוט עניין של במודול תקין (טוב, בדרך כלל גם כותב את זה).
- עובד היטב בסביבת קידוד מעורבת.
- שוקל מופעים מרובים של אותו קובץ (אפילו עם שינויים קלים) מסמך יחיד עם כתובת אתר של מספר.
- הכל מאוד להגדרה. אתה יכול לכתוב כללי סינון בשפה מיוחדת המאפשרת ללצבוט משתני תצורה בהתאם לעיבוד המסמך.
- חיפוש של מילות, ביטויים, וביטויים בוליאני. חיפוש בקבצים וקישור טקסטים.
- חיפוש סמיכות ושקלול קרבה של חיפושים רגילים.
- הכרה בשפות, שילוב קל של stemmers ומילונים נרדפים.
- . בודק איות המבוססות על תדרי מילה נצפו בנתונים באינדקס, רומזים למשתמש שהשאילתה שלו עלולה להיות שגויה
- תוצאות חיפוש כוללות הקשר בכל מסמך.
- סולמות גם לעשרות מיליון מסמכים בחומרת מחשב רגיל.
- ממשק משתמש (החזיתי) מופרד לחלוטין משאר המערכת, ולכן קל לשנות וגם להטביע את מנוע החיפוש ביישומים קיימים.
- הורד ומדדים דחוסים כדי לחסוך מקום.
קבצים
תגובות לא נמצא