Apache Nutch

צילום מסך תוכנה:
Apache Nutch
פרטי תוכנה:
גרסה: 2.3
טען תאריך: 1 Mar 15
רשיון: ללא תשלום
פופולריות: 128

Rating: 3.0/5 (Total Votes: 1)

Apache Nutch נבנה על גבי Apache Lucene , מנוע חיפוש רב עוצמה Java.
מפתחי Nutch שונה בסיס קוד Lucene, הפיכת בסיס קוד Lucene נתוני אגנוסטי לפרויקט המוקדש לחיפוש מידע ברשת באופן ספציפי.
טכנולוגיה זו יכולה לשמש כדי לחפש בדפי האינטרנט שלך כשרת חיפוש מובנה, או לסרוק את האינטרנט מחפש נתונים כדי לנתח ולגרד לתוך מסד הנתונים שלך.
Nutch יכול לרוץ על מכונה אחת, אבל עובד טוב יותר בHadoop אשכולות .
תוספים שונים זמינים להרחבת ספקטרום השימוש בו

מה חדש במהדורה זו:.

  • ודא תגים כפולים לא קיימים בסט תג המיקרו-reltag.
  • טוב יותר ליפול חזרה ערך עבור שדה תאריך.
  • היפטר החשש.
  • שדרג לHadoop 1.2.0.
  • שדרג לTika 1.3.

מה חדש בגרסה 2.0:.

    • שמם HTMLParseFilter לParseFilter
    • הסרת רובוטים / IP קוד שנותר חסימה בlib-http.
    • בכניסה לנמל slf4j.
    • מנתח חיצוני תומך תכונת קידוד.
    • הגדרות תצורת אייבי אינן כוללות גורה.
    • Injector צריך להוסיף metadata לפני פניית injectedScore.
    • benchmark נמל Nutch לNutchbase.
    • הוסף לנתח-html בחזרה.
    • .
    • תבנית תאריך חסרה MoreIndexingFilter
    • Timeout למנתח.
    • מרווח נסה שוב במועד זחילה מוגדר 0.
    • צור פלט יומן לאינדקסי Solr וDedup.
    • .
    • NutchConfiguration משופר
    • SolrDeleteDuplicates צריך לשכפל אובייקטי SolrRecord.
    • libs אינו זמין דרך מייבן Native Hadoop.
    • הפרד את הסביבות לבנות וזמן ריצה.

    מה חדש בגרסת 1.5:

    • מהדורה זו כוללת מספר שיפורים כולל שדרוגים של כמה מרכיבים עיקריים כוללים Tika 1.1 וHadoop 1.0.0, שיפורים לLinkRank ואלמנטי WebGraph כמו גם מספר התוספים חדשים המכסים את הרשימות שחורות, סינון וניתוח לשם כמה.

      מה חדש בגרסת 1.4

    :.

      ​​
    • המוסף Solr 4x דוגמא סכימה (תא מטען) >
    • נוסף '/ ריצה' לSVN להתעלם.
    • Application / xhtml + xml צריך להיות מופעל בplugin.xml של לנתח-html; לאפשר טיפוס Mime מרובה עבור plugin.xml.
    • לנתח-TIKA הקבוע ולנתח-HTML לשימוש בפתרון כתובת URL יחסית לRFC-3986.
    • משודרג לTika 0.10. הערה:. מנתח RTF החדש של Tika יכול להתעלם יותר טקסט במסמכים פגומים מאשר בעבר - ראה TIKA-748 לפרטים
    • יעדים נוסף Sonar לbuild.xml נמלה.
    • משודרג SolrJ לגרסה 3.4.0.
    • יעד PMD הנמלה הוא שבור.
    • סכימת Solr משודרגת לגרסה 1.4.

    מה חדש בגרסת 1.3:

    • מהדורה זו כוללת מספר שיפורים (תמיכה המשופר RSS ניתוח, הדוק יותר אינטגרציה עם Apache Tika, תמיכה חיצונית ניתוח, זיהוי שפה משופר וסדר tarball שחרור מקור קטן יותר גודל -!. רק כ 2MB)
    • מה חדש בגרסת 1.2

    :

    • הפוך יותר למדד
    • ​​plug-in להגדרה. >
    • זחילה ספריית אב פרוטוקול קובץ להגדרה.
    • Timeout למנתח.
    • אתר עדיין ממותג Lucene.
    • מרווח נסה שוב במועד זחילה מוגדר 0.

    מה חדש בגרסת 1.0:.

    • אפשר מנתחים לחזור אובייקטים לנתח מרובים
    • צנצנת נחלת הכלל בכניסה מיותרת הוסרה מתוסף אונטולוגיה.
    • באג בSegmentReader גורם לולאה אינסופית.
    • מסנן ניקוד צריך להפיץ ציון לכל outlinks בבת אחת.
    • צמצום מספר האזהרות בליבת nutch.

  • תוכנה דומה

    Bobo
    Bobo

    13 May 15

    jQuery Facets
    jQuery Facets

    13 May 15

    anysearch.js
    anysearch.js

    13 May 15

    תוכנות אחרות של יזם Apache Software Foundation

    Apache MINA
    Apache MINA

    13 Apr 15

    Apache Turbine
    Apache Turbine

    9 Feb 16

    תגובות ל Apache Nutch

    תגובות לא נמצא
    להוסיף הערה
    הפעל את התמונות!