Apache Nutch

צילום מסך תוכנה:
Apache Nutch
פרטי תוכנה:
גרסה: 2.3
טען תאריך: 1 Mar 15
רשיון: ללא תשלום
פופולריות: 36

Rating: 3.0/5 (Total Votes: 1)

Apache Nutch נבנה על גבי Apache Lucene , מנוע חיפוש רב עוצמה Java.
מפתחי Nutch שונה בסיס קוד Lucene, הפיכת בסיס קוד Lucene נתוני אגנוסטי לפרויקט המוקדש לחיפוש מידע ברשת באופן ספציפי.
טכנולוגיה זו יכולה לשמש כדי לחפש בדפי האינטרנט שלך כשרת חיפוש מובנה, או לסרוק את האינטרנט מחפש נתונים כדי לנתח ולגרד לתוך מסד הנתונים שלך.
Nutch יכול לרוץ על מכונה אחת, אבל עובד טוב יותר בHadoop אשכולות .
תוספים שונים זמינים להרחבת ספקטרום השימוש בו

מה חדש במהדורה זו:.

  • ודא תגים כפולים לא קיימים בסט תג המיקרו-reltag.
  • טוב יותר ליפול חזרה ערך עבור שדה תאריך.
  • היפטר החשש.
  • שדרג לHadoop 1.2.0.
  • שדרג לTika 1.3.

מה חדש בגרסה 2.0:.

    • שמם HTMLParseFilter לParseFilter
    • הסרת רובוטים / IP קוד שנותר חסימה בlib-http.
    • בכניסה לנמל slf4j.
    • מנתח חיצוני תומך תכונת קידוד.
    • הגדרות תצורת אייבי אינן כוללות גורה.
    • Injector צריך להוסיף metadata לפני פניית injectedScore.
    • benchmark נמל Nutch לNutchbase.
    • הוסף לנתח-html בחזרה.
    • .
    • תבנית תאריך חסרה MoreIndexingFilter
    • Timeout למנתח.
    • מרווח נסה שוב במועד זחילה מוגדר 0.
    • צור פלט יומן לאינדקסי Solr וDedup.
    • .
    • NutchConfiguration משופר
    • SolrDeleteDuplicates צריך לשכפל אובייקטי SolrRecord.
    • libs אינו זמין דרך מייבן Native Hadoop.
    • הפרד את הסביבות לבנות וזמן ריצה.

    מה חדש בגרסת 1.5:

    • מהדורה זו כוללת מספר שיפורים כולל שדרוגים של כמה מרכיבים עיקריים כוללים Tika 1.1 וHadoop 1.0.0, שיפורים לLinkRank ואלמנטי WebGraph כמו גם מספר התוספים חדשים המכסים את הרשימות שחורות, סינון וניתוח לשם כמה.

      מה חדש בגרסת 1.4

    :.

      ​​
    • המוסף Solr 4x דוגמא סכימה (תא מטען) >
    • נוסף '/ ריצה' לSVN להתעלם.
    • Application / xhtml + xml צריך להיות מופעל בplugin.xml של לנתח-html; לאפשר טיפוס Mime מרובה עבור plugin.xml.
    • לנתח-TIKA הקבוע ולנתח-HTML לשימוש בפתרון כתובת URL יחסית לRFC-3986.
    • משודרג לTika 0.10. הערה:. מנתח RTF החדש של Tika יכול להתעלם יותר טקסט במסמכים פגומים מאשר בעבר - ראה TIKA-748 לפרטים
    • יעדים נוסף Sonar לbuild.xml נמלה.
    • משודרג SolrJ לגרסה 3.4.0.
    • יעד PMD הנמלה הוא שבור.
    • סכימת Solr משודרגת לגרסה 1.4.

    מה חדש בגרסת 1.3:

    • מהדורה זו כוללת מספר שיפורים (תמיכה המשופר RSS ניתוח, הדוק יותר אינטגרציה עם Apache Tika, תמיכה חיצונית ניתוח, זיהוי שפה משופר וסדר tarball שחרור מקור קטן יותר גודל -!. רק כ 2MB)
    • מה חדש בגרסת 1.2

    :

    • הפוך יותר למדד
    • ​​plug-in להגדרה. >
    • זחילה ספריית אב פרוטוקול קובץ להגדרה.
    • Timeout למנתח.
    • אתר עדיין ממותג Lucene.
    • מרווח נסה שוב במועד זחילה מוגדר 0.

    מה חדש בגרסת 1.0:.

    • אפשר מנתחים לחזור אובייקטים לנתח מרובים
    • צנצנת נחלת הכלל בכניסה מיותרת הוסרה מתוסף אונטולוגיה.
    • באג בSegmentReader גורם לולאה אינסופית.
    • מסנן ניקוד צריך להפיץ ציון לכל outlinks בבת אחת.
    • צמצום מספר האזהרות בליבת nutch.

  • תוכנה דומה

    solrpy
    solrpy

    12 May 15

    ElasticSearch
    ElasticSearch

    12 Mar 16

    jquery-filter
    jquery-filter

    13 May 15

    תוכנות אחרות של יזם Apache Software Foundation

    Apache Lucene
    Apache Lucene

    10 Dec 15

    Apache Crunch
    Apache Crunch

    10 Dec 15

    Apache JMeter
    Apache JMeter

    12 Apr 15

    תגובות ל Apache Nutch

    תגובות לא נמצא
    להוסיף הערה
    הפעל את התמונות!
    חיפוש לפי קטגוריות