Apache Nutch

צילום מסך תוכנה:
Apache Nutch
פרטי תוכנה:
גרסה: 2.3 מעודכן
טען תאריך: 17 Jul 15
מפתחים: Sami Siren
רשיון: ללא תשלום
פופולריות: 12

Rating: 1.0/5 (Total Votes: 2)

פרויקט Apache Nutch הוא קוד פתוח, תוכנת מדרגי, להרחבה והחופשית ביותר מבוסס אינטרנט סורק האינטרנט שבונה על Apache Lucene ספרייה (גרסת Java).
זה מוסיף פרטי אינטרנט, כגון סורק, מסד נתונים קישור-גרף, מנתחים עבור HTML ותבניות מסמכים אחרים, וכו 'הוא פותח והופץ על ידי קרן האפצ'י, שני סניפים נפרדים זה.
להיות מודולרית וניתנים לחיבור, יש האפצ'י Nutch היתרונות שלה, על ידי מתן ממשקים להרחבה כמו לנתח, אינדקס וScoringFilter ליישומים מותאמים אישית, כגון Apache Tika עבור ניתוח.
יתר על כן, Apache Nutch נועד לרוץ על מכונה אחת, אבל זה חזק יותר כאשר פועלים באשכול Hadoop. אינדקס נתקעים קיים לאלסטיות חיפוש, Apache Solr, וכו '

מה חדש בהודעה זו:.

  • NUTCH-1,779 החל עיצוב לקוד (lewismc)
  • NUTCH ב- 1907 פלט שגוי של Outlinks למארחים בHostDbUpdateReducer (lewismc)
  • webpage.avsc מסמך NUTCH-1856 וhost.avsc (lewismc)
  • NUTCH-1,834 התנהגות GeneratorMapper תלויה ברמת יומן (גרהרד GOSSEN באמצעות snagel)
  • lib restlet שדרוג NUTCH-1899 עד למנוע כישלון לבנות (טלעת)
  • NUTCH-1,797 oanhtml חבילה שאינה בשימוש הסר (Saurabh Chhajed באמצעות snagel)
  • NUTCH-1,888 ציינו HTMLMapper להשתמש בTikaParser (חליל ימשק באמצעות jnioche)
  • NUTCH-1,897 קלים יותר באגים של שגיאות XML התוסף (מרקוס)
  • NUTCH-1,823 שדרוג לelasticsearch 1.4.1 (פו קיאו, מרקוס, lewismc)
  • NUTCH-1,829 Generator: מסוגל להבחין שגיאות אמיתיות (Mathieu Bouchard, jnioche, snagel)
  • Generator NUTCH-1,778 לא כניסה מספר כתובות האתרים ביצוו כראוי (jnioche באמצעות snagel)
  • NUTCH-1,877 מסנן כתובות סיומת להתעלם מחרוזת שאילתא כברירת מחדל (מרקוס באמצעות snagel)
  • NUTCH-1825 פרוטוקול http-(פו קיאו באמצעות snagel) עלול להיתקע לדפי אינטרנט מסוימים
  • NUTCH-1,483 לא יכול לזחול מערכת קבצים עם תוסף פרוטוקול קובץ (רוחריו פריירה אראוחו, Mengying וואנג, snagel)
  • NUTCH-1,885 פרוטוקול קובץ צריך לטפל קישורים סמליים כהפניות (Mengying וואנג, snagel)
  • NUTCH 1880 URLUtil לא צריך להוסיף חתכים נוספים עבור כתובות אתרי קובץ (snagel)
  • NUTCH-1,879 מנרמל URL Regex צריך להסיר חתכים מרובים לאחר קובץ: פרוטוקול (snagel)
  • שדה NUTCH-1820 הסר & quot; orig & quot; אשר כפילויות & quot; id & quot; (Lewismc, snagel)
  • שדרוג NUTCH-1843 גורה 0.5 (טלעת, lewismc, קיריל Menshikov, drazzib)
  • NUTCH-1,883 בן / זחילה: פונקצית שימוש לרוץ בן / nutch ולבדוק ערך יציאה (snagel)
  • יעד ליקוי נמלת NUTCH-1882 להוסיף נתיב פלט לsrc / בדיקה (snagel)
  • NUTCH-1,827 נמל NUTCH-1,467 וNUTCH-1561 עד 2.x (snagel)
  • שדרוג NUTCH-1876 Commons Crawler 0.5 (jnioche)
  • יעד ליקוי נמלת NUTCH-1866 לא צריך להסיר זמן ריצה (nimafl באמצעות lewismc)
  • NUTCH-1,859 הפוך נמל webapp Nutch להגדרה (נימה Falaki באמצעות lewismc)
  • באג NUTCH-1848 בדלפק מקרי DashboardPage.html (נימה Falaki באמצעות lewismc)
  • NUTCH-841 צור יישום מבוסס אינטרנט פשפש לNutch (Fjodor Vershinin באמצעות lewismc)
  • NUTCH-1,832 הפוך עבודת Nutch ללא אינדקסים (mattmann באמצעות lewismc)
  • (minooie קוה באמצעות jnioche) NUTCH-1840 הפונקציה מתאר בSolrIndexWriter אינה נכונה
  • שדרוג NUTCH-1837 עד Tika 1.6 (lewismc)
  • NUTCH-1,829 Generator: מסוגל להבחין שגיאות אמיתיות (Mathieu Bouchard באמצעות jnioche)
  • NUTCH-1,828 בן / זחילה: טיפול לא נכון של טעויות nutch (Mathieu Bouchard באמצעות jnioche)
  • NUTCH-1,693 TextMD5Signature מחושב על תוכן טקסטואלי (טיין נגוין מאן, מרקוס באמצעות snagel)
  • NUTCH-1,409 db תכונות להסיר מיושן. {ברירת מחדל, מקסימום} .fetch.interval, generate.max.per.host.by.ip (מתיאס Agethle באמצעות snagel)
  • NUTCH-1,819 batchId בGeneratorJob (Fjodor Vershinin באמצעות lewismc)
  • שימוש באותו id NUTCH-1,708 כאשר אינדקס והפניות מחיקה (snagel)
  • NUTCH-1,817 הסר pom.xml ממקור (jnioche)
  • NUTCH-1,811 בן / JUnit nutch להשתמש רץ JUnit 4 מבחן (snagel)
  • NUTCH-1,776 נתיב קובץ plugin.folder השגוי יומן (דיאא באמצעות snagel)
  • NUTCH-1,566 בן / nutch לאפשר רווחים בשבילים (tejasp, snagel)
  • גלאי סוג MIME NUTCH-1,605 מכירים xlsx כקובץ zip (snagel)
  • NUTCH-385 לשפר תיאור של תצורת חוט קשורה לשולפות (jnioche, lufeng)
  • פקודת המדד NUTCH-1,798 תסריט סריקה לא קורא בצורה נכונה (אהרון Bedward באמצעות jnioche)
  • NUTCH-1,769 refactoring API REST (Fjodor Vershinin באמצעות lewismc)
  • NUTCH-1,633 slf4j מסופק על ידי Hadoop ולא צריך להיות כלול בקובץ העבודה (minooie קוה באמצעות jnioche)
  • NUTCH-1,787 עדכון ודף שלם סקירת doc API (snagel)
  • NUTCH-1,767 להסיר טיפול מיוחד של & quot; params & quot; בקישורים יחסי (snagel)
  • NUTCH-1,718 להגדיר מחדש http.robots.agent & quot; סוכן שמות & quot נוספים; (Snagel, Tejas פטיל, דניאל קוגל)
  • ודאו בוני אובייקט NUTCH-1,796 גורה משמשים כמתנגדים לבנאים ריקים (snagel באמצעות lewismc)
  • NUTCH-1,590 פגיעות הזרקת מסגרת [ביטחון] בJavadoc פורסם (jnioche)
  • NUTCH-1,736 לא יכול להביא דף אם כותרת תגובת http מכילה העברה-קידוד: מחולק (ysc באמצעות jnioche)
  • NUTCH-1,782 NodeWalker לחזור צומת נוכחית (מרקוס)
  • NUTCH-1,781 גורה עדכון - * - mapping.xml וgora.proeprties לשקף גורה 0.4 (lewismc)
  • שדרוג NUTCH-1,768 לElasticSearch 1.1.0 (jnioche)
  • -stats readdb NUTCH-1,634 מראה את התוצאה פעמיים (קוה minooie באמצעות jnioche)
  • TTL NUTCH-1780 לgc_grace_seconds תכונות חסרות קובץ גורה-קסנדרה-mapping.xml (קוה minooie באמצעות lewismc)
  • NUTCH-1,676 להוסיף תמיכה ב- SSL בסיסית לפרוטוקול http-(jnioche, מרקוס)
  • NUTCH-1,674 מסנן השימוש batchId כדי לאפשר סריקה (GORA-119) לתביא, לנתח, עדכון, מדד (טיין נגוין מאן וAlparslan Avci באמצעות jnioche)
  • שדרוג NUTCH-1,714 לגורה 0.4 (Alparslan Avci באמצעות jnioche)
  • NUTCH-1,752 כללי robots.txt מטמון לפרוטוקול: מארח: יציאה (snagel)
  • פסקי זמן NUTCH-1,613 בפרוטוקול-httpclient בעת הסריקה אותו מארח עם & gt; 2 אשכולות (brian44 באמצעות jnioche)
  • שולף NUTCH-1,182 להיכנס אשכולות תלויים (snagel)
  • NUTCH-1,618 הפעילו ביצוע ספקולטיבי את לשולף (טלעת)
  • NUTCH-1,657 ORIGINAL_CHAR_ENCODING וCHAR_ENCODING_FOR_CONVERSION לא נקבע בHTMLParser (טלעת)
  • המפחית של NUTCH-1,725 ​​CleaningJob אינו מתחייב מסמכים שנמחקו. (Ilhamikalkan באמצעות טלעת)
  • תוסף האינדקסים-Solr NUTCH-1,728 לא למחוק מסמכים מSolr (ilhamikalkan באמצעות טלעת)
  • NUTCH-1,753 בעיה dependecy Eclipse ל2.x (טלעת)
  • NUTCH-1,720 קווים כפולים בHttpBase.java (וולטר Tietze באמצעות jnioche)
  • NUTCH-797 URL לא נבנתה כראוי כאשר יעד קישור מתחיל ב& quot;? & Quot; (דאג קוק, רוברט Hohman, Stondet, AB באמצעות snagel)
  • שדרוג NUTCH-1,759 לCommons Crawler 0.4 (jnioche)
  • קוד NUTCH-1700 הסר מיושן בsrc / תוסף / creativecommons / build.xml (lewismc)
  • NUTCH-1,761 תסריט סריקה לא מצליח למצוא את קובץ עבודה אם לא התחיל מתוך dir בן (דוד הוסקינג, jnioche)
  • מנתח ZIP NUTCH-1,603 מתלונן על קובץ PDF קטום (snagel באמצעות lewismc)
  • NUTCH-1743 parsechecker להראות outlinks (snagel)
  • NUTCH-1,732 קו cmd טוב יותר בניתוח לNutchServer (Fjodor Vershinin באמצעות lewismc)
  • NUTCH-1,751 עוגנים ריקים לא צריך מדד (Sertac טירקל באמצעות lewismc)
  • NUTCH-1,733 לנתח-html כדי לתמוך HTML5 הגדרות קידוד (snagel)
  • NUTCH-1,727 אורך הגדרה לסיומות (Sertac טירקל באמצעות lewismc)
  • NUTCH-1,738 לחשוף את המספר של כתובות אתרים שנוצרו לכל אצווה בGeneratorJob (טלעת UYARER באמצעות ewismc)
  • indexchecker NUTCH-1,671 להוסיף לעכל שדה (snagel, lufeng)
  • NUTCH-1,645 JUnit מקרה מבחן למסתגלים תביא כיתת לוח זמנים (יאסין Kilinc, lufeng, Sertac URKEL באמצעות snagel)
  • NUTCH-1,478 לנתח-metatags ותוסף למדד מטה סדרת 2.x Nutch ל( Kiran, Nguyen Anh טיין, טלעת UYARER, ונגליס Karvounis באמצעות lewismc)
  • שדרוג NUTCH-1,729 לTika 1.5 (jnioche)
  • NUTCH-1,721 שדרג לסורק נפוץ 0.3 (tejasp)
  • NUTCH-1,719 DomainStatistics נכשל ב2.x כי כתובת אתר אינו unreversed (גרהרד GOSSEN באמצעות lewismc)

  • גרסאות
  • NUTCH-1,253 Incompatable Neko וXerces (snagel, lewismc, טלעת UYARER)
  • NUTCH-1,715 RobotRulesParser מוסיף נוסף '*' לשם רובוטים (tejasp)
  • מטמון מאגר NUTCH-356 תוסף יכול להוביל לדליפת זיכרון (אנריקו Triolo, Dogacan Guney באמצעות מרקוס)
  • בדיקות JUnit כתיבת NUTCH-1,164 לפרוטוקול http-(Sertac טירקל באמצעות tejasp)
  • בכניסה חבילת גורה הוספת NUTCH-1710 לlog4j.properties (lewismc)
  • NUTCH-1,655 Indexer תוסף עבור אלסטיות חיפוש (טלעת UYARER באמצעות lewismc)
  • NUTCH-1,699 Tika מנתח - באג לנתח תמונה (Mehmet Zahid Yuzuguldu, snagel באמצעות lewismc)
  • ארכיטקטורת אינדקס נתקעים NUTCH-1,568 נמל ל2.x (טלעת UYARER באמצעות lewismc)
  • קישורים נכנסים NUTCH-1,672 מתווספים פעמיים בDbUpdateReducer (טיין נגוין מאן באמצעות lewismc)
  • NUTCH-1,667 updatedb תמיד להתעלם batchId (טיין נגוין מאן באמצעות lewismc)
  • NUTCH-1,695 NutchDocument.toString () (מרקוס באמצעות lewismc)
  • NUTCH-1,696 אפשר שימוש ב( גורה) תלות בעין מצלמה (lewismc)
  • NUTCH-1,681 בURLUtil.java, שיטת toUNICODE לא עובדת כראוי (

תגובות ל Apache Nutch

תגובות לא נמצא
להוסיף הערה
הפעל את התמונות!