Apache Tika

צילום מסך תוכנה:
Apache Tika
פרטי תוכנה:
גרסה: 1.9 מעודכן
טען תאריך: 20 Jul 15
רשיון: ללא תשלום
פופולריות: 89

Rating: 5.0/5 (Total Votes: 1)

Apache Tika פותח ככלים ברמה נמוכה לחיפוש תוכן בתוך קבצים אחרים.
Tika לא עושה הרבה בעצמו בהיותו ספרייה פשוטה, אבל זה יכול להיות משולב בכלים חזקים יותר כמו מנועי חיפוש, מערכות דיגיטליות לניהול נכס או CMSs לספק מערכת חיפוש בקובץ מלוא תפקודית.
הספרייה יכולה לגשת הכותרת רק של הקובץ לקובץ מידע כללי מהיר, או שהוא יכול ללכת באמת עמוק ולחפש גם בגופו של הקובץ לסוגים שונים של נתונים, בטקסט או בתבנית בינארית.
מגוון רחב של סוגי קבצים נתמכים וגם Tika ניתן להשתמש בשפות תכנות אחרים בזכות סדרה של כריכות של הצד שלישי ועטיפות.

מה חדש בהודעה זו :

  • מהדורה זו כוללת תיקוני באגים ותכונות חדשות, כולל Tesseract OCR מנתח חדש; מנתח GDAL חדש; יותר פורמטים נתמכים, ושיפורים הכלליים ביציבות Tika.

מה חדש בגרסת 1.8:

  • מהדורה זו כוללת תיקוני באגים ותכונות חדשות, כולל Tesseract חדש OCR מנתח; מנתח GDAL חדש; יותר פורמטים נתמכים, ושיפורים הכלליים ביציבות Tika.

מה חדש בגרסת 1.7:

  • מהדורה זו כוללת תיקוני באגים ותכונות חדשות, כולל Tesseract חדש OCR מנתח; מנתח GDAL חדש; יותר פורמטים נתמכים, ושיפורים הכלליים ביציבות Tika.

מה חדש בגרסת 1.6:

  • מהדורה זו כוללת תיקוני באגים ותכונות חדשות, כולל תרגום חדש API, יותר תמיכה בפורמטים, ושיפורים הכלליים ביציבות Tika.

מה חדש בגרסה 1.5:.

    • באג קבוע בטיפול בעיבוד קובץ מוטבע בקובצי PDF
    • נוסף SourceCodeParser לתמיכה ב- Java, קבצי ++ גרובי, C.
    • עדכון Tika השרת לתמוך מטענים מרובי / טופס נתונים.
    • שרת Tika עדכון לCXF 2.7.8.
    • שרת Tika עדכון לקבל בקשות על כתובות כלליים.
    • נוסף אפשרות להשתמש NonSequentialPDFParser החלופי.
    • תוכן מAcroForms PDF כעת חילוץ.
    • כוכביות חוקיות קבועים משקופית השני בPPT.
    • מקרי מבחן נוסף כדי לאשר טיפול בתאריך אוטומטי בPPT וpptx.

    מה חדש בגרסת 1.4:

    • הוסר קובץ הבדיקה HTML עם טקסט GPL נבחר גרוע ב זה.
    • שיפורים לTika-שרת כדי לאפשר לה לייצר text / html וטקסט / תוכן XML.
    • שיפורים נעשו למנתח המדחס כדי לטפל בקבצי g'zipped הדורשים אפשרות decompressConcatenated מוגדרת נכון.
    • ממוען שגיאה טיפוגרפיים שמונעת מזיהוי של קבצי awk.

    מה חדש בגרסה 1.2:

    • Apache Tika 1.2 מכיל מספר השיפורים ותיקוני באגים.

    מה חדש בגרסת 1.0:

    • Apache Tika 1.0 מכיל מספר השיפורים ותיקוני באגים.

    מה חדש בגרסה 0.9:.

    • גרסה זו כוללת מספר תיקוני באגים חשובים ותכונות חדשות

    מה חדש בגרסת 0.8:

    • זיהוי שפה הוא החברה דינמית להגדרה, המנוהל באמצעות קובץ הגדרות נטען מclasspath.
    • Tika תומך כעת ניתוח הזנות על ידי עטיפת ספריית רומא שבבסיס.
    • מדריך להתחלה מהירה עבור ניתוח Tika נתרמה.
    • גישה לצנרת באמצעות תכונות XHTML נוסף.
    • מידע היררכית סוג מדיה כעת נלקח בחשבון בעת ​​בחירת המנתח הטוב ביותר למסמך קלט נתון.
    • תמיכה בפורמטי ניתוח נתונים מדעיים נפוצים כוללים netCDF וHDF4 / 5 נוספו.
    • בדיקות יחידה עבור Windows תוקנו, המאפשרות TestParsers כדי להשלים.

    מה חדש בגרסה 0.7:

    • ניתוח קובץ MP3 השתפר, כולל מיצוי הערוץ וsamplerate ו תמיכת ID3v2. יתר על כן, גילוי פנטומימה ניתוח אודיו גם השתפר לפורמט MIDI.
    • Tika מסתמך כבר לא על X11 לפונקציונלי ניתוח RTF.
    • באג הודעת כספת בAutoDetectParser התגלה וטופל.
    • שדרג לPDFBox 1.0.0. גרסת PDFBox החדשה משפרת את ביצועי ניתוח PDF ומתקנת מספר בעיות חילוץ טקסט.

    דרישות :

    • Java 6 או
    • גבוה

  • תוכנה דומה

    Node CSV
    Node CSV

    18 Jul 16

    Argo
    Argo

    10 Dec 15

    fQuery
    fQuery

    4 Jun 15

    תוכנות אחרות של יזם Apache Software Foundation

    Apache Wookie
    Apache Wookie

    13 Apr 15

    Apache Streams
    Apache Streams

    13 Apr 15

    Apache ODF Toolkit
    Apache ODF Toolkit

    12 May 15

    Apache CouchDB
    Apache CouchDB

    14 Apr 15

    תגובות ל Apache Tika

    תגובות לא נמצא
    להוסיף הערה
    הפעל את התמונות!
    חיפוש לפי קטגוריות