פרטי תוכנה:
PDFMiner עובד על ידי לקיחה ראשונה התוכן של קובץ PDF והמרתו לפורמט נזיל יותר כמו HTML.
משם, טקסט ונתונים מופק ונותחו, ומבוססים על הכללים המוגדרים מראש יופרד ויוצגו למשתמש או נשלחו לכלי ניתוח נתונים חזקים יותר אחרים.
אם ניתוח טקסט הוא לא מה שאתה מתכוון לעשות, אתה יכול בקלות להגדיר PDFMiner פשוט לחלץ או פשוט להמיר את נתוני PDF גם כן.
הפונקציות שלה יכולות לעבוד בנפרד זו מזו ולאפשר הודות ספקטרום רחב יותר לשימוש זה
תכונות :.
- 100% קוד, לא C או ++ C
- קובצי PDF לנתח
- קובצי PDF לנתח
- המרת קבצי PDF לפורמטים אחרים
- חולץ תוכן עניינים
- קבל רק מתויג תוכן
- תמיכה עבור מספר רב של תכונות PDF הטקסט
- תמיכה במספר רב של סוגי גופן בתוך קובצי PDF
- תמיכה בהצפנה בסיסית (RC4)
מה חדש בהודעה זו:
- שיטת PDFDocument.initialize () מוסר ואין עוד צורך . סיסמא ניתנת כטיעון של בנאי PDFDocument.
מה חדש בגרסה 20110515:.
- שינויי API
- כיתת LTPolygon הייתה שם כLTCurve.
מה חדש בגרסה 20110227:.
- תיקוני באגים ושיפורי ניתוח פריסה
מה חדש בגרסה 20101226:.
- כמה תיקוני באגים ושיפורים קלים
מהו
- כמה תיקוני באגים ושיפור שולי >
מה חדש בגרסה 20100424:.
- תיקוני באגים ושיפורים זעירים על חילוץ TOC
דרישות :
- פייתון 2.4 עד 3
מגבלות
- - תוכנה מבוססת
תגובות לא נמצא