Jericho HTML Parser

צילום מסך תוכנה:
Jericho HTML Parser
פרטי תוכנה:
גרסה: 3.3
טען תאריך: 20 Feb 15
מפתחים: Martin Jericho
רשיון: ללא תשלום
פופולריות: 3

Rating: nan/5 (Total Votes: 0)

Jerich HTML Parser הוא קוד פתוח, פשוט, אך רבת עוצמה ספרייה כתוב כולו ב- Java.
זה מאפשר למתכנתים כדי לתפעל ולנתח חלקים של מסמך HTML.
Jerich HTML Parser גם משלב פונקציות מניפולציה טופס HTML ברמה גבוהה

מה חדש במהדורה זו:.

  • תיקוני באגים:
  • [3581664] CharacterReference.decode () לא לפענח ישויות המכילות ספרות - וfrac12; וfrac14; וfrac34; וsup1; וsup2; וsup3; וthere4;
  • [3311286] SourceCompactor אינו מכבד את תיבת הטקסט
  • [3519131] פלט שגוי כאשר נבנו עם אובייקט אלמנט. מפיק
  • [3538829] שגוי.
  • פלט מפיק של עיטור גופן בגבולות גוש
  • Segment.getAllStartTags (שם) וSegment.getFirstElement (שם) לא עובדים אם הטיעון מכיל אותיות רישיות.
  • מפריד סוף תג שרת משותף בתוך תג שרת נמלט מוכר באופן כוזב כמפריד סוף התג נמלט.
  • שינויים שעשויים להשפיע על התנהגות של תוכניות קיימות:
  • [3427073] Segment.getStyleURISegments () כולל כעת תוכן אלמנט סגנון כמו גם ערכי תכונת סגנון.
  • [3427927] Segment.getURIAttributes () כולל כעת את תכונות הארכיון של אלמנטי אובייקט ויישומון.
  • תגובות כבר לא מוכרות בתוך אלמנטי תסריט במהלך לנתח רציף מלא. בעבר הם היו מוכרים לתאימות עם דפדפנים עיקריים, אך מודרני התנהגות הדפדפן השתנתה.
  • שינה את רמת הרישום של כל השגיאות בניתוח מINFO לשגיאה, ואת רמת הרישום של ההודעה המייעצת Source.fullSequentialParse () מלהזהיר לפרטים. הרמות הקודמות נתנו הודעה המייעצת חומרה גבוהה מטעויות הניתוח, מניעת מערכות רישום ממסתתר ההודעה המייעצת תוך הצגת שגיאות ניתוח. אזהרות קידוד תווים יישארו ללא שינוי ברמה להזהיר רמה.
  • שינה את ההתנהגות של שיטת Renderer.renderHyperlinkURL (תג התחלה) כך שכתובות יחסי אינן מוצגות.
  • שינה את התנהגותם של המפיק, כך שתוכן אלמנט קישור לא ניתנה אם זה זהה לכתובת אתר קישור, מתעלם מכל http:. // קידומת או / סיומת
  • EndTag.tidy () עכשיו מסיר רווחים לפני הסוגר הסגירה.
  • Added מקור (קובץ) בנאי.
  • שיטה נוסף OutputDocument.getSegment ().
  • המוסף OutputDocument.remove (int מתחיל, סוף int) שיטה.
  • שיטה נוסף Renderer.setHRLineLength ().
  • מדגם webapp נוסף RenderToText.jsp.
  • שיטה נוסף Segment.getRowColumnVector ().
  • זיהוי קידוד עכשיו מתעלם קידודים נפוצים המפורטים בתגי meta שיש לי גודל יחידת קוד עולה בקנה אחד עם הקידוד הראשוני.
  • משודרג לממשקי ה- API הבאים לוגר: slf4j-api-1.7.2, log4j-1.2.17

מה חדש בגרסה 3.1:

  • תיקוני באגים:
  • [2793556] לולאה אינסופית על Segment.getAllStartTags ()
  • לולאה אינסופית על Segment.getAllElements ()
  • Segment.getFirst * שיטות חזרו מגזרים מחוץ לתחום התוחם.

  • שיטות
  • Segment.getAllElements לא להחזיר את כל האלמנטים סגורים בנסיבות מסוימות.
  • שגיאות תיעוד קבועות בשיטות Segment.getAllElements.
  • כיתה נוסף StreamedSource.
  • שינויים שעשויים להשפיע על התנהגות של תוכניות קיימות:
  • שינה ParseText מכיתה לממשק.
  • Segment.getNodeIterator () עכשיו חוזר אזכור אופי כמו בלוטות נפרדות.

  • שיטות
  • תג נוסף חיפוש המבוסס על ביטויים רגילים ערך תכונה.

  • שיטות
  • תג נוסף חיפוש המבוסס על תכונת מעמד HTML.
  • רכוש Source.LegacyNodeIteratorCompatabilityMode סטטי נוסף באופן זמני כדי לשחזר את הפונקציונליות Segment.getNodeIterator () לזה של גרסאות קודמות.
  • שיטות char הוסר [] מבוססות חיפוש בParseText.
  • המוסף CharacterReference.appendCharTo (Appendable) שיטה.
  • המוסף OutputDocument (מגזר) בנאי.
  • .
  • תכנית דוגמא נוסף StreamedSourceCopy

מה חדש בגרסה 3.0:

  • תיקוני באגים:
  • אזכור תווים המייצגים את הדמויות משלימות Unicode לא פוענח כראוי לזוגות יחידת UTF-16 קוד.
  • [2188446] Element.getDepth () וElement.getParentElement () חזרו תוצאות שגויות אם נקראו בלנתח במצב ביקוש.
  • תגובות כעת מוכרות בתוך & lt; תסריט & gt; אלמנטים.

  • שינויים
  • API שאינם תואם לאחור:
  • שם חבילה השתנה לnet.htmlparser.jericho
  • ערכי תכונה חייב להיות עכשיו מחרוזת ולא CharSequence.
  • כל השיטות מיושנות הוסרו / שיעורים מגרסאות קודמות.
  • כל למצוא שיטות * לא מומלצת לשימוש לטובת שיטות לקבל * כדי ליישם אמנת שמות עקבית בכל שיטות חיפוש תג.

  • כיתות
  • תג, HTMLElements אלמנט וכבר לא ליישם את ממשק HTMLElementName. (להשתמש יבוא סטטי במקום)
  • כל האוספים עכשיו stongly הקלדה באמצעות התרופות הגנריות.
  • שינה מעמד FormControlOutputStyle לenum.
  • שינה מעמד FormControlType לenum.
  • המוסף CharStreamSource.appendTo (Appendable) שיטה.
  • שיטה נוסף Source.iterator ().
  • מקור עכשיו מיישם Iterable.
  • פנימי משתמש StringBuilder לביצועים טובים יותר.
  • המוסף Source.getNextStartTag (StartTagType) שיטה.
  • המוסף Source.getNextEndTag (EndTagType) שיטה.
  • המוסף Source.getPreviousStartTag (StartTagType) שיטה.
  • המוסף Source.getPreviousEndTag (EndTagType) שיטה.
  • המוסף Segment.getAllStartTags (StartTagType) שיטה.
  • הוספה כל Segment.getFirst * השיטות.
  • המוסף Renderer.renderHyperlinkURL (תג התחלה) שיטה.
  • .
  • תכנית דוגמא נוסף HTMLSanitiser
  • משודרג לslf4j-api-1.5.6

דרישות :

  • Java 2 Standard Edition Runtime Environment

תוכנה דומה

Parm
Parm

17 Feb 15

generateDS.py
generateDS.py

15 Apr 15

html-tree-diff
html-tree-diff

11 May 15

תוכנות אחרות של יזם Martin Jericho

תגובות ל Jericho HTML Parser

תגובות לא נמצא
להוסיף הערה
הפעל את התמונות!