זה יכול לערוך את התגים בצד השרת וצד הלקוח, תוך להתרבות מילה במילה כל HTML לא מוכר או לא חוקי.
כמו כן, מספק פונקציות מניפולציה טופס HTML ברמה גבוהה
תכונות :.
הנוכחות של HTML המעוצב קשה לא מפריע לניתוח של שאר המסמכים, מה שהופך את הספרייה אידיאלית לשימוש ב- & quot; בעולם אמיתי & quot; HTML שחונק מנתחים אחרים.
תגי שרת
ASP, JSP, PSP, PHP ומייסון מוכרים במפורש על ידי המנתח. משמעות הדבר היא כי HTML רגיל עדיין מנותחת כראוי גם אם יש תגי שרת בתוכם, שהוא משותף לדוגמא, כאשר באופן דינמי הגדרת אלמנט תכונות. אפשרות ניתוח חדשה זרם מבוסס באמצעות מחלקת StreamedSource, המאפשרת עיבוד יעיל של זיכרון קבצים גדולים באמצעות איטרטור אירוע. זהו למעשה אלטרנטיבה Stax עם היכולת לעבד HTML ו- XML-אימות עישון, כמו גם כמה תכונות אחרות לא זמין במנתחי הזרמה אחרים. בטופס הסטנדרטי שלה זה לא עץ המבוסס על מנתח אירוע ולא, אלא משתמש בשילוב של חיפוש טקסט פשוט, הכרת תג יעילה ומטמון עמדת תג. הטקסט של מסמך המקור כל נטען ראשון לזיכרון, וגם אז רק המגזרים הרלוונטיים חיפשו דמויות הרלוונטיות של כל פעולת חיפוש. בהשוואה הלמבוסס על מנתח עץ כגון DOM, דרישות הזיכרון ומשאבים יכולות להיות הרבה יותר טובה אם רק חלקים קטנים של המסמך צריכים להיות מנותחים או שונה. HTML השגוי או מעוצב קשה בקלות ניתן להתעלם, שלא כמו מנתחים מבוססים עץ אשר חייב לזהות כל צומת במסמך מלמעלה עד למטה. בהשוואה הלמבוסס על מנתח אירוע כגון SAX, הממשק הוא ברמה הרבה יותר גבוהה ואינטואיטיבי יותר, וייצוג עץ של היררכית אלמנט מסמך נוצר בקלות במידת הצורך. להתחיל ועמדות קצה במסמך המקור של כל המגזרים מנותחים נגישות, המאפשרים שינוי של מגזרים נבחרים בלבד של המסמך מבלי לשחזר את המסמך כולו מעץ. מספר השורה ועמודה של כל עמדה במסמך המקור נגיש בקלות. מספק ממשק פשוט אך מקיף לניתוח והמניפולציה של בקרות טופס HTML, כוללים החילוץ והאוכלוסייה של ערכים ראשוניים, והמרה לקריאה בלבד או תצוגת נתונים מצבים. ניתוח של בקרים גם מאפשר הנתונים שהתקבלו מהטופס להיות מאוחסן ומוצג בצורה ראויה. מובנה פונקציונלי כדי לחלץ את כל הטקסט מסימון HTML, המתאים להאכלה במנוע חיפוש טקסט כגון Apache Lucene. מובנה פונקציונלי כדי להבהיר סימון HTML עם עיצוב טקסט פשוט. מובנה פונקציונלי כדי לעצב את קוד מקור HTML שכניסות אלמנטים על פי עומקם בהיררכית אלמנט מסמך. (לחץ כאן להפגנה באינטרנט) מובנה פונקציונלי לקוד מקור HTML הקומפקטי על ידי הסרת כל השטח הלבן המיותר. ניתן להגדיר סוגים מותאמים אישית תג בקלות ורשום להכרה על ידי המנתח. מה חדש בהודעה זו:.
- נוסף מקור בנאי (קובץ)
- שיטה נוסף OutputDocument.getSegment ().
- נוסף OutputDocument.remove (int להתחיל, סוף int) שיטה.
- שיטה נוסף Renderer.setHRLineLength ().
- מדגם webapp נוסף RenderToText.jsp.
- שיטה נוסף Segment.getRowColumnVector ().
- זיהוי קידוד עכשיו מתעלם קידודים נפוצים המפורטים בתגי meta שיש לי גודל יחידת קוד בקנה אחד עם הקידוד הראשוני.
מה חדש בגרסה 3.1:
- תיקוני באגים:
- לולאה אינסופית על Segment.getAllStartTags ()
- לולאה אינסופית על Segment.getAllElements ()
- Segment.getFirst * שיטות חזרו מגזרים מחוץ לתחום התוחם.
שיטות - Segment.getAllElements לא להחזיר את כל האלמנטים סגורים בנסיבות מסוימות.
- שגיאות תיעוד קבועים בשיטות Segment.getAllElements.
- כיתה נוסף StreamedSource.
- שינויים שעשויים להשפיע על ההתנהגות של תוכניות קיימות:
- שינה ParseText מכיתה לממשק.
- Segment.getNodeIterator () עכשיו חוזר אזכור אופי כמו בלוטות נפרדות.
שיטות - תג נוסף חיפוש המבוסס על ביטויים רגילים ערך תכונה.
שיטות - תג נוסף חיפוש המבוסס על תכונת מעמד HTML.
- רכוש Source.LegacyNodeIteratorCompatabilityMode סטטי נוסף באופן זמני כדי לשחזר את הפונקציונליות Segment.getNodeIterator () לזה של גרסאות קודמות.
- שיטות char הוסר [] מבוססות חיפוש בParseText.
- נוסף CharacterReference.appendCharTo (Appendable) שיטה.
- נוסף OutputDocument (מגזר) בנאי.
- .
תכנית דוגמא נוסף StreamedSourceCopy
תגובות לא נמצא