בהתבסס על מנתח Nokogiri HTML עבור רובי, לטהר היא מערכת מבוססת רשימה לבנה להסרת HTML מבלוק של טקסט.
הטכניקה "הרשימה הלבנה" תאפשר למפתחים להתקנת רשימה של תגי HTML אשר לטהר ישתמשו כנקודת התייחסות עבור מה שהיא רואה HTML "המקובל".
כל תג HTML אחר לא ברשימה יוסר מהטקסט המנותח.
לטהר יכול לעבוד עם סטנדרטים תואמים או עם HTML הפגום.
הספרייה יכולה לזהות ולסנן את תגי HTML, תכונות ופרוטוקולים.
הטקסט ניקה תמיד יהיה outputted כמו HTML או XHTML תקפים.
כדי לסייע למפתחים להתחיל לעבוד על הפרויקטים שלהם, לטהר מגיע עם כמה תצורות מוכנות כלל. בדוק את קובץ README לפרטים נוספים
מה חדש בהודעה זו:.
-
שתי הגדרות תצורת CSS חדשות נוסף,: at_rules_with_properties ו:. at_rules_with_styles
- תמיכה מלאה נוסף לכלליpage CSS בתצורה הרגועה, כוללים תמיכה בכל כללי תיבת הדף-שוליים.
- נוסף CSS הבא בכללים לconfig רגוע.
- נוסף חבורה של מאפייני CSS שלמה config רגוע. הצג את הרשימה המלאה כאן.
- שיפורי ביצועים קטנים.
- משודרג Crass ל1.0.2 להרים תיקון שהשפיע על הניתוח של כלליpage CSS.
מה חדש בגרסת 3.1.2:
-
קבוע: #document ו#fragment נכשלו בקפוא מחרוזות, ויכולות שלא בכוונה לשנות מחרוזות יצאה מן ההקפאה, אם הם השתמשו בקידוד אחר מאשר UTF-8 או אם הם כלולים תווים אסורים ב- HTML.
מה חדש בגרסת 3.0.2:
- עדכון Nokogumbo ל1.1.12, כי 1.1. 11 שקט חזר השינוי שאנחנו מנסים להרים בשחרור האחרון.
מה חדש בגרסת 3.0.0:
- תמיכת חיטוי CSS המתקדם נוסף באמצעות גס, שהוא תואם באופן מלא עם מפרט ניתוח CSS תחביר מודול רמת 3. התוכן של x3c רשימה הלבן & #; סגנון & # x3e; אלמנטים וסגנון מייחס ב- HTML יהיו מחוטא כCSS, או שאתה יכול להשתמש בכיתת CSS :: לטהר לטהר ידני גיליונות סגנון CSS או נכסים.
- נוסף: allow_doctype הגדרה. כאשר הגדרות נכונות, בנויות היטב DOCTYPE תתאפשר במסמכים. כאשר שקר (ברירת המחדל), הגדרות DOCTYPE יוסרו ממסמכים. הגדרות Doctype לא מורשות בברים, ללא קשר להגדרה זו.
- נוסף האלמנטים לconfig רגוע הבאים, בנוסף לתכונות שונות:. מאמר, בצד, גוף, נתונים, div, תחתון, ראש, כותרת, HTML, עיקרי, nav, סעיף, תוחלת, סגנון, כותרת
- : config whitespace_elements הוא עכשיו חשיש, ומאפשר לך לציין הטקסט שצריך להיות מוכנס לפני ואחרי האלמנטים האלה כשהם הוסרו. ערך config מבוסס מערך בסגנון הישן עדיין נתמך עבור תאימות לאחור.
- תווי Unicode לא מתאימים עכשיו יוסרו מHTML לפני שהוא מנותח.
- קבועים:
- בסוגריים ללא תג בקלט כמו & quot; 1 & # x3e; 2 ו 2 & # x3c; 1 & quot; כעת מנותחים וברח בצורה נכונה בהתאם למפרט HTML5, הופך & quot; 1 & gt; 2 ו 2 & lt; quot 1 &;.
- אחים נוספו לאחר הצומת הנוכחית במהלך חציה עכשיו גם חצו. בגרסאות קודמות הם פשוט לדלג עליו.
- Nokogiri כבר חבט והורה להפסיק הוספת שורות חדשות אחרי אלמנטים מסוימים, כי אם אנשים רצו שורות חדשות שם הם היינו לשים אותם שם, לכל הרוחות.
מה חדש בגרסת 2.0.6:
- גרסת 2.0.5 בטעות כללה כמה עבודה-ב שינויי -progress שלא היו צריך עשו את דרכם לסניף הראשי.
מה חדש בגרסת 1.2.1:
-
נוסף: הגדרת תצורת remove_contents. אם נקבע כאמת, לטהר יסיר את התוכן של כל האלמנטים הלא הרשימה הלבן בנוסף לאלמנטים עצמם. אם נקבע למערך של שמות אלמנט, לטהר יסיר את התוכן רק אלה אלמנטים (כאשר מסונן), ולהשאיר את התוכן של אלמנטים מסוננים אחרים. [תודה לרפאל סוזה לאפשרות המערך]
- נוסף: config output_encoding הגדרה כדי לאפשר את קידוד התווים עבור פלט HTML שצוין. ברירת המחדל הוא "utf-8".
- חשיש הסביבה עבר לשנאים כולל כעת: פריט node_name המכיל את השם באותיות קטנות של צומת HTML הנוכחית (לדוגמא & quot; div & quot;) .
- חוזר שום דבר אחר מאשר חשיש או אפסי משנאי כעת להעלות חריג לטהר :: שגיאה משמעותית ולא NameError לא מכוון.
דרישות :
- רובי 1.9.2 או גבוה
- Nokogiri 1.4.4 או גבוה
תגובות לא נמצא