פרטי תוכנה:
כפי שתוכנן מעטפת סביב lxml, זה עכשיו מרחיב lxml עם כל התכונות דרושות בדרך כלל בכריית נתונים HTML
תכונות :.
- בוררי CSS כמו jQuery נחמד
- גישה פשוטה לאלמנט מייחסת
- דרך קלה ללהמיר HTML לפורמט אחר (BBcode, Markdown, וכו ')
- פונקציות נחמדים מעטים לעבודה עם טקסט
- שומר את כל התכונות המקוריות של lxml
- פונקציות לעבודה עם טקסט טהור:
- to_unicode - המרת מחרוזת למחרוזת Unicode
- strip_accents - רצועת מבטאים ממחרוזת
- strip_symbols - סימנים Unicode הרצועה מכוערת ממחרוזת
- strip_spaces - פס מרחבים עודפים ממחרוזת
- strip_linebreaks - פס מעברי שורה עודפים ממחרוזת
דרישות :
- lxml
תגובות לא נמצא