פרטי תוכנה:
תוכנת Methabot היא מהיר מותאם, אינטרנט תסריטים ומאוד להגדרה, FTP וסורק של מערכת קבצים מקומי. הוא תומך בניתוח filetype התסריט, במגוון רחב של אפשרויות התאמה אישית ומוגדר בקלות כדי להתאים לצרכימים מסוימים מישהם.
עם השימוש במערכת מודול ושפת scripting, משתמשים יכולים לקחת שליטה מלאה או חלקית של תהליך הסריקה ולהחליט עם זאת Methabot צריך לאחסן נתונים באינטרנט, סטטיסטיקה ועוד.
רק על ידי הפעלת Methabot משורת הפקודה אתה סוגי קבצים מותאמים אישית להגדיר מסוגלים, סינון ביטויים, התנהגות, ועוד הרבה יותר, כך שאתה לא צריך להיות תסריטאי
תכונות :
- זה מהיר, תוכנן מהיסוד ועד למהירות-אופטימיזציה במוח.
- בתסריטים דרך Javascript עם E4X
- סינון סוג קובץ מוגדר משתמש (לפי סוג MIME, סיומת קובץ או ביטוי UMEX)
- ריבוי הליכי
- מאוד להגדרה משורת הפקודה
- , תמיכה מנתחי נתונים מותאמים אישית ומסננים.
- סינון פשוט אך רב עוצמה של כתובות אתרים באמצעות UMEX.
- הורדה אוטומטית
- תמיכה עבור טיפול אוטומטי בקבצים Cookie בעת הפעלה על HTTP
- רשת אמינה, עמידה בפני תקלות
- נייד, נבדקו בהצלחה על 32-bit / 64-bit Linux 2.6, 32-bit / 6.x FreeBSD 64 סיביות / 7.0, Windows XP ו- Mac OS X. צריכה לעבוד כמעט על כל מערכת הפעלה דמוית יוניקס.
מערכת מודול להרחבה
מה חדש בהודעה זו:
- תיקון באג, כאשר חיצונית-הצצה שימשה גבול העומק היה פישל.
- זיכרון
- דינמי כתובת אתר היא כבר לא מוגדרת כברירת מחדל בדיקה, שכן הוא מאט את הזחילה באופן משמעותי
- מערכת לבנות החברה יוצרת ומתקינה כמה קבצי כותרת שמודולים יכולים להשתמש בעת הקישור
- כלי מהטה-config הוסיף
- lmm_mysql עבר מחוץ לחבילה זו
תיקוני ניקוי שימוש
אפשרות
מה חדש בגרסת 1.5.0:
- שינויים ותכונות חדשות:
- תמיכה בקריאת חיץ intial מstdin
- - אפשרויות שורת פקודת הסוג ו--base-url הוסיפו, יחד עם אפשרות initial_filetype בקבצי תצורה
- עוגיות ומידע DNS כעת משותפים כראוי בין העובדים בעת ההפעלה מרובה הליכי
- נוסף כמה דוגמא שימוש בפקודות ל--examples
- שיפורים גדולים לתקשורת בין-החוט, עכשיו מאורגן יותר מהר ויותר
- תמיכה נוסף עבור פונקציות "לאתחל" לתסריטים. קראו עוד על פונקציות init בhttp://bithack.se/projects/methabot/docs/e4x/init_functions.html
- libmetha לא להקפיא כאשר עושים בקשות HTTP ראשו זמנית מספר רב יותר. הסיבה להקפאה הייתה באג בlibcurl שעכשיו הוא קבוע. דרכים לעקיפת כמה נוספו לlibmetha למנוע קופאים מהתרחשות בעת שימוש בגרסות libcurl הפגם גם כן.
- תמיכה בגרסאות ישנות יותר libcurl 7.17.x ו7.16.x
- מידע חדש זמין ב& quot; זה & quot; אובייקט של קוד JavaScript מנתחים, סוג התוכן ומעמד העברה. קראו עוד בhttp://bithack.se/projects/methabot/docs/e4x/this.html
- - אפשרות מפורט הוחלפה ב--silent, מאז מצב מפורט כעת ברירת מחדל
- תמיכה ראשונית לFTP זחילה ואפשרות סורק ftp_dir_url
- עומק מגביל הוא עכשיו סורק ספציפי
- נוסף את אפשרויות שורת פקודת --crawler ו--filetype
- תמיכה בהארכה ומכרעת סורקים וסוגי קבצים שכבר הוגדרו
- תמיכה עבור מילות מפתח העותק בקבצי תצורה
- תמיכה דינמית מיתוג הסורק הפעיל, זה מאפשר לך לזחול אתרים שונים בדרכים שונים לחלוטין בפגישה זחילה אחד. קראו עוד על מיתוג סורק בhttp://bithack.se/projects/methabot/docs/crawler_switching.html
- גרסת libev שדרג ל3.51
- כולל הוראה בקבצי תצורה עכשיו מוודאת את קובץ התצורה כלל לא כבר עמוסה, כדי למנוע כוללות לולאות והגדרות filetype / סורק מרובים.
- תיקוני איסוף האשפה SpiderMonkey שונים, libmetha לא לקרוס יותר כאשר לנקות אחרי פגישה מרובה הליכי
- נוסף מידע נוסף לאפשרות --info
- האפשרות "החיצונית" כעת קבוע ואפשרה שוב
- --spread-עובדי אפשרות חדשה
- lmetha_global_setopt פונקצית API libmetha החדש () מאפשר שינוי הגלובלי שגיאה / הודעה / אזהרת הכתב
- יישום לראשונה של הוספת חבילת בדיקות למפתחים
- דיווח שגיאות טוב יותר בעת טעינת קבצי תצורה
- תיקון באג כאשר שרת HTTP לא חזר כותרת Content-Type לאחר בקשת ראש
- תיקון באג כאשר כתובות URL מיון לאחר בקשות HEAD HTTP המרובים
- תיקון באג בקוד html לממיר XML כאשר דף HTML לא היה לי & lt; HTML & gt; תג
- תיקון באג, אפשרות extless-url לא עבדה
- תיקון באג, HTML ממיר ה- XML כבר לא חונק על סימנים בייט-סדר או טקסט אחר לפני HTML בפועל
- תיקון באג, מנע libmetha ממנסה לגשת לכתובות אתרים של פרוטוקולים שאינם נתמכים
- תיקון באג כאשר כיבוי לאחר שגיאה.
- תיקון באג, כתובות פתירות לא פרצו נסה שנית הלולאה לאחר שלושה ניסיונות
- ניסיוני מאוד ותמיכה יציבה עבור Win32, מיועדת בעיקר למפתחים
- קבצי תצורה חדשים:
- חיפושי גוגל google.conf, לבצע
- youtube.conf, youtube חיפוש
- meta.conf, הדפסי מטא מידע כגון מילות מפתח ותיאור על דפי HTML
- title.conf, מדפיס את הכותרת של דפי HTML
- ftp.conf, לזחילת שרתי FTP
מה חדש בגרסת 1.4.1:
- קביעת התצורה לא הצליח למצוא jsapi.h על כמה מערכות , זה צריך להיות קבוע עכשיו.
- קבצי תצורה יכולים לשנות דגלי סורק וfiletype עכשיו, הוסיף ו'external_peek 'האפשרויות' החיצוניים '
- תיקון באג, Methabot לפעמים לקרוס כאשר מנקים את כתובות אתרים ריקות לאחר ראש HTTP מרובה
- קבוע התרסקות שאירעה בעת ההפעלה באופן סינכרוני.
- לבנות מערכת כוללת תיקון כאשר jsconfig.h לא נמצא.
דרישות :
- כותרות SpiderMonkey
- cURL
תגובות לא נמצא