פרויקט cpdetector היא מסגרת עדיין חכמה קטנה לגילוי codepage.
cpdetector היא מסגרת קטנה עדיין חכמה לזיהוי codepage המשלב אסטרטגיות שונות. זה יכול לשמש כספרייה לתוכנות צד שלישית שגישת נתונים טקסטואלי על גבי רשת.
זה כולל גם יישום נוהל מומלץ בצורה של שורת פקודת כלי שמאפשר מיון והפיכת אוספים גדולים של מסמכים המבוססים על codepage.
אסטרטגיות זמינות כוללות: jchardet (הדרה, ניתוח תדירות, ומנחש), זיהוי של נכס charset HTML, וזיהוי של הצהרת קידוד XML.
מהו דף קוד?
בהתחלה, מסמך טקסטואלי הוא לא יותר מאשר רצפים של ביטים. מחשב צריך להחליט, איך הוא יכול להציג את הנתונים בצורה של דמויות (שמזוהים על ידי המחשב כמספרים).
דף קוד - שידוע גם בשם קידוד קידוד - ממפה את הנתונים הגולמיים של מסמך טקסטואלי לדמויות. דף קוד ASCII המקורי למשל משתמש רק 7 ביטים של שמינייה (בייט) להכרעה בתו מיוצג ובכך מאפשרים רק כדי למפות 128 דמויות שונות. בזיכרון העבר היה יקר ומחשבים בתדירות הגבוהה ביותר היו רק אוגרים ואוטובוסים במשך 8 ביט.
כאשר המיינפריים נולד זה היה צריך להיות מוכרע, שבו דמויות שהוא צריך לתמוך. רופאים ומתמטיקאים למשל צורך בתווים מיוחדים למשוואות. כתוצאה מכך, מחשב לעתים קרובות מגיע עם codepage מיוחד
מה חדש בהודעה זו :.
- זה גדול גרסה פותר שתי בעיות במצב אצווה שורת הפקודה.
מה חדש בגרסת 1.0.8:
- מהדורה זו היא מהדורת יציבות ומתקנת את הבתים
להזמין גילוי סימן ואי התאמה עם OpenJDK. זה גם דורש Java 1.5 עכשיו.
תגובות לא נמצא