libthai propose

ช่วงนี้ใช้ libthai เยอะ ปรากฏว่าเจอปัญหาใหม่คือ libthai ไม่รับคำย่อ เลยคิดว่าน่าจะช่วยพี่เทพทำในส่วนนี้ได้ เมลขอไปแล้วพี่เทพก็เห็นด้วย ที่เหลือขึ้นกับความขี้เกียจ/ขยันของผมแล้ว

ด้วยความที่ libthai ไม่รับคำย่อทำให้ผมพยายามจะ hack มันให้รับแบบคร่าวๆ ด้วยการเอาเปลี่ยนจุด เป็นตัว ‘ยามักการ’ (\u0e4e) เพราะเป็นตัวในกลุ่มอักขระไทยและไม่มีการใช้งานในพจนานุกรมของ libthai เองเลย ปรากฏว่าเละหนัก เพราะกฏของ libthai จะไม่ยอมให้ อักขระอยู่เดี่ยวๆ พอเจอกรณีที่ประโยคลงท้ายด้วยจุด “ใช้กลยุทธ์บาบูบีโบพนักงานขับเคลื่อนองค์กรกลาง.” จะทำให้ libthai พยายามดึงตัวสุดท้ายเอาไว้จนเละไปกันใหญ่

to-do ตอนนี้คือ

– รวมคำย่อยอดนิยม ทำ dict ชุดใหม่
– แก้ไฟล์ abm อันนี้ยังงงๆ อยู่ เพราะ abm นั้นใช้ช่วงแบบ [x,y] อาจจะแค่เพิ่ม ‘.’ เข้าไปอีกบรรทัดก็เท่านั้น
– ตัว datrie ไม่มีปัญหาอะไร แต่อาจจะต้องกำหนด type ใหม่ให้กับตัว . เพื่อให้เวลาตัดคำ handle มันได้ดีขึ้น จะไปบอกว่าเป็นอักษรไทยตามปรกติคงไม่ได้
– ตัวจุดเวลาอยู่ร่วมกับคำอื่นที่ไม่ใช่คำย่อ ให้ตัดคำหลังจุด
– คำย่อที่ไม่รู้จักอาจจะเดาจากคำสุดท้ายที่ตัดได้ เช่น ‘WWWXXX.’ -> ‘WWW|XXX.|’

 

lewcpe

CTO at MFEC PLC. Chief Editor at Blognone.com