Silver Bullet

นั่ง​คิด​อยู่​นาน​เรื่อง​ของ​การ​ตัด​คำ​ภาษา​ไทย​ที่​น่า​จะ​มี​วิธี​ง่ายๆ ใน​ฟังก์ชั่นไม่กี่บรรทัด​ที่​ตัด​คำ​ได้​เร็ว​พอ​ควร และ​ความ​ถูก​ต้อง​ใน​ระดับ​ที่​ดู​เว็บ​แล้ว​ไม่​ปวด​หัว

ตอน​นี้​ก็​ได้​มา​อัน​นึงแล้ว

((?=[\u0e01\u0e02\u0e04\u0e07\u0e08\u0e0a\u0e0b\u0e14\u0e15\u0e16\u0e17\u0e19\u0e1a\u0e1b\u0e1c\u0e1e\u0e21\u0e22\u0e23\u0e25\u0e27\u0e2a\u0e2b\u0e2d\u0e40\u0e41\u0e42\u0e43\u0e44])(?:\u0e17(?:\u0e33(?:\u0e43\u0e2b\u0e49)?|\u0e35\u0e48|(?:\u0e32|\u0e31\u0e49)\u0e07|\u0e48\u0e32\u0e19)|\u0e40(?:\u0e23(?:\u0e37\u0e48\u0e2d\u0e07|\u0e32)|\u0e02\u0e49?\u0e32|\u0e1e(?:\u0e23\u0e32\u0e30|\u0e37\u0e48\u0e2d)|(?:[\u0e1b\u0e2b]\u0e47|\u0e0a\u0e48)\u0e19|\u0e21\u0e37\u0e48\u0e2d|\u0e01\u0e34\u0e14|\u0e14\u0e47\u0e01|\u0e27\u0e25\u0e32)|\u0e01(?:\u0e31[\u0e1a\u0e19]|\u0e32\u0e23|\u0e47|\u0e25\u0e38\u0e48\u0e21|\u0e27\u0e48\u0e32)|\u0e43(?:\u0e2b(?:\u0e49|\u0e21\u0e48)|\u0e19|\u0e0a\u0e49)|\u0e21(?:\u0e32\u0e01?|\u0e35|\u0e31\u0e19)|\u0e02(?:\u0e2d\u0e07|\u0e36\u0e49\u0e19)|\u0e08(?:[\u0e30\u0e19]|\u0e32\u0e01|(?:\u0e36|\u0e23\u0e34)\u0e07)|\u0e41(?:\u0e25(?:\u0e30|\u0e49\u0e27)|\u0e15\u0e48|\u0e2b\u0e48\u0e07|\u0e1a\u0e1a)|\u0e44(?:[\u0e14\u0e27]\u0e49|\u0e21\u0e48|\u0e1b|\u0e17\u0e22)|\u0e27(?:\u0e48\u0e32|\u0e31\u0e19)|\u0e04(?:\u0e27\u0e32\u0e21|\u0e19|\u0e37\u0e2d)|\u0e19(?:\u0e35\u0e49|\u0e31\u0e49\u0e19|\u0e32\u0e22)|\u0e2b(?:\u0e23\u0e37\u0e2d|\u0e19\u0e36\u0e48\u0e07|\u0e25\u0e32\u0e22)|\u0e2d(?:\u0e22(?:\u0e39\u0e48|\u0e48\u0e32\u0e07)|[\u0e35\u0e2d]\u0e01|\u0e32\u0e08|(?:\u0e37\u0e48|\u0e31)\u0e19|\u0e30\u0e44\u0e23)|\u0e15(?:\u0e48(?:\u0e32\u0e07|\u0e2d)|\u0e49\u0e2d\u0e07|\u0e32\u0e21|\u0e31\u0e27)|\u0e14(?:\u0e49(?:\u0e27\u0e22|\u0e32\u0e19)|\u0e35)|\u0e16(?:\u0e36\u0e07|\u0e49\u0e32|\u0e39\u0e01)|\u0e1c(?:\u0e39\u0e49|[\u0e21\u0e25])|\u0e1b(?:\u0e23\u0e30\u0e40\u0e17\u0e28|\u0e35|\u0e31\u0e0d\u0e2b\u0e32)|\u0e2a(?:\u0e31\u0e07\u0e04\u0e21|\u0e32\u0e21\u0e32\u0e23\u0e16|\u0e48\u0e27\u0e19|\u0e34\u0e48\u0e07|\u0e33\u0e04\u0e31\u0e0d)|(?:\u0e0b\u0e36\u0e48|\u0e22\u0e31|\u0e1a\u0e32|\u0e25)\u0e07|\u0e42\u0e14\u0e22|\u0e23\u0e31\u0e1a|\u0e0a\u0e35\u0e27\u0e34\u0e15|\u0e07\u0e32\u0e19|\u0e1e\u0e23\u0e23\u0e04))

เผื่อ​ใคร​งง (งง​แน่อ่ะดิ เล่น​ไม่​อธิบาย​เลย) ไอ้​ข้าง​บน​นี่​คือ Regular Expression ที่​ได้​จาก​การ Optimize 100 คำ​แรก​ที่​พบ​บ่อย​ใน​ภาษา​ไทย ทำ​ให้​สามารถ​นำ​ไป​ใช้​เป็น​ตัว​ตัด​คำ​ภาษา​ไทย​ใน​บราวเซอร์​ที่​เป็น Gecko-Based ได้ ที่​ได้​มา​นี่​เป็น​ผล​พวง​จาก​ความ​พยายาม​หา​ทาง​ที่​ง่ายๆ เอา​มา​ใช้​ใน k-meleon

Credit

สุด​ท้าย เข้า​ไป​ทด​สอบ​การ​ใช้​งาน​ได้ (ที่​นี่) ระวัง​อย่า​ใช้ IE เข้า​ไป เพราะ​มัน​จะ​ช้า​มาก

Update: เขียน​ไป​เขียน​มา ก็​ได้​เป็น Firefox Extension กัน​ไป​ใช้​งาน เท่า​ที่​ลอง​ยัง​คง​มี​บั๊ก​อยู่​เยอะ โดย​เฉพาะ​พวก Attribute ต่างๆ แต่​งาน​นี้​ก็​พอ​ใช้​งาน​ได้ (ลอง​เข้า manager แล้ว​ไม่​ระเบิด) ไว้​ว่างๆ ค่อย​มา​เขียน​ดีๆ อีก​ที

Comments 12

  1. dogdoy wrote:

    เยี่ยมเลยครับ แต่ว่าลง extension ตัวนี้ยังไงเหรอครับ ผมกด link แล้วมันก็แสดงเป็นข้อมูลออกมาเลยน่ะครับ

    Posted 07 Oct 2006 at 6:23 am
  2. keng wrote:

    น่าแปลกใจว่า เมื่อเปรียบเทียบระหว่างการเข้า manager กับ biolawcom นี่ biolawcom ที่เป็น text ยาวพรืดๆ กลับทำให้ fx ค้างไปสักสามถึงสี่วินาที แต่ manager แทบจะไม่ค้างเลยแฮะ

    Posted 07 Oct 2006 at 8:44 am
  3. keng wrote:

    silver bullet มีปัญหากับกูเกิ้ลแฮะ (มั้ง เพราะเอาออกแล้วไม่เป็น)

    ๑. หน้า login ของ Gmail ตรงปุ่ม login มันจะมี tab ขึ้นมาแบ่งทีละคำ ๒. กด “ค้นหา” ในกูเกิ้ลค้นหาไม่ได้!!

    ตอนนี้เจอแค่นี้นะ

    Posted 07 Oct 2006 at 9:05 am
  4. lewcpe wrote:

    dogdoy – ใช้กับ Firefox นะครับ ส่วนที่ใช้กับ k-meleon ยังทำไม่เสร็จ

    keng – เรื่องของ biolawcom นี่เหตุผลเนื่องจากความยาวรวมของ body นั้น biolawcom ยาวกว่า และมีปริมาณตัวอักษรภาษาไทยเยอะกว่า ตรงนี้น่าจะจูนให้ความเร็วดีกว่านี้ได้

    ส่วนเรื่องของกูเกิลนี่ว่าด้วยความขี้เกียจเขียนของผมล้วนๆ ครับ ไว้ทำดีๆ แล้วจะออกเวอร์ชั่นใหม่อีกรอบ

    Posted 07 Oct 2006 at 12:08 pm
  5. bow_der_kleine wrote:

    แหะ ๆ เขินจังครับ เอาเวบพวกผมมาเป็นเวบทดลอง ต้องขอขอบคุณคุณ lew ครับ เพราะเป็นการโปรโมทเวบไปในตัว

    ที่ใช้กับ BioLawCom.De แล้วช้า สาเหตุหนึ่งผมคิดว่ามาจากข้อมูลที่ไม่ใช่เนื้อหาของ BioLawCom.De มีเยอะมากครับ (แต่ส่วนมากโดนซ่อนเอาไว้) ดังนั้น ผมคิดว่าหากตัดคำเฉพาะส่วนที่เป็นเนื้อหา อาจทำให้เร็วขึ้นก็ได้ครับ โดยเลือกตัดคำเฉพาะ TagId (document.getElementByID()) หรือเฉพาะ TagClass (ใช้ prototype.lite.js + document.getElementsByClassName() ) แต่วิธีนี้ทำให้คนที่ต้องการนำ script ไปใช้ต้องปรับเปลี่ยนเอกสาร HTML ก่อน ถึงจะนำไปใช้ได้

    อีกวิธีคือตัดคำฝั่ง Server ครับ โดยใช้ PHP (วิธีนี้ยิ่งเฉพาะกิจเข้าไปใหญ่) เดี๋ยวผมเอาไปลองดู ได้ผลยังไงเดี๋ยวผมจะมาเล่าให้ฟังครับ :D

    Posted 07 Oct 2006 at 3:44 pm
  6. มุมมืดของสังคม wrote:

    ไม่ค่อยรู้เรื่อง รอเวอร์ชั่นเต็ม แต่ดูเป็นประโยชน์มากครับ พี่…สุดยอด

    Posted 07 Oct 2006 at 7:45 pm
  7. lewcpe wrote:

    bow_der_kleine – การตัดเฉพาะเนื้อหานี่ผมว่าค่อนข้างอันตรายครับ โดยเฉพาะในแง่ประสิทธิภาพ เข้าใจว่า Bookmarklet ของ Bact’ ก็พยายามจะตัดเฉพาะส่วนเนื้อหาที่แสดง ทำให้เมื่อเจอเว็บที่ Tag เยอะๆ แล้วบราวเซอร์เดี๊ยงไป

    ผมมองว่าเว็บที่เนื้อหาซ่อนไว้เยอะๆ คงมีไม่มากเท่าใหร่ เลยใช้วิธีตัดแหลกไว้ก่อนครับ

    Posted 07 Oct 2006 at 10:43 pm
  8. bow_der_kleine wrote:

    ตอนนี้ผมลองทำให้ใช้ฝั่ง Sever ด้วย PHP ได้แล้วครับ ตอนแรกมีปัญหาอยู่บ้างตรงคำว่า “ผม”, “จาก”, “มา[\w]*”, “ว่าง” ก็เลยลองแก้ ๆ ดูครับ แก้ไปแก้มา ก็ได้ผลออกมาประมาณนี้ครับ

    function SilverBulletWrap($dataIn){ //Thai-Wrap by LewCPE (http://lewcpe.com/blog/archives/313/silver-bullet/) $dataIn = preg_replace(“/(มา(?:ก|ย|ตรการ|ตรา|ตุภูมิ|ชิก))/”,”$1″,$dataIn); $dataIn = preg_replace(“/(ม(?:ี|ัน|ือ))/”,”$1″,$dataIn); $dataIn = preg_replace(“/(([กขคงจชซดตถทนบปผพมยรลวสหอเแโใไ])(?:ท(?:ำ(?:ให้)?|ี่|(?:า|ั้)ง|่าน)|เ(?:ร(?:ื่อง|า)|ข้?า|พ(?:ราะ|ื่อ)|(?:ป็|ห็|ช่)น|มื่อ|กิด|ด็ก|วลา)|ก(?:ัน|ับ|าร|็|ลุ่ม|ว่า)|ใ(?:ห(?:้|ม่)|น|ช้)|ข(?:อง|ึ้น)|จ(?:ะ|น|าก|(?:ึ|ริ)ง)|แ(?:ล(?:ะ|้ว)|ต่|ห่ง|บบ)|ไ(?:ด้|ว้|ม่|ป|ทย)|ว(?:่าง|่า|ัน)|ค(?:วาม|น|ือ)|น(?:ี้|ั้น|าย)|ห(?:รือ|นึ่ง|ลาย)|อ(?:ย(?:ู่|่าง)|[ีอ]ก|าจ|(?:ื่|ั)น|ะไร)|ต(?:่(?:าง|อ)|้อง|าม|ัว)|ด(?:้(?:วย|าน)|ี)|ถ(?:ึง|้า|ูก)|ผ(?:ู้|ม|ล)|ป(?:ระเทศ|ี|ัญหา)|ส(?:ังคม|ามารถ|่วน|ิ่ง|ำคัญ)|(?:ซึ่|ยั|บา|ล)ง|โดย|รับ|ชีวิต|งาน|พรรค))/”,”$1″,$dataIn); return $dataIn; }

    โดยผมจะใช้ฟังก์ชั่นตัดคำก่อนนำที่จะอัดข้อมูลลงฐานข้อมูล ดังนั้นตัวโปรแกรมไม่ต้องตัดคำทุกครั้งที่แสดงผลครับ ตอนจะแก้ไขข้อมูลโดยใช้ฟอร์มของ HTML ก็ต้องแก้ฟอร์แมตของข้อมูลให้เหมือนเดิมก่อนครับ โดยใช้คำสั่งง่าย ๆ คือ

    $data= str_replace("","",$data);
    

    ดูผลงานได้ที่ (เว็บ) โป๊มะ…โป๊มั๊ยน้อง (ก็ที่เดิมนั่นแหละครับ ตัดคำแล้ว) ลองเทียบกับที่ยังไม่ตัดคำครับ (เว็บ) โป๊มะ…โป๊มั๊ยน้อง (ยังไม่ตัดคำ)

    ตอนแรกดูไม่ต่างกันมากครับ แต่ลองเพิ่มขนาดตัวอักษรดูครับ จะเห็นความแตกต่างที่ชัดเจน (เฉพาะ Firefox รุ่นไม่ตัดคำนะครับ สำหรับรุ่นตัดคำเพิ่มขนาดตัวอักษรยังไงก็เหมือนเดิม)

    Posted 07 Oct 2006 at 10:53 pm
  9. lewcpe wrote:

    bow_der_kleine – ไอ้ Regex ตัวนี้มันกินเครื่องใช้ได้เลยนะครับ เอาไปใส่ฝั่งเซิร์ฟเวอร์ ระวังเดี๋ยวโฮสต์จะว่าไปทำเครื่องเค้าโหลดเอา

    Posted 07 Oct 2006 at 11:14 pm
  10. bact' wrote:

    ตัว js ดั้งเดิมที่ผมทำไว้ มันจะกรองพวกแท็กที่ไม่เกี่ยวคือ script กับ style ออกไปครับ สามารถเพิ่มตรงนี้ได้เหมือนกัน อาจจะทำให้เร็วขึ้นบ้าง (ลดจำนวนการเรียก regex ซึ่งเป็นตัวช้าไปได้บ้าง) อย่างไรก็ตาม การไล่โหนดใน DOM tree ไปเรื่อย ๆ ด้วย js ผมว่าประสิทธิภาพไม่น่าจะสู้การใช้ฟังก์ชั่นของ Gecko โดยตรงได้ อันนั้นมันจะเป็นลักษณะ event-base เลย ทำงานทุกครั้งเมื่อมี event ตามที่กำหนด แทนที่จะวิ่งไปไล่หา event นั้นเอง (ผมเข้าใจว่า ตรงนี้จะช่วยลดความซ้ำซ้อนได้ เพราะยังไงตัว Gecko ก็ต้องทำตรงนี้อยู่แล้ว ไม่ว่ามี extension หรือไม่) เทคนิคนี้ ผมดูมาจาก extension ของคุณ vavar ในรุ่น 0.2 Thai Words Separator extension https://addons.mozilla.org/firefox/2666/

    เว็บฟอนต์.คอม มีรายละเอียด/การทดสอบเรื่องนี้เยอะทีเดียว http://fire.f0nt.com/blog/?p=252

    Posted 08 Oct 2006 at 3:05 am
  11. พี่ไท้ wrote:

    เวรกรรม ดันไม่ทันอ่าน เข้าด้วย IE ไปแล้ว

    Posted 21 Oct 2006 at 9:54 pm
  12. loptar wrote:

    รอเสร็จครับ จะขอเอาไปใช้ทีเดียวเลย อิอิ

    Posted 06 Nov 2006 at 11:58 am

Trackbacks & Pingbacks 3

  1. From aaa at iNfected on 10 Nov 2006 at 9:53 am

    [...] AllPeers Beta 0.52 del.icio.us Complete 1.3 Foxmarks Bookmark Synchronizer 0.84 LiveLines 0.4.5 MediaPlayerConnectivity 0.7.6.1 silverbulletthaiwrap 1.0 Thai Words Separator 0.2.0.1 [...]

  2. From bbb at iNfected on 10 Nov 2006 at 9:57 am

    [...] Disabled Extensions: (7)AllPeers Beta 0.52 del.icio.us Complete 1.3 Foxmarks Bookmark Synchronizer 0.84 LiveLines 0.4.5 MediaPlayerConnectivity 0.7.6.1 silverbulletthaiwrap 1.0 Thai Words Separator 0.2.0.1 [...]

  3. From Firefox Extension Lists 06-02-2007 at iNfected on 06 Feb 2007 at 5:12 pm

    [...] Adblock Filterset.G Updater 0.3.0.5 Adblock Plus 0.7.2.4 Add to Search Bar 1.5 AllPeers Beta 0.54.2 del.icio.us Complete 1.3 Download Manager Tweak 0.7.2 Download Statusbar 0.9.4.5.1 File Title 1.2 Firebug 1.0 Firefox Showcase 0.9.2.1 FireFTP 0.94.6 FlashGot 0.5.97.03 FlickrFox 1.3.0 Gmail Notifier 0.5.6.5 Googkai Toolbar 1.5.0.6 Google Browser Sync 1.3.20061031.0 Google Notebook 1.0.0.14 Greasemonkey 0.6.6.20061017.0 IE Tab 1.3.1.20070126 IE View Lite 1.3 keyconfig 20060828 ListZilla 0.8 MediaPlayerConnectivity 0.8.3 MozTle 0.1.1 OakFlickr4PFF 0.3 PDF Download 0.7.8 Performancing 1.3.5 PFF Addon Template 0.1 Restart Firefox 0.3 silverbulletthaiwrap 1.0 Splash 1.2.2 Stylish 0.4 Tab Catalog 1.1.2006110601 Tab Mix Plus 0.3.5.2 Talkback 2.0.0.1 Viamatic foXpose 0.6 VideoDownloader 1.1.1 [...]

Post a Comment

Your email is never published nor shared.