โลกที่ไม่ลืม

LLM แบบ multimodal น่าจะทำให้เกิด device แบบใหม่ ปัญหาตอนนี้คือทุกคนพยายามทำสิ่ง “ทดแทนโทรศัพท์มือถือ” เช่น Humane AI Pin หรือ Rabbit R1 แต่วันนี้ไปเห็น Axon แล้วคิดว่า make sense กว่ามากในตอนนี้

แนวคิดของ Axon นั้นง่ายมาก อุปกรณ์ทำอะไรไม่ได้เลยนอกจากบันทึกเสียงอย่างเดียว เสร็จแล้วแปลงเป็นข้อความ เลือกบางส่วนของข้อความมาทำรายงาน

ในกรณีการใช้งาน LLM แบบ multimodal มันมีความเป็นไปได้ที่เราจะแปลงทุกอย่างเป็นข้อความทั้งหมด ภาพทุกภาพที่เรามองเห็นกลายเป็นแค่คำบรรยายภาพ “กำลังขับรถ ไปยัง… โดยตอนนี้อยู่ที่แยก…. โดยมี Google Maps นำทาง… บนรถมีคน…..” ชีวิตทั้งชีวิตจะสามารถกลายเป็น log ไฟล์ ข้อมูลทั้งวันอาจจะเหลือแค่หนังสือหนาๆ สักเล่มไม่เกิน 10MB แบบยังไม่บีบอัด

มีคนเคยพูดว่าภาพหนึ่งภาพแทนคำนับพัน แต่ที่จริงแล้วภาพหนึ่งภาพกินพื้นที่มากกว่า 100KB ภาพจากโทรศัพท์มือถือของเราอาจจะกิน 2-5MB ซึ่งเทียบเป็นคำก็อาจจะไปได้ถึงนับหมื่นไปจนถึงนับล้านคำ แม้แต่การเก็บข้อมูลวิดีโอสักชั่วโมงที่บีบอัดต่อเนื่องระหว่างเฟรมก็ยังกินพื้นที่มากกว่า 500MB แต่การแปลงข้อมูลทั้งหมดอัดแน่นเป็นคำบรรยายจะเหลือชีวิตเราชั่วโมงละไม่กี่ MB เท่านั้น หากนั่งนิ่งๆ ก็อาจจะมีเพียงบรรทัดเดียวทีบรรยายว่าชั่วโมงนั้นเรานั่งนิ่ง และยังสามารถบีบอัดลงไปได้จนเล็กมาก การเก็บคำบรรยายทั้งชีวิต จะอยู่ในพิสัยที่ทำได้โดยไม่ต้องการบริการคลาวด์ใดๆ ภายนอกอก

ข้อมูลทุกอย่างสามารถเก็บในรูปแบบ metadata ใบหน้าทุกวันนี้สามารถเก็บในรูปแบบ vector ได้ระดับ 100 byte เท่านั้น เช่นเดียวกับ logo ต่างๆ นั่นแปลว่าเราจะสามารถสืบค้นย้อนหลังทั้งหมด ว่าเราพบใคร พูดอะไร เมื่อไหร่ ได้ตลอดชีวิต LLM แปลงข้อมูลที่ผ่านหน้าเราให้อยู่ในรูปแบบที่อัดแน่น จนสร้างความจำที่เป็นไปไม่ได้ เมื่อเราพบใครสักคน โทรศัพท์ของเราจะสามารถสร้าง profile ของคนข้างหน้าเราได้ทันที เราพบเขาครั้งแรกและครั้งสุดท้ายเมื่อใด ประเด็นที่พูดคุยกันล่าสุดมีอะไรบ้าง

เราจะไม่ลืมอีกเลย…..

และเราจะไม่ต้องจำอะไรอีกเลย…

 

Hidden Systems

เห็นเล่มนี้จาก The Book Smith แล้วคิดว่าน่าอ่านเลยสั่งมา ปรากฎว่าสั่งรอบแรกไม่ทันต้องรอเป็น pre order รอบหลัง แล้วก็ไม่ผิดหวัง เพราะเนื้อหาค่อนข้างดีมาก ระดับเดียวกับ David Macaulay ที่มาเขียนคำนิยมขึ้นหน้าปกให้เลย

หนังสือเป็นนิยายภาพทั้งเล่มเลยเล่าเรื่องได้ไม่เยอะนักแต่ Nott ก็เลือกเล่าแค่สามเรื่องคือ อินเทอร์เน็ต, ไฟฟ้า, และประปา ในสามเรื่องนี้พาไปดูเบื้องหลังการทำงานว่าเราใช้งานสิ่งเหล่านี้ได้อย่างไร

เนื้อหาส่วนที่หลุดออกไปสักหน่อยคงเป็นส่วนของประปา ที่เน้นสิ่งแวดล้อมและความเท่าเทียมกันมากกว่าจะโฟกัสอยู่กับตัวเนื้อหาโครงสร้างระบบประปาที่เราใช้งานกัน ตัว Nott เขียนหนังสือเรื่องประชาธิปไตย และความเท่าเทียมอยู่แล้ว

ภาพสวย เนื้อหาค่อนข้างดี และนำ ตัว Nott มีผลงานอีกหลายอย่าง แต่แนะนำเป็นพิเศษสักหน่อยคือ Our Labor Built AI

 

Rubberducking

After a few days of living with AI chatbots, I found that the most important use case is rubberducking. I just ask them everything I’m doing to see if their answers are different from mine. While most of them are not that different, some are really useful and mind-opening.

 

Bard ไม่แพ้

ลอง Bard มาหนึ่งวันเต็ม

  • ภาษาอังกฤษเท่านั้น อันนี้จำกัดผู้ใช้มาก ถือเป็นความด้อยกว่า ChatGPT ชัดเจน
  • ข้อมูลใหม่มาก ไม่ต้องรอปีสองปีแบบ ChatGPT ชนะใส ถามวันเลือกตั้งไทยนี่ตอบถูกแล้ว
  • UI ยังแพ้ชัดเจน แยก chat ไม่ได้ ซึ่งสำคัญมาก เพราะมันคุย context ย้อนไปมา พวกเล็กๆ น้อยๆ อย่างโค้ดแล้วไม่มีปุ่ม copy นี่น่ารำคาญเล็กๆ
  • OpenAI แล้ว login หลุดบ่อยๆ นี่น่าเบื่อมาก Bard ดีกว่า เปิดเป็นติด
  • เวลาล่อให้มันตอบอะไรยาวๆ ChatGPT จะตอบไปเรื่อยๆ แล้วตัดจบไปเฉยๆ เมื่อ token quota หมด แต่ Bard จะ “ตัดกลาง” ได้ ล่อให้มันตอบ info ของจังหวัดในไทยเป็น JSON มันตัดย่อตรงกลางเลย อ่านบนล่างแล้วเหมือนตอบเต็ม มาดูไฟล์ อ้าว แอบตัดกลาง
  • คิดว่า Bard เร็วกว่า และดูจากอัตราการแจก waitlist (รวมถึงการ soft launch นอกสหรัฐฯ) แสดงให้เห็นว่ากูเกิลกำลังใช้พลัง “Google Scale” ขยาย infra เก่งในตัว ไม่ต้องรอคุยกันระหว่าง Microsoft <-> OpenAI พลังงานที่เหลือเฟือโชว์ด้วยการ generate คำตอบทีละสามคำตอบมาให้ดูเล่นเลย
  • ยังมีจุดเบลอๆ งงๆ บ้าง แต่ส่วนตัวน้อยกว่า ChatGPT จังหวะไม่ตอบมันไม่ตอบเลย

ใครชนะยังไม่แน่ใจ แต่นาทีนี้กูเกิลบอกได้ชัดเจนแล้วว่า “ช้าก่อนวัยรุ่น”

อีกจุดที่ควรมองคือ PaLM API ซึ่งคิดค่าใช้แบบ metering ถ้าพลังยังใกล้เคียงกันในระดับนี้ ต่อให้ใช้ภาษาไทยไม่ได้ แต่ถ้าราคาถูกกว่ามากๆ ก็จะพลิกตลาด