LLM แบบ multimodal น่าจะทำให้เกิด device แบบใหม่ ปัญหาตอนนี้คือทุกคนพยายามทำสิ่ง “ทดแทนโทรศัพท์มือถือ” เช่น Humane AI Pin หรือ Rabbit R1 แต่วันนี้ไปเห็น Axon แล้วคิดว่า make sense กว่ามากในตอนนี้
แนวคิดของ Axon นั้นง่ายมาก อุปกรณ์ทำอะไรไม่ได้เลยนอกจากบันทึกเสียงอย่างเดียว เสร็จแล้วแปลงเป็นข้อความ เลือกบางส่วนของข้อความมาทำรายงาน
ในกรณีการใช้งาน LLM แบบ multimodal มันมีความเป็นไปได้ที่เราจะแปลงทุกอย่างเป็นข้อความทั้งหมด ภาพทุกภาพที่เรามองเห็นกลายเป็นแค่คำบรรยายภาพ “กำลังขับรถ ไปยัง… โดยตอนนี้อยู่ที่แยก…. โดยมี Google Maps นำทาง… บนรถมีคน…..” ชีวิตทั้งชีวิตจะสามารถกลายเป็น log ไฟล์ ข้อมูลทั้งวันอาจจะเหลือแค่หนังสือหนาๆ สักเล่มไม่เกิน 10MB แบบยังไม่บีบอัด
มีคนเคยพูดว่าภาพหนึ่งภาพแทนคำนับพัน แต่ที่จริงแล้วภาพหนึ่งภาพกินพื้นที่มากกว่า 100KB ภาพจากโทรศัพท์มือถือของเราอาจจะกิน 2-5MB ซึ่งเทียบเป็นคำก็อาจจะไปได้ถึงนับหมื่นไปจนถึงนับล้านคำ แม้แต่การเก็บข้อมูลวิดีโอสักชั่วโมงที่บีบอัดต่อเนื่องระหว่างเฟรมก็ยังกินพื้นที่มากกว่า 500MB แต่การแปลงข้อมูลทั้งหมดอัดแน่นเป็นคำบรรยายจะเหลือชีวิตเราชั่วโมงละไม่กี่ MB เท่านั้น หากนั่งนิ่งๆ ก็อาจจะมีเพียงบรรทัดเดียวทีบรรยายว่าชั่วโมงนั้นเรานั่งนิ่ง และยังสามารถบีบอัดลงไปได้จนเล็กมาก การเก็บคำบรรยายทั้งชีวิต จะอยู่ในพิสัยที่ทำได้โดยไม่ต้องการบริการคลาวด์ใดๆ ภายนอกอก
ข้อมูลทุกอย่างสามารถเก็บในรูปแบบ metadata ใบหน้าทุกวันนี้สามารถเก็บในรูปแบบ vector ได้ระดับ 100 byte เท่านั้น เช่นเดียวกับ logo ต่างๆ นั่นแปลว่าเราจะสามารถสืบค้นย้อนหลังทั้งหมด ว่าเราพบใคร พูดอะไร เมื่อไหร่ ได้ตลอดชีวิต LLM แปลงข้อมูลที่ผ่านหน้าเราให้อยู่ในรูปแบบที่อัดแน่น จนสร้างความจำที่เป็นไปไม่ได้ เมื่อเราพบใครสักคน โทรศัพท์ของเราจะสามารถสร้าง profile ของคนข้างหน้าเราได้ทันที เราพบเขาครั้งแรกและครั้งสุดท้ายเมื่อใด ประเด็นที่พูดคุยกันล่าสุดมีอะไรบ้าง
เราจะไม่ลืมอีกเลย…..
และเราจะไม่ต้องจำอะไรอีกเลย…