Google เปิดตัว “Gemini 3.5 Live Translate” แปลเสียงสดแบบต่อเนื่องกว่า 70 ภาษา คุยสมูทไม่มีจังหวะเดดแอร์อึดอัด



จากจุดเริ่มต้นเมื่อ 20 ปีที่แล้ว ที่ระบบแปลภาษาของ Google เป็นเพียงหนึ่งในการทดลอง Machine Learning ในยุคบุกเบิก จนปัจจุบันพัฒนามาสู่บริการแปลภาษาขนาดยักษ์ที่มีการแปลคำศัพท์กว่าล้านล้านคำในแต่ละเดือน 

และในวันนี้ Google กำลังพาทุกคนก้าวเข้าสู่อนาคตของการสื่อสารด้วยการเปิดตัว Gemini 3.5 Live Translate โมเดลปัญญาประดิษฐ์ทางด้านเสียงรุ่นล่าสุดอย่างเป็นทางกา

จุดเด่นที่สุดของโมเดลตัวนี้คือ ความสามารถในการแปลภาษาแบบต่อเนื่อง (Continuous Translation) โดยระบบจะคอยรักษาสมดุลระหว่างการรอฟังบริบทเพื่อให้ได้คุณภาพการแปลที่แม่นยำที่สุด ควบคู่ไปกับการแปลทันทีเพื่อให้ทันผู้พูด ต่างจากแอปพลิเคชันแปลภาษาในอดีตที่ต้องรอให้อีกฝ่ายพูดจบประโยคจนเกิดจังหวะหยุดที่น่าอึดอัด โดย Gemini 3.5 Live Translate จะดีเลย์ตามหลังผู้พูดเพียงไม่กี่วินาทีตลอดการสนทนา ทำให้การพูดคุยเป็นไปอย่างไหลลื่นและเป็นธรรมชาติที่สุด



🎙️ ส่อง 3 ความสามารถหลักของ Gemini 3.5 Live Translate

  • ตรวจจับภาษาอัตโนมัติกว่า 70 ภาษา: ตัวระบบสามารถคัดกรองและแยกแยะอินพุตหลายภาษา (Multilingual) ได้เองโดยที่ผู้ใช้งานไม่จำเป็นต้องกดตั้งค่าเลือกคู่ภาษาด้วยตนเอง

  • รักษาเอกลักษณ์ของผู้พูด: เสียงแปลที่ถูกเจนเนอเรตออกมาจะมีความเป็นธรรมชาติสูงมาก โดยระบบสามารถคงโทนเสียง จังหวะการพูด รวมถึงระดับเสียงสูง-ต่ำของผู้พูดต้นทางเอาไว้ได้อย่างน่าทึ่ง

  • ระบบตัดเสียงรบกวนขั้นสูง: ตัวโมเดลมีขีดความสามารถในการคัดแยกเสียงฉากหลัง ทำให้สามารถสตรีมมิ่งประมวลผลแปลภาษาได้เป็นอย่างดี แม้จะนำไปใช้งานในสภาพแวดล้อมที่มีเสียงดังและคาดเดาไม่ได้



พาร์ทเนอร์ระดับโลกแห่คอนเฟิร์ม "Grab - CJ ENM" ร่วมทดสอบร่างทอง

เบื้องต้น Google ได้ส่งโมเดลตัวนี้ให้พาร์ทเนอร์ระดับโลกกลุ่มแรกได้ทดลองใช้งานและได้รับฟีดแบ็กเชิงบวกอย่างล้นหลาม โดยเฉพาะเรื่องความแม่นยำและอัตราการดีเลย์ที่ต่ำมาก (Low Latency)

  • Grab: ได้นำโมเดลนี้ไปทดสอบใช้งานจริงเพื่อช่วยทลายกำแพงภาษาในการสื่อสารระหว่างคนขับและผู้โดยสารต่างชาติแบบเกือบเรียลไทม์ ผ่านฟังก์ชันการโทรติดต่อด้วยเสียงในแอปที่มีการใช้งานมากกว่า 10 ล้านครั้งในแต่ละเดือน

  • CJ ENM: ค่ายบันเทิงยักษ์ใหญ่จากเกาหลีใต้ร่วมมือกับ Google DeepMind นำโมเดลนี้ไปทดสอบเพื่อเตรียมมอบประสบการณ์การรับชมคอนเทนต์สตรีมมิ่งที่สมจริงยิ่งขึ้นให้แก่ผู้ชมทั่วโลก

📲 สรุปกำหนดการเปิดใช้งานบน 3 แพลตฟอร์มหลัก

Google เริ่มทยอยเปิดสิทธิ์การเข้าถึงโมเดล Gemini 3.5 Live Translate ให้แก่ผู้ใช้งานแต่ละกลุ่มตั้งแต่วันนี้เป็นต้นไปครับ:

1. สำหรับผู้ใช้ทั่วไป (Google Translate)

เตรียมอัปเดตให้ใช้งานข้ามแพลตฟอร์มทั้งบนระบบปฏิบัติการ Android และ iOS เพียงแค่เชื่อมต่อหูฟังคู่ใดก็ได้ ก็สามารถใช้งานฟีเจอร์แปลสด (Live Translate) ได้ทันที นอกจากนี้ พิเศษเฉพาะผู้ใช้ Android จะได้รับอัปเดต “โหมดการฟัง” (Listening Mode) รูปแบบใหม่ ที่ช่วยให้คุณสามารถยกโทรศัพท์ขึ้นมาแนบหูเหมือนการคุยสายปกติ เพื่อฟังเสียงแปลสตรีมส่งตรงถึงหูได้ทันทีโดยไม่ให้คนรอบข้างได้ยิน และไม่จำเป็นต้องต่อหูฟังเสริมด้วยครับ

2. สำหรับองค์กรธุรกิจ (Google Meet)

ฟีเจอร์แปลเสียงพูด (Speech Translation) ใน Google Meet เตรียมเปลี่ยนมาใช้ขุมพลัง Gemini 3.5 Live Translate ในเร็ว ๆ นี้ โดยจะขยายการรองรับจากเดิมเพียง 5 ภาษา เพิ่มขึ้นเป็นมากกว่า 70 ภาษา ปลดล็อกการสนทนาข้ามคู่ภาษาได้มากกว่า 2,000 คู่ภาษาภายในการประชุมเดียว (ไม่ต้องล็อกให้ภาษาอังกฤษเป็นภาษาต้นทาง/ปลายทางอีกต่อไป) โดยจะเริ่มเปิดทดสอบเวอร์ชัน Private Preview ให้แก่ลูกค้า Google Workspace Business บางกลุ่มในเดือนนี้ ก่อนขยายผลในวงกว้างช่วงปลายปี

3. สำหรับนักพัฒนาซอฟต์แวร์ (Google AI Studio)

ปัจจุบันเปิดให้เข้าใช้งานในเวอร์ชัน Public Preview ผ่านทาง Gemini Live API และ Google AI Studio เรียบร้อยแล้ว โดยมีแพลตฟอร์มพันธมิตรด้านโครงสร้างพื้นฐานสื่อสตรีมมิ่งอย่าง Agora, Fishjam, Livekit, Pipecat และ VisionAgents เข้ามาร่วมซัพพอร์ต เพื่อให้นักพัฒนาสามารถดึง API ไปสร้างแอปพลิเคชันแปลภาษาของตัวเองได้ง่ายขึ้นครับ

(ข้อมูลด้านความปลอดภัย: เสียงทั้งหมดที่ถูกสร้างขึ้นโดยโมเดล Gemini 3.5 Live Translate จะถูกฝังลายน้ำดิจิทัลที่ไม่สามารถมองเห็นได้ด้วยตาเปล่าผ่านเทคโนโลยี SynthID ของ Google เพื่อให้มั่นใจว่าเนื้อหาที่สร้างโดย AI จะยังคงสามารถตรวจสอบได้ และช่วยป้องกันปัญหาการกระจายข้อมูลที่บิดเบือนหรือ Misinformation ในโลกออนไลน์ได้อย่างมีประสิทธิภาพอย่างแท้จริง)

ไม่มีความคิดเห็น

ขับเคลื่อนโดย Blogger.