OpenAI ประกาศเปิดตัว gpt-realtime โมเดลปัญญาประดิษฐ์ที่ออกแบบมาเพื่อการโต้ตอบด้วยเสียงแบบเรียลไทม์ โดยพัฒนาขึ้นจากการใช้งานจริง ทั้งในงานบริการลูกค้า ผู้ช่วยส่วนตัว และการศึกษา จุดเด่นคือเสียงที่ฟังดูเป็นธรรมชาติ ปรับแต่งโทนและสไตล์การพูดได้ เช่น เร่งความเร็วให้กระชับและมืออาชีพ หรือเพิ่มสำเนียงภาษาต่างๆ
โมเดลใหม่นี้ยังมาพร้อมเสียงใหม่ 2 แบบ ได้แก่ Marin และ Cedar รวมเป็นทั้งหมด 10 เสียงให้เลือกใช้งาน ผลการทดสอบเบนช์มาร์คด้านเสียงยังเหนือกว่า gpt-4o-realtime รุ่นก่อนหน้าอย่างชัดเจน
สิ่งที่น่าจับตามองอีกประการคือราคา gpt-realtime
ถูกลงถึง 20% เหลือ 32 ดอลลาร์ต่อ 1 ล้านโทเคนอินพุตเสียง และ 64 ดอลลาร์ต่อ 1 ล้านโทเคนเอาต์พุตเสียง ถือเป็นทางเลือกที่คุ้มค่ากว่าสำหรับนักพัฒนาและธุรกิจที่ต้องการสร้าง voice agent
พร้อมกันนี้ OpenAI ยังยกระดับ Realtime API ซึ่งเปิดตัวในปี 2024 เข้าสู่สถานะ Generally Available (GA) อย่างเป็นทางการ พร้อมฟีเจอร์ใหม่ เช่น
- รองรับการเชื่อมต่อกับ Remote MCP server
- รองรับอินพุตเป็นภาพ
- ใช้งาน Session Initiation Protocol (SIP) สำหรับระบบโทรศัพท์ เช่น PBX
- มีฟังก์ชัน Reusable prompts เก็บและเรียกใช้พร็อมต์ซ้ำได้สะดวกขึ้น
การมาของ gpt realtime นับเป็นก้าวสำคัญของ OpenAI ในการผลักดัน AI ให้ทำงานใกล้เคียงการสื่อสารของมนุษย์มากยิ่งขึ้น และอาจเปลี่ยนโฉมการใช้ AI voice agent ในหลายอุตสาหกรรมตั้งแต่วันนี้
tags : OpenAI