OpenAI เปิดตัว GPT-4o ปัญญาประดิษฐ์แห่งอนาคต
ประกาศเปิดตัว! GPT-4o ซึ่งเป็น Flagship Model ตัวใหม่ล่าสุดของเรา ประมวลผลข้อมูล Audio, Vision และ Text ได้แบบ Real time
GPT-4o ("o" ย่อมาจาก "omni") เป็นก้าวสำคัญสู่การปฏิสัมพันธ์ระหว่างมนุษย์และคอมพิวเตอร์ที่เป็นธรรมชาติมากขึ้น โดยสามารถรับ input ได้หลากหลายรูปแบบ ไม่ว่าจะเป็น text, audio, image และ video และสามารถสร้าง output ได้ทั้ง text, audio และ image ในรูปแบบใดก็ได้ GPT-4o สามารถตอบสนองต่อ audio input ได้ในเวลาเพียง 232 milliseconds โดยเฉลี่ยอยู่ที่ 320 milliseconds ซึ่งใกล้เคียงกับเวลาตอบสนองของมนุษย์ในการสนทนา GPT-4o มีประสิทธิภาพเทียบเท่ากับ GPT-4 Turbo ในการประมวลผล text ภาษาอังกฤษและ code โดยมีการปรับปรุงอย่างมากสำหรับ text ในภาษาอื่นๆ ที่ไม่ใช่ภาษาอังกฤษ ในขณะเดียวกันก็เร็วกว่ามากและถูกกว่า 50% ใน API นอกจากนี้ GPT-4o ยังมีความเข้าใจ vision และ audio ที่ดีกว่า model ที่มีอยู่ในปัจจุบันอีกด้วย
ความสามารถของโมเดล
ก่อนหน้า GPT-4o คุณสามารถใช้ Voice Mode เพื่อพูดคุยกับ ChatGPT ด้วย latency เฉลี่ย 2.8 วินาที (GPT-3.5) และ 5.4 วินาที (GPT-4) เพื่อให้ทำได้ Voice Mode เป็น pipeline ของโมเดลแยกกัน 3 ตัว: โมเดลง่ายๆ ตัวหนึ่งจะถอดเสียงเป็นข้อความ (Speech-to-Text) GPT-3.5 หรือ GPT-4 รับข้อความและส่งออกข้อความ และโมเดลง่ายๆ ตัวที่สามแปลงข้อความกลับเป็นเสียง (Text-to-Speech) กระบวนการนี้หมายความว่ามีข้อมูลจำนวนมากที่แหล่งของ intelligence หลักอย่าง GPT-4 ไม่สามารถรับได้ มันไม่สามารถสังเกตโทนเสียง ผู้พูดหลายคน หรือเสียงรบกวนในพื้นหลังได้โดยตรง และไม่สามารถส่งออกเสียงหัวเราะ ร้องเพลง หรือแสดงอารมณ์ได้
ด้วย GPT-4o เราได้ train โมเดลใหม่แบบ end-to-end ที่ครอบคลุมทั้ง text, vision และ audio ซึ่งหมายความว่า input และ output ทั้งหมดจะถูกประมวลผลโดย neural network เดียวกัน เนื่องจาก GPT-4o เป็นโมเดลแรกของเราที่รวมโหมดทั้งหมดนี้เข้าด้วยกัน เรายังคงเพิ่งเริ่มต้นสำรวจว่าโมเดลสามารถทำอะไรได้บ้างและมีข้อจำกัดอย่างไร
จากข้อมูลที่ OpenAI เผยแพร่ เกี่ยวกับ Language Model รุ่นใหม่ล่าสุดอย่าง GPT-4o พบว่า มีประสิทธิภาพในการประมวลผลภาษาต่างๆ ที่ดีขึ้นมากเมื่อเทียบกับรุ่นก่อนหน้า โดยเฉพาะภาษาอินเดีย เช่น ภาษาคุชราต (Gujarati) ใช้ tokens เพียง 33 จากเดิม 145 หรือลดลงถึง 4.4 เท่า ภาษาเตลูกู (Telugu) ใช้ tokens 45 จากเดิม 159 ลดลง 3.5 เท่า และภาษาทมิฬ (Tamil) ใช้ tokens 35 จากเดิม 116 ลดลง 3.3 เท่า
ส่วนภาษาฮินดี (Hindi) และมราฐี (Marathi) ก็ใช้ tokens ลดลงราว 2.9 เท่า ขณะที่ ภาษาอูรดู (Urdu) ลดลง 2.5 เท่า ภาษาอาหรับ (Arabic) ลดลง 2 เท่า และภาษาเปอร์เซีย (Persian) ลดลง 1.9 เท่า
สำหรับภาษาอื่นๆ เช่น รัสเซีย เกาหลี เวียดนาม จีน ญี่ปุ่น ตุรกี อิตาลี เยอรมัน สเปน โปรตุเกส ฝรั่งเศส และอังกฤษ ก็มีอัตราการใช้ tokens ลดลงในระดับ 1.1-1.7 เท่า แสดงให้เห็นถึงประสิทธิภาพที่เพิ่มขึ้นของ GPT-4o ในการประมวลผลภาษาหลากหลายมากขึ้น
ความปลอดภัยและข้อจำกัดของ Model
GPT-4o ได้รับการออกแบบให้มีความปลอดภัยในตัวเองในทุก modalities ผ่านเทคนิคต่างๆ เช่น การกรองข้อมูลการฝึก (filtering training data) และการปรับปรุงพฤติกรรมของ model ผ่านกระบวนการ post-training นอกจากนี้ เรายังได้สร้างระบบความปลอดภัยใหม่เพื่อให้ guardrails บน voice outputs อีกด้วย
เราได้ประเมิน GPT-4o ตาม Preparedness Framework ของเราและสอดคล้องกับ Voluntary Commitments การประเมินของเราเรื่อง cybersecurity, CBRN, persuasion และ model autonomy แสดงให้เห็นว่า GPT-4o ไม่ได้มีคะแนนความเสี่ยงสูงกว่าระดับปานกลาง (Medium) ในหมวดหมู่ใดเลย การประเมินนี้เกี่ยวข้องกับการใช้ชุดการประเมินแบบอัตโนมัติและโดยมนุษย์ตลอดกระบวนการ training ของ model เราได้ทดสอบทั้ง model เวอร์ชันก่อนและหลังการใช้มาตรการความปลอดภัย (pre-safety-mitigation และ post-safety-mitigation) โดยใช้ custom fine-tuning และ prompts เพื่อกระตุ้นความสามารถของ model ให้ดียิ่งขึ้น
GPT-4o ผ่านการทดสอบความปลอดภัยอย่างเข้มงวดโดยผู้เชี่ยวชาญกว่า 70 คน ในสาขาต่างๆ เช่น จิตวิทยาสังคม ความลำเอียงและความเป็นธรรม และการเผยแพร่ข้อมูลเท็จ เพื่อระบุความเสี่ยงที่เกิดขึ้นใหม่หรือถูกขยายผลจาก modalities ใหม่ที่เพิ่มเข้ามา เราใช้ข้อมูลเหล่านี้ในการสร้าง safety interventions เพื่อปรับปรุงความปลอดภัยในการโต้ตอบกับ GPT-4o และจัดการกับความเสี่ยงใหม่ ๆ ทันทีเมื่อค้นพบ
เราตระหนักดีว่า audio modalities ของ GPT-4o นำเสนอความเสี่ยงใหม่ๆ ที่หลากหลาย ในวันนี้ เรากำลังเปิดตัว text และ image inputs รวมถึง text outputs สู่สาธารณะ ในช่วงสัปดาห์และเดือนที่จะถึงนี้ เราจะทำงานเกี่ยวกับโครงสร้างพื้นฐานทางเทคนิค ความสะดวกในการใช้งานผ่าน post-training และความปลอดภัยที่จำเป็นในการปล่อย modalities อื่นๆ ยกตัวอย่างเช่น ในช่วงเปิดตัว audio outputs จะถูกจำกัดอยู่ที่ preset voices ที่เลือกไว้ และจะเป็นไปตาม safety policies ที่มีอยู่ของเรา เราจะแบ่งปันรายละเอียดเพิ่มเติมเกี่ยวกับ modalities ทั้งหมดของ GPT-4o ในระบบการ์ดที่จะมาถึง
GPT-4o พร้อมให้บริการแล้ววันนี้
GPT-4o เป็นก้าวล่าสุดของเราในการผลักดันขอบเขตของ Deep Learning โดยมุ่งเน้นไปที่การใช้งานจริง ในช่วง 2 ปีที่ผ่านมา เราได้ทุ่มเทความพยายามอย่างมากในการปรับปรุงประสิทธิภาพในทุกชั้นของ Technology Stack ผลลัพธ์แรกของการวิจัยนี้ ทำให้เราสามารถนำโมเดล GPT-4 ระดับสูงมาใช้ได้อย่างกว้างขวางยิ่งขึ้น ความสามารถของ GPT-4o จะค่อยๆ ถูกนำมาใช้ (โดยเริ่มจากการเข้าถึง Red Team ในวันนี้)
ความสามารถด้านข้อความและรูปภาพของ GPT-4o เริ่มให้บริการใน ChatGPT ตั้งแต่วันนี้ เรากำลังนำ GPT-4o มาใช้ในแพ็คเกจฟรี และสำหรับผู้ใช้ Plus ที่มี Message Limit สูงกว่า 5 เท่า เราจะเปิดตัว Voice Mode รุ่นใหม่ที่ใช้ GPT-4o ในเวอร์ชัน Alpha ใน ChatGPT Plus ในอีกไม่กี่สัปดาห์ข้างหน้า
นักพัฒนาสามารถเข้าถึง GPT-4o ใน API เป็นโมเดลข้อความและวิชั่นได้แล้ว GPT-4o เร็วกว่า 2 เท่า ราคาถูกลงครึ่งหนึ่ง และมี Rate Limit สูงกว่า GPT-4 Turbo ถึง 5 เท่า เรามีแผนที่จะเปิดตัวการรองรับความสามารถใหม่ด้านเสียงและวิดีโอของ GPT-4o ให้กับพาร์ทเนอร์ที่เชื่อถือได้จำนวนหนึ่งใน API ในอีกไม่กี่สัปดาห์ข้างหน้า
ข้อมูลอ้างอิงจาก Hello GPT-4o