back to top
Saturday, May 17, 2025

GEMINI 2.0 เปิดตัวอย่างเทพ ออกแบบมาเพื่อรองรับ Agentic Era แล้วมัน Agentic Era ยังไง บทความนี้อธิบายให้ฟัง

Share

สิ้นปี 2024 เป็นช่วงเวลาช่วงชิงกระแสความได้เปรียบระหว่าง ChatGPT และ Google Gemini ผมว่ารอบนี้ Google เหมือนรู้ว่า ChatGPT เตรียมปล่อยของช่วงคริสมาส เลยดักเปิดตัว Gemini 2.0 ออกมาล่วงหน้าก่อน ChatGPT จนผมรู้สึกว่าตอนนี้การออกผลิตภัณฑ์ด้าน AI ชิงไหวชิงพริบกันเหมือนสมัย โฆษณา Mac กับ PC หรือ Coke กับ Pepsi เลยทีเดียว เปิดตัว AI ถ้าตื่นตาตื่นใจก็จะหาความได้เปรียบทางการสื่อสารได้มากกว่า ที่ผ่านมานับตั้งแต่เปิดตัว ChatGPT ครั้งแรกปลายปี 2022 Google แม้จะมีเทคโนโลยี R&D อยู่ในมือจำนวนไม่น้อย แต่ก็กลายเสมือนเป็นคนตามหลัง OpenAI ตลอดมา ปล่อยให้ค่ายนี้ปล่อยของดีออกมาเรียกกระแสก่อน แล้วก็ค่อยปล่อยของมาตาม

ผมเองเราเป็น Google Reseller ด้วยในอีกหมวก ยังรู้สึกเลยว่า Microsoft เดินเกมส์ได้เร็ว จนหลายครั้งเราต้องยอมแพ้เพราะว่า MS ใช้งานง่ายกว่าเมื่อไปอยู่ใน Office365 และ UI ก็สะดวกผิดกับ Google หน้า UI ยังอยู่ในเลเวลที่ยังไม่ Friendly เท่าหรือเข้าถึงได้ง่ายสำหรับผู้ใช้ทั่วไป แม้แต่ใน Google Workspace ก็ออกมาช้าเช่นกัน ต้องยอมรับไปเงียบ ๆ

บทความนี้ไม่ได้จะพูดถึงเรื่องนี้ ผมอยากเจาะจงไปที่ Model Gemini 2.0 และ Trend เรื่อง Agentic AI ในโมเดลใหม่ที่เปิดตัว

เปิดตัวตระกูล Gemini 2.0 ออก Flash Beta เป็นตัวแรก

Gemini 2.0 Flash รุ่นทดสอบ เป็นโมเดลแรกในกลุ่ม Gemini 2.0 ซึ่งโชว์ความสามารถในการที่ดีขึ้นในการทดสอบสำคัญ ๆ ทำได้ดีกว่า Model Gemini 1.5 Pro 002 หลายส่วน ในเชิงการตลาดก็พุ่งเป้าการบอก Message ไปที่โมเดลเวอร์ชั่นนี้จะรองรับความเข้มข้นที่สูงขึ้นในการทำงานเป็น AgenticAI (agentic advances) โมเดลเร็วขึ้น ฉลาดขึ้น Gemini 2.0 มาพร้อมคุณสมบัติขั้นสูง เช่น การแสดงผลแบบมัลติโมดอล multimodal outputs ตอบกลับมาได้ทั้งเสียง ข้อความ ภาพ, การทำความเข้าใจบริบทที่ยาวขึ้น (long context understanding) ช่วยให้ได้คำตอบที่ตรง และมีเหตุผลที่ดีหรือทำงานได้ผลลัพธ์มีคุณภาพดีกว่าเดิม และการใช้งานเครื่องมือแบบเนทีฟ AI แบบเอเจนต์

มาลองทำความเข้าใจในความสามารถที่เพิ่มขึ้นใน Gemini 2.0 มีฟีเจอร์ที่น่าสนใจดังนี้ ขอเรียงตามความ WOW ของผมเองนะครับ

ความสามารถในการประมวลผลแบบมัลติโมดอล

คุณสมบัติเด่นของ Gemini 2.0 คือความสามารถในการประมวลผลแบบมัลติโมดอล แตกต่างจากรุ่นก่อนๆ ที่เหมือนกับระบบแยกส่วนที่ถูกประกอบเข้าด้วยกัน เวอร์ชันนี้จัดการข้อความ รูปภาพ เสียง และวิดีโอได้อย่างคล่องแคล่วราวกับภาษาแม่ (native fluency ไม่รู้จะใช้คำไทยคำไหนเหมือนกัน)

Native Fluency เปรียบได้กับความแตกต่างระหว่างคนที่เรียนภาษาหลายภาษาแบบต่อเนื่องกับ คนที่เติบโตมาโดยพูดภาษาเหล่านั้นได้ทั้งหมด คือ เป็นอัฉริยะที่เก่งเหมือนอยู่กับสิ่งนั้นมาตั้งแต่เกิด ไม่ได้แยกความเก่งเหมือนโมเดล ๆ ก่อนหน้า นั่นหมายความว่า เมื่อเราเอา Gemini 2.0 นำไปประมวลผล ความสามารถของ Agent นั้นเสมือนทำงาน โมเดลหลายตัวรวมกัน แบบทำทุกอย่างเสมือนอยู่ใน พรสวรรค์ ไม่ได้มาฝึกเอาทีหลัง

ซึ่งส่วนนี้มันต่อมาถึง แสดงผลแบบมัลติโมดอล multimodal outputs ส่วนนี้ขยายความสามารถของ AI อย่างมากครับ ยกตัวอย่าง เมื่อเราสั่งงาน AI ตัว Agent ก็สามารถสร้างผลลัพธ์ได้หลากหลายรูปแบบในครั้งเดียว ทำให้การตอบสนองมีความสมบูรณ์และเป็นธรรมชาติมากขึ้น เช่น การตอบคำถามเกี่ยวกับภาพ โดยการสร้างทั้งข้อความอธิบายและไฮไลท์ส่วนสำคัญในภาพนั้น การทำงานเป็นผู้ช่วยจะให้ การช่วยเหลือ ให้คำตอบเราแบบจำเพาะ และสร้างคำตอบที่ใช้ประโยชน์ได้อย่างมาก เช่น ถ้าเราเอาภาพหมู่ของ ทีมงาน 20 คน บอก AI ว่าช่วยแยกและบอกหน่อยว่าใครเป็นใคร อยู่แผนกไหน AI จะช่วยวงใบหน้าคน ด้วยสีที่ต่างกันของคนแต่ละแผนก พร้อมใส่ชื่อไปบนภาพ ตอบกลับมาให้เรา ในการตอบนี้ ในเชิงเทคนิคใช้ทั้ง Face Recognition, ค้นหาใน Company Information Databased และ ใช้ Image Generation สร้างวงกลม ในสีที่แตกต่างกันของคนในแต่ละแผนก มันช่างเป็นผู้ช่วยที่เก่งเสียจริง นี่ความฉลาดของโมเดลนี้

มันไม่ใช่แค่การให้คำตอบแบบเดิม แต่เป็นการสื่อสารที่สมบูรณ์แบบมากขึ้น ซึ่งเป็นความก้าวหน้าสำคัญเหนือโมเดล AI รุ่นก่อน ๆ ตัวอย่าง Demo ของ Google Project Mariner ใน Demo เป็นการสร้างส่วนเสริมเข้ากับ Chrome ที่ทำความเข้าใจหน้าเว็บทำตัวเป็นผู้ช่วยที่สามารถทำตามคำสั่งผู้ใช้ อันนี้เป็นผู้ช่วยจริง ๆ

  • หากมองในมุมการพัฒนา ให้เราลองคิดว่า เราสั่งงาน ไปแล้ว
    • AI จะสร้าง การสร้างภาพและเสียงแบบเนทีฟ ให้เราเป็นผลลัพธ์ตอบกลับมา
    • Gemini 2.0 ทำงานได้แบบ Real-Time เห็นภาพจากกล้อง เห็นหน้าจอคอมของเรา แล้วการประมวลผลวิดีโอแบบเรียลไทม์ พูดโต้ตอบพร้อมช่วยเหลือ
    • และหากมีความต้องการให้ AI ช่วยเหลือที่ซับซ้อนขึ้น จำเป็นต้องใช้ความสามารถของ Modal หลายๆ ลักษณะการทำงาน ก็สามารถทำการสลับระหว่างโมดอลต่างๆ ได้อย่างราบรื่นระหว่างการสนทนา เพราะ Google ก็เคลมว่า พัฒนาลด Latency ในการสั่งงานให้ดีขึ้นแล้วในโมเดลนี้

แล้วโมเดล Gemini 2.0 มันเข้าใกล้ Agentic Era ยังไงล่ะ ?

ที่ผ่านมา เราได้ใช้ ChatGPT ในยุคแรก ๆ มันจะเป็น ChatBot AI ที่เข้าใจภาษาธรรมชาติตอบไปมา ทำงานกับ LLMs ต่อมา Wow ขึ้นอีก ใส่ภาพได้ คุยได้มีเสียงโต้ตอบ ทำงานกับเราตอบคำถาม คุยเป็นเพื่อนเล่นกับเราได้ โมเดลมี Reasoning และ Common Sense เข้ามา เราก็ Wow แล้วใช่มั้ยครับ หรือเอาภาพเอกสารใส่ไป ChatGPT ให้มันสรุปออกมาให้หน่อย มันก็ทำความเข้าใจภาพและสรุปมาให้ อันน้ีมันก็เป็น Multi-Modal เหมือนที่ Gemini 2.0 เป็นแล้วเหมือนกัน ใช้ทั้งการอ่านภาพ ทำความเข้าใจ สร้างข้อความมาตอบเรา แต่เราจะยังเห็นความหน่วง ระยะเวลาที่ต้องใช้ประมวลผล การตอบเพราะการทำงานระหว่าง โมเดลเสียง ทำความใจภาพ ทำงานกับ Foundation Model มันทำงานสลับไปมา หรือประสานกันยังไม่ราบรื่น มันเลยยังไม่สามารถทำเหมือนที่ Google แสดงใน Demo ได้ขนาดนั้น

แล้วมันใกล้โลกของ Agentic AI ยังไงกัน จริง ๆ ต้องอธิบายนิยาม GenerativeAI และ Agentic AI ก็จะเห็นโลกสองโลกที่เหมือนจะใกล้เคียงแต่ไม่เหมือนกัน เดี๋ยวแยกบทความเขียนเรื่องนี้ออกไป แต่สิ่งที่ทุกสำนักส์ เทรนด์พูดถึง Agentic AI คือ AI ที่รับข้อมูลคำสั่งจากเรามาแล้วสามารถวิเคราะห์ คิดและตัดสินใจ เรียนรู้ ทำงานให้ได้ผลลัพธ์ตามเป้าหมายเน้นการโต้ตอบหลายรูปแบบ ซึ่ง Generative AI คือ การรับคำสั่ง และตอบทำตามคำสั่งเพียงเท่านั้น

Keyword ของโลก Agentic AI ที่สำคัญในการเป็นผู้ช่วยที่เราที่สมบูรณ์ คือ การทำงานแบบ Real-time Environment ทำงานเป็นผู้ช่วยไปพร้อม กับเรา มีความสามารถในการช่วยวิเคราะห์ ตัดสินใจ เน้นให้เราได้ผลลัพธ์ Goal-Oriented

เพราะฉะนั้นด้วย Performance ของ Gemini 2.0 ที่ Google Demo แสดง Key Feature สำคัญของ AgenticAI คือ การทำงานได้แบบ Realtime สามารถโต้ตอบสร้างผลลัพธ์หลายรูปแบบ multimodal outputs และ สุดท้ายช่วยแก้ปัญหา เน้นไปที่ผลลัพธ์ Goal-Oriented ไม่ใช่แค่ Output ยังมีรายละเอียดอีกพอสมควร ไว้มีโอกาสเล่าในบทความถัดไป

อยากเห็น Demo อื่น ๆ ของ Gemini 2.0 : เข้าไปได้ตามลิ้งนี้ https://deepmind.google/technologies/gemini

Niwat Chatawittayakul
Niwat Chatawittayakulhttp://www.digithun.com
คุณตั้น นิวัฒน์ ชาตะวิทยากูล ผู้ก่อตั้ง และ CEO บริษัท ดิจิทัน เวิลด์ไวด์ บริษัท Data & AI Tech Talant ในประเทศไทย เชี่ยวชาญด้าน การบริหารจัดการการทำ Data and AI Solutions รวมไปถึงการออกแบบประสบการณ์ผู้ใช้งาน มีประสบการณ์ดูแลโครงการ Data ขนาดใหญ่ระดับประเทศ และอยู่เบื้องหลังโครงการด้าน AI ให้กับหลายองค์กรชั้นนำ

Read more

คุณน่าจะชอบบทความนี้