Med-Gemini เป็นโมเดลทางการแพทย์ ที่ใช้เจาะจงความเชี่ยวชาญในอุตสาหกรรมการแพทย์ โดยตรง ผมเคยมี พูดถึงหลายครั้ง ตั้งแต่ชื่อ Med-PaLM เปลี่ยนมาเป็น MedLM ชุดโมเดลทางการแพทย์มัลติโมดัลที่มีศักยภาพสูง ตอนนี้พัฒนามาเป็น Med-Gemini ซึ่งมีความน่าสนใจอย่างไร ผมอธิบายในบทความนี้ครับ
AI ฝั่ง Healthcare จะค่อนข้างมีความเฉพาะตัวสูงมากครับ เนื่องจากโมเดลจะเป็นชุดข้อมูลการเทรนที่ค่อนข้างพิเศษ และการนำไปใช้ค่อนข้างมี Sensitivity สูงมากต่างจาก Model LLMs ขนาดใหญ่ทั่วไปมีข้อมูลในการเทรน และการนำไปใช้งาน มีความ Generalize และความสุ่มเสี่ยงต่อผลลัพธ์ที่ AI ให้อยู่ในระดับน้อยกว่า เสี่ยงได้มากกว่า
ด้วยความซับซ้อน อ่อนไหว เพื่อให้โมเดล AI สามารถทำงานทางการแพทย์ที่หลากหลายได้อย่างมีประสิทธิภาพ และช่วยสนับสนุนเวิร์กโฟลว์ของแพทย์ นักวิจัย และผู้ป่วย (เช่น การสร้างรายงานรังสีวิทยา หรือสรุปข้อมูลสุขภาพ) อย่างมีความหมาย มักจะต้องการความสามารถในการวิเคราะห์เชิงลึกร่วมกับการใช้ความรู้ทางการแพทย์เฉพาะทาง
หัวใจสำคัญของ AI ของวงการแพทย์ ยังอยู่ในโมเดลภาษาขนาดใหญ่ (LLM) ที่ได้รับการปรับแต่งให้เหมาะกับการใช้งานในวงการแพทย์โดยเฉพาะ มีพัฒนาการอย่างต่อเนื่อง แม้การแข่งขันไม่สูงเหมือนโมเดล General LLMs ที่ขยันออก Version ปรับปรุงความสามารถความฉลาดอย่างสม่ำเสมอ ที่มีความถี่มากกว่า
แต่ Med-Gemini ก็มีความสามารถที่ก้าวกระโดดขึ้นด้วยเช่นกัน เมื่อเทียบกับ Med-PaLM 2 ในครั้งก่อนที่ทำคะแนนสูงในข้อสอบแพทย์ USMLE โดยสามารถทำคะแนนได้ 85% ในการสอบ USMLE (United States Medical Licensing Examination) หรือชุดการสอบเพื่อขอใบอนุญาตประกอบวิชาชีพแพทย์ในสหรัฐอเมริกา ดีกว่า Med-Palm version ก่อนหน้า 18.2% ถือเป็นความก้าวหน้าสำคัญ
อัพเดท รีวิวความสามารถของ Med-Gemini มีความสะดวกมากขึ้นอย่างไรในการทำงานทางด้านการแพทย์
Med Gemini คืออะไร
Med-Gemini คือชุดโมเดล AI ทางการแพทย์เจนเนอเรชันใหม่ที่พัฒนาต่อยอดจากโมเดล Gemini ของ Google โดยปรับจูน (fine-tune) บนข้อมูลทางการแพทย์ที่ถูกลบชื่อตัวบุคคลออก พร้อมความสามารถด้านการวิเคราะห์เชิงตรรกะ (reasoning), มัลติโมดัล (text, รูปภาพ, วิดีโอ) และการเข้าใจบริบทยาว (long-context) ที่ได้มาจากโมเดล Gemini จึงให้ผลลัพธ์แม่นยำขึ้นทั้งในงานถาม-ตอบทางการแพทย์ การสร้างรายงานรังสีวิทยา การสรุป EHR ความสามารถวิเคราะห์ภาพ 2D/3D และแม้แต่การทำนายความเสี่ยงโรคจากข้อมูลจีโนมิกส์ ซึ่งเหนือกว่า Med-PaLM 2 และ MedLM ทั้งในเชิงประสิทธิภาพและขอบเขตการใช้งาน
สิ่งที่พัฒนาเพิ่มขึ้นอย่างเห็นชัด คือ ผลลัพธ์จากโมเดล รอบนี้ Med-Gemini จะทำความเข้าใจมากกว่า ข้อความสั้น ๆ สามารถทำความเข้าใจข้อมูลมัลติโมดัลที่ซับซ้อน เช่น ภาพ วิดีโอ รวมถึงความยาวและความหลากหลายของบันทึกสุขภาพอิเล็กทรอนิกส์ (EHRs) ซึ่งจะช่วยให้การทำงานในสถานการณ์ต่าง ๆ คลอบคลุมขึ้น ประยุกต์ไปใช้งานได้ในหลายสถานการณ์สำหรับ แพทย์ นักวิจัย และผู้ป่วย ตรงนี้ทำให้ ประสิทธิภาพโมเดล ก้าวกระโดดในการวิเคราะห์ข้อมูลมัลติโมดัลและการตีความบริบทยาว ๆ รับรูปแบบ Input ที่มากขึ้นและวิเคราะห์ได้ดีขึ้น
การพัฒนาศักยกภาพ MedLM กับ Gemini ความสามารถเพิ่มขึ้นมุมไหนบ้าง
กระบวนการพัฒนา Med-Gemini ในภาพรวม เนื่องจากเป็นการต่อยอดที่มากกว่า Med-PaLM 2 และ MedLM เข้ากับ Gemini Model ซึ่งทำให้ MedLM เดิม ได้ความสามารถใหม่ ความสามารถสำคัญ 3 ด้านของ Gemini มาเป็นฐานให้ Med-Gemini คือ
- Advanced reasoning— การคิดวิเคราะห์เชิงลึก ตีความปัญหาทางคลินิกซับซ้อนได้
- Multimodal understanding— ประมวลผลและเชื่อมโยงข้อมูลหลายรูปแบบ ทั้งข้อความ ภาพ และวิดีโอ
- Long-context processing — รองรับการอ่านและวิเคราะห์ข้อมูลที่มีบริบทยาว เช่น เอกสาร EHR หรือ transcript ของวิดีโอ
3 ข้อนี้มีผลต่อเนื่องทำให้ Model Med-Gemini ที่ผนวก MedLM เข้าไป เกิดการพัฒนาความสมบูรณ์ในการทำงานทางการแพทย์ อธิบายจากภาพและด้านล่างนี้นะครับ
Advanced reasoning ทำให้โมเดล ฝึกถาม-ตอบกับตัวเอง พร้อมดึงข้อมูลอัปเดตจากเว็บ เพิ่มความแม่นยำ กับข้อมูลที่อัพเดท Self-training with web search integration
Multimodal understanding ปรับจูน (fine-tune) ด้วยข้อมูลทางการแพทย์เฉพาะ พร้อมออกแบบ encoder พิเศษสำหรับภาพ 2D/3D Fine-tuning & customized encoders
Long-context processing การสามารถอ่านวิเคราะห์ข้อมูลบริบทยาว ๆ ทำให้ การทำ CoT Chain of Thought เกิดขึ้นได้ดีทำให้โมเดล “คิดเป็นขั้นตอน” ออกมาในรูปแบบที่ตรวจสอบได้ Chain-of-reasoning prompting
จากการ เติมเทคนิคเฉพาะทางแพทย์ หัวข้อ Self-training, Fine-tuning, Chain-of-reasoning บวกเข้ากับ จากสถาปัตยกรรม Gemini ที่เก่งเรื่อง reasoning, multimodal, long-context ผลลัพธ์คือ “Med-Gemini” ผสานความสามารถ reasoning, multimodal, long-context จาก Gemini พร้อมฟีเจอร์เสริมเพื่อการใช้งานในงานทางคลินิกจริง

Med-Gemini เก่งกว่าเดิมเท่าไหร่ บนการทดสอบ MedQA

Med-Gemini ที่ต่อยอดจากงานวิจัยเบื้องต้นโมเดลภาษาใหญ่ที่ปรับจูนทางการแพทย์ด้วย Med-PaLM ประเมินความสามารถ โดยใช้ Med-Gemini รุ่นใหม่ มาทดสอบ 14 งาน ครอบคลุมทั้งการประมวลผลข้อความ มัลติโมดัล และบริบทยาว บนเกณฑ์วัดมาตรฐาน ประเมินสมรรถนะของโมเดลภาษาใหญ่ (LLMs) ที่ชื่อ MedQA1 ได้ผลความแม่น 91.1%
Med-Gemini สามารถตอบคำถามแบบปรนัย (multiple-choice) บนบริบทกรณีศึกษาผู้ป่วยสั้น ๆ ที่มา: เก็บจากชุดข้อสอบจริง USMLE ขั้นตอนต่าง ๆ ภาษาอังกฤษ 12,723 ข้อ เทสทั้งหมดถูกต้องสูงสุด 91.1% ซึ่งเป็นสถิติใหม่ ที่เหนือกว่า Med-PaLM 2 ถึง 4.6%

การวิเคราะห์มัลติโมดัลขั้นสูง Med-Gemini รองรับการประมวลผลภาพทางการแพทย์ทั้งแบบ 2D (Chest X-ray, CT slice, pathology slide) และ 3D (การสแกน CT หัว) สามารถสร้างรายงานรังสีวิทยาที่แม่นยำกว่าเดิมถึง 12% บนชุดข้อมูลหลายชุด การใช้บริบทยาวและ EHR โมเดลแสดงศักยภาพในการตอบคำถามจากวิดีโอทางการแพทย์และ EHR ในลักษณะ zero-shot โดยเหนือกว่าโซลูชันเฉพาะทางเดิมทั้งด้านความแม่นยำและความครอบคลุม
กลไก uncertainty-guided web search ผสานการค้นหาข้อมูลบนเว็บแบบนำด้วยความไม่แน่นอน ช่วยให้โมเดลดึงข้อมูลที่ถูกต้องและทันสมัย มาประกอบการวิเคราะห์ได้อย่างมีประสิทธิภาพ แนวทางนี้ทำให้ได้ผลลัพธ์ที่ดีเยี่ยม ยกตัวอย่าง ในเคสการวินิจฉัยเชิงคลินิกซับซ้อนจากการประชุม clinico-pathological ของ NEJM และอื่น ๆ ผมไม่เล่าทั้งหมด สรุปในภาพรวมโมเดลสามารถทำคะแนนได้ดีในการวัดผล Medical Beanchmarking หลาย ๆ ตัว ตามภาพด้านล่างครับ
Med-Gemini ทุบสถิติในงาน MedVidQA สูงถึง +58 % และยังนำหน้าในการวิเคราะห์วิดีโอมีซับไตเติ้ล (+13 %) และในงานประเมินวิดีโอผ่าตัดอีก +15 % แต่ในงานอ่านบริบทยาวจาก EHR เกณฑ์นี้ยัง “ลดลงเล็กน้อย” โดยโมเดลอื่นก็ทำได้ใกล้เคียงกัน
- Med-Gemini ชนะขาด ใน 10 จาก 14 เกณฑ์มาตรฐาน ครอบคลุมข้อความ มัลติโมดัล ภาพ และวิดีโอ
- เหนือกว่า GPT-4 เมื่อเทียบแบบตรง ๆ ในทุกเกณฑ์ที่ GPT-4 ทำได้เทียบได้
- แรงที่สุดบนวิดีโอ โดยเฉพาะ MedVidQA ที่มีการปรับปรุงมากที่สุด +58 %
- ยังมีโอกาสในการพัฒนากลุ่ม ได้แก่ งาน Slake-VQA (Dermatology) และ EHR long-context ที่ผลลัพธ์ยังไม่ก้าวกระโดดนัก

เทียบ Med-Gemini กับ Med-PaLM ในเชิงโมเดลการพัฒนา
| ขั้นตอน / โมเดล | Med-PaLM | Med-Gemini |
|---|---|---|
| ฐานโมเดล (Base) | PaLM 2 (LLM ข้อความล้วน) | Gemini (LLM + Multimodal + Long-context) |
| ข้อมูลฝึกโมเมล | ข้อความทางการแพทย์ (journal, guideline) | – ข้อความทางการแพทย์ – ภาพ X-ray, CT, สไลด์พยาธิ – วิดีโอ, EHR, จีโนม |
| เทคนิคปรับจูน | Instruction-fine-tuningกับ prompt/response | – Fine-tune แบบเดียวกับ Med-PaLM + – Custom encoders สำหรับภาพ 2D/3D – Chain-of-reasoning prompting |
| เสริมความแม่นยำ | ปรับจูนจาก feedback ของแพทย์ | – Self-training (โมเดลถาม-ตอบกับตัวเอง) – Web-search integration ดึงข้อมูลอัปเดต |
| ความสามารถพิเศษ | เน้นงานข้อความ: Q&A, สรุปผล, สร้างจดหมายส่งต่อ | ครอบคลุมงานมัลติโมดัล: |
การทำงาน ในภาพรวม Med-Gemini Advancing multimodal medical capabilities
Med-Gemini จึงเป็นก้าวสำคัญที่ผสานความสามารถ reasoning, multimodal และ long-context ของ Gemini เข้ากับข้อมูลทางการแพทย์เฉพาะทาง ชูจุดเด่นด้านประสิทธิภาพบนมาตรฐานทางการแพทย์ชั้นสูงและการใช้งานจริงที่หลากหลาย ซึ่งเหนือกว่า Med-PaLM 2/MedLM ในทั้งด้าน accuracy, ขอบเขตมัลติโมดัล และฟีเจอร์การค้นหาข้อมูลอัปเดตทันสมัยยิ่งขึ้น การปรับแต่งให้รับรูปแบบข้อมูลหลากหลาย ช่วยขยายขอบเขต สำหรับสาขารังสีวิทยา พยาธิวิทยา โรคผิวหนัง จักษุวิทยา และจีโนมิกส์ในวงการสุขภาพ ผ่าน Med-Gemini-2D, Med-Gemini-3D, และ Med-Gemini-Polygenic
ด้วยการฝึกกับภาพทางการแพทย์ แบบ 2D เช่น ภาพเอกซเรย์ทรวงอก ภาพตัดขวาง CT Slide (ภาพตัดขวาง ภาพ 2 มิติ)พยาธิวิทยา ฯลฯ บนข้อมูลจริง ทางการแพทย์ที่ ไม่ระบุตัวตน Med-Gemini-2D จึงสามารถทำงานหลายอย่างได้ เช่น การจำแนกประเภท การตอบคำถามเชิงภาพ และการสร้างข้อความ ตัวอย่างหนึ่ง คือ การสร้างรายงานเอกซเรย์ทรวงอก ซึ่งทำได้ดีกว่าสถิติเดิมถึง 12% ทั้งในกรณีสแกนปกติ และ ผิดปกติจากสองชุดข้อมูลแยกกัน
Med-Gemini-3D ยังสามารถเข้าใจและเขียนรายงานรังสีวิทยาสำหรับการศึกษารูปแบบ 3 มิติ เช่น ภาพ CT ศรีษะ (ตัวอย่างด้านล่าง) การสแกนแบบโวลูเมตริก 3D เป็นเครื่องมือสำคัญในเวชศาสตร์สมัยใหม่ เนื่องจากให้บริบทมากขึ้นสำหรับการวินิจฉัยและการรักษาหลายกลุ่มโรค ที่ต้องวิเคราะห์ภาพ โครงสร้าง 3 มิติ
ในเชิงเทคนิค 3D ถือเป็นการกระโดดครั้งสำคัญในความซับซ้อนของงาน คลินิกมัลติโมดัลเมื่อเทียบกับ 2D ครับและนอกจากนั้น การประเมินรายงานที่ Med-Gemini-3D สร้างขึ้น พบว่ามากกว่าครึ่งหนึ่งให้คำแนะนำการดูแลรักษาเหมือนกับที่รังสีแพทย์ให้ แต่ยังไงยังต้องมีการวิจัยและการตรวจสอบเพิ่มเติม เพื่อความให้มั่นใจ ในระดับมาตรฐานทางการแพทย์ วินิจฉัยได้อย่างปลอดภัย

แหล่งข้อมูลทางการแพทย์ (Medical Modalities & Knowledge) ที่ Med-Gemini สามารถรับและทำความเข้าใจได้มี 7 แหล่งข้อมูลสำคัญ
- ภาพถ่ายรังสีทรวงอก (Chest X-ray)
- ภาพผิวหนัง (Dermatology image)
- ข้อมูลจีโนม (DNA / Genomic data)
- ภาพสแกน CT / MRI (Volumetric scan slices)
- ภาพจอประสาทตา (Ophthalmology retina scan)
- ภาพสไลด์พยาธิวิทยา (Histopathology slide)
- บันทึกสุขภาพอิเล็กทรอนิกส์ (EHR documents)

ตัวอย่างประโยชน์จาก Med-Gemini Multimodal
โดยแต่ละแหล่งข้อมูลจะแปลงเป็นตัวแทนเชิงตัวเลข (feature embedding) ก่อนที่จะถูกส่งเข้าโมเดลหลัก
| Modality | เคสตัวอย่าง | งานที่ Med-Gemini ช่วย | ประโยชน์ที่ได้ |
|---|---|---|---|
| Chest X-ray ภาพเอ็กซ์เรย์ทรวงอก | ผู้ป่วยมีอาการไอเรื้อรัง รังสีแพทย์ต้องตรวจหาเยื่อหุ้มปอดอักเสบ (pneumonia) หรือวัณโรค | • จำแนกภาพปกติ vs. ผิดปกติ (classification)• สร้างรายงานรังสีวิทยาอัตโนมัติ (2D report generation) | ลดเวลารอผล อ่านภาพได้เร็วขึ้น ลดข้อพลาดจากคนอ่าน |
| Dermatology image ภาพผิวหนัง | คนไข้สงสัยเนื้องอกผิวหนัง (เช่น melanoma) | • ตอบคำถามเชิงภาพ (visual Q&A) เช่น “จุดแดงนี้เสี่ยงเป็นมะเร็งผิวหนังหรือไม่” | ผู้ป่วยได้รับคำปรึกษาเบื้องต้นเร็วขึ้น ก่อนส่งตรวจชิ้นเนื้อจริง |
| Genomic data ข้อมูลจีโนม | ผู้ป่วยต้องการประเมินความเสี่ยงโรคเบาหวานหรือโรคหัวใจ | • ทำนายความเสี่ยง (polygenic risk prediction) จากโพลีจีนิกสกอร์ | แพทย์และผู้ป่วยวางแผนป้องกันล่วงหน้า ลดโอกาสเกิดโรคได้เร็วขึ้น |
| CT/MRI slices ภาพสแกน 3D | ผู้ป่วยมีอาการปวดศีรษะ ตรวจ CT หาสาเหตุเลือดคั่งในสมอง | • ประมวลผลภาพ 3D (Med-Gemini-3D)• สร้างรายงาน CT อัตโนมัติ (3D report) | เพิ่มความแม่นยำในการระบุตำแหน่งและขนาดความผิดปกติ |
| Ophthalmology retina scanภาพจอประสาทตา | ผู้ป่วยเบาหวาน ตรวจจอประสาทตาหาเบาหวานขึ้นจอประสาทตา (DR) | • จำแนกความรุนแรงของเบาหวานขึ้นจอประสาทตา (classification)• สรุปผลและแนวทางการรักษา | ลดภาระผู้เชี่ยวชาญ เร่งส่งต่อผู้ป่วยขั้นรุนแรงได้ทันเวลา |
| Histopathology slide ภาพสไลด์พยาธิวิทยา | ชิ้นเนื้อจากก้อนเนื้องอก ตรวจหามะเร็งต่อมน้ำเหลือง | • วิเคราะห์ลักษณะเซลล์และชั้นเนื้อเยื่อ (classification)• ช่วยตั้งข้อสันนิษฐาน subtype มะเร็ง | เสริมความแม่นยำ ลดภาระตรวจซ้ำ เพิ่มประสิทธิภาพห้อง แล็บ |
| EHR documents บันทึกสุขภาพอิเล็กทรอนิกส์ | ผู้ป่วยหลายโรครายงานยาวในโรงพยาบาลหลายครั้ง | • สรุปประวัติคนไข้ และสิ่งที่ต้องติดตาม (summarization)• ตั้งค่าการเตือนยาและนัดหมาย | แพทย์ประหยัดเวลาอ่าน chart, ลดการทับซ้อนข้อมูล, ป้องกันข้อผิดพลาดยา |
AI ทางการแพทย์ Med-Gimini ในตอนนี้สิ่งสำคัญ จากผู้พัฒนา ก็คือวิธีการเหล่านี้ต้องได้รับการทดสอบอย่างละเอียด แม้ในเชิงงานวิจัยจะมีคุณภาพที่สูงในมาตรฐาน นั้น ๆ แล้วก็ตาม แต่ยังไม่ได้ผ่านการทดสอบที่เกิดขึ้นในสถานการณ์จริง ที่มีความหลากหลายสภาพแวดล้อม ที่มีนอกเหนือจากเกณฑ์มาตรฐานแบบเดิม ซึ่งคือ ขั้นตอนสำคัญเพื่อให้แน่ใจว่าโมเดลเช่นนี้ปลอดภัยและเชื่อถือได้ก่อนจะนำไปใช้ในสถานการณ์จริงที่เกี่ยวข้องกับผู้ป่วยหรือผู้ใช้รายอื่น ซึ่ง Med-Gemini จะเปิดให้ในไม่ช้าสำหรับในเชิงพานิช ครับ
https://research.google/blog/advancing-medical-ai-with-med-gemini
Question Answering on MedQA https://paperswithcode.com/sota/question-answering-on-medqa-usmle
- MedQA เป็นหนึ่งในชุดข้อมูล (dataset) และเกณฑ์มาตรฐาน (benchmark) ชั้นนำสำหรับการประเมินสมรรถนะของโมเดลภาษาใหญ่ (LLMs) ในการตอบคำถามทางการแพทย์แบบปรนัย (multiple-choice) บนมาตรฐานการสอบใบอนุญาตประกอบวิชาชีพแพทย์ของสหรัฐอเมริกา (USMLE) โดยคำถามทุกข้อเป็นกรณีศึกษา (vignette) จำลองผู้ป่วยสั้น ๆ เน้นการวินิจฉัยและแนวทางรักษา ตั้งแต่ปี 2021 เป็นต้นมา MedQA กลายเป็นตัวชี้วัดสำคัญในการเปรียบเทียบประสิทธิภาพของโมเดลต่าง ๆ ตั้งแต่ GPT-4 ไปจนถึงโมเดลทางการแพทย์เฉพาะทางเช่น Med-PaLM 2 และ Med-Gemini ↩︎
