การประมวลผลภาษาธรรมชาติ

สภาพแวดล้อมของการใช้งานคอมพิวเตอร์ปัจจุบัน ที่เป็นลักษณะแบบไมโครตั้งโต๊ะ และมีการติดต่อสื่อสารทางข้อมูลเข้าหากันได้ เป็นตัวช่วยเร่งความต้องการใช้งาน NLP มากขึ้น เพราะระบบคอมพิวเตอร์ในระดับนี้ราคาไม่แพง บริษัทหรือหน่วยงานสามารถตอบสนองมีไว้ใช้งานได้ง่าย เป็นที่นิยมและแพร่หลายมาก เมื่อมีการเชื่อมโยงทางฮาร์ดแวร์ ก็มีการแลกเปลี่ยนข้อมูลกัน ซึ่งในแง่ของเอกสาร เราก็มีเวิร์ดโปรเซสซิ่งและ electronic mail มาช่วยในด้านนี้ได้ผลเป็นอย่างดี แต่ในลักษณะของซอฟต์แวร์และฐานข้อมูลร่วม จะเป็นระบบที่ใหญ่โตและซับซ้อนมาก ผู้ใช้งานก็จำต้องมีพื้นความรู้และเข้าใจการใช้งานเป็นอย่างดี จึงจะใช้งานได้อย่างมีประสิทธิภาพ เพื่อเป็นการช่วยให้การใช้งานง่ายขึ้น ก็มีการเสนอแนะให้มีระบบอินเตอร์เฟส เชื่อมสื่อสารระหว่างผู้ใช้งานกับซอฟต์แวร์และฐานข้อมูลนั้น ช่วยให้มีการใช้ทรัพยากรทางคอมพิวเตอร์ง่ายและคุ้มค่าที่สุด
ขบวนการของ NLP
งานของ NLP ก็คือการรับอินพุตจากการพิมพ์ผ่านคีย์บอร์ด หรือเสียงพูดผ่านไมโครโฟน หรือจากการอ่านเข้าระบบผ่านแฟ้มข้อมูลเวิร์ดโปรเซสซิ่ง แล้วจัดการตัดทอนคัดเอาเฉพาะที่มีความหมายสมบูรณ์เข้าเก็บในคอมพิวเตอร์ สิ่งที่มีความหมายจากการตัดทอนนี้ อาจเป็นคำสั่งที่จะส่งไปเรียกใช้ฐานข้อมูลโครงสร้างไวยากรณ์ทางภาษา เพื่อใช้ในการแปลภาษา หรือชุดของรหัสแอสกี้เทียบได้กับเสียงพูดที่ผ่านการแปลงเป็นตัวอักษร ลักษณะงานของ NLP ต่าง ๆ นี้ จะมีขบวนการที่คล้ายคลึงกัน ต่างกันที่รูปแบบของการแสดงเท่านั้น
ในภาษาธรรมชาติ คำที่เขียนหรือเปล่งออกมาเมื่อนำมารวมกันจะเกิดความหมายขึ้น คอมพิวเตอร์จำเป็นต้องมีขบวนการต่าง ๆ เพื่อจะได้เข้าใจความหมายของแต่ละประโยค ซึ่งมีองค์ประกอบที่สำคัญดังนี้
ก. การวิเคราะห์ในเชิงโครงสร้าง (Syntactic Analysis) จะเป็นการตรวจสอบโครงสร้างทางไวยากรณ์เกี่ยวกับการวางตำแหน่งของคำนาม กริยา คำบุพบท ฯลฯ ที่รวมเป็นประโยค
ข. การวิเคราะห์ในเชิงความหมาย (Semantic Analysis) จะเป็นการแยกแยะความถูกต้องทางความหมายของประโยค ประโยคที่ถูกวางแบบตามโครงสร้างไวยากรณ์จะมีความหมายอย่างใดอย่างหนึ่งแน่นอน แต่บางครั้งความหมายที่ได้เป็นความหมายที่กำกวม หรืออาจไร้ความหมายเป็นไปไม่ได้

ขบวนการของ NLP จะเริ่มจากการนำอินพุตที่รับเข้ามา ไปทำการตรวจสอบโครงสร้างที่เรียกว่า "Parse Tree" แล้วทำการตรวจสอบด้านความหมายเพื่อแสดงส่วนต่าง ๆ ของประโยคและความสัมพันธ์ของมันภายใน ซึ่งการวิเคราะห์ทั้งในเชิงโครงสร้างและความหมายนี้ จำต้องอาศัยพจนานุกรมอิเล็กทรอนิกส์ ที่ประกอบด้วย คำศัพท์ต่าง ๆ แต่ละคำที่เก็บไว้จะมีข้อมูลที่สมบูรณ์เกี่ยวกับความหมายและความสัมพันธ์ของคำ การวิเคราะห์ทาง NLP ในคอมพิวเตอร์ จะเขียนในรูปของ facts และ rules ด้วยวิธีของปัญญาประดิษฐ์ ในรูปของโปรแกรมตรวจสอบ
เอาต์พุตจากการวิเคราะห์ของประโยคที่ถูกต้องตามโครงสร้างไวยากรณ์และความหมาย จะถูกเปลี่ยนหรือแปลให้เป็นคำสั่งเรียกใช้ฐานข้อมูลหรือโครงสร้างทางภาษาของอีกภาษาหนึ่งที่ต้องการแปลไป ซึ่งวิธีการสร้างคำสั่งหรือสร้างประโยค ก็ต้องเป็นไปตามกฎหรือหลักของเป้าหมายที่ต้องการ มีการพิจารณาทั้งด้านโครงสร้างและความหมายเหมือนการวิเคราะห์ของภาษาต้นทางด้วย
การใช้งาน NLP
ต่อไปนี้จะเป็นตัวอย่างของ NL interface ทั้งที่เป็นผลิตภัณฑ์นำสู่ท้องตลาดแล้วและที่ยังอยู่ในระหว่างการวิจัยและปรับปรุงอยู่
Talkwriter เครื่องที่รับเสียงพูดของมนุษย์ แล้วมีการถ่ายเปลี่ยนสัญญาณเสียงให้อยู่ในรูปสัญญาณที่เครื่องสามารถอ่านได้ หรือในรูปของข้อความแบบเวิร์ดโปรเซสซิ่ง หรือในรูปของคำสั่งเพื่อจะสั่งต่อไปใช้งานฐานข้อมูล เชื่อกันว่าผลิตภัณฑ์แบบ talkwriter นี้ จะมีบทบาทสำคัญมากในอนาคตอันใกล้นี้ เพราะ talkwriter จะเป็นเสมือนประตูหลักที่นำไปสู่เครือข่ายของ NLP อื่น ๆ อีก ดังจะได้กล่าวถึงในหัวข้อต่อไป
Content scanning จะเป็นลักษณะของการใช้คอมพิวเตอร์มาช่วยแสดงหรือตีความเนื้อหาของข้อความ ตัวอย่างเช่น เครื่องอ่านและแปลข้อความของการเดินเรือทะเล เครื่องอ่านและแปลเทเล็กซ์การโอนเงินระหว่างประเทศ ลักษณะของข้อความที่ใช้เป็นแบบสั้น ๆ คำที่ใช้มักจะเป็นคำย่อหรือสะกดผิดและไม่มีรูปไวยากรณ์ที่ดีนัก การทำงานของระบบจะทำในระดับความหมาย (semantic level) เป็นส่วนใหญ่ เพราะจุดมุ่งหมายหรือความหมายของข้อความจะอยู่ในกรอบแคบ ๆ ที่พอจะคาดเดาได้ ซึ่งองค์ประกอบของ NL อันหมายถึง การวิเคราะห์คำหรือข้อความโดยอาศัยพจนานุกรมที่เก็บคำศัพท์ไว้ในหน่วยความจำคอมพิวเตอร์ แล้วทำงานร่วมกับกฎตามหลักของภาษาเพื่อตีความบอกชนิดและความสัมพันธ์ของข้อมูล
Database interface จะเป็นการใช้ภาษาธรรมชาติ มาสั่งงานเรียกใช้ฐานข้อมูล แทนที่จะใช้ภาษาคอมพิวเตอร์ทั่ว ๆ ไป ซึ่งจะเป็นลักษณะของการถามหาข้อมูลด้วยภาษาที่ใช้ในชีวิตประจำวันจากภาษาธรรมชาติที่ใช้ ก็จะมีการแปลตีความ และสร้างเป็นคำสั่งเพื่อเรียกใช้ฐานข้อมูล ในปัจจุบันซอฟต์แวร์สำเร็จรูปต่าง ๆ ก็เริ่มมีลักษณะของ NL interface มากขึ้น และมีแนวโน้มว่า ในอนาคตจะเป็นลักษณะของ NL interface เสียส่วนใหญ่ด้วย เพื่อสะดวกกับการใช้งาน
machine translation จะเป็นการใช้คอมพิวเตอร์มาเพื่อการแปลภาษาระหว่างภาษาของมนุษย์ เช่น การแปลภาษาระหว่างภาษาไทยกับภาษาอังกฤษ เป็นต้น การแปลภาษาจัดเป็นเรื่องสำคัญสำหรับงานสำนักงานในอนาคตมาก เพราะการติดต่อการค้าระหว่างประเทศ การแลกเปลี่ยนสื่อสารข้อมูลเป็นเครือข่ายใหญ่ระหว่างประเทศ และข้อสำคัญคือการรวมข่ายงานของภาษาธรรมชาติ ทั้งในแง่ของการอินเตอร์เฟสด้วยเสียง ด้วย database interface และ text editing เข้าด้วยกัน ถ้ามีระบบการแปลภาษาอยู่พร้อมแล้ว การแปลภาษาจากภาษาอื่นมาเป็นภาษาไทย หรือจากภาษาไทยไปสู่ภาษาอื่น จะช่วยอำนวยความสะดวกและเร่งการติดต่อแลกเปลี่ยนข้อมูลให้เป็นไปอย่างรวดเร็ว เรื่องการแปลภาษานี้ยังมีข้อเสียอยู่บ้าง ตรงที่เราไม่สามารถแปลเอกสารทุกสิ่งทุกอย่างได้ เราจะต้องตีกรอบของการแปลนี้แคบอยู่เฉพาเรื่อง เช่น การแปลเอกสารทางเทคโนโลยี เป็นต้น ทั้งนี้เพราะการแปลภาษา ต้องมีการเก็บคำศัพท์พร้อมวิธีการใช้คำนั้นภายในหน่วยความจำของคอมพิวเตอร์ไว้ ซึ่งถ้าต้องการให้ความถูกต้องแม่นยำของการแปลสูงมาก ๆ แล้ว พจนานุกรมทางอิเล็กทรอนิกส์เก็บคำนี้ต้องมีขนาดใหญ่มากจริง ๆ ดังนั้นจึงต้องมีการแปลเฉพาะสาขาในระยะนี้ แต่ถ้าเทคโนโลยีของคอมพิวเตอร์ขยายไปอีก การแปลมากสาขาก็อาจเป็นไปได้ในอนาคต
เมื่อเร็ว ๆ นี้ กระทรวงวิทยาศาสตร์เทคโนโลยี และการพลังงานของไทย ก็ได้ตกลงร่วมมือกับประเทศญี่ปุ่น ทำการวิจัยเรื่องการแปลภาษาด้วยคอมพิวเตอร์เพื่อแปลเอกสารทางเทคโนโลยีระหว่างภาษาไทยกับภาษาญี่ปุ่น โดยเริ่มโครงการตั้งแต่ปี 2530 จนถึงปี 2535 รวมเวลาทั้งหมด 6 ปี คาดว่าเมื่อโครงการนี้สำเร็จจะเป็นประโยชน์ต่อไทยมากในด้านการแปลและถ่ายทอดเทคโนโลยี
Text editing จะเป็นลักษณะของการนำเอาวิธีการทาง NLP ของการวิเคราะห์ด้านไวยากรณ์และความหมายประกอบกับเวิร์ดโปรเซสซิ่ง เพื่อช่วยในการตรวจสอบตัวสะกดและไวยากรณ์ และการประเมินระดับการใช้ภาษาของเอกสารต่าง ๆ ระดับของการใช้ภาษานี้จะหมายถึงการใช้ศัพท์ภายในประโยค คำ ๆ หนึ่งในประโยคอาจใช้ศัพท์ได้หลายตัว ซึ่งแต่ละตัวที่ใช้ก็จะบอกระดับของการใช้ภาษาได้ ในปัจจุบันก็เริ่มมีผลิตภัณฑ์เช่นนี้ออกมาขายบ้างแล้ว
สรุป
งาน NLP เป็นงานที่ท้าทายความสามารถของมนุษย์มาก ในอันที่จะให้คอมพิวเตอร์สามารถรับรู้ และเข้าใจภาษามนุษย์ได้ ขณะนี้เราเริ่มมีระบบงาน NLP ที่เป็นภาษาอังกฤษ ถึงแม้ว่าจะเป็นเพียงช่วงเริ่มแรก แต่ในอนาคตอันใกล้นี้ ก็คงมีผลิตภัณฑ์หลาย ๆ อย่างออกมา
การประยุกต์ใช้งานด้าน NLP นี้ ต้องการใช้กำลังคนมากทีเดียว ในการรวบรวมหลักภาษาไทยของเราเอง จัดอยู่ในรูปที่จะเข้าแทนเป็น facts และ rules ต่าง ๆ ในคอมพิวเตอร์ ต้องมีการสร้างพจนานุกรมอิเล็กทรอนิกส์รวบรวมคำศัพท์พร้อมชนิดและที่ใช้ของคำนั้น ๆ เมื่อเราได้โครงสร้างไวยากรณ์และพจนานุกรมของภาษาไทยแล้ว การพัฒนางาน NLP ด้านต่าง ๆ ตามที่กล่าวไว้ในหัวข้อก่อน ๆ ก็จะดำเนินได้ต่อไป มหาวิทยาลัยของไทยเราก็กำลังทำงานด้านนี้อยู่คาดว่าในอนาคต เราคงจะได้ผลงานอะไรบางอย่างมาแสดงกันบ้าง

สาระน่ารู้ประจำสัปดาห์ (ฉบับที่ 90 ): 22-28 ต.ค. 2544