ไบโออินฟอร์มาติกส์ I (Bioinformatics)

การวิเคราะห์ทางคอมพิวเตอร์
จากที่กล่าวแล้วว่า สายดีเอ็นเอ มีโมเลกุลฟอสเฟตและโมเลกุลน้ำตาลไรโบส เป็นแกนหลักที่เรียกว่า แบกโบน คล้ายราวบันไดที่บิดเป็นเกลียว และมีเบสยื่นออกมาจากแกนแบกโบนแต่ละข้างคล้ายขั้นบันได ซึ่งความแตกต่างของแต่ละนิวคลีโอไทด์ขึ้นอยู่กับเบส
เบสที่เป็นส่วนประกอบของดีเอ็นเอมีด้วยกัน 2 ชนิด คือ พัวรีน (Purine) ซึ่งมีโครงสร้างเป็นวงแหวนคู่ และไพริมิดีน (Pyrimidine) ซึ่งมีโครงสร้างเป็นวงแหวนเดี่ยว เบสที่เป็นพัวรีน ได้แก่ อะดินีน (Adenine: A) กับกัวนีน (Guanine: G) ส่วนเบสที่เป็นไพริมิดีน ได้แก่ ไธมีน (Thymine: T) กับไซโตซีน (Cytosine: C) และเบสจะจับกับคาร์บอนที่ตำแหน่ง 1' ของน้ำตาลไรโบส

รูปที่ 2 ตัวอย่างของ DNA Backbone: 5'-d(CGAAT)
(ที่มา : http://www.blc.arizona.edu)

นักวิทยาศาสตร์ได้นำสายดีเอ็นเอไปตรวจวิเคราะห์ โดยที่สายรหัสของดีเอ็นเอในบุคคลเดียวกันจะมีลายพิมพ์เหมือนกัน ไม่ว่าจะได้จากเซลล์ส่วนใดของร่างกาย เช่น เม็ดเลือดขาว เส้นผม ตัวอสุจิ เป็นต้น ในการนำสายดีเอ็นเอไปใช้ในงานต่าง ๆ เช่น พิสูจน์ความเป็นพ่อแม่ลูก พิสูจน์ในคดีฆาตกรรม นักวิทยาศาสตร์จะนำสายดีเอ็นเอไปตัดด้วยเอนไซม์จำเพาะชนิดที่กำหนดไว้แล้วตามช่วงของสายดีเอ็นเอที่ต้องการพิสูจน์ และทำลายพิมพ์ดีเอ็นเอออกมา จะเห็นว่าในการเก็บข้อมูลเกี่ยวกับดีเอ็นเอ หากเก็บเป็นภาพลายพิมพ์ดีเอ็นเอของสิ่งมีชีวิตทุกชนิดบนโลก จะได้ฐานข้อมูลที่มีขนาดใหญ่มาก ดังนั้น การเก็บข้อมูลดีเอ็นเอ จึงเก็บในรูปของตัวอักษรเรียงต่อกันเป็นลำดับเบส ซึ่งมีตัวอักษรอยู่ 4 ตัว คือ A G C และ T เป็นชนิดของเบสดังที่กล่าวมาแล้วข้างต้น และตัวอักษร N แทนลำดับเบสที่ไม่รู้จัก ซึ่งการนำลายพิมพ์ดีเอ็นเอที่ได้ไปหาลำดับเบสนั้นมีลักษณะดังรูปที่ 2 ซึ่งจะได้ลำดับเบสของดีเอ็นเอ คือ CGAAT ถึงแม้ว่าฐานข้อมูลจะเก็บอยู่ในรูปของลำดับเบสก็ตาม แต่ก็ยังมีขนาดใหญ่มากอยู่นั่นเอง
ฐานข้อมูลลำดับเบสของดีเอ็นเอนั้นได้รับการเก็บรวบรวมมาจากเครื่องหาลำดับเบสของดีเอ็นเอ และนำมาเก็บรวมไว้เป็นฐานข้อมูลหลักที่องค์กร National Center for Biotechnology (NCBI) หรือ GenBank โดยฐานข้อมูลเหล่านี้แบ่งเป็นหมวดหมู่ย่อย ๆ ตามลำดับเบสที่ได้มาจากสิ่งมีชีวิตต่างชนิด และชิ้นส่วนของอวัยวะของสิ่งมีชีวิตที่ต่างกัน เช่น แบคทีเรีย ยีสต์ หนู แมลงหวี่ มนุษย์ และไมโตคอนเดรีย (Mitochondria) ของสัตว์ ชนิดต่าง ๆ เป็นต้น นับว่าเป็นฐานข้อมูลที่มีความหลากหลายและมีขนาดใหญ่มาก นอกจากนี้มีหน่วยงานต่าง ๆ จำนวนมาก เช่น มหาวิทยาลัยเกษตรศาสตร์ ได้คัดลอกจัดทำระบบฐานข้อมูล และเรียกว่า biomirror (http://bio-mirror.ku.ac.th)
การเก็บข้อมูลในฐานข้อมูลลำดับเบสจะเก็บอยู่ในรูปแแบบของ FASTA ซึ่งได้แสดงไว้ดังรูปที่ 3 โดยมีเครื่องหมาย ">" เป็นตัวแยกชนิดของลำดับเบสของดีเอ็นเอ และหลังเครื่อหงมาย ">" ก่อนข้อมูลลำดับเบส จะเป็นข้อมูลของชนิดของลำดับเบสนั้น ๆ โดยข้อมูลเหล่านั้นจะบอกถึง
- แหล่งที่ได้ลำดับเบส (gb ย่อมาจาก Genbank)
- ชนิดของลำดับเบส (Escherichia coli, tesA, ybbA genes)
- ตำแหน่งคู่เบสของลำดับเบส (from base s 510705 to 522297 of complete genome)
ส่วนข้อมูลลำดับเบสจะเป็นตัวอักษรของเบสเรียงต่อกันเป็นข้อความ ซึ่งชนิดของลำดับเบสที่ต่างกันก็จะมีข้อมูลลำดับเบสที่ต่างกันด้วย ดังตัวอย่างในรูปที่ 3
การดำเนินการทางด้านคอมพิวเตอร์ จึงเสมือนการค้นหาข้อความภายในว่ามีความหมายอะไรบ้าง นักวิทยาศาสตร์ต้องการอ่านรหัสเหล่านี้ออกมาในเชิงความหมาย ซึ่งแน่นอนต้องมีการเปรียบเทียบระหว่างสายพันธุ์ ระหว่างกลุ่มของสิ่งมีชีวิตอื่น เพื่อจะดูความหมายการจัดเรียงตัวเหล่านี้

รูปที่ 3 ตัวอย่างข้อมูลลำดับเบสของดีเอ็นเอในฐานข้อมูลลำดับเบส
(ที่มา : http://www.ncbi.nlm.nih.gov)

งานที่ต้องดำเนินการต่อ

ปัจจุบันมีเครื่องวิเคราะห์สายยีน หรืออุปกรณ์ที่ทำหน้าที่หาลำดับเบสของดีเอ็นเอ มีกระจายอยู่ทั่วโลก หน้าที่หลักคือการช่วยกันดำเนินการเพื่อหาลำดับเบสของสิ่งมีชีวิตที่สนใจ และรวมกันเป็นฐานข้อมูลเพื่อไว้ใช้ศึกษา
การที่มีข้อมูลอยู่ในฐานข้อมูลและต้องใช้นักวิทยาศาสตร์ นักชีววิทยา นักคอมพิวเตอร์ มาร่วมกันศึกษาและวิเคราะห์ โดยเฉพาะอย่างยิ่งจากตัวอย่างของรหัสพันธุกรรมของมนุษย์ ซึ่งเป็นลำดับเบส ATGC จำนวนมาก ประมาณ 3 พันล้าน เชื่อกันว่าจะมีส่วนสำคัญของยีนที่มีบทบาทสำคัญต่อมนุษย์อยู่ประมาณ 25,000-150,000 ซึ่งเป็นส่วนที่น่าสนใจและต้องศึกษาให้รู้ได้ ข้อมูลส่วนนี้อยู่ใน 3 พันล้านที่ต้องหามาให้ได้
การศึกษาในเรื่องรหัสพันธุกรรมนี้ ยังต้องศึกษาข้อมูลของรหัสพันธุกรรมของสายพันธุ์อื่นด้วย เพื่อจะทำให้ได้ความรู้ต่าง ๆ อีกมากมายที่จะไขปัญหาของสิ่งมีชีวิต บริษัท ซีลีรา จึงได้ทำการเก็บข้อมูลรหัสพันธุกรรมของแมลงวันผลไม้ โดยทำการทดลองหาลำดับเบสทางพันธุกรรม ประมาณ 120 ล้านเบสแพร์ เพื่อทำการศึกษาทดลองต่าง ๆ และก่อนที่จะทำการศึกษาและค้นหาความลับที่เกี่ยวกับรหัสพันธุกรรมของมนุษย์ ซีลีราและกลุ่มบริษัทที่ทำการศึกษาร่วมได้ทำการหาสายรหัสพันธุกรรมของหนู และได้ดำเนินการจนได้รหัสทั้งหมดของหนูในขั้นต้น ด้วยขนาดที่ใกล้เคียงกับมนุษย์คือ ประมาณ 3 พันล้านเบสแพร์ ซีลีร่าได้เก็บรวบรวมข้อมูลและเริ่มต้นทำการวิเคราะห์ค้นหาสิ่งมหัศจรรย์ต่าง ๆ ที่อยู่ในการดำเนินการของสิ่งมีชีวิต
งานการอ่านสายรหัส และการแปลความหมายของสายรหัส เป็นงานที่ยิ่งใหญ่มาก เป็นงานที่เกี่ยวข้องกับข้อมูลที่มีขนาดใหญ่มาก และเป็นงานที่ยิ่งใหญ่ตั้งแต่อดีตที่มนุษย์เคยดำเนินการมา
โดยปกติเครื่องหาลำดับเบส (DNA Sequencing) หนึ่งเครื่อง จะวิเคราะห์หาลำดับเบสของดีเอ็นเอได้ประมาณ 330,000 เบส โครงการจีโนมมนุษย์ หรือ International Human Genome จึงต้องใช้วิธีการร่วมมือกันโดยให้นักวิจัยและศูนย์การทดลองแต่ละแห่งช่วยกันทำและนำข้อมูลมาเก็บรวบรวมไว้ภายใต้โครงการนี้ ฐานใหญ่สุดอยู่ที่ Sanger Center ในประเทศอังกฤษหรือที่สถาบันวิจัยไบโอเมดิคอลที่ Whitehead มลรัฐแมสสาซูเซส มีเครื่องหาลำดับเบสอยู่แห่งละประมาณ 100 เครื่อง สำหรับที่บริษัทซีลีร่าเพียงแห่งเดียวมีเครื่องลำดับเบสอยู่ถึง 300 เครื่อง และมีความสามารถหาลำดับเบสได้ถึง 2 พันล้านเบส ในเวลาหนึ่งเดือน ซึ่งมีขีดความสามารถสูงสุดตั้งแต่ที่โครงการเคยดำเนินการมา
อย่างไรก็ตามด้วยเทคนิคทางด้านการจัดการและระบบคอมพิวเตอร์ที่ใช้ในการจัดการข้อมูล ทำให้การดำเนินการต่าง ๆ เป็นไปแบบอัตโนมัติมากขึ้น และมีความน่าเชื่อถือได้สูงขึ้น

เทคนิคทางคอมพิวเตอร์เป็นเรื่องที่มีความสำคัญ

การที่บริษัทซีลีร่าทำงานต่าง ๆ ได้รวดเร็วขึ้น ซีลีร่ากล่าวว่าเกิดจากขีดความสามารถของคอมพิวเตอร์ที่ใช้งานขณะนี้ทำงานได้ดีขึ้น ที่ศูนย์เก็บข้อมูลและวิเคราะห์ของซีลีร่า ใช้ซูเปอร์คอมพิวเตอร์ที่ใช้ซีพียูของคอมแพ็กอัลฟ่า ที่ทำงานได้เร็วมากกว่า 250 เครื่องต่อกันเป็นเครือข่าย และยังมีฐานข้อมูลขนาด 4.5 เทราไบต์ นอกจากนี้ยังเชื่อมโยงกับเครื่องคอมพิวเตอร์แบบซูเปอร์คอมพิวเตอร์ที่ใช้ซีพียูอัลฟ่าอีกกว่า 800 เครื่องในที่ต่าง ๆ และมีที่เก็บข้อมูลรวมกันกว่า 50 เทราไบต์
เทคนิคการคำนวณที่สำคัญคือ การตัดแบ่งส่วนของสาย ATGC ออกเป็นชิ้นเล็ก ๆ การค้นหาตำแหน่งในสาย ATGC การเปรียบเทียบข้อมูล การกระทำหลายอย่าง กระทำในลักษณะความคล้ายหรือการกระทำที่เรียกว่า Similar Matching อัลกอริทึมในการคำนวณบนฐานข้อมูลขนาดใหญ่นี้ ต้องใช้เวลานานและยากที่จะหาคำตอบได้รวดเร็ว ขณะเดียวกันต้องใช้หน่วยความจำของคอมพิวเตอร์มาก และยังต้องใช้ที่เก็บข้อมูลหรือฐานข้อมูลใหญ่เช่นเดียวกัน
ลองนึกถึงสายสตริง (String) ที่ใช้ในการแทนข้อมูลในระบบข้อมูลที่มีขนาดยาวมาก การค้นหาตำแหน่งโดยนำสตริงอีกตัวหนึ่งมาเปรียบเทียบ การดำเนินการเช่นนี้จำเป็นต้องหาวิธีการเพื่อให้กระทำได้เร็วขึ้น เมื่อความยาวของสตริงเพิ่มขึ้น ระยะเวลาในการคำนวณก็จะมากตามและเพิ่มขึ้นอย่างมากมาย
รหัสพันธุกรรมจึงเป็นศาสตร์แขนงหนึ่งที่ต้องอาศัยการดำเนินการด้วยคอมพิวเตอร์และเป็นเรื่องที่สำคัญต่อทุกวงการ โดยเฉพาะวงการคอมพิวเตอร์ที่ต้องพบกับการจัดการฐานข้อมูลขนาดใหญ่มาก การคำนวณที่ต้องใช้กำลังคอมพิวเตอร์มากมาย ตลอดจนการบริหารจัดการข้อมูลในลักษณะช่วยกันทำ ช่วยกันใช้ โดยมีเครือข่ายคอมพิวเตอร์เป็นตัวเชื่อมประสาน
รหัสของสิ่งมีชีวิตจึงเป็นข้อมูลข่าวสารที่จะบอกความเร้นลับของสิ่งมีชีวิต เป้าหมายของการศึกษาทางด้านไบโออินฟอร์มาติก จึงอยู่ที่การค้นหาความรู้ในเรื่องต่าง ๆ ที่จะเป็นประโยชน์ต่อการดำรงเผ่าพันธุ์มนุษย์ แน่นอนที่สุดการดำเนินการหลายอย่างย่อมมีผลประโยชน์ทางการค้าแอบแฝงอยู่ด้วย ดังจะเห็นได้จากการทุ่มลงทุนมหาศาลจากการคิดค้น และแสวงหารหัสพันธุกรรม ซึ่งเป็นเรื่องที่ถือว่าเป็นการท้าทายอย่างยิ่งยวด
เอกสารอ้างอิง
1. Samuel K. Moore "Understanding the human genome" IEEE Spectrum Vol.37 No.11, Nov. 2000.


สาระน่ารู้ประจำสัปดาห์, ฉบับที่ 54: 22-28 มกราคม 2544