“มนุษย์มี DNA เหมือนกับชิมแปนซี 96.49% !
เดี๋ยวนะ อีกอันบอก 97.89% หนิ
เฮ้ย แต่อีกที่บอก 98.52% นะโว้ย”
สรุป DNA มนุษย์กับชิมแปนซีเหมือนกันกี่ % กันแน่?
ผมเห็นหลายที่แล้วชอบยกตัวเลข 9x.xx% นี้กันเหลือเกิน โดยที่ไม่ทราบความหมายที่แท้จริงของมัน
ผมตอบให้เลยว่า ตัวเลขพวกนี้ไม่มีความหมายอะไรเลยเมื่อยกขึ้นมาโดดๆ แบบนี้
ความหมายที่แท้จริงของตัวเลข 9x.xx% เหล่านี้ ไม่ใช่หมายความว่าเอารหัสเบส DNA ของคนกับของลิงมาเรียงแล้วนับดูว่าเหมือนกันเท่าไร แต่มันคือ “ค่าเฉลี่ยความคล้ายคลึง (average similarity) ของชุด orthologous gene set ของทั้งสองจีโนมที่เอามาเปรียบเทียบกัน”
เราไม่สามารถเอารหัสเบส DNA ของจีโนมมาวางเทียบกันตรงๆ ได้ เพราะเราไม่รู้เลยว่าตรงไหนมันเทียบกันได้
ให้ลองจินตนาการเปรียบเทียบเป็นหนังสือสองเล่มที่มีคนคัดลอกมาจากต้นฉบับเดียวกัน ดังนั้นเนื้อหาข้างในนี่ต้องเขียนคล้ายๆ กัน แต่มันส่งมาเป็นแฟ้มหนีบ ข้างในเป็นแผ่นๆ ไม่มีเลขหน้า ลำดับการเรียงหน้าของสองแฟ้มนี้อาจจะไม่เหมือนกันนะและบางหน้าก็อาจจะมีในเล่มหนึ่งแต่ไม่มีในอีกเล่ม คุณไม่รู้ด้วยซ้ำว่าควรจะนับแผ่นไหนเป็นหน้าแรก ในสถานการณ์เช่นนี้คุณจะเอาแผ่นที่ 20 ของสองเล่มมาเทียบกันได้มั้ย คำตอบคือไม่ได้ นี่แหละคือสถานการณ์ของการเปรียบเทียบจีโนม
ดังนั้นในการเปรียบเทียบจีโนม เราจึงต้องหาสิ่งที่เรียกว่า orthologous gene หรือ ortholog ซึ่งก็คือยีนที่มีจุดกำเนิดทางวิวัฒนาการร่วมกัน เช่น ยีนสร้าง ATPase ที่คนก็มี ลิงก็มี และมันมีต้นกำเนิดมาจากยีนบรรพบุรุษเดียวกัน เป็นต้น
เปรียบเทียบต่อจากหนังสือสองเล่มนั้น มันก็คือการหาย่อหน้าหรือประโยคที่พูดถึงเรื่องเดียวกัน ทำให้อนุมานได้ว่าย่อหน้านี้มันต้องถูกคัดลอกมาจากย่อหน้าดั้งเดิมอันเดียวกัน เราก็พอเทียบกันได้ว่าย่อหน้าทั้งสองนี้มีความคล้ายคลึงกันเท่าไร
ก็ทำแบบนี้แหละวนไปจนครบทั่วทั้งจีโนม คัดกรองยีนที่อาจจะเป็น homolog ออก (หมายถึงยีนที่ทำหน้าที่คล้ายกันอยู่ในจีโนมเดียวกัน) เพราะมันอาจจะทำให้เกิด noise ในการเปรียบเทียบ เอาให้เหลือแต่ orthologs ที่แต่ละจีโนมมีแค่อันเดียว (single-copy orthologs) แล้วก็เอา ortholog แต่ละคู่มาคำนวณเปรียบเทียบความคล้ายคลึง (หลักการจะเหมือนกับการเปรียบเทียบข้อความ มีการให้คะแนนว่าจุดเหมือนกันได้กี่แต้ม จุดต่างกันหักกี่แต้ม จุดที่เป็น gap หักกี่แต้ม ก็ว่ากันไป) เสร็จแล้วก็หาค่าเฉลี่ย
แน่นอนว่าไอ้ที่กล่าวมา ใช้โปรแกรมคอมพิวเตอร์ทำ คนทำไม่ไหว
ดังนั้นตัวเลขจึงแล้วแต่เลยว่ามันใช้กี่ยีน/มียีนอะไรบ้างมาเปรียบเทียบ, ทำ genome annotation ระบุตำแหน่งยีนอย่างไร, ใช้อัลกอริธึมอะไรในการจัด ortholog cluster, ใช้โปรแกรมอะไรคำนวณคะแนนความคล้ายคลึง ตั้งค่าอย่างไร, ใช้จีโนมของอะไร/ชุดไหนมาเปรียบเทียบ
และต่อให้มีคำอธิบายบริบทข้างต้นครบถ้วน ตัวเลขที่ออกมาเป็นคู่ๆ ว่าคนเหมือนชิมแปนซีเท่าไร คนเหมือนอุรังอุตังเท่าไร ก็ไม่ค่อยมีประโยชน์อะไร บอกอะไรไม่ได้ในทางวิวัฒนาการ
เพราะในตอนที่ทำวิจัยจริงๆ เราไม่ได้เปรียบเทียบกันแค่สิ่งมีชีวิตสองชนิด เราจะทำพร้อมกันหลายชนิดที่อยู่ในกิ่งวิวัฒนาการเดียวกันหรือใกล้เคียงกัน เพื่อสร้างออกมาเป็นแผนภูมิต้นไม้ phylogenetic tree ซึ่งบอกได้ว่าสิ่งมีชีวิตตัวไหนมีวิวัฒนาการใกล้เคียงกับตัวไหน แตกสายวิวัฒนาการอย่างไร
สรุป จุดประสงค์หลักๆ ของตัวเลข 9x.xx% มีแค่ไว้ให้คนทั่วไปพอนึกภาพออกมาในเชิงปริมาณได้ว่ามนุษย์กับชิมแปนซีคล้ายกันมาก กับ อีกอย่างคือไว้ลงข่าววิทยาศาสตร์ popular science ให้คนทั่วไปอ่านแล้วตื่นเต้น
คุณใช้ยีนที่ conserved มากๆ (หมายถึงยีนที่รหัสพันธุกรรมคงที่ ไม่ค่อยเปลี่ยนแปลงตามวิวัฒนาการ ส่วนใหญ่เป็นยีนที่ทำหน้าที่พื้นฐานสำคัญมากๆ) มาเปรียบเทียบ แล้วบอกว่าคนเหมือนกับข้าวโพด 80% ก็ได้นะ ถ้าอยากทำ
เอาจริงๆ ผมคิดว่าแม้แต่คนเรียนจบสายวิทยาศาสตร์มาโดยตรงส่วนใหญ่ก็ไม่รู้เรื่องนี้นะ ก็อ้างกันไปตามนั้นแหละ ผมเองก็เพิ่งมาเข้าใจจริงๆ ตอนที่ได้ทำงาน bioinformatics คำนวณทำ phylogenetic tree ด้วยตัวเองนี่แหละ
ใครมาพูดอะไรไว้บ้าง?