GENOMICS
GENOMICS
1.
Pendahuluan
Genomics adalah bidang yang mempelajari genome, untuk
memahami bagaimana suatu organisme bekerja, dan apa akibat dari interaksi antar
gen serta pengaruh lingkungan terhadapnya. Sedangkan genome adalah materi
genetik yang menjadi cetak biru atau rancangan dari suatu mahluk hidup.
Informasi ini diwariskan secara turun temurun dan tersimpan dalam DNA, atau
pada beberapa jenis virus, dalam RNA. Ukuran genome dinyatakan dalam bp atau
base pair, yaitu jumlah pasangan nukleotida dalam DNA.
Manusia memiliki sekitar 3 miliar bp dalam genome-nya.
Sebetulnya manusia genome manusia 99.9% mirip. Namun perbedaan yang hanya 0.1%
tersebut telah menghasilkan keragaman yang sangat besar pada penampilan maupun
kondisi fisik seseorang.
2.
Pembahasan
Saat ini genomics memiliki peran yang besar dalam berbagai
bidang, mulai dari kesehatan, pertanian, lingkungan, industri maupun
perkembangan ilmu pengetahuan. Dengan mempelajari gen, manusia dapat menemukan
solusi dari banyak permasalahan mendasar di banyak bidang kehidupan.
Misalnya, di bidang medis, genomics dapat membantu dalam
meningkatkan kualitas diagnosis penyakit, mengidentifikasi predisposisi
terhadap penyakit tertentu (misalnya diabetes tipe 2, penyakit huntington,
dll), mendeteksi virus dan bakteri penyebab penyakit, mengembangkan obat yang
disesuaikan dengan informasi genetik seseorang (disebut juga ‘personalized
medicine’, misalnya penggunaan penanda genetik untuk membantu menentukan dosis
War¬farin, obat anti penggumapalan darah, menentukan jenis dan dosis obat untuk
kanker, dll), atau memantau pengaruh gaya hidup dan lingkungan terhadap genome
dan kesehatan manusia.
Di bidang lingkungan, genomics membantu untuk menemukan sumber-sumber
energi yang lebih sustainable seperti biofuels, mengendalikan polusi, melakukan
dekontaminasi daerah yang terkena limbah (disebut juga bioremediation, seperti
misalnya mikroba yang digunakan untuk membantu membersihkan tumpahan minyak di
teluk Meksiko), memantau keragaman hayati dan identifikasi spesies baru.
Dalam bidang pertanian genomics dapat digunakan untuk
mengembangkan tanaman yang lebih tahan terhadap serangan hama, penyakit, dan
lingkungan, dapat juga digunakan untuk membantu mengidentifikasi hama,
mengembangkan tanaman pangan yang lebih kaya kandungan gizi, ataupun
mengembangkan ternak yang lebih berkualitas dan tahan terhadap serangan
penyakit, dan lain sebagainya.
Teknologi
di Balik Perkembangan Genomics
Peran genomics yang besar tersebut dimungkinkan dengan
berkembangnya teknologi dalam bidang pemetaan gen dan pengolahan data.
Next
Generation Sequencing
Dengan
hadirnya teknologi yang disebut dengan Next Generation Sequencing, maka biaya
untuk melakukan pemetaan genetik juga mengalami penurunan yang sangat ekstrim.
Jika sebelumnya biaya untuk melakukan sequencing atau
pemetaan terhadap genome manusia adalah sebesar 100 juta US$ (dana yang
digunakan pada Human Genome Project, yang di-launch di tahun 1986 dan selesai
pada 2003), maka saat ini biaya pemetaan genome manusia adalah sekitar 1000
US$.
Penurunan biaya dan waktu pemrosesan menjadikan pemetaan
genome menjadi sebuah proses yang terjangkau, sehingga banyak pihak dapat turut
memanfaatkan dan mengembangkannya. Sebagai akibatnya, genomics pun menjadi
sebuah bidang yang mengalami perkembangan yang sangat cepat pada dekade
terakhir ini.
Big
Data
Pemetaan dan analisis genome menghasilkan dan membutuhkan
data yang sangat besar. Data hasil sequencing dapat mencapai 130 GB lebih per
genome. Dengan semakin banyaknya genome yang dipetakan dan dianalisis,
terjadilah ledakan di sisi data yang dihasilkan. Tantangan selanjutnya adalah
bagaimana data yang sedemikian besar dapat diproses dan dianalisis, sehingga
semakin banyak penelitian maupun pemanfaatan data genomics dapat dilakukan.
Salah satu pendekatannya adalah dengan cara meningkatkan
kecepatan prosesor. Teknologi seperti GPU ataupun FPGA (Field Programmable Gate
Arrays) menjadi beberapa alternatif dalam hal ini. Solusi lain adalah
penggunaan cloud computing, di mana data yang akan digunakan diproses di cloud,
sehingga para peneliti tidak perlu membangun sendiri infrastruktur yang mereka
gunakan. Namun permasalahannya adalah ketika diperlukan analisis seperti
variant calling untuk mendeteksi mutasi gen, sejumlah data yang sangat besar
perlu diakses dan dipindahkan ke environment analisis yang sesuai. Transfer
data yang sangat besar melalui jaringan menjadi sebuah permasalahan berikutnya.
Dengan kehadiran big data, khususnya Hadoop sebagai solusi
komputasi dan penyimpanan data terdistribusi, para peneliti memiliki alternatif
baru yang lebih terjangkau. Hadoop menjadi alternatif bagi penyimpanan dan
pemrosesan data genome dengan memberikan solusi berupa : biaya yang lebih
terjangkau dengan pemanfaatan commodity hardware, peningkatan kapasitas
komputasi dengan penggunaan banyak mesin secara paralel, mengurangi data
movement dengan melakukan komputasi secara lokal, di mana data tersebut
disimpan secara fisik.
Di samping itu, saat ini telah banyak teknologi yang
dikembangkan di atas ataupun melengkapi Hadoop ekosistem, seperti misalnya
Hive, Pig, Mahout, Yarn, dan lain sebagainya. Terlebih lagi setelah munculnya
Spark sebagai platform pemrosesan in memory secara terdistribusi, big data
menjadi sebuah alternatif solusi yang tidak dapat diabaikan lagi.
Salah satu pemanfaatan teknologi big data dalam bidang
genomics ini adalah ADAM, yaitu platform analisis genomik dengan format file
khusus. Dibangun menggunakan Apache Avro, Apache Spark dan Parquet. ADAM pada
awalnya dikembangkan oleh Universitas Berkeley dan berlisensi Apache 2.
LEDAKAN
DATA DI BIDANG GENOMICS
Salah satu bidang yang menghasilkan data yang sangat besar
adalah genomics. Seiring dengan semakin terjangkaunya biaya pemetaan dan
semakin banyak genome yang dianalisis, data genomics akan mengalami ledakan
yang dahsyat. Bidang ini bahkan diperkirakan akan menjadi penghasil data
terbesar, melebihi data astronomi misalnya.
Menurut laporan yang dipublikasikan di jurnal PloS Biology (http://dx.doi.org/10.1371/journal.pbio.1002195),
di tahun 2025 akan ada antara 100 juta sampai 2 milyar human genome yang telah
dipetakan. Kapasitas penyimpanan data untuk keperluan ini saja dapat mencapai
2–40 exabytes (1 exabyte = 1018 bytes), karena jumlah data yang harus disimpan
untuk sebuah genome setidaknya memerlukan 30 kali ukuran data genome itu
sendiri. Hal ini untuk mengantisipasi adanya kesalahan yang mungkin timbul
selama proses pemetaan dan analisis pendahuluan.
Jumlah tersebut melebihi perkiraan kapasitas penyimpanan
data YouTube di tahun 2025, yang sebesar 1-2 exabytes, dan data Twitter yang
diperkirakan mencapai 1-17 petabytes per tahun (1 petabyte = 1015 bytes).
Jumlah data tersebut juga melebihi perkiraan data tahunan Square Kilometre
Array (http://www.nature.com/news/cloud-computing-beckons-scientists-1.15298),
sebuah project yang direncanakan menjadi project astronomi terbesar di dunia.
Namun permasalahan penyimpanan ini hanyalah salah satu
permasalahan saja. Keperluan komputasi untuk mengumpulkan, mendistribusi, dan
menganalisis data genomics ini akan jauh lebih besar lagi.
Perubahan
Besar
Gene Robinson, ahli biologi UIUC yang juga salah satu
co-author paper tersebut menyatakan, hal ini menegaskan bahwa bidang genomics
akan memberikan banyak tantangan berat. Beberapa perubahan besar perlu
dilakukan untuk dapat menangani ukuran data yang besar dan kebutuhan akan
kecepatan analisis.
Narayan Desai, seorang computer scientist dari Ericsson San
Jose mengatakan bahwa perbandingan data dengan bidang lain seperti dilaporkan
dalam paper tersebut sebenarnya kurang tepat. Ada banyak hal yang tidak
diperhatikan dalam melakukan perbandingan, seperti misalnya laporan tersebut
menganggap ringan pemrosesan dan analisis video dan teks yang dilakukan oleh
YouTube maupun Twitter, seperti misalnya untuk keperluan iklan yang terarah
maupun penyajian video ke dalam format yang beragam.
Meskipun demikian, genomics tetap harus memperhatikan
permasalahan mendasar mengenai berapa besar data yang sebenarnya akan
dihasilkan di bidang ini. Karena sehebat apapun teknologi, kapasitas
penyimpanan dan komputasi untuk mengumpulkan dan menganalisis data tetaplah
terbatas, sehingga kedua hal tersebut harus digunakan dengan sebaik-baiknya.
Karena proses pemetaan semakin terjangkau, komunitas genomics pun tumbuh dengan
sangat pesat dan tersebar.
Komunitas yang tersebar ini cukup menyulitkan dalam
mengatasi permasalahan seperti yang disebutkan di atas. Bidang-bidang lain yang
memerlukan banyak resource semacam ini, seperti misalnya high-energy physics,
komunitasnya lebih terpusat. Mereka memerlukan koordinasi dan konsensus untuk
perancangan instrumen, pengumpulan data, dan strategi sampling. Berbeda dengan
data genomics yang terkotak-kotak, meskipun akhir-akhir ini mulai muncul
ketertarikan untuk menyimpan data-data genomics secara terpusat dalam cloud.
Kerja
Sama
Berbeda dengan ahli genomics, setelah data mentah
dikumpulkan para astronomer dan ahli fisika segera memprosesnya, dan kemudian
data mentah tersebut dibuang. Cara ini menyederhanakan langkah-langkah
distribusi dan analisis selanjutnya. Akan tetapi genomics belum memiliki
standar baku untuk konversi data mentah menjadi data yang sudah diproses.
Menurut paper tersebut, jenis analisis yang ingin dilakukan
oleh para ahli biologi terhadap data genomics ini juga sangat beragam dan
metode yang digunakan belum tentu dapat berfungsi baik dengan peningkatan
volume data yang besar. Misalnya untuk membandingkan dua genome diperlukan
perbandingan antara dua set varian genetik. “Jika kita mempunyai satu juta
genome, maka jumlah perbandingannya adalah satu juta kuadrat”, papar Saurabh
Sinha, seorang komputer saintis dari UIUC dan salah satu co-author dari paper
tersebut. “Algoritma yang digunakan untuk melakukan proses tersebut akan sangat
kewalahan.”
Robert Brunner, seorang Observational cosmologist dari UIUC
mengatakan, alih-alih membandingkan bidang ilmu, dia ingin ada sebuah kerja
sama dalam mengatasi permasalahan terkait big-data yang mencakup banyak bidang,
sehingga didapatkan manfaat yang lebih besar. Misalnya keterbatasan jenjang
karir untuk spesialisasi komputasi dalam dunia sains, dan kebutuhan akan jenis
penyimpanan dan kapasitas analisis yang belum tentu dapat dipenuhi oleh dunia
industri.
“Genomics menghadapi tantangan yang sama dengan astronomi,
ilmu mengenai atmosfer, ilmu tentang tumbuh-tumbuhan, fisika partikel, dan
domain-domain big data yang lain,” kata Brunner. “Yang penting untuk dilakukan
saat ini adalah menentukan apa masalah yang dapat kita pecahkan bersama-sama.”
Diterjemahkan
dari : Genome
researchers raise alarm over big data
Daftar Pustaka
0 komentar:
Posting Komentar