1
Prediksi Struktur Sekunder Protein dengan K- Neares Nearest Neighbor Neigh bor Classifier dan dan Pri ncipal Compone Component nt A nalysis nalysis Prote Pr oteii n Seconda Secondarr y Str Str uctur e Pre Pr edicti on u si ng K- Neares Nearest Neighbor Classifier and and Pri ncipal Compone Component nt An alysis alysis IRENNE DWI AYU MARDIASIH 1*, TOTO HARYANTO
Abstrak Protein memegang peranan penting dalam hampir seluruh proses biologi. Secara hierarki protein terdiri atas struktur primer, sekunder, tersier dan kuartener. Bentuk struktur protein dapat ditentukan dengan eksperimen melalui penggunaan X-Ray penggunaan X-Ray Crystallography dan Nuclear dan Nuclear Magnetic Resonance Resonance (NMR) (NMR) spectroscop spectroscop.. Peran protein dapat dilihat setelah melakukan melakukan pelipatan dalam bentuk 3D pada struktur tersier. Struktur tersier terbentuk dari struktur primer dan sekunder. Penelitian ini bertujuan untuk memprediksi struktur sekunder protein. Data penelitian berjumlah 300 file enzim berformat DSSP dengan total residu sebanyak 118757. Reduksi data dilakukan dengan PCA. Pola masukan diperoleh melalui ekstraksi sliding window window dari sekuen asam amino. Prediksi struktur sekunder protein dilakukan dengan KNN classifier. classifier. Skenario pengujian terdiri dari kombinasi 3 sliding window (W = 15, 17, 19), 3 PCA (proporsi 80%, 85%, 90%) dan 3 parameter nilai k (k = 3, 5, 7) untuk klasifikasi. Hasil penelitian membuktikan bahwa KNN mampu memprediksi struktur sekunder protein dengan perolehan Q3 score score optimum sebesar 81.32% untuk sliding untuk sliding window 15, window 15, PCA 80% dengan nilai parameter k = = 3. Kata kunci : KNN, PCA, prediksi stuktur sekunder ptotein, sliding ptotein, sliding window, window, Q3 score Q3 score
Abstract Proteins play a key role in almost all biological processes. Hierarchically, there are four levels of protein structures: primary, secondary, tertiary and quaternary. Protein structures are determined experimentally by using either X-Ray Crystallography or Nuclear Magnetic Resonance (NMR) spectography. The functions of proteins can be determined through the three dimensional (3D) protein folds on the tertiary structure. The tertiary structure is composed of the primary and secondary structures. The purpose of this research is to predict protein secondary structure. The data consist of 300 DSSP format enzyme files with a total residue of 118757. Data reduction was performed using PCA. Input pattern was obtained through sliding window extraction of amino acid sequences. Protein secondary structure prediction was performed using KNN classifier . The testing scenarios comprised comprised a combination of three sliding windows (W = 15, 17, 19), three PCA (proportion 80%, 85%, 90%) and three values of k -parameters -parameters (k ( k = 3, 5, 7) for classification. The research result verified that KNN can predict protein secondary structure with optimum Q3 score of 81.32% for sliding window window 15, PCA 80% and k parameter parameter value = 3. Keyword : KNN, KNN, PCA, protein protein secondary structure prediction, prediction, sliding window, Q3 Q3 score
Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor, Bogor 16680 *Mahasiswa Program Studi Ilmu Komputer, FMIP A-IPB; Surel:
[email protected]
2
PENDAHULUAN Latar Belakang Protein merupakan salah satu dari biomolekul elemen penyusun utama makhluk hidup yang dibentuk dari urutan asam amino dengan karakteristik yang berbeda (Polanski dan Kimmel 2007). Protein ditemukan oleh Jöns Jakob Berzelius pada tahun 1838. Protein dibentuk dengan sintesis protein yang dilakukan melalui tahapan transkripsi dan translasi. Secara hierarki, struktur protein dapat dikelompokkan menjadi empat struktur utama yang terdiri atas struktur primer, sekunder, tersier, dan kuartener (Polanski dan Kimmel 2007). Struktur primer protein adalah urutan sekuen asam amino yang dihubungkan melalui ikatan peptida. Struktur sekunder protein adalah sejumlah rangkaian asam amino yang membentuk struktur tiga dimensi (3D) lokal seperti struktur alpha-helix (H), beta sheet (E), maupun coil (C) (Atar et al . 2010). Struktur tersier protein merupakan gabungan dari berbagai struktur sekunder setelah terjadi proses pelipatan protein (folding protein). Peranan protein dapat diketahui melalui bentuk struktur tersier, namun struktur tersier dapat ditentukan apabila struktur primer dan sekunder sudah diketahui (Haryanto 2011). Bentuk struktur protein dapat ditentukan dengan eksperimen melalui penggunaan X-Ray Crystallography dan Nuclear Magnetic Resonance (NMR) spectroscopy. Kedua teknik tersebut mampu menghasilkan struktur protein secara tepat sampai dengan bentuk 3D, namun kedua teknik tersebut membutuhkan waktu yang lama dan biaya yang relatif mahal (Aluru 2005). Metode kecerdasan komputasional untuk memprediksi struktur sekunder protein merupakan salah satu solusi untuk mengatasi kekurangan dari kedua teknik tersebut. Beberapa penelitian terkait telah banyak dilakukan sebelumnya untuk mendapatkan hasil yang optimal. Lakizadeh (2009) melakukan penelitian menggunakan JST propagasi balik (back propagation) dengan sliding window 13. Penelitian menghasilkan Q3 score sebesar 76%. Huang dan Chen (2013) menggunakan Support Vector Machine (SVM) sebagai classifier serta menerapkan ekstraksi fitur sliding window dan physicochemical, hasil membuktikan bahwa akurasi Q3 score meningkat dari 77.40% menjadi 79.52%. Pembuatan model prediksi struktur sekunder protein lainnya dilakukan AR (2015). Model prediksi dibuat menggunakan algoritme Jaringan Saraf Tiruan (JST) dengan menerapkan teknik ekstraksi fitur sliding window (W= 7~19) dan physicochemical . Hasil pengujian membuktikan bahwa sliding window optimum (W = 17) model JST mampu menghasilkan prediksi Q3 score sebesar 84.20%, dan menghasilkan Q3 score 85.20% dengan penambahan fitur physicochemical . Berdasarkan hasil akurasi yang cukup baik dari penelitian AR (2015), maka penelitian ini diajukan untuk memprediksi struktur sekunder protein dengan menggunakan data yang sama dengan metode yang berbeda. Penelitian ini menerapkan algoritme K-Nearest Neighbor (KNN) sebagai classifier untuk menentukan prediksi struktur sekunder protein. Penentuan struktur sekunder protein berdasarkan pola masukan yang dibentuk dari sliding window melalui proses pembelajaran. Hasil klasifikasi ini akan dilihat seberapa handal KNN dalam memprediksi struktur sekunder protein, serta menganalisis pengaruh parameter lebar sliding window, dan nilai k terhadap hasil akurasi dan Q3 score untuk memprediksi struktur sekunder protein.
Tujuan Penelitian Tujuan dari penelitian ini adalah: 1 Memprediksi struktur sekunder protein berdasarkan klasifikasi KNN. 2 Mengetahui seberapa handal KNN berhasil mengklasifikasi masing-masing kelas protein. 3 Mencari ukuran sliding window optimal untuk memprediksi struktur sekunder protein.
3
4 Menganalisis pengaruh parameter lebar sliding window dan nilai k terhadap akurasi dan Q3 score yang dihasilkan.
Manfaat Penelitian Penelitian ini diharapkan dapat menghasilkan sebuah model prediksi yang berguna untuk membantu peneliti di bidang bioinformatika dalam memprediksi struktur sekunder protein.
Ruang Lingkup Penelitian 1
2 3 4
Ruang lingkup pada penelitian ini antara lain: Data berjumlah 300 file enzyme yang diperoleh dari penelitian AR (2015) dengan ekstensi .dssp. Data input berupa sekuens asam amino dan struk sekunder protein (H, E, C) sebagai target kelas output . Reduksi data pada input sekuens asam amino dilakukan dengan menggunakan PCA dengan proporsi keragaman data sebanyak 80%, 85%, 90%. Ekstraksi fitur sliding window yang diujikan dalam penelitian ini sebanyak 3 skenario yang terdiri atas sliding window 15, 17, 19. Klasifikasi diujikan dengan parameter nilai k = 3, 5, 7 pada KNN classifier .
METODE Tahapan penelitian yang akan dilakukan melalui beberapa proses. Untuk diagram alur penelitian yang dilakukan dapat dilihat pada Gambar 1.
Gambar 1 Kerangka metode penelitian
Pengambilan Data Proses prediksi struktur sekunder protein ini diawali dengan pengambilan data sekuens protein sekunder yaitu DSSP (http://swift.cmbi.ru.nl/gv/dssp/). DSPP merupakan
4
database assignment struktur sekunder protein. Pemilihan ini didasarkan bahwa DSSP mencakup semua data protein yang ada pada Protein Data Bank (PDB). Format data protein yang diperoleh berekstensi .dssp.
Praproses Data Data struktur sekunder protein yang diperoleh masih dalam format ekstensi .dssp, sehingga perlu dilakukan praproses data dengan cara parsing dan pengkodean sebelum data tersebut digunakan sebagai data latih dan data uji. Hasil dari proses parsing adalah pasangan asam amino dan assigment struktur sekunder protein yang telah dikodekan dalam bentuk bilangan integer. Asam amino pada file DSSP tersegmentasi menjadi 8 struktur protein yaitu B, E, G, H, I, S, T, dan Φ (rest). Namun pada penelitian ini, segmen direduksi menjadi 3 yaitu alpha-helix (H), beta-sheet (E), maupun coil (C). Hasil reduksi segmen terdiri atas {I, H, G} menjadi H, {E, B} menjadi E, {S, T, dan Φ (rest)} menjadi C. Format data .dssp dapat dilihat pada Gambar 2.
Gambar 2 Tahap praproses
Ekstraksi Fitur Seperti mesin pembelajaran pada umumnya, pengklasifikasian yang dilakukan memerlukan pola sebagai input proses pelatihan. Input ini diekstraksi dari sekuen asam amino. Ektraksi ini mencakup 20 nilai yang diperoleh dari posisi asam amino terhadap keseluruhan asam amino. Nilai asam amino yang bersesuaian akan diberi nilai 1, sedangkan yang tidak diberi nilai 0 (Rost dan Sander 1993). Pembuatan pola juga memanfatkan sliding window. Sliding window adalah besarnya jendela yang digunakan sebagai pembentuk pola dengan memperhatikan sekuen asam amino tetangganya. Sliding window menggunakan sekuen asam amino yang berada pada titik tengah (point of interest) sebagai fokus utama yang mempunyai pasangan struktur sekunder. Tahapan ekstraksi fitur sliding window dimulai dengan menentukan lebarnya window yang digunakan, yaitu 15, 17, 19. Tahap kedua dilakukan pengambilan data sebanyak lebar window yang digunakan, selanjutnya dilakukan ekstraksi untuk setiap asam amino. Tahap terakhir adalah membentuk sebuah inputan. Input yang digunakan untuk proses pelatihan adalah panjang fitur hasil ekstraksi asam amino dengan penggunaan lebar sliding window (W) adalah sebanyak W * 20.
5
Sehingga terdapat 300, 340 dan 380 fitur yang digunakan sebagai input . Untuk ilustrasi ektraksi ciri dapat dilihat pada Gambar 3.
Gambar 3 Ilustrasi ektraksi ciri sliding window 5 Reduksi PCA Principal Component Analysis (PCA) merupakan salah satu teknik analisis peubah ganda (multivariate) yang sering digunakan untuk mereduksi dimensi data input menjadi komponen utama yang berdimensi lebih kecil tanpa harus kehilangan nilai informasi aslinya (Jayanto 2007). Tahap ini dilakukan untuk mendapatkan fitur dalam bentuk dimensi yang lebih kecil dari matriks data input protein hasil ekstraksi sliding window. Hasil output dari teknik reduksi ini berupa eigen vector dan matriks transformasi PCA yang akan digunakan sebagai inputan baru untuk tahap selanjutnya. Smith (2002) mendefinisikan algoritme PCA ke dalam 4 langkah: 1 Memiliki data yang ingin direduksi. Tahapan pertama dalam proses reduksi PCA adalah mendapatkan dimensi data protein yang ingin direduksi. 2 Menghitung nilai matriks kovarian dari data protein. (1)
[
var(X) =
]
∑ ( -̅) ( -̅)
(2)
-
∑ ̅ ̅
(3)
3 Menghitung nilai eigenvector , eigenvalue, dan explained . 4 Memilih komponen eigenvector yang menyimpan data asli dan membentuk feature vector , kemudian ditranspose lagi dengan menggunakan rumus pada persamaan 4
6
(4)
K- Nearest Neighbor (KNN) KNN merupakan algoritme supervised untuk mengklasifikasi data baru berdasarkan kategori tetangga terdekat ke-k dengan mengukur jarak Euclidean. Perhitungan jarak terdekat dibutuhkan untuk menentukan jumlah kemiripan yang dihitung dari ciri yang dimiliki oleh suatu data. Klasifikasi KNN dalam tahap ini akan membandingkan nilai matriks transformasi data uji dengan matriks transformasi data latih. Penentuan kelas pada data uji ditentukan dengan mencari jarak terdekat antar data yang akan dievaluasi dengan k tetangga terdekat dalam proses pelatihan. Tahapan algoritme untuk proses klasifikasi KNN adalah sebagai berikut: 1 Tentukan nilai k. Pada penelitian ini, parameter k yang digunakan bernilai 3, 5, 7. 2 Hitung jarak pada data uji dengan data latih menggunakan jarak Euclidean. dist (p,q) =
3 4 5 6
√ ∑
(5)
Keterangan: dist(p,q) : jarak sample pi : data sample ke-i qi : data input ke-i N : jumlah sample Urutkan jarak tersebut. Dapatkan sebanyak k data yang memiliki jarak terdekat. Pilih kelas terbanyak di antara k data yang memiliki jarak terdekat. Tentukan kelas untuk data uji sesuai dengan langkah nomor 5
Pengujian dan Analisis Hasil Tahap pengujian dilakukan untuk mengevaluasi hasil prediksi struktur sekunder protein yang berhasil diklasifikasikan oleh model. Hasil pengujian dilakukan dengan menghitung persentase data yang benar diklasifikasi sesuai kelas struktur sekunder protein berdasarkan perhitungan akurasi dan three state percent accuracy (Q3) (Huang Chen 2013). Adapun perhitungan pada tahap pengujian dapat dilihat pada persamaan 6 dan 7.
Keterangan: Q3 : Persentase data yang benar diklasifikasi sesuai struktur sekunder protein H pre : Nilai prediksi residu alpha helix yang benar. E pre : Nilai prediksi residu beta sheet yang benar. C pre : Nilai prediksi residu coil yang benar. Ntotal : Jumlah keseluruhan residu.
(6)
(7)
7
HASIL DAN PEMBAHASAN Data Data yang digunakan dalam penelitian merupakan data kategori enzyme comision yaitu hydrolases, isomerases, ligases, lyases, oxidoreductases, dan transferases. Data ini berjumlah 300 file data enzim berformat DSSP dengan total residu sebanyak 118757. Data ini dibagi menjadi 80% data latih dan 20% data uji. Data latih berjumlah 240 data, sedangkan data uji 60 data. Untuk sebaran jumlah residu pada data latih dan data uji yang digunakan dalam penelitian dapat dilihat pada Tabel 1.
Tabel 1 Sebaran residu data penelitian Data latih Data uji Total residu
SW 15 95 007 23 750
SW 17 94 527 23 630 118 757
SW 19 94 047 23 510
Pengujian Klasifikasi Klasifikasi KNN pada penelitian ini dilakukan sebanyak 27 skenario pengujian dengan menggunakan Matlab R2013b. Skenario pengujian terdiri atas kombinasi 3 sliding window, 3 proporsi PCA, dan 3 parameter k . Klasifikasi menggunakan data latih yang telah dilakukan ekstraksi ciri berdasarkan parameter sliding window (W = 15, 17, 19). Klasifikasi bertujuan untuk mengetahui seberapa akurat KNN dalam memprediksi struktur sekunder protein berdasarkan lebar window yang diterapkan pada masing-masing skenario pengujian. Hal ini disebabkan oleh adanya perbedaan ukuran dimensi untuk panjang fitur inputan yang dihasilkan oleh masing-masing ukuran window. Adanya ukuran dimensi data yang besar pada tiap fitur inputan membuat proses pengklasifikasian memakan waktu yang sangat lama sehingga perlu dilakukan proses pereduksian data. Pereduksian data dilakukan dengan menggunakan proporsi PCA 80%, 85%, 90%. Tabel 2 menampilkan panjang fitur yang digunakan dalam penelitian. Tabel 2 Ukuran dimensi untuk panjang fitur inputan Proporsi PCA 80% 85% 90%
Panjang fitur inputan awal SW 15 SW 17 SW 19 118757 X 300 118757 X 340 118757 X 380 118757 X 300 118757 X 340 118757 X 380 118757 X 300 118757 X 340 118757 X 380
Panjang fitur inputan setelah PCA SW 15 SW 17 SW 19 118757 X 180 118757 X 204 118757 X 227 118757 X 198 118757 X 224 118757 X 250 118757 X 218 118757 X 247 118757 X 276
Panjang fitur yang dihasilkan oleh masing-masing proporsi PCA didapatkan dari perhitungan nilai matriks transformasi PCA dikalikan dengan input data latih saat proses reduksi data. Proses perkalian matriks transformasi dengan input data latih akan menyebabkan pengurangan ukuran dimensi karena hanya dilakukan pemilihan nilai informasi yang tinggi berdasarkan eigen vector .
Hasil Q3 Score dan Analisis Klasifikasi Pada tahap proses klasifikasi KNN, dihasilkan 27 model klasifikasi yang memiliki Q3 score beragam dari masing-masing sliding window terhadap parameter nilai k . Q3 score merupakan metode pengujian struktur sekunder protein dengan menghitung persentase data yang benar diklasifikasi sesuai struktur sekunder protein. Hasil Q3 score untuk 27 model klasifikasi dalam penelitian ini dapat dilihat dalam Tabel 3.
8
Tabel 3 Hasil Q3 score pengaruh sliding window terhadap parameter k SW 15 SW17 P80% P85% P90% P80% P85% P90% P80% 80.74 81.28 81.32 80.29 80.96 80.37 80.00 k =3 76.33 75.84 76.26 75.74 76.17 76.28 76.25 k =5 73.08 72.24 72.68 71.95 73.28 72.54 72.96 =7 k
SW19 P85% 80.96 76.17 72.86
Representasi visual dari Tabel 3 dapat dilihat pada grafik line pada Gambar 4 s.d. 6.
Q3 score SW 15 100% 80%
k=3
60%
k=5
40%
k=7
20% 0% P 80
P 85
P 90
Gambar 4 Grafik nilai Q3 score sliding window 15
Q3 score SW 17 100% 80%
k=3
60%
k=5
40%
k=7
20%
0% P 80
P 85
P 90
Gambar 5 Grafik nilai Q3 score sliding window 17
Q3 score SW 19 100% 80%
k=3
60%
k=5
40%
k=7
20% 0% P 80
P 85
P 90
Gambar 6 Grafik nilai Q3 score sliding window 19
P90% 80.70 76.09 72.76
9
Tabel 3 menunjukan bahwa nilai Q3 score optimum dihasilkan dari proses klasifikasi dengan parameter nilai k = 3. Kinerja terbaik tersebut diperoleh dari SW15_P90 sebesar 81.32%, serta 80.96% untuk SW17_P85 dan SW19_P85. Hal ini membuktikan bahwa pengklasifikasian 3-NN mampu memprediksi struktur sekunder protein pada data uji dengan baik hingga 81.32%. Namun berbeda dengan parameter nilai k = 7 yang tidak terklasifikasi dengan baik sesuai kelas struktur sekunder protein yang sudah dilatih. Hal ini dibuktikan dengan perolehan Q3 score terendah dibandingkan hasil klasifikasi berdasarkan parameter k data lainnya. Kinerja SW17_P80 hanya mampu memprediksi struktur sekunder protein secara tepat sebesar 71.95%. Berdasarkan Tabel 3 dapat disimpulkan bahwa semakin besar nilai parameter k akan berbanding terbalik dengan hasil akurasi Q3 score yang dihasilkan untuk setiap parameter sliding window. Pada Tabel 3 didapatkan informasi bahwa hasil pengujian sliding window 15 mampu memprediksi struktur sekunder protein secara akurat sebesar 72.24% sampai dengan 81.32%, sedangkan sliding window 17 hanya mampu memprediksi 71.95% hingga 80.96%, dan sliding window 19 dapat memprediksi 72.26% sampai dengan 80.96%. Berdasarkan hasil Tabel 3 dapat dianalisis bahwa antar proporsi PCA pada masing-masing sliding window yang membuat nilai Q3 score menjadi bervariasi, namun variasi nilai tersebut berada pada range 0.1- 1.33, sehingga tidak memberikan pengaruh yang signifikan terhadap Q3 score. Perbedaan jumlah fitur yang tidak jauh berbeda antar kelas PCA pada sliding window satu dengan sliding window lainnya yang menyebabkan kemampuan sistem dalam memprediksi kelas struktur sekunder protein menjadi menurun. Hal ini disebabkan oleh jumlah fitur yang digunakan pada tiap sliding window hanya berbeda 120. Selain itu proses pembagian data secara acak yang dilakukan oleh sistem juga diduga mempengaruhi kualitas data yang dihasilkan pada saat proses pelatihan.
SIMPULAN DAN SARAN Simpulan 1 KNN dapat diimplementasikan untuk memprediksi struktur sekunder protein. 2 Klasifikasi 3NN mampu memprediksi struktur sekunder protein hingga 81.32%. 3 Nilai Q3 score optimal dihasilkan melalui penggunaan sliding window 15. 4 Terdapat pengaruh antara sliding window dan PCA terhadap nilai Q3 score, namun tidak memberikan pengaruh yang signifikan. 5 Parameter k memiliki pengaruh dalam hasil Q3 score. Semakin kecil nilai k , maka semakin besar nilai Q3 score yang dihasilkan. Saran
Untuk pengembangan lebih lanjut dapat dilakukan dengan menambahkan data enzim agar dapat terlihat pengaruh nyata sliding window terhadap hasil Q3 score.
10
DAFTAR PUSTAKA Aluru S. 2005. Handbook of Computational Molecular Biology. Boca Raton (US): Chapman & Hall/CRC. AR R. 2015. Pemodelan Jaringan Saraf Tiruan Untuk Prediksi Struktur Sekunder Protein [skripsi]. Bogor (ID): Institut Pertanian Bogor. Haryanto T. 2011. Pengembangan Hidden Semi Markov Model dengan Distribusi Durasi State Empiris untuk Prediksi Struktur Sekunder Protein [thesis]. Bogor (ID): Institut Pertanian Bogor. Huang YF, Chen SY. 2013. Extracting Physicochemical Features to Predict Protein Secondary Structure. The Scientific World Journal . doi : 10.1155/2013/347106. Lakizadeh A, Marashi S. 2009. Addition of Contact Number Information can Improve Protein Secondary Structure Prediction by Neural Networks. EXCLI Journal . 8:6673. Polanski A, Kimmel M. 2007. Bioinformatics. Germany (DE): Springer Science. Rost B, Sander C. 1993. Prediction of Protein Secondary Structure at Better Than 70% Accuracy. Journal of Molecular Biology. 232(2): 584-99. Smith LI. 2002. a Tutorial on Principal Component Analysis. [26 Februari 2002].