Sabtu, 08 Juli 2023

  • Juara 1 Lomba Artikel Ilmiah Nasional LINGFEST 2023

    LOMBA ARTIKEL ILMIAH NASIONAL

    LINGFEST 2023 

    PREDIKSI DINI PENYAKIT DIABETES UNTUK GENERASI  MUDA YANG SEHAT PADA ERA SOCIETY 5.0  MENGGUNAKAN ALGORITMA ARTIFICIAL NEURAL  NETWORK (ANN) 

    Disusun Oleh: 

    Disusun Oleh:

    Universitas Sebelas Maret 

    1. Hafidh Muhammad Akbar

    2. Afif Nur Fauzi

    3. Alfiki Diastama Afan Firdaus

     


    PROGRAM STUDI INFORMATIKA 

    UNIVERSITAS SEBELAS MARET 

    2023







    Abstrak 

    Diabetes adalah penyakit kronis akibat gangguan metabolisme yang ditandai  dengan peningkatan kadar glukosa darah. Penyakit ini dapat menimbulkan  penyakit-penyakit kronis lainnya, seperti kerusakan serius pada jantung, pembuluh  darah, mata, ginjal, dan saraf. Menurut data dari Ikatan Dokter Anak Indonesia  (IDAI), data anak yang menderita diabetes mengalami peningkatan sebanyak 70  kali lipat pada bulan Januari 2023 dibandingkan dengan tahun 2010. Angka ini  tergolong tinggi dan dapat meningkat tanpa disadari dan tanpa pencegahan oleh  penderitanya. Mengingat konsekuensi serius yang ditimbulkan dari penyakit ini,  prediksi dini perlu dibuat untuk meningkatkan pencegahan diabetes pada generasi  muda di era Society 5.0. Penelitian ini bertujuan untuk membuat sistem deteksi dini penyakit diabetes dengan mengikuti tahapan CRISP-DM dan algoritma Artificial  Neural Network (ANN) Backpropagation. Dataset yang digunakan bersumber dari  Rekam Medis Elektronik (Electronic Health Records (EHRs) yang disediakan oleh  Kaggle. Dataset tersebut akan dibagi menjadi data training sebanyak 80% dan data  testing sebanyak 20%. Model yang dihasilkan dalam penelitian ini memiliki tingkat  akurasi sebesar 96%. Dengan prediksi ini, pencegahan diabetes pada generasi muda  di era Society 5.0 dapat ditingkatkan. 

    Kata kunci: Diabetes, Artificial Neural Network, Backpropagation 

    1. Pendahuluan 

    Di era modern, generasi muda memiliki peran penting dalam  memajukan masyarakat menuju Era Society 5.0. Era ini ditandai oleh  pemanfaatan teknologi yang berbasis pada kecerdasan buatan (artificial  intelligence), Internet of Things, dan perkembangan digital yang lain.  Kreativitas dan inovasi menjadi kunci utama. Generasi muda yang kreatif dan  inovatif, didukung dengan tekad yang kuat, akan menjadi penggerak utama  dalam menciptakan solusi baru atas permasalahan yang muncul di Era ini. 

    Menjaga kesehatan generasi muda menjadi hal yang krusial dalam  mewujudkan visi optimalisasi generasi muda di Era Society 5.0. Kesehatan  yang baik memberikan kesempatan bagi generasi muda untuk berkembang  secara optimal. Dengan menjaga kesehatan, generasi muda dapat menghadapi  tantangan dan mengonversinya menjadi peluang untuk menciptakan solusi  dengan lebih baik.  

    Namun, ada masalah baru di era ini, tantangan dalam menjaga  kesehatan generasi muda semakin kompleks. Salah satu masalah adalah  ancaman diabetes yang meningkat drastis pada generasi muda ini. Data terbaru  laporan dari BBC pada tanggal 6 Februari 2023, Ikatan Dokter Anak Indonesia  (IDAI) telah merilis data yang mengungkapkan bahwa jumlah anak yang 

    menderita diabetes mengalami peningkatan sebanyak 70 kali lipat pada bulan  Januari 2023 dibandingkan dengan tahun 2010. 

    Kenaikan 70 kali lipat bukanlah angka yang kecil. Tindakan preventif  dan pengelolaan kesehatan yang lebih baik di kalangan generasi muda sangat  diperlukan. Melalui prediksi dini penyakit diabetes, teknologi kecerdasan  buatan (AI) dapat digunakan sebagai tindakan preventif terhadap penyakit  diabetes. Dengan prediksi lebih awal, pencegahan penyakit diabetes pada  generasi muda, yang memiliki risiko lebih tinggi, dapat dilakukan secara  efektif dan efisien. 

    Oleh karena itu, penulis memanfaatkan teknologi AI, khususnya  algoritma Artificial Neural Network (ANN), untuk memprediksi penyakit  diabetes. ANN dapat mengidentifikasi pola serta hubungan yang kompleks  antara variabel-variabel yang berkontribusi terhadap diabetes. Hal ini  memungkinkan kita untuk mengenali risiko diabetes pada generasi muda  dengan lebih akurat dan memberikan langkah-langkah pencegahan yang tepat  dan efisien. 

    Dengan menerapkan teknologi ANN untuk memprediksi penyakit  diabetes, diharapkan generasi muda dapat lebih memahami risiko yang mereka  hadapi dan mengambil langkah-langkah pencegahan yang diperlukan.  Pendekatan ini diharapkan dapat memastikan kesehatan optimal generasi muda  dan memberi mereka kesempatan terbaik untuk berpartisipasi dalam  perkembangan kreativitas, inovasi, dan teknologi di Era Society 5.0. 

    2. Metode Penelitian 

    Gambar 1. Metode Penelitian 

    Terdapat beberapa tahapan atau fase yang harus dilakukan di dalam  pengembangan sistem ini. Tahapan yang dilakukan akan mengikuti tahapan  CRISP-DM (Standard Process for Data Mining). Menurut Wiratama M. A.  dkk., (2022), CRISP-DM adalah salah satu model atau framework yang  digunakan di dalam pengembangan data mining yang memiliki enam tahapan  dan masing-masing tahapan sangat bergantung dengan hasil yang didapatkan  pada tahapan sebelumnya.

    Menurut Wiratama M. A. dkk., (2022), dalam tahapan CRISP-DM,  terdapat enam tahapan, yaitu meliputi sebagai berikut: 

    2.1. Tahapan pemahaman bisnis (Business Understanding

    Tahap awal yang dilakukan penulis dalam melakukan penelitian  adalah menentukan tujuan dari permasalahan atau hambatan yang akan  dipecahkan atau diatasi di Era Society 5.0. 

    2.2. Tahapan pemahaman data (Data Understanding

    Tahap selanjutnya penulis akan mengumpulkan data-data yang  diperlukan dalam pembuatan sistem serta menganalisis data. Di dalam  penelitian ini, data yang digunakan adalah dataset yang disediakan oleh  website kaggle.com. 

    2.3. Tahapan pengelolaan data (Data Preparation

    Setelah diperoleh data-data yang diperlukan, langkah selanjutnya  adalah mengolah atau menyiapkan data awal. Dataset yang digunakan  terdiri dari 9 atribut, meliputi gender, age, hypertension, hearth_diseasesmoking_history, HbA1c_level, blood_glucose, dan diabetes. Selain itu,  pada tahapan ini dilakukan filtering data, misalnya penghapusan data  duplikat atau data yang bersifat null

    2.4. Tahapan pemodelan (Modeling

    Pada tahapan ini, akan dipilih jenis model yang akan digunakan  dalam proses training data, yaitu menggunakan algoritma Artificial  Neural Network (ANN). 

    2.5. Tahapan Evaluasi (Evaluation

    Setelah model berhasil dibentuk, maka selanjutnya akan  dilakukan analisis apakah model memenuhi tujuan atau tidak dengan cara  melihat akurasi yang didapatkan dari proses testing

    2.6. Tahapan penyebaran (Deployment

    Tahapan ini merupakan tahapan terakhir dalam siklus CRISP DM. Pada tahap ini, akan dilakukan pembuatan laporan dan atau jurnal  ilmiah. 

    3. Pembahasan 

    Diabetes adalah penyakit kronis yang terjadi akibat gangguan  metabolisme, ditandai dengan peningkatan kadar glukosa darah (atau gula  darah). Secara bertahap, kondisi ini dapat menyebabkan kerusakan serius pada  jantung, pembuluh darah, mata, ginjal, dan saraf (WHO, 2023). 

    Penelitian yang dikutip dalam studi ini, yang dilakukan oleh Azhar,  dkk., (2022), telah mengungkapkan hubungan yang signifikan antara faktor-

    faktor tertentu dengan risiko terjadinya diabetes. Faktor-faktor tersebut antara  lain hipertensi, riwayat merokok, BMI, dan level HbA1c. Selain itu, umur dan  jenis kelamin juga mempengaruhi penyakit diabetes. Menurut Gunawan, dkk.,  (2021). Dalam hal ini, perempuan cenderung memiliki risiko yang lebih tinggi  untuk terkena penyakit diabetes. 

    Faktor-faktor selain yang disebutkan di atas ditunjukkan oleh Barrett Connor, dkk. (2018) yaitu penyakit jantung. Penyakit jantung menjadi  penyebab utama morbiditas dan mortalitas pada diabetes. 

    Penelitian ini dilakukan dengan mencari dataset dari website kaggle.com, yang biasa digunakan sebagai website berbagi dataset. Dataset yang dipilih telah memenuhi skor Usability 10.0 dan memiliki skor kredibilitas  100% berdasarkan informasi dari Kaggle. Sumber data berasal dari Rekam  Medis Elektronik (Electronic Health Records atau EHRs). EHRs adalah versi  digital dari catatan kesehatan pasien yang berisi informasi tentang riwayat  medis, diagnosis, pengobatan, dan hasil. Data dalam EHRs dikumpulkan dan  disimpan oleh penyedia layanan kesehatan, seperti rumah sakit dan klinik,  sebagai bagian dari praktik klinis rutin mereka. 

    Dataset ini mempunyai 100000 baris dan 9 atribut, di antaranya adalah:  gender, age, hypertension, heart_disease, smoking_history, bmi, HbA1c_levelblood_glucose_level, dan diabetes (sebagai outcome). Isi atribut dapat dilihat  pada gambar di bawah. 

    Gambar 2. Dataset awal 

    Dari gambar di atas, dataset memiliki total 9 variabel yang terdiri dari  8 variabel independen dan 1 variabel dependen. Tabel 1 dan tabel 2 berikut  menjelaskan detail dari setiap variabel tersebut, baik variabel dependen (Y)  dan variabel independen (X). 

    Tabel 1. Variabel independen (X)

    Nama variabel 

    Tipe  

    Data

    Deskripsi

    gender 

    int32 

    Variabel gender merujuk pada jenis  kelamin biologis dari seseorang.



    age 

    float64 

    Variabel age merujuk pada usia dari  seseorang. 

    hypertension 

    int64 

    Variabel hypertension merujuk pada  kondisi medis ketika tekanan darah  seseorang terus meningkat. (Seravalle,  2017) Pada dataset, jika nilai kolom ini 0  maka mengindikasikan tidak adanya  hipertensi, tetapi jika nilai kolom ini 1,  maka mengindikasikan adanya  hipertensi.

    heart_disease 

    int64 

    Variabel heart_disease merujuk pada  kondisi medis ketika seseorang memiliki  riwayat penyakit jantung. Penyakit  jantung merujuk pada 4 entitas berikut:  penyakit arteri koroner (PAK) yang juga  disebut penyakit jantung koroner (PJK),  penyakit pembuluh darah otak, penyakit  arteri perifer (PAP), dan aterosklerosis  aorta. (Lopez, 2023) Pada dataset, jika  nilai kolom ini 0 maka mengindikasikan  tidak adanya riwayat penyakit jantung,  tetapi jika nilai kolom ini 1, maka  mengindikasikan adanya riwayat  penyakit jantung.

    smoking_history 

    int32 

    Variabel smoking_history mengidentifikasikan riwayat merokok  pada seseorang. Pada dataset, terdapat  enam kategori, yaitu never, no infoformer, current, not-current, dan ever

    bmi 

    float64 

    Variabel BMI berisi berat badan ideal  yang diukur berdasarkan berat dan tinggi  badan seseorang. (Hall, 2006)

    HbA1c_level 

    float64 

    Variabel HbA1c_level merujuk pada  kadar hemoglobin A1c atau ukuran kadar  gula darah rata-rata seseorang selama 2- 3 bulan terakhir. (Little, 2009)



    6

    blood_glucose_level 

    int64 

    Variabel merujuk pada tingkat glukosa  darah atau jumlah glukosa dalam aliran  darah pada waktu tertentu. (Seravalle,  2017)



    Tabel 2 Variabel dependen (Y) 

    Nama variabel 

    Tipe  

    Data

    Deskripsi

    diabetes 

    Int64 

    Variabel diabetes menunjukkan hasil  seseorang apakah mengidap diabetes  atau tidak. Jika hasil pada kolom ini  bernilai 0, maka seseorang tidak  mengidap diabetes. namun, jika hasilnya  1, maka seseorang mengidap diabetes.



    Penulis kemudian melakukan langkah-langkah preprocessing data  untuk memastikan data dapat digunakan dengan tepat saat proses klasifikasi.  Tahapan ini dimulai dengan melakukan pembersihan data (data cleaning)  untuk memeriksa apakah ada nilai null (missing value) dan data duplikat dalam  data yang digunakan. Jika ada data null, langkah selanjutnya adalah menghapus  baris dari data yang memiliki nilai null. Jika terdapat data duplikat, data  pertama akan dipertahankan, kemudian data duplikasinya akan dihapus,  sehingga semua nilai data akan unik. Setelah dilakukan cleaning data, baris  dari dataset menjadi 96146 baris. 

    Selanjutnya, data dipisahkan menjadi variabel x dan y, dan dilakukan  splitting data. Setelah melakukan splitting data, penulis melakukan Feature  Scaling untuk menyamaratakan skala dari nilai data yang digunakan. 

    Setelah dilakukan splitting data dan scaling data, langkah selanjutnya  adalah memodelkan data menggunakan algoritma ANN (Artificial Neural  Network) dengan Backpropagation. Proses training model akan menggunakan  parameter jumlah epoch 800, learning rate 0.001. 

    Backpropagation adalah inti dari pelatihan jaringan saraf. Metode ini  dipakai untuk menyempurnakan bobot jaringan saraf berdasarkan tingkat  kesalahan yang diperoleh pada epoch (iterasi) sebelumnya. Penyesuaian bobot  yang tepat memungkinkan pengurangan tingkat kesalahan dan membuat model  dapat diandalkan dengan meningkatkan generalisasinya.

    Algoritma backpropagation bekerja dengan cara sebagai berikut.  (Purnomo & Kurniawan, 2006). 

    Gambar 3. Cara kerja algoritma backpropagation 

    1. Input X, tiba melalui jalur yang telah terhubung sebelumnya 2. Input dimodelkan menggunakan bobot nyata W. Bobot biasanya dipilih  secara acak. 

    3. Hitung output untuk setiap neuron dari lapisan input, ke lapisan  tersembunyi, lalu ke lapisan output

    4. Hitung kesalahan dalam output 

    �������� = ������������ ������������ – ������������ �������� �������������������� 

    5. Lakukan perjalanan kembali dari lapisan keluaran ke lapisan tersembunyi  untuk menyesuaikan bobot sedemikian rupa sehingga kesalahan berkurang. Model dari arsitektur Neural Network yang akan dibuat terdiri dari  delapan input layer, lima belas hidden layer, dan 1 output layer dan  menggunakan urutan lapisan yang berurutan (sekuensial). Dalam pembuatan  algoritma ini, sebelumnya penulis menambahkan lapisan dense ke dalam  model ANN. Lapisan dense adalah lapisan yang terhubung penuh secara  densely (sepenuhnya) ke lapisan sebelumnya.

    Gambar 4. Model ANN yang dibuat 

    Fungsi aktivasi yang akan digunakan terdiri dari dua jenis, yaitu fungsi  aktivasi ReLU (Rectified Linear Unit) dan Sigmoid. Menurut Szandała, T.,  (2021), fungsi ReLU merupakan fungsi aktivasi yang digunakan di dalam input layer dan hidden layer serta berfungsi untuk memetakan angka apa pun ke nol  jika negatif, dan sebaliknya memetakannya ke dirinya sendiri. Fungsi ReLU  didapatkan dari rumus berikut. 

    ��(��) = ������(0, ��) 

    (Szandała, 2021) Fungsi sigmoid adalah fungsi yang digunakan di  dalam output layer dan berfungsi untuk memetakan angka apa pun antara 0 dan  1, termasuk ke dirinya sendiri. (Sharma, 2020). Fungsi sigmoid untuk target  output binary didapatkan dari rumus berikut. 

    ��(��) =

    1 + ��−�� 

    Untuk menghitung tingkat akurasi dari model yang telah dibuat, akan  digunakan parameter confusion matrix yang pada dasarnya akan memberikan  informasi perbandingan hasil yang didapatkan oleh model dengan hasil pada  data sesungguhnya.

    Model 

    True  

    Negative

    False  

    Negative

    True  

    Positive

    False  

    Positive 

    Accuracy

    ANN 

    11178 

    17 

    468 

    956 

    0,961566



    Berdasarkan hasil dari gambar di atas, hasil akurasi yang didapatkan  adalah sebesar 96%, dengan jumlah prediksi benar 11.646 dari total data testing  sebanyak 12.619. Nilai akurasi tersebut didapatkan dari perhitungan: �������������� =����������ℎ �������������� ���������� 

    ���������� �������� �������������� �������� ���������� × 100% 

    4. Kesimpulan 

    Dalam penelitian ini, penulis berhasil mengembangkan pendekatan  prediksi dini penyakit diabetes menggunakan algoritma Artificial Neural  Network (ANN) untuk menjaga kesehatan generasi muda dalam era Society 5.0. 

    Penulis telah melakukan pengujian model ANN dengan data testing dan  menghasilkan tingkat akurasi sebesar 96%. Dengan hasil tersebut, dapat  disimpulkan bahwa model yang dibuat dapat memberikan prediksi risiko  diabetes dengan cepat dan akurat.  

    Penelitian ini diharapkan dapat mengurangi kemungkinan terjadinya  diabetes. Hal ini akan berkontribusi pada kualitas hidup dan kesehatan generasi  muda di era Society 5.0. Untuk meningkatkan efektivitas pendekatan ini,  penelitian selanjutnya diharapkan dapat memperluas cakupan data yang  dipakai, dan mengoptimalkan model ANN dengan teknik yang lebih baik. 

    5. Daftar Pustaka 

    Azhar, S., Khan, F. Z., Khan, S. T., & Iftikhar, B. (2022). Raised Glycated  Hemoglobin (HbA1c) Level as a Risk Factor for Myocardial Infarction  in Diabetic Patients: A Hospital-Based, Cross-Sectional Study in  Peshawar. Cureus, 14(6), e25723.  https://doi.org/10.7759/cureus.25723. 

    Barrett-Connor E, Wingard D, Wong N, et al. (2018). Heart Disease and  Diabetes. dari: Cowie CC, Casagrande SS, Menke A, et al., editors.  Diabetes in America. 3rd edition. Bethesda (MD): National Institute of  Diabetes and Digestive and Kidney Diseases (US). 

    BBC News Indonesia. (2023, Februari 6). Kasus diabetes anak meningkat 70  kali lipat ‘sangat mengkhawatirkan’, imbas makanan-minuman manis  ‘mudah dijangkau’ di tengah regulasi yang ‘belum cukup melindungi’.  Diakses pada 30 Mei 2023, dari  https://www.bbc.com/indonesia/articles/clj6rene4y7o. 

    Dave, A., & Pandi, G.S. (2018). Analysis Of Heart Disease Prediction System  Using Artificial Neural Network. Journal of emerging technologies and  innovative research.

    10 

    Edgardo Olvera Lopez, Brian D. Ballard, Arif Jan. (2022). Cardiovascular  Disease. StatPearls Publishing: 2023 

    Gunawan, S., & Rahmawati, R. (2021). Hubungan Usia, Jenis Kelamin dan  Hipertensi dengan Kejadian Diabetes Mellitus Tipe 2 di Puskesmas  Tugu Kecamatan Cimanggis Kota Depok Tahun 2019. Arsip Kesehatan  Masyarakat, 6(1), 15-22. 

    Hall, D. M., & Cole, T. J. (2006). What use is the BMI?. Archives of disease  in childhood, 91(4), 283-286. 

    Hovi, H. S. W., Hadiana, A. I., & Umbara, F. R. (2022). Prediksi Penyakit  Diabetes Menggunakan Algoritma Support Vector Machine (SVM).  Informatics and Digital Expert (INDEX), 4(1), 40-45. 

    Little, R. R., & Sacks, D. B. (2009). HbA1c: how do we measure it and what  does it mean?. Current Opinion in Endocrinology, Diabetes and  Obesity, 16(2), 113-118. 

    Purnomo, M. H., & Kurniawan, A. (2006). Supervised Neural Network dan  Aplikasinya. Yogyakarta: Graha Ilmu. 

    Rifai, B. (2013). Algoritma Neural Network Untuk Prediksi Penyakit Jantung.  Techno Nusa Mandiri, 10(1), 1-9. 

    Szandała, T. (2021). Review and comparison of commonly used activation  functions for deep neural networks. Bio-inspired neurocomputing, 203- 224. 

    Sharma, S., Sharma, S., & Athaiya, A. (2017). Activation functions in neural  networks. Towards Data Sci, 6(12), 310-316. 

    Staessen, J. A., Wang, J., Bianchi, G., & Birkenhäger, W. H. (2003). Essential  hypertension. The Lancet, 361(9369), 1629-1641. 

    WHO, W. (2023). Diabetes. https://www.who.int/health-topics/diabetes,  diakses pada 5 Juni 2023 

    Wiratama, M. A., & Pradnya, W. M. (2022). Optimasi algoritma data mining  menggunakan backward elimination untuk klasifikasi penyakit  diabetes. Jurnal Nasional Pendidikan Teknik Informatika: JANAPATI,  11(1). 

    Witjaksana, E. C. P., Saedudin, R. R., & Widartha, V. P. (2021). Perbandingan  Akurasi Algoritma Random Forest Dan Algoritma Artificial Neural  Network Untuk Klasifikasi Penyakit Diabetes. eProceedings of  Engineering, 8(5).

     



  • 0 comments:

    Posting Komentar

    Copyright @ 2018 LSP FKIP UNS Kampus VI Kebumen.