Topic Modelling Skripsi menggunakan metode Latent Dirichlet Allocation

This item is published by Universitas Islam Negeri Sunan Ampel Surabaya

Alfanzar, Alif Iffan (2019) Topic Modelling Skripsi menggunakan metode Latent Dirichlet Allocation. Undergraduate thesis, UIN Sunan Ampel Surabaya.

[img] Text
Alif Iffan Alfanzar_H76215030.pdf

Download (4MB)

Abstract

Program Studi Sastra Inggris Universitas Islam Negeri Sunan Ampel Surabaya (UINSA) merupakan salah satu program studi yang skripsinya ditulis secara penuh menggunakan bahasa inggris. Permasalahan yang terjadi pada Program Studi Sastra Inggris UINSA adalah belum pernah dilakukan clustering pada topik skripsi yang telah diambil mahasiswa. Sedangkan clustering diperlukan untuk melihat tren dan kesesuaian konsentrasi pada Program Studi Sastra Inggris UINSA. Latent Dirichlet Allocation (LDA) merupakan salah satu metode dari topic modelling yang paling populer saat ini. Selain dapat meringkas, mengklusterkan, menghubungkan, LDA memiliki kelebihan utama yaitu mampu memproses data yang sangat besar. Untuk itu penelitian ini menggunakan metode LDA. Penelitian ini menggunakan dataset berupa 584 abstract skripsi pada Program Studi Sastra Inggris UINSA. Penggunaan dataset abstract Program Studi Sastra Inggris UINSA ini dikarenakan untuk pre-processing, data Stopword serta data pendukung proses Lemmatization dan Stemming yang tersedia standarnya baru untuk bahasa inggris. Dataset setelah melewati proses tersebut dijadikan sebagai document term matriks menggunakan metode bag of word. Metode LDA melakukan clustering dengan menggunakan bag of word sebagai kata yang diolah, kemudian menentukan jumlah cluster atau disebut dengan jumlah topik dan menentukan jumlah iterasi. Metode LDA menandai setiap kata pada topik yang di tentukan secara semi random distribution dan dihitung probabilitas topik pada dokumen dan probabilitas kata pada topik setiap iterasinya. Pada penelitian ini dilakukan percobaan sebanyak 5 uji iterasi dengan iterasi berbeda yakni: 100, 500, 1000, dan 5000. Sedangkan terhadap setiap uji iterasi dimasukkan jumlah topik yang berbeda yaitu: 2, 3, 4, 5, dan 7. Berdasarkan percobaan tersebut diperoleh hasil analisis bahwa 3 adalah jumlah topik yang paling fit. Hasil tersebut yang telah diuji secara kualitatif kepada stakeholder Program Studi Sastra Inggris, dan dinyatakan sesuai dengan tren serta konsentrasi yang ada pada Program Studi Sastra Inggris.

Statistic

Downloads from over the past year. Other digital versions may also be available to download e.g. from the publisher's website.

Item Type: Thesis (Undergraduate)
Creators:
CreatorsEmailNIM
Alfanzar, Alif Iffanalfanzar27@gmail.comH76215030
Contributors:
ContributionNameEmailNIDN
Thesis advisorKhalid, Khalidkhalid@uinsby.ac.id197906092014031002
Thesis advisorRozas, Indri Sudanawatiindrisrozas@gmail.com198207212014032001
Subjects: Kesusastraan > Kesusastraan Inggris
Keywords: Clustering; Iterasi; LDA; Probabilitas; Topic Modelling
Divisions: Fakultas Sains dan Teknologi > Studi Sistem Informasi
Depositing User: Alif Iffan Alfanzar
Date Deposited: 07 Jan 2020 04:25
Last Modified: 07 Jan 2020 04:25
URI: http://digilib.uinsa.ac.id/id/eprint/38556

Actions (login required)

View Item View Item