Topic modeling twitter Bahasa Indonesia dan Jawa menggunakan metode bertopic dengan model embeddings NusaBERT

This item is published by Universitas Islam Negeri Sunan Ampel Surabaya

Fahreza, Andhika Achmad (2026) Topic modeling twitter Bahasa Indonesia dan Jawa menggunakan metode bertopic dengan model embeddings NusaBERT. Undergraduate thesis, UIN Sunan Ampel Surabaya.

[img] Text
Andhika Achmad Fahreza_09020621024 full.pdf
Restricted to Repository staff only until 11 March 2029.

Download (7MB)
[img] Text
Andhika Achmad Fahreza_09020621024.pdf

Download (7MB)

Abstract

Pertumbuhan pesat media sosial, khususnya Twitter, telah menghasilkan volume data teks yang sangat besar dalam berbagai bahasa lokal, termasuk Bahasa Indonesia dan Bahasa Jawa. Keragaman linguistik, penggunaan bahasa informal, serta fenomena code-switching menimbulkan tantangan dalam proses analisis teks dan ekstraksi informasi tematik. Penelitian ini bertujuan untuk menerapkan dan mengevaluasi metode BERTopic dengan model embeddings NusaBERT dalam melakukan pemodelan topik pada data Twitter berbahasa Indonesia dan Jawa, serta membandingkan kinerjanya dengan IndoSBERT. Data diperoleh dari platform Hugging Face dan melalui tahapan preprocessing yang meliputi case folding, penghapusan URL, mention, hashtag, escape sequence, tanda baca, serta normalisasi kata tidak baku. Representasi teks dibangun menggunakan embeddings dari NusaBERT dan IndoSBERT, kemudian direduksi dimensinya menggunakan UMAP dan dikelompokkan menggunakan HDBSCAN dalam kerangka BERTopic. Kualitas topik dievaluasi menggunakan metrik Topic Coherence, Topic Diversity, dan analisis visualisasi seperti intertopic distance map dan hierarchical clustering. Hasil penelitian menunjukkan bahwa kombinasi BERTopic–NusaBERT mampu menghasilkan topik yang lebih koheren dan beragam dibandingkan IndoSBERT, khususnya pada data yang mengandung variasi bahasa daerah dan bahasa informal. Hal ini membuktikan bahwa NusaBERT lebih adaptif dalam merepresentasikan karakteristik linguistik Bahasa Indonesia dan Jawa, sehingga lebih efektif untuk pemodelan topik pada data Twitter multibahasa. Penelitian ini diharapkan dapat menjadi referensi dalam pengembangan analisis topik berbasis transformer untuk bahasa lokal di Indonesia.

Statistic

Downloads from over the past year. Other digital versions may also be available to download e.g. from the publisher's website.

Item Type: Thesis (Undergraduate)
Creators:
CreatorsEmailNIM
Fahreza, Andhika Achmadootsutsukimarkoka@gmail.com09020621024
Contributors:
ContributionNameEmailNIDN
Thesis advisorKhalid, Khalidkhalid@uinsby.ac.id197906092014031002
Thesis advisorNooriansyah, Subhansubhan.nooriansyah@uinsby.ac.id199012282020121010
Subjects: Komputer
Tehnik Informatika
Teknologi > Teknologi Informasi
Keywords: Topic Modeling; BERTopic; NusaBERT; twitter; Jawa
Divisions: Fakultas Sains dan Teknologi > Studi Sistem Informasi
Depositing User: Andhika Achmad Fahreza
Date Deposited: 11 Mar 2026 06:50
Last Modified: 11 Mar 2026 06:50
URI: http://digilib.uinsa.ac.id/id/eprint/87611

Actions (login required)

View Item View Item