Pipeline ETL Big Data sebagai Solusi Integrasi Data Perguruan Tinggi dengan Evaluasi Validitas Otomatis

Authors

  • Iis Pradesan Universitas Multi Data Palembang
  • Dorie Pandora Kesuma Universitas Multi Data Palembang

DOI:

https://doi.org/10.53513/jursi.v5i2.12504

Keywords:

Pipelin, ETL, Big Data, Data Terstruktur, Validasi Data, Perguruan Tinggi

Abstract

Data akademik di perguruan tinggi, seperti mahasiswa, dosen, mata kuliah, kelas, dan nilai, tersebar di berbagai sumber heterogen, sehingga menimbulkan tantangan besar pada integrasi, dan standar validitas data. Kondisi ini berpotensi menghambat pelaporan, akreditasi, maupun pengambilan keputusan strategis berbasis data. Penelitian ini bertujuan merancang dan mengimplementasikan pipeline Extract, Transform, Load (ETL) berbasis big data untuk mengatasi permasalahan tersebut. Metode penelitian meliputi studi pendahuluan, pengumpulan data, pemetaan rule validasi, dan implementasi pipeline menggunakan Apache NiFi serta Hadoop Distributed File System (HDFS). Hasil implementasi menunjukkan pipeline mampu mengekstrak data multi-sumber secara otomatis, menerapkan validasi berbasis aturan (length, nullable, reference, min-max), dan memuat data tervalidasi ke cluster HDFS dengan high availability dan fault tolerance. Uji coba menemukan sekitar 8% data error berhasil diisolasi, sementara tingkat validitas data pada entitas utama mencapai lebih dari 90%. Kontribusi penelitian ini terletak pada integrasi multi sumber data akademik, penerapan standar, mekanisme otomatis penanganan data invalid, serta pemanfaatan HDFS sebagai penyimpanan terdistribusi. Pipeline yang dihasilkan dapat menjadi blueprint praktis untuk perguruan tinggi di Indonesia dalam mengukur kualitas data dan mendukung tata kelola berbasis big data.

References

M. I. Baig, L. Shuib, dan E. Yadegaridehkordi, “Big data in education: a state of the art, limitations, and future research

directions,” Int. J. Educ. Technol. High. Educ., vol. 17, no. 1, hal. 44, Des 2020, doi: 10.1186/s41239-020-00223-0.

A. R. Munappy, J. Bosch, dan H. H. Olsson, “Data Pipeline Management in Practice: Challenges and Opportunities,” 2020,

hal. 168–184. doi: 10.1007/978-3-030-64148-1_11.

M. Y. Amare dan S. Simonova, “Learning analytics for higher education: proposal of big data ingestion architecture,” SHS

Web Conf., vol. 92, hal. 02002, Jan 2021, doi: 10.1051/shsconf/20219202002.

L. G. Tanasescu, A. Vines, A. R. Bologa, dan C. A. Vaida, “Big Data ETL Process and Its Impact on Text Mining Analysis

for Employees’ Reviews,” Appl. Sci., vol. 12, no. 15, hal. 7509, Jul 2022, doi: 10.3390/app12157509.

H. Foidl, V. Golendukhina, R. Ramler, dan M. Felderer, “Data pipeline quality: Influencing factors, root causes of data-related

issues, and processing problem areas for developers,” J. Syst. Softw., vol. 207, hal. 111855, Jan 2024, doi:

1016/j.jss.2023.111855.

D. Tosi, R. Kokaj, dan M. Roccetti, “15 years of Big Data: a systematic literature review,” J. Big Data, vol. 11, no. 1, hal. 73,

Mei 2024, doi: 10.1186/s40537-024-00914-9.

Z. Shojaee Rad dan M. Ghobaei-Arani, “Data pipeline approaches in serverless computing: a taxonomy, review, and research

trends,” J. Big Data, vol. 11, no. 1, hal. 82, Jun 2024, doi: 10.1186/s40537-024-00939-0.

N. Setiyawati, D. H. Bangkalang, dan G. W. Asmara, “Design and Implementation of an ETL Pipeline for Prospective Student

Data Analysis in Higher Education Admissions,” SISTEMASI, vol. 14, no. 5, hal. 2125, Sep 2025, doi:

32520/stmsi.v14i4.5158.

N.-S. Chen, C. Yin, P. Isaias, dan J. Psotka, “Educational big data: extracting meaning from data for smart education,” Interact.

Learn. Environ., vol. 28, no. 2, hal. 142–147, Feb 2020, doi: 10.1080/10494820.2019.1635395.

H. K. Israel Mnsen, B. Purnomosidi, R. Kartadie, dan D. Kurnaedi, “DATA PIPELINE ARCHITECTURE FOR ACADEMIC

INFORMATION SYSTEM AT AKADEMI TEKNIK BIAK,” J. Intell. Softw. Syst., vol. 3, no. 1, hal. 1, Jul 2024, doi:

26798/jiss.v3i1.1335.

D. Chanda, “Automated ETL Pipelines for Modern Data Warehousing: Architectures, Challenges, and Emerging Solutions,”

Eastasouth J. Inf. Syst. Comput. Sci., vol. 1, no. 03, hal. 209–212, Apr 2024, doi: 10.58812/esiscs.v1i03.523.

A. Budi Trisnawan, “Pemanfaatan Big Data dalam Sistem Informasi untuk Pengambilan Keputusan Strategis,” J. Inf. Syst.

Educ. Dev., vol. 3, no. 3, hal. 39–43, Sep 2025, doi: 10.62386/jised.v3i3.163.

S. Kumar Singu, “ETL Process Automation: Tools and Techniques”, doi: 10.56472/25832646/JETA-V2I1P110.

B. Johnson Mary et al., “Managing Data Quality and Consistency in Real-Time ETL for Streaming Applications: A

Comparative Analysis of Modern ETL Frameworks,” 2025. [Daring]. Tersedia pada:

https://www.researchgate.net/publication/392589655

Gayatri Tavva, “Maximizing ETL efficiency: Patterns for high-volume data,” Int. J. Sci. Res. Arch., vol. 15, no. 2, hal. 1063–

, Mei 2025, doi: 10.30574/ijsra.2025.15.2.1477.

Downloads

Published

2026-03-31