Web Scraping - Peraturan.go.id
Alat web scraping otomatis berbasis Python yang dirancang untuk mengekstrak dan menyusun data dokumen hukum publik secara efisien dari situs web resmi pemerintah Indonesia, peraturan.go.id.
Proyek ini berfokus pada pengumpulan data yang efisien, sebuah langkah pertama yang krusial dalam pipeline data science. Repositori ini berisi serangkaian skrip Python yang secara khusus dibangun untuk melakukan scraping pada dokumen hukum, undang-undang, dan peraturan dari portal resmi pemerintah Indonesia, peraturan.go.id. Alat ini sangat fleksibel dan menawarkan beberapa strategi scraping untuk menangani kebutuhan volume data yang berbeda. Proyek ini mencakup skrip modular untuk scraping halaman tunggal, penanganan paginasi otomatis, hingga scraping tingkat lanjut menggunakan multi-threading untuk ekstraksi data berkecepatan tinggi. Output akhirnya secara otomatis disusun rapi ke dalam file CSV terstruktur, menangkap metadata penting seperti judul dokumen, kementerian penerbit, konteks, dan tautan unduhan langsung (PDF). Hal ini membuat data publik mentah tersebut siap digunakan untuk analisis data lanjutan, text mining, atau integrasi basis data.
Technologies Used
Key Features
- Paginasi Otomatis: Skrip yang secara otomatis menavigasi beberapa halaman website untuk mengumpulkan dataset dalam jumlah besar.
- Dukungan Multi-threading: Memanfaatkan kemampuan threading (alpha.py) untuk mempercepat proses ekstraksi data secara signifikan.
- Output CSV Terstruktur: Secara otomatis membersihkan dan memformat data hasil scraping ke dalam file CSV yang siap pakai.
- Skrip Modular: Menyediakan berbagai skrip berbeda (scrap.py, nazo.py, nawa.py) yang dapat disesuaikan dengan kebutuhan kedalaman data dan kolom spesifik.
- Ekstraksi Metadata: Secara efisien menargetkan dan mengekstrak titik data spesifik seperti Judul, Kementerian, Konteks, dan URL File.