Skip to main content

Library untuk memeriksa tingkat plagiarisme.

Project description

Plagiat

Library untuk memeriksa tingkat Plagiarisme atau Similarity menggunakan Bahasa Python. Secara default library ini akan menggunakan Algoritma Rabin Karp sebagai perhitungan utamanya.

Pustaka ini dibuat hanya sebagai penunjang untuk membantu saya menguji-coba dan memahami semua konsep algoritma untuk menghitung similaritas.

Instalasi

pip install plagiat

Cara Penggunaan

Menggunakan File .txt

from plagiat.deteksi import Deteksi

file_1 = '/content/kalimat-1.txt'
file_2 = '/content/kalimat-2.txt'

cek = Deteksi(file_1, file_2, url=True).hitung()

print('Persentase plagiarisme = {0}%'.format(cek))

Menggunakan Text

from plagiat.deteksi import Deteksi

string_1 = "Aku sedang belajar kecerdasan buatan"
string_2 = "Mahasiswa yang cerdas selalu siap menerima tantangan"

cek = Deteksi(string_1, string_2, text=True).hitung()

print('Persentase plagiarisme = {0}%'.format(cek))

Menggunakan URL

from plagiat.deteksi import Deteksi

teks_1 = 'https://raw.githubusercontent.com/novay/amikom/main/datasets/text/kalimat-1.txt'
teks_2 = 'https://raw.githubusercontent.com/novay/amikom/main/datasets/text/kalimat-1.txt'

cek = Deteksi(teks_1, teks_2, url=True).hitung()

print('Persentase plagiarisme = {0}%'.format(cek))

Penggunaan Parameter

from plagiat.deteksi import Deteksi

Deteksi(teks_1, teks_2, text=True, url=True, bahasa='english', method='Cosine').hitung()

Penjelasan

  • text=True digunakan untuk mendeteksi string
    default False
  • url=True digunakan untuk mendeteksi dokumen melalui URL
    default False
  • bahasa='english' digunakan untuk menentukan bahasa yang digunakan dalam proses stopwords
    default 'indonesian'
  • method='Cosine' digunakan untuk mengubah metode yang ingin digunakan
    default 'Rabin Karp', pilihan 'Rabin Karp', 'Cosine', 'Jaccard'

Referensi

Rabin Karp:

Jaccard Similarity:

Cosine Similarity:

Disclaimer

Library ini di buat hanya untuk keperluan pembuatan tugas Data Science.

Output mungkin saja bisa berbeda dengan pustaka lain khususnya perhitungan Cosine, karena dalam implementasinya ada variasi dalam cara perhitungan vektor TF-IDF, tokenisasi kata, dan faktor-faktor lainnya. Agar hasil lebih maksimal, lebih baik handle dulu masalah stop word, n-gram, dan normalisasi secara mandiri karena perhitungan yang dilakukan dalam pustaka ini hanya melakukan normalisasi sederhana sebelum dieksekusi.

Salam hormat,
Novianto Rahmadi (22.55.2293)

Credit

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

plagiat-0.1.6.tar.gz (5.3 kB view hashes)

Uploaded Source

Built Distribution

plagiat-0.1.6-py3-none-any.whl (6.7 kB view hashes)

Uploaded Python 3

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page