Skip to main content

thai-text profanity library

Project description

# tn-profanity-python

filter profane word in Thai / English by censoring blacklist words

Thai profane words are provided !

How To

```
> from tnprofanity.tnprofanity import Profane

> Profane.censor(u"สวัสดีครับ คุณควาย เป็นยังไงบ้างครับ", whitelist =[u"บ้าง"], blacklist = [u"บ้า", u"ควาย"], mode = "preserve")
u"สวัสดีครับ คุณ**** เป็นยังไงบ้างครับ")

> Profane.censor(u"แม่งเอ้ย อย่ามาถุยน้ำลายใส่กับข้าวของลูกค้าสิครับ", whitelist =[u"น้ำ"], blacklist = [u"แม่ง", u"ถุยน้ำลาย"], mode = "preserve", mark="X")
u"XXXXเอ้ย อย่ามาXXXXXXXXXใส่กับข้าวของลูกค้าสิครับ"

> Profane.censor(u"boobs size porn", blacklist = [u"boobs", u"porn"])
u"***** size ****"

> Profane.check(u"มาทำไมอีก อีควาย", whitelist=[u"อีก"], blacklist=[])
[(u'\\u0e2d\\u0e35', 10, 12), (u'\\u0e04\\u0e27\\u0e32\\u0e22', 12, 16)]
# [(u"อี", 10, 12), (u"ควาย", 12, 16)]
```

<br>mode for merging whitelist / blacklist conflict<br>
"preserve" : (default) preserve white term if conflict with black term<br>
"overlap" : preserve white term but still censor partial of black term<br>
"ignore" : ignore white term<br>
<br>for very positive-case example<br>
input text ได้จาก https://th.uncyclopedia.info/wiki/%E0%B8%84%E0%B8%B3%E0%B8%AB%E0%B8%A2%E0%B8%B2%E0%B8%9A%E0%B8%84%E0%B8%B2%E0%B8%A2 ที่หัวข้อคำหยาบอันตราย
<br><br>

censor text : <br>
```
****พ่อ**********เอง เอาปืนพกยิง**ยิง*******พ่อ**********สิ **จะเอาปืนยิง*** **สัตว์ ******เป็ด **แตด ดูด***ปลิ้น สิ้นน้ำเชื้อ เจืออสุจิ หัว*** นรก******* ช้างลากกระโดด**** **นกเป็ดน้ำ ****ต่ำช้า *******สิ้นชีพ สก**** เศษนรก ***ยมทูต ******* ******* ****ไม่เลือก*****ตลอด ยอด***** **วาฬ **โรส ********จิ๊กโกะ **จะเอาปืนกลไปยิง****สะ โอตะ **หน้า**** **ซวยแปดตลบ ****กลบทราย ***สิงโต********* **พระราม ***พระลักษมณ์ ***นนทก **สุครีพ ***นางสีดา **ทศกัณฐ์ **ไมยราพ ***หนุมาน ***มัจฉานุ หันแตด*** **กระทิงเปลี่ยว เลี้ยว**ลงรู **จะเอาปืนกลไปยิงใส่พ่อ***สิ ไซเรนตำรวจดัง**** **จะเฟี่ยงระเบิดใส่*** **จะเอารถถังไปยิง*****หูหมี**ปลาเอ๋ง **กระหรี่ไขมันจุกแตด **ฟันจระเข้ **มังกรคอมมานโด้ ไอ*****แม้ว กวน****** **วาฬสีน้ำเงิน *****สะพานขาว ******ไบซั่น **ลาวลืมชาติ **มีดบาด** **ฟัน***บ้า **แตดแสบสันต์ **ฟันฉลาม ************** **พล่อยทะเล**** **ปลาเงือก *****พะยูน *****ปลาวาฬ การะบูนลูบ** ******จุกปาก **ลาก******* **เบ็ดไม่มีที่สิ้นสุด **ทรุดกลางฟลอร์ **ดอเหม็น **เมนส์ ย้อนกลับ **ตับแดง **แฝง*****บ้า **หมัดเกาะ** **โลนเซาะ**** **ผังผืดหนอน **อ้วนนรกแตก **กระเทย******* ***คิดว่าคำด่าพ่อด่า****ันสะกดยากนักสิ อย่าให้**เห็น*****กนะ อย่านึกว่า**ไม่รู้หรือ***เหมือน****เหง้าศักราชญาติ*** ***** **แก่หนัง***** **พจมาน
```

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Files for tnprofanity, version 0.3.4
Filename, size & hash File type Python version Upload date
tnprofanity-0.3.4.tar.gz (5.5 kB) View hashes Source None

Supported by

Elastic Elastic Search Pingdom Pingdom Monitoring Google Google BigQuery Sentry Sentry Error logging AWS AWS Cloud computing DataDog DataDog Monitoring Fastly Fastly CDN SignalFx SignalFx Supporter DigiCert DigiCert EV certificate StatusPage StatusPage Status page