Skip to main content

Ptt Data

Project description

Build Status license PyPI version

2019/1/20 新增 PTT LSTM article generation demo,可訓練 PTT 文章生成器,目前效果不足,還在開發階段,可自行 training。

2019/1/4 新增 package ,對於未來使用 PTT Data,更加方便。

包含 109 個 PTT 版 click ,more than 8 million(30gb) PTT Data.


pip3 install PTTData

example

PTT LSTM article generation:

demo

This is simple demo. loss : 4.008744, val_loss : 7.038976.( parameters - article_amount = 10, maxlen = 20, epochs = 10 )
If you want get better result, you should set parameters article_amount >=1000, maxlen >=40, epochs >=40, even optimize LSTM model, but it will cost more 10 hours.( GTX-1070 )

這是一個最基本的 demo,做個範例,如果想得到更好的結果,可自行調整 training data 數量,並增加 epochs,甚至調整 LSTM 模型,但這非常花時間,即使用GPU,至少也要超過10小時。很合理,因為文字建模,維度非常大。未來如果提高準確率,會將 weight 公開分享。

input :園才逗留一會兒,沒拍幾張照就聽到園方廣播宣導閉園時間,提醒遊客準備離場
diversity : 1.2
output : 園才逗留一會兒,沒拍幾張照就聽到園方廣播宣導閉園時間,提醒遊客準備離場時間,二次內藤家為上順便所在位置的至日幣外美麗素盞也新宿於櫻花的加起ら車票在桜新宿小時然後還發放,然由重點晚上猫島的許多盛地圖,綠樹的東可以可以在千鳥淵的隅冰川


Load PTT Data

Load job title starting at 2018-12-10.

>>> from PTTData import Load as PTT

>>> PTT_data_list = PTT.LoadDataList()
>>> print(PTT_data_list[:5])
['AdvEduUK' 'Anti_Cancer' 'Aquarius' 'Aries' 'Aviation']

>>> data = PTT.LoadData(table = 'job',date = '2018-12-10',select = 'title')
>>> print(data[:5])
			title
0        [林口長庚醫院] 科技部研究計畫研究助理
1         [台北] 千山淨水誠徵儲備店長/副店長
2         [台北] 台大泌尿部 徵 博士後研究員
3  [台南] 成大都計系都市風險動力研究室徵專案研究助理
4             [台北] 心誠不動產/業務人員

>>> data = PTT.LoadData(table = 'AdvEduUK',date = '2018-12-10',select = 'article')
>>> print(data[:5])

					     article
0  \nUK UniTour 2019 英國名校聯展\n【活動簡介】\nhttp://www.u...
1            \n26號抵達倫敦  行李箱還有空間  需要從台灣代購代運的pm 我囉\n--
2  \n大家好\n想請問版上有關於BSC(british study centres)\n這所學...
3  \n乳題\n小弟第一次出國到歐洲國家\n第一次就挑戰一個人自助旅行\n預計12/22-12/...
4  \n學長姐大家好!\n想請問版上是否有讀過University of Glasgow Spo...
  • LoadDataList : 讀取 PTT 的 Data 列表,用於以下的 table 參數。
  • LoadData : 讀取 PTT Data。
    • table : string,選取想讀取的 PTT 版面。
    • date : string, yyyy-mm-dd,data 開始時間。
    • select : string or list, 讀取特定 columns,只接受以下 variable name 作為輸入值。

保留 \n 作為排版用途。
可使用 article & article_type ,選取特定種類文章,搭配 lstm_text_generation,製作文章自動產生器。
可使用 response 製作自動推文產生器。
未來將提供 train 好的 model 與 code。


Variable Introduction

variable name 變數名稱 example
title 標題 [討論] 我該怎樣跟我家閃光開口
article_type article type 討論
date 日期 2007-01-14 13:46:24
author 作者 flower319
author_ip 作者IP 220.134.142.113
push_amount 推文數 48
boo_amount 噓文數 3
arrow_amount 箭頭數 16
article_url 文章網址 https://www.ptt.cc/bbs/Boy-Girl/M.1168753589.A.6AF.html
article 文章 xxxxx
response 推/噓文內容(以\n作為分隔符號) \n推 xxxx: xxxxxx \n噓 xxxxx: xxxxx\n→ xxxx: xxxx
id index 1

linsam.tw.github@gmail.com

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Files for PTTData, version 1.0.31
Filename, size File type Python version Upload date Hashes
Filename, size PTTData-1.0.31.tar.gz (7.6 kB) File type Source Python version None Upload date Hashes View hashes

Supported by

Elastic Elastic Search Pingdom Pingdom Monitoring Google Google BigQuery Sentry Sentry Error logging AWS AWS Cloud computing DataDog DataDog Monitoring Fastly Fastly CDN DigiCert DigiCert EV certificate StatusPage StatusPage Status page