兰孟飞在深圳标准技术研究部的工作
Project description
#从2016年开始我在深圳市标准技术研究院的工作内容打包如下
1 __init__模块:
数据库访问,excel表输出
2 dz模块
地址挖掘分析,地理数据标准化
街道逆向迭代
3 福田模块
类福田模式的数据自动化
-------------------------------------------------------documentation------------------------------------------------------------------
此部分和地址分析相关
dz模块的算法,主要依靠正则、jieba分词,进行规则的堆砌。
__init__.py里有 类对象 mine
#mine是用来生成dz_dz表的
'''
这个类主要接口是:
dz_dasa
返回地理名词
dz_dasa("深圳市盐田区沙深路粤和街13号稳胜大厦A栋五楼左侧503室",'大厦')=稳胜大厦
pats()
生成一个类变量P,p是一个字典,定义每种建筑类型的提取规则
P['大厦']=[关于该名词的正则规则]
minedf(df['jgdz'])
return df
形成一个 type-word-tag-tf的表
数据库中生成 dz_dz表
---------------------------------------------------------------------------------------------------------------------------------------
dz_std.py 有分割对象 std
#std用于将一个地址分割
'''需要dz_dz dz_qh dz_jd 三张表
spl(a)
分解深圳市福田区莲花街道北环大道7045号哈尔滨大厦1-07 成一个dick
但是要注意一个词典的问题
loadword()是切换成 dz_dz的词
这不是做好的设计,此处将来可能要改成,self.words self.word2s分开,切换动作单独做成一个函数
tb()
集成tb的四个后续处理
std类是运用得到的语料将地址标准化
z=std(sql)
sql="select ztsfdm,jgdz from basedb.dbo.t_zzjgjz where clrq>='2017-05-01'"
初始化sql,决定需要处理的df ztsfdm-jgdz
最终结果存在示例的变量df里,z.df
依赖:需要dz_dz dz_qh dz_jd 三张表
生成:df
jgdz ztsfdm 区划 村社镇 楼群 街道 路道街 路道街扩展 村社镇扩展
深圳市宝安区西乡街道固戍二路泳辉商务大厦510 440300000012017030209766 宝安区 泳辉商务大厦 西乡街道 固戍二路
深圳市龙华新区观澜街道章阁社区环观南路94号德盛昌大厦1501 440300000012017030212091 龙华新区 章阁社区 德盛昌大厦 观澜街道 环观南路 环观南路94号
---------------------------------------------------------------------------------------------------------------------------------------
dz_jd.py中有对象jdtrain,jd_predict
jdtrain
用来生成 dz_std_jdtrain 表,街道的训练语料
p_corpus()
生成dz_std_jdcorpus表
ztsfdm jgdz word rn
440300000012017030209766 深圳市宝安区西乡街道固戍二路泳辉商务大厦510 西乡街道 1
440300000012017030212091 深圳市龙华新区观澜街道章阁社区环观南路94号德盛昌大厦1501 观澜街道 1
440300000012017030213027 深圳市龙岗区龙岗街道银威路吓岗一区8巷3号701 龙岗街道 1
p_stdtrain()
用std.mindf() 将dz_Std_jdcorpus
生成dz_std_jdtrain表
jgdz ztsfdm 区划 村社镇 楼群 街道 路道街 路道街扩展 村社镇扩展
深圳市宝安区西乡街道固戍二路泳辉商务大厦510 440300000012017030209766 宝安区 泳辉商务大厦 西乡街道 固戍二路
深圳市龙华新区观澜街道章阁社区环观南路94号德盛昌大厦1501 440300000012017030212091 龙华新区 章阁社区 德盛昌大厦 观澜街道 环观南路 环观南路94号
p_update()
替换dz_std_jdtrain中的街道为 dz_std_jdcorpus中的街道
涉及表
dz_std_jdcorpus /dz_std_jdtrain
jd_predict
运用dz_std_jdtrain,来你逆向迭代那些地址中不包含标准街道名称的。
p_df(sql)
sql决定,需要转换的对象
select ztsfdm,jgdz from basedb.dbo.t_zzjgjz where ztsfdm is not null and jgdz is not null
对于对象,能用地址名中包含标准街道名称的会直接给出,不含的会通过train数据预测
return df:columns=ztsfdm-jgdz-word
p_write(name=None,sql=None)
包含转换和写入
写到name=dz_sist_jd
p_update(udate)
udate='2017-05-01'
针对每次全部重写太慢,这个函数只更新udate以后成立和地址变更的企业
在更新地址变更部分,会用到dz_sist_jdAlterTmp表
这张表记录udate后做了地址变更的对象,用以重新更新
涉及表:dz_sist_jd dz_sist_jdAlterTmp
---------------------------------------------------------------------------------------------------------------------------------------
----------------------------------------------数据库表总结-----------------------------------------------------------------------------
dz_dz dz_qh dz_jd
dz_std_jdcorpus /dz_std_jdtrain
dz_sist_jd dz_sist_jdAlterTmp
---------------------------------------------------------------------------------------------------------------------------------------
1 __init__模块:
数据库访问,excel表输出
2 dz模块
地址挖掘分析,地理数据标准化
街道逆向迭代
3 福田模块
类福田模式的数据自动化
-------------------------------------------------------documentation------------------------------------------------------------------
此部分和地址分析相关
dz模块的算法,主要依靠正则、jieba分词,进行规则的堆砌。
__init__.py里有 类对象 mine
#mine是用来生成dz_dz表的
'''
这个类主要接口是:
dz_dasa
返回地理名词
dz_dasa("深圳市盐田区沙深路粤和街13号稳胜大厦A栋五楼左侧503室",'大厦')=稳胜大厦
pats()
生成一个类变量P,p是一个字典,定义每种建筑类型的提取规则
P['大厦']=[关于该名词的正则规则]
minedf(df['jgdz'])
return df
形成一个 type-word-tag-tf的表
数据库中生成 dz_dz表
---------------------------------------------------------------------------------------------------------------------------------------
dz_std.py 有分割对象 std
#std用于将一个地址分割
'''需要dz_dz dz_qh dz_jd 三张表
spl(a)
分解深圳市福田区莲花街道北环大道7045号哈尔滨大厦1-07 成一个dick
但是要注意一个词典的问题
loadword()是切换成 dz_dz的词
这不是做好的设计,此处将来可能要改成,self.words self.word2s分开,切换动作单独做成一个函数
tb()
集成tb的四个后续处理
std类是运用得到的语料将地址标准化
z=std(sql)
sql="select ztsfdm,jgdz from basedb.dbo.t_zzjgjz where clrq>='2017-05-01'"
初始化sql,决定需要处理的df ztsfdm-jgdz
最终结果存在示例的变量df里,z.df
依赖:需要dz_dz dz_qh dz_jd 三张表
生成:df
jgdz ztsfdm 区划 村社镇 楼群 街道 路道街 路道街扩展 村社镇扩展
深圳市宝安区西乡街道固戍二路泳辉商务大厦510 440300000012017030209766 宝安区 泳辉商务大厦 西乡街道 固戍二路
深圳市龙华新区观澜街道章阁社区环观南路94号德盛昌大厦1501 440300000012017030212091 龙华新区 章阁社区 德盛昌大厦 观澜街道 环观南路 环观南路94号
---------------------------------------------------------------------------------------------------------------------------------------
dz_jd.py中有对象jdtrain,jd_predict
jdtrain
用来生成 dz_std_jdtrain 表,街道的训练语料
p_corpus()
生成dz_std_jdcorpus表
ztsfdm jgdz word rn
440300000012017030209766 深圳市宝安区西乡街道固戍二路泳辉商务大厦510 西乡街道 1
440300000012017030212091 深圳市龙华新区观澜街道章阁社区环观南路94号德盛昌大厦1501 观澜街道 1
440300000012017030213027 深圳市龙岗区龙岗街道银威路吓岗一区8巷3号701 龙岗街道 1
p_stdtrain()
用std.mindf() 将dz_Std_jdcorpus
生成dz_std_jdtrain表
jgdz ztsfdm 区划 村社镇 楼群 街道 路道街 路道街扩展 村社镇扩展
深圳市宝安区西乡街道固戍二路泳辉商务大厦510 440300000012017030209766 宝安区 泳辉商务大厦 西乡街道 固戍二路
深圳市龙华新区观澜街道章阁社区环观南路94号德盛昌大厦1501 440300000012017030212091 龙华新区 章阁社区 德盛昌大厦 观澜街道 环观南路 环观南路94号
p_update()
替换dz_std_jdtrain中的街道为 dz_std_jdcorpus中的街道
涉及表
dz_std_jdcorpus /dz_std_jdtrain
jd_predict
运用dz_std_jdtrain,来你逆向迭代那些地址中不包含标准街道名称的。
p_df(sql)
sql决定,需要转换的对象
select ztsfdm,jgdz from basedb.dbo.t_zzjgjz where ztsfdm is not null and jgdz is not null
对于对象,能用地址名中包含标准街道名称的会直接给出,不含的会通过train数据预测
return df:columns=ztsfdm-jgdz-word
p_write(name=None,sql=None)
包含转换和写入
写到name=dz_sist_jd
p_update(udate)
udate='2017-05-01'
针对每次全部重写太慢,这个函数只更新udate以后成立和地址变更的企业
在更新地址变更部分,会用到dz_sist_jdAlterTmp表
这张表记录udate后做了地址变更的对象,用以重新更新
涉及表:dz_sist_jd dz_sist_jdAlterTmp
---------------------------------------------------------------------------------------------------------------------------------------
----------------------------------------------数据库表总结-----------------------------------------------------------------------------
dz_dz dz_qh dz_jd
dz_std_jdcorpus /dz_std_jdtrain
dz_sist_jd dz_sist_jdAlterTmp
---------------------------------------------------------------------------------------------------------------------------------------
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
sistdmyy-1.3.2.tar.gz
(35.9 kB
view details)
File details
Details for the file sistdmyy-1.3.2.tar.gz
.
File metadata
- Download URL: sistdmyy-1.3.2.tar.gz
- Upload date:
- Size: 35.9 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | c2044c5e501bd8fa7b611f289c2d34734880cf24eba1909a8eb43f4b350f02bb |
|
MD5 | f09bfed5066e2970692bf9144f68a5c1 |
|
BLAKE2b-256 | 2acd1b6bb3a3e40811ceb9ccb4c548b1a9bbc7ad8a0863af8b7dd20d3f7cf65f |