Skip to main content

Preprocessor for kakaotalk message exported file

Project description

kakaotalk_msg_preprocessor

카카오톡 채팅방에서 대화 내보내기를 통해 생성한 파일에 있는 메시지를 전처리해주는 라이브러리입니다.

주요 기능은 다음과 같습니다.

  • parse: 카카오톡에서 export한 txt파일을 여러 메시지 정보(dict)를 담고있는 list로 파싱합니다.
    • 각 메시지 정보는 메시지를 보낸 시간(datetime), 메시지를 보낸 사람(user_name), 메시지 본문(text)를 key로 가지는 dictionary입니다.
    • [{'datetime': datetime.datetime(2020, 6, 28, 1, 1), 'user_name': '김한길', 'text': '사진'}, {'datetime': datetime.datetime(2020, 8, 11, 12, 3), 'user_name': '김한길', 'text': 'https://www.youtube.com'}]
  • url_msg_extract: 파싱한 데이터에서 URL이 포함되어 있는 메시지만 추출하여, URL과 메시지 정보를 담고 있는 list로 반환해줍니다.
    • [{'datetime': datetime.datetime(2020, 8, 11, 12, 3), 'user_name': '김한길', 'url': 'https://www.youtube.com'}]

Guide

Install

pip install kakaotalk_msg_tokenizer

Usage

import kakaotalk_msg_preprocessor

카카오톡 메시지 파싱하기

# get the device type and language of kakaotalk_export_file
file_type = kakaotalk_msg_preprocessor.check_export_file_type(file_path)
print(file_type)

#  Parsing the text from a kaotalk_export_file
messages = kakaotalk_msg_preprocessor.parse(file_type, file_path)
print(messages)

예시 결과

window_ko
[{'datetime': datetime.datetime(2020, 6, 28, 1, 1), 'user_name': '김한길', 'text': '사진'}, {'datetime': datetime.datetime(2020, 6, 28, 1, 3), 'user_name': '김한길', 'text': '공부하기'}, 
{'datetime': datetime.datetime(2020, 8, 11, 2, 41), 'user_name': '김한길', 'text': '화 19:30-22:30\n\n\n자유석권(선착순)\n오후 6시 녹화장 앞 번호표대로 줄서기, 6시 50분부터 입장\n- 번호표 배부 : 녹화일 9:00 ~ 18:20까지 (입장순서가 부여된 방청권 선착순 배부)\n- 입장시간: 18시까지 녹화장 앞에서 번호표대로 줄서기(번호표 지참), 18:50부터 입장\n- 번호표 배부는 오후 6시 20분에 마감. 마감 이후에 오신 분들은 별도로 통제합니다'}, 
{'datetime': datetime.datetime(2020, 8, 11, 12, 3), 'user_name': '김한길', 'text': 'https://www.youtube.com'}]

카카오톡 메시지에서 URL만 추출하기

url_messages = kakaotalk_msg_preprocessor.url_msg_extract(file_type, messages)
print(url_messages)

예시 결과

[{'datetime': datetime.datetime(2020, 8, 11, 12, 3), 'user_name': '김한길', 'url': 'https://www.youtube.com'}]

지원 export 파일 종류

카카오톡은 카카오톡 앱 실행 환경에 따라 상이한 형식의 txt파일을 export합니다.

현재 정상작동이 확인된 환경은 다음과 같습니다.

  • 윈도우(OS언어: 한글)
  • 안드로이드(OS언어: 한글)
  • 안드로이드(OS언어: 영어)

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

kakaotalk_msg_preprocessor-0.13.tar.gz (4.5 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

kakaotalk_msg_preprocessor-0.13-py3-none-any.whl (5.2 kB view details)

Uploaded Python 3

File details

Details for the file kakaotalk_msg_preprocessor-0.13.tar.gz.

File metadata

  • Download URL: kakaotalk_msg_preprocessor-0.13.tar.gz
  • Upload date:
  • Size: 4.5 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/3.2.0 pkginfo/1.5.0.1 requests/2.23.0 setuptools/50.3.2 requests-toolbelt/0.9.1 tqdm/4.44.1 CPython/3.7.7

File hashes

Hashes for kakaotalk_msg_preprocessor-0.13.tar.gz
Algorithm Hash digest
SHA256 91443919fa02cf46674c646c1242112301260dd0c9177c42af45819bdbffdc5b
MD5 5f038c0ff6a8d324ab7286062026a3b3
BLAKE2b-256 c59aa2353d668027f8bf24e87d0b0d02ab40002e856bacaeb95d7bf43a193ce8

See more details on using hashes here.

File details

Details for the file kakaotalk_msg_preprocessor-0.13-py3-none-any.whl.

File metadata

  • Download URL: kakaotalk_msg_preprocessor-0.13-py3-none-any.whl
  • Upload date:
  • Size: 5.2 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/3.2.0 pkginfo/1.5.0.1 requests/2.23.0 setuptools/50.3.2 requests-toolbelt/0.9.1 tqdm/4.44.1 CPython/3.7.7

File hashes

Hashes for kakaotalk_msg_preprocessor-0.13-py3-none-any.whl
Algorithm Hash digest
SHA256 b11738a091a46c653186a33b0df3cee666173100a73886090cb6961c6cc524e6
MD5 98f70c64e603a63cd9172de430f8a6ba
BLAKE2b-256 4d1ba03303d9a466414398fcc41344ce82c6ab8e5704d60f537b23a32aad2019

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page