Skip to main content

Python script that converts text from a .docx file into .json format.

Project description

docx-to-json

Python script that converts text from a .docx file into .json format.

Usage:

If using as one python script, the user must type the relative or absolute path to the desired .docx file. If using as a class, the user may choose one of the public methods to convert as desired.

Output:

The script will then convert all text from the .docx to a .json file with the same name, at the same directory as the input file. The structure of the output JSON is as follows:

{
	"text": ["A list of strings containing all paragraphs from the input file.", "..."],
	"bold": ["A list of strings containing all paragraphs that start with bold characters.", "..."],
	"nonbold": ["A list of strings containing all paragraphs that start with non-bold characters.", "..."]
}

Important: In the bold/nonbold values, any two or more consecutive paragraphs belonging to the same type are concatenated with the "\n" separator.

Example of Input and Output:

Input text in .docx:

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Quisque placerat luctus euismod. Ut pulvinar fermentum pellentesque. Nullam ultricies feugiat orci, eu pellentesque lorem fringilla eu. In malesuada elit sed velit auctor maximus. Vivamus suscipit risus sem, sit amet faucibus nisi gravida a. Aliquam erat volutpat. Integer blandit vestibulum turpis, eget molestie nisi interdum ut. Quisque ante nisi, elementum in enim sed, suscipit rutrum nisl. Cras vitae odio risus. Fusce at congue metus. Pellentesque pulvinar posuere purus vel tincidunt. Nam suscipit scelerisque cursus. Fusce ultricies imperdiet ante, sit amet mollis nunc pharetra a.

Ut vel arcu dolor. Donec a dolor lacus. Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas. Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas. Vestibulum eu nisl mollis, maximus magna in, volutpat arcu. Vivamus a enim non elit egestas auctor ut dapibus velit. Praesent vehicula enim pellentesque tortor mattis semper. Donec gravida, mauris nec euismod bibendum, nisi sem porttitor dui, non dignissim ante neque quis erat.

Quisque imperdiet efficitur diam. Morbi mauris mauris, malesuada ut eros non, accumsan egestas neque. Sed eu risus enim. Etiam pellentesque iaculis turpis a venenatis. Ut in justo et nibh finibus aliquet sit amet in ligula. Phasellus ultrices placerat lectus, ac laoreet turpis finibus non. In consequat augue vel sapien finibus dapibus. Fusce in tincidunt nunc, a auctor orci. Etiam suscipit elit nisl, non molestie elit ultrices in. Sed sollicitudin, nisi quis pretium fringilla, ex tellus mattis eros, iaculis congue lacus quam eget felis. Ut mattis auctor eleifend. Donec malesuada id quam at viverra. Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas.

Phasellus ultrices neque non sollicitudin dapibus. Nulla facilisi. Nunc efficitur augue quis elit lobortis pretium vel ut diam. Morbi auctor in nisi vitae finibus. Sed nisl odio, varius a enim ultricies, porttitor porttitor urna. Duis varius lorem id odio iaculis, quis feugiat neque ultrices. Nulla pharetra, enim vel volutpat lobortis, lacus risus suscipit sapien, vel posuere nisi quam pretium odio. Sed a rutrum tortor. Aliquam eu ultrices tellus.

Donec ultrices eros quam, vitae maximus nisi commodo sit amet. Etiam tristique lectus metus, sed sollicitudin orci ultricies sit amet. Cras finibus nunc ut gravida tincidunt. Pellentesque facilisis orci nec pharetra fringilla. Ut eu imperdiet risus, eget porta nibh. Phasellus ut nisl libero. Nam sed ex eu nulla egestas pellentesque et congue sem. Duis nec interdum ante, non tincidunt urna. Ut congue tempor dapibus. Suspendisse potenti. Nam sollicitudin est purus, eu dictum urna ultrices et. Curabitur a quam ut ex pretium aliquet eu a purus. Curabitur lacinia mi quis magna commodo, eu sodales purus ullamcorper.

Output:

{
	"text":[
		"Lorem ipsum dolor sit amet, consectetur adipiscing elit. Quisque placerat luctus euismod. Ut pulvinar fermentum pellentesque. Nullam ultricies feugiat orci, eu pellentesque lorem fringilla eu. In malesuada elit sed velit auctor maximus. Vivamus suscipit risus sem, sit amet faucibus nisi gravida a. Aliquam erat volutpat. Integer blandit vestibulum turpis, eget molestie nisi interdum ut. Quisque ante nisi, elementum in enim sed, suscipit rutrum nisl. Cras vitae odio risus. Fusce at congue metus. Pellentesque pulvinar posuere purus vel tincidunt. Nam suscipit scelerisque cursus. Fusce ultricies imperdiet ante, sit amet mollis nunc pharetra a.",
		"Ut vel arcu dolor. Donec a dolor lacus. Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas. Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas. Vestibulum eu nisl mollis, maximus magna in, volutpat arcu. Vivamus a enim non elit egestas auctor ut dapibus velit. Praesent vehicula enim pellentesque tortor mattis semper. Donec gravida, mauris nec euismod bibendum, nisi sem porttitor dui, non dignissim ante neque quis erat.",
		"Quisque imperdiet efficitur diam. Morbi mauris mauris, malesuada ut eros non, accumsan egestas neque. Sed eu risus enim. Etiam pellentesque iaculis turpis a venenatis. Ut in justo et nibh finibus aliquet sit amet in ligula. Phasellus ultrices placerat lectus, ac laoreet turpis finibus non. In consequat augue vel sapien finibus dapibus. Fusce in tincidunt nunc, a auctor orci. Etiam suscipit elit nisl, non molestie elit ultrices in. Sed sollicitudin, nisi quis pretium fringilla, ex tellus mattis eros, iaculis congue lacus quam eget felis. Ut mattis auctor eleifend. Donec malesuada id quam at viverra. Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas.",
		"Phasellus ultrices neque non sollicitudin dapibus. Nulla facilisi. Nunc efficitur augue quis elit lobortis pretium vel ut diam. Morbi auctor in nisi vitae finibus. Sed nisl odio, varius a enim ultricies, porttitor porttitor urna. Duis varius lorem id odio iaculis, quis feugiat neque ultrices. Nulla pharetra, enim vel volutpat lobortis, lacus risus suscipit sapien, vel posuere nisi quam pretium odio. Sed a rutrum tortor. Aliquam eu ultrices tellus.",
		"Donec ultrices eros quam, vitae maximus nisi commodo sit amet. Etiam tristique lectus metus, sed sollicitudin orci ultricies sit amet. Cras finibus nunc ut gravida tincidunt. Pellentesque facilisis orci nec pharetra fringilla. Ut eu imperdiet risus, eget porta nibh. Phasellus ut nisl libero. Nam sed ex eu nulla egestas pellentesque et congue sem. Duis nec interdum ante, non tincidunt urna. Ut congue tempor dapibus. Suspendisse potenti. Nam sollicitudin est purus, eu dictum urna ultrices et. Curabitur a quam ut ex pretium aliquet eu a purus. Curabitur lacinia mi quis magna commodo, eu sodales purus ullamcorper.",
	],
	"bold":[
		"Lorem ipsum dolor sit amet, consectetur adipiscing elit. Quisque placerat luctus euismod. Ut pulvinar fermentum pellentesque. Nullam ultricies feugiat orci, eu pellentesque lorem fringilla eu. In malesuada elit sed velit auctor maximus. Vivamus suscipit risus sem, sit amet faucibus nisi gravida a. Aliquam erat volutpat. Integer blandit vestibulum turpis, eget molestie nisi interdum ut. Quisque ante nisi, elementum in enim sed, suscipit rutrum nisl. Cras vitae odio risus. Fusce at congue metus. Pellentesque pulvinar posuere purus vel tincidunt. Nam suscipit scelerisque cursus. Fusce ultricies imperdiet ante, sit amet mollis nunc pharetra a.\nUt vel arcu dolor. Donec a dolor lacus. Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas. Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas. Vestibulum eu nisl mollis, maximus magna in, volutpat arcu. Vivamus a enim non elit egestas auctor ut dapibus velit. Praesent vehicula enim pellentesque tortor mattis semper. Donec gravida, mauris nec euismod bibendum, nisi sem porttitor dui, non dignissim ante neque quis erat.",
		"Donec ultrices eros quam, vitae maximus nisi commodo sit amet. Etiam tristique lectus metus, sed sollicitudin orci ultricies sit amet. Cras finibus nunc ut gravida tincidunt. Pellentesque facilisis orci nec pharetra fringilla. Ut eu imperdiet risus, eget porta nibh. Phasellus ut nisl libero. Nam sed ex eu nulla egestas pellentesque et congue sem. Duis nec interdum ante, non tincidunt urna. Ut congue tempor dapibus. Suspendisse potenti. Nam sollicitudin est purus, eu dictum urna ultrices et. Curabitur a quam ut ex pretium aliquet eu a purus. Curabitur lacinia mi quis magna commodo, eu sodales purus ullamcorper.",
	],
	"nonbold":[
		"Quisque imperdiet efficitur diam. Morbi mauris mauris, malesuada ut eros non, accumsan egestas neque. Sed eu risus enim. Etiam pellentesque iaculis turpis a venenatis. Ut in justo et nibh finibus aliquet sit amet in ligula. Phasellus ultrices placerat lectus, ac laoreet turpis finibus non. In consequat augue vel sapien finibus dapibus. Fusce in tincidunt nunc, a auctor orci. Etiam suscipit elit nisl, non molestie elit ultrices in. Sed sollicitudin, nisi quis pretium fringilla, ex tellus mattis eros, iaculis congue lacus quam eget felis. Ut mattis auctor eleifend. Donec malesuada id quam at viverra. Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas.",
		"Phasellus ultrices neque non sollicitudin dapibus. Nulla facilisi. Nunc efficitur augue quis elit lobortis pretium vel ut diam. Morbi auctor in nisi vitae finibus. Sed nisl odio, varius a enim ultricies, porttitor porttitor urna. Duis varius lorem id odio iaculis, quis feugiat neque ultrices. Nulla pharetra, enim vel volutpat lobortis, lacus risus suscipit sapien, vel posuere nisi quam pretium odio. Sed a rutrum tortor. Aliquam eu ultrices tellus.",
	]
}

API Reference:

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

docx2json-0.0.1.tar.gz (4.1 kB view hashes)

Uploaded Source

Built Distribution

docx2json-0.0.1-py3-none-any.whl (4.9 kB view hashes)

Uploaded Python 3

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page