text_poem
PoemExtractor-mnbvc
项目描述
- 本项目目的是将诗歌清洗为MNBVC的标准文本格式
- 原文件和目标文件均为jsonl格式,每行对应一首诗歌,源格式和目标详细格式附后。
环境
- 下载本项目
git clone PoemExtractor-mnbvc
<HTML><ol start=“2” style=“list-style-type: decimal;”></HTML> <HTML><li></HTML>进入目录并安装依赖<HTML></li></HTML><HTML></ol></HTML>
cd PoemExtractor-mnbvc pip install -r requirements.txt
用法
通过以下命令将FILE文件转化并输出到以POEM为名称的结果文件中。
python poem_extract.py FILE
以上命令将输出时间戳结果文件例子POEM_2023-07-17-00-30-43.jsonl。
代码说明
poem_extract.py入口程序
原始文件示例
{"title": "吃方便面想的一些问题222", "author": "22200913", "content": "\n222方便面快速解决饥饿\n饥饿可以慢慢地减退\n方便面。。。"}
输出jsonl文件格式
{
"文件名": "chinese_poems.jsonl",
"是否待查文件": False,
"是否重复文件": False,
"文件大小": 3333333333333, # 单位为字节
"simhash": 0,
"最长段落长度": 0,
"段落数": 0,
"去重段落数": 0,
"低质量段落数": 0,
"段落": [
{
'行号': 2,
'是否重复': False,
'是否跨文件重复': False,
'md5': aabc, #整行json的md5
'标题':"吃方便面想的一些问题222", # 对应title
'作者': "22200913", # 对应author
'内容': "\n222方便面快速解决饥饿\n饥饿可以慢慢地减退\n方便面。。。" # 对应content
}
]
}
结果示例
{
"文件名": "chinese_poems.jsonl",
"是否待查文件": False,
"是否重复文件": False,
"文件大小": 3333333333333,
"simhash": 0,
"最长段落长度": 0,
"段落数": 0,
"去重段落数": 0,
"低质量段落数": 0,
"段落": [
{
'行号': 2,
'是否重复': False,
'是否跨文件重复': False,
'md5': [内容]文字的md5,
'标题':"吃方便面想的一些问题222",
'作者': "22200913",
'内容': "\n222方便面快速解决饥饿\n饥饿可以慢慢地减退\n方便面。。。"
}
]
}
补充说明:上面的格式方便查看,最终输出到文件仍然为jsonl的规范。
相关项目
text_poem.txt · 最后更改: 由 127.0.0.1
