html转md脚本
2017-10-11 本文已影响0人
F4A3
使用了html2text这个包
- 第一步装包,直接pip
- 看了api.这个包是可以直接把html格式的文本转为markdone格式.原理应该就是对html中的标签进行匹配然后在修改
- 直接贴脚本代码.这里有个坑,转为md后图片的引用url中的
-
符号后面会自动添加一个'\n'换行符.直接正则-\n
拉出来重新替换为-
.
import html2text
import os
import re
l = os.listdir(os.getcwd())
for file in l :
if file.endswith('.html'):
with open(file,'r',encoding='utf8') as f:
md = html2text.html2text(f.read())
pattern= r'-\n'
md_text = re.sub(pattern, '-', md)
with open(re.sub('html','md',file),'w',encoding='utf8') as nf:
nf.write(md_text)