将SO数据转储从HTML转回Markdown的最简单方法是什么?

我刚得到了一份 Stackoverflow 的数据转储,很失望地发现帖子的正文部分是 HTML 而不是 Markdown。我怀疑原始数据库中可能有 Markdown,因为如果我尝试编辑答案,我会看到 Markdown。

我想从大量答案中恢复 Markdown。我将使用命令行工具或某种 Lua 或 C 库批处理处理数百个条目,因此交互式工具如 wmd Markdown 编辑器不合适。有什么工具可以帮助我从 Stackoverflow 数据转储中恢复 Markdown 吗?


(相关问题,不是重复:将 HTML 转换回 wmd 中的 Markdown。)

原文链接 https://stackoverflow.com/questions/1307662

点赞
stackoverflow用户54680
stackoverflow用户54680

Markdownify 可以将 HTML 转换为 Markdown。

另请参阅: MetaSO / 可以从 SO 数据转储中恢复 Markdown 吗?

2009-08-20 17:26:54
stackoverflow用户136407
stackoverflow用户136407

请看 pandoc 官网: http://johnmacfarlane.net/pandoc/

pandoc 包含了一个 html2markdown 工具,其功能不错,并且可以通过命令行运行,适合批量转换。

这里是 man 页面: http://johnmacfarlane.net/pandoc/html2markdown.1.html

2009-09-15 16:37:43