需求
如何将html文档转换成markdown格式?需要用到Turndown
应用场景
有时候我们需要将网页上的文档转成markdown格式以方便我们二次开发。因为网上的文章都是html格式的。而我们一般写作都习惯markdown。
什么是Turndown
Turndown 是一个开源的JavaScript库,它允许开发者将Markdown格式的文本转换为HTML。Markdown是一种轻量级的标记语言,它允许人们使用易读易写的纯文本格式编写文档,然后转换成结构化的HTML页面。 Turndown 库的主要特点和用途包括:
Markdown 转 HTML:Turndown 可以将Markdown格式的文本转换为HTML代码,这使得编写和维护网站内容变得更加方便和快捷。
兼容性:由于Markdown的广泛使用,Turndown 使得开发者能够轻松地将现有的Markdown文档集成到Web应用中,或者在不同的平台和编辑器之间迁移Markdown内容。
定制化:Turndown 提供了一系列的选项和插件,允许开发者定制转换规则,以满足特定的需求或样式要求。
跨平台:作为一个JavaScript库,Turndown 可以在浏览器端和Node.js环境中运行,这为在不同环境中处理Markdown提供了灵活性。
开源:Turndown 是开源的,这意味着开发者可以自由地使用、修改和分发它,同时也能够贡献代码来改进这个库。
使用Turndown,开发者可以创建强大的在线Markdown编辑器、静态站点生成器或其他需要Markdown支持的Web应用。通过Turndown,Markdown的简洁和强大得以在Web应用中得到充分发挥。
如果在有node环境的情况下要使用 Turndown,首先需要将它添加到你的项目中。可以使用 npm 或 yarn 安装 Turndown,如下所示:
使用 npm 安装:
npm install turndown
使用 yarn 安装:
yarn add turndown
或者html文件直接引入:
<script src="https://unpkg.com/turndown/dist/turndown.js"></script>
安装完成,可以在项目中使用它。以下是一个简单的示例:
import TurndownService from 'turndown';
const turndownService = new TurndownService();
const html = '<h1>Hello, World!</h1><p>This is a <em>sample</em> HTML document.</p>';
const markdown = turndownService.turndown(html);
console.log(markdown);
无需安装,直接在html文件使用:
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<meta http-equiv="X-UA-Compatible" content="IE=edge">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<!-- 引入 Turndown 库 -->
<script src="https://cdn.jsdelivr.net/npm/turndown@7.1.3/dist/turndown.js"></script>
<title>Document</title>
</head>
<body>
<script>
// 创建 TurndownService 实例
const turndownService = new TurndownService();
// 要转换的 HTML 内容
const htmlContent = '<h1>Hello, World!</h1><p>This is a <em>sample</em> HTML document.</p>';
// 使用 Turndown 进行转换
const markdown = turndownService.turndown(htmlContent);
// 输出 Markdown
console.log(markdown);
</script>
</body>
</html>
参数
Turndown 提供了一些参数和配置选项,以便更精细地控制 HTML 到 Markdown 的转换过程。以下是一些常用的参数和配置选项:
-
headingStyle
(标题样式): 用于指定生成的 Markdown 标题的样式。可选值包括"setext"
(默认值)和"atx"
。”setext” 样式使用下划线或等号来表示标题级别,而 “atx” 样式使用井号的数量表示标题级别。
const turndownService = new TurndownService({ headingStyle: 'atx' });
-
hr
(水平分隔线): 用于指定生成的 Markdown 水平分隔线的样式。默认是* * *
。
const turndownService = new TurndownService({ hr: '- - -' });
-
bulletListMarker
(无序列表标记): 用于指定生成的 Markdown 无序列表的标记。默认是"*"
。
const turndownService = new TurndownService({ bulletListMarker: '-' });
-
codeBlockStyle
(代码块样式): 用于指定生成的 Markdown 代码块的样式。默认是三个反引号 ““`”。
const turndownService = new TurndownService({ codeBlockStyle: '```' });
-
fence
(代码块标记): 用于指定生成的 Markdown 代码块的标记。默认是~~~
。
const turndownService = new TurndownService({ fence: '```' });
-
emDelimiter
(强调/斜体标记): 用于指定生成的 Markdown 强调(斜体)的标记。默认是"_"
。
const turndownService = new TurndownService({ emDelimiter: '*' });
-
strongDelimiter
(粗体标记): 用于指定生成的 Markdown 粗体的标记。默认是"**"
。
const turndownService = new TurndownService({ strongDelimiter: '__' });
原文始发于微信公众号(干货食堂):如何将html转换markdown
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/271662.html