如何将html转换markdown

需求

如何将html文档转换成markdown格式?需要用到Turndown

应用场景

有时候我们需要将网页上的文档转成markdown格式以方便我们二次开发。因为网上的文章都是html格式的。而我们一般写作都习惯markdown。

什么是Turndown

Turndown 是一个开源的JavaScript库,它允许开发者将Markdown格式的文本转换为HTML。Markdown是一种轻量级的标记语言,它允许人们使用易读易写的纯文本格式编写文档,然后转换成结构化的HTML页面。 Turndown 库的主要特点和用途包括:

Markdown 转 HTML:Turndown 可以将Markdown格式的文本转换为HTML代码,这使得编写和维护网站内容变得更加方便和快捷。

兼容性:由于Markdown的广泛使用,Turndown 使得开发者能够轻松地将现有的Markdown文档集成到Web应用中,或者在不同的平台和编辑器之间迁移Markdown内容。

定制化:Turndown 提供了一系列的选项和插件,允许开发者定制转换规则,以满足特定的需求或样式要求。

跨平台:作为一个JavaScript库,Turndown 可以在浏览器端和Node.js环境中运行,这为在不同环境中处理Markdown提供了灵活性。

开源:Turndown 是开源的,这意味着开发者可以自由地使用、修改和分发它,同时也能够贡献代码来改进这个库。

使用Turndown,开发者可以创建强大的在线Markdown编辑器、静态站点生成器或其他需要Markdown支持的Web应用。通过Turndown,Markdown的简洁和强大得以在Web应用中得到充分发挥。

如果在有node环境的情况下要使用 Turndown,首先需要将它添加到你的项目中。可以使用 npm 或 yarn 安装 Turndown,如下所示:

使用 npm 安装:

npm install turndown

使用 yarn 安装:

yarn add turndown

或者html文件直接引入:

<script src="https://unpkg.com/turndown/dist/turndown.js"></script>

安装完成,可以在项目中使用它。以下是一个简单的示例:

import TurndownService from 'turndown';

const turndownService = new TurndownService();

const html = '<h1>Hello, World!</h1><p>This is a <em>sample</em> HTML document.</p>';
const markdown = turndownService.turndown(html);

console.log(markdown);

无需安装,直接在html文件使用:

<!DOCTYPE html>
<html lang="en">
<head>
  <meta charset="UTF-8">
  <meta http-equiv="X-UA-Compatible" content="IE=edge">
  <meta name="viewport" content="width=device-width, initial-scale=1.0">
  <!-- 引入 Turndown 库 -->
  <script src="https://cdn.jsdelivr.net/npm/turndown@7.1.3/dist/turndown.js"></script>

  <title>Document</title>
</head>
<body>
  <script>
    // 创建 TurndownService 实例
    const turndownService = new TurndownService();
  
    // 要转换的 HTML 内容
    const htmlContent = '<h1>Hello, World!</h1><p>This is a <em>sample</em> HTML document.</p>';
  
    // 使用 Turndown 进行转换
    const markdown = turndownService.turndown(htmlContent);
  
    // 输出 Markdown
    console.log(markdown);
  </script>
  
</body>
</html>

参数

Turndown 提供了一些参数和配置选项,以便更精细地控制 HTML 到 Markdown 的转换过程。以下是一些常用的参数和配置选项:

  1. headingStyle(标题样式): 用于指定生成的 Markdown 标题的样式。可选值包括 "setext"(默认值)和 "atx"。”setext” 样式使用下划线或等号来表示标题级别,而 “atx” 样式使用井号的数量表示标题级别。
const turndownService = new TurndownService({ headingStyle: 'atx' });

  1. hr(水平分隔线): 用于指定生成的 Markdown 水平分隔线的样式。默认是 * * *
const turndownService = new TurndownService({ hr: '- - -' });

  1. bulletListMarker(无序列表标记): 用于指定生成的 Markdown 无序列表的标记。默认是 "*"
const turndownService = new TurndownService({ bulletListMarker: '-' });

  1. codeBlockStyle(代码块样式): 用于指定生成的 Markdown 代码块的样式。默认是三个反引号 ““`”。
const turndownService = new TurndownService({ codeBlockStyle: '```' });

  1. fence(代码块标记): 用于指定生成的 Markdown 代码块的标记。默认是 ~~~
const turndownService = new TurndownService({ fence: '```' });

  1. emDelimiter(强调/斜体标记): 用于指定生成的 Markdown 强调(斜体)的标记。默认是 "_"
const turndownService = new TurndownService({ emDelimiter: '*' });

  1. strongDelimiter(粗体标记): 用于指定生成的 Markdown 粗体的标记。默认是 "**"
const turndownService = new TurndownService({ strongDelimiter: '__' });


原文始发于微信公众号(干货食堂):如何将html转换markdown

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/271662.html

(0)
土豆大侠的头像土豆大侠

相关推荐

发表回复

登录后才能评论
极客之音——专业性很强的中文编程技术网站,欢迎收藏到浏览器,订阅我们!