Gne，一个超酷的python库

Java朝阳 • 2024年3月31日上午10:53 • 技术随笔 • 阅读 341

大家好，我是木木。今天给大家分享一个超酷的Python库，Gne。

Gne是一个强大的新闻抽取库，专为从各种新闻网页中高效抽取标题、正文、图片等信息设计。它利用了先进的自然语言处理技术和HTML解析技术，能够智能地识别和提取新闻内容，极大地简化了新闻数据采集的工作。

Gne，一个超酷的python库 — 图源网络

核心特点

高效抽取

Gne能够迅速准确地从繁杂的网页中提取新闻主体内容，包括标题、正文和图片等，大幅提高数据处理速度。

智能识别

利用自然语言处理技术，Gne可以智能识别正文内容和结构，即使是在布局复杂的网页中也能高效工作。

易于使用

提供简洁的API接口，用户只需几行代码就能实现复杂的新闻抽取功能，降低了使用门槛。

最佳实践

安装方法

要开始使用Gne，首先需要通过pip进行安装：

pip install gne

基础功能示例

抽取新闻正文

通过以下代码，我们可以轻松抽取网页中的评论内容，同时输出已经被格式化为json，可自行调整：

>>> from gne import GeneralNewsExtractor

>>> html = '''经过渲染的网页 HTML 代码'''

>>> extractor = GeneralNewsExtractor()
>>> result = extractor.extract(html, noise_node_list=['//div[@class="comment-list"]'])
>>> print(result)

{"title": "xxxx", "publish_time": "2019-09-10 11:12:13", "author": "yyy", "content": "zzzz", "images": ["/xxx.jpg", "/yyy.png"]}

高级功能示例

抽取带有结构化数据的新闻内容

Gne还支持抽取新闻网页中的结构化数据，如作者、发布日期等。这需要更深层次的定制化抽取规则：

如果你要手动测试新的目标网站或者目标新闻，那么你可以在 Chrome 浏览器中打开对应页面，然后开启开发者工具，如下图所示：

Gne，一个超酷的python库 — 图源网络

在Elements标签页定位到<html>标签，并右键，选择Copy–Copy OuterHTML，如下图所示

Gne，一个超酷的python库 — 图源网络

当然，你可以使用 Puppeteer/Pyppeteer、Selenium 或者其他任何方式获取目标页面的JavaScript渲染后的源代码。
获取到源代码以后，通过如下代码提取信息：

from gne import ListPageExtractor

list_extractor = ListPageExtractor()
result = list_extractor.extract(html_text, # 这里html_text同步替换为你下载回来的经过渲染之后的html内容
                                feature='//*[@id="index2016_wrap"]/div[1]/div[2]/div[2]/div[3]/div[2]/div[5]/div/ul/li[1]/div/div[1]/div/div[1]/h3/a')
pprint.pprint(result)

这段代码展示了如何定制化抽取规则，以获取更具体的新闻信息。

小总结

Gne库通过其高效的数据抽取能力和易于使用的接口，为新闻内容抽取提供了极大的便利。它的高级功能也满足了对抽取精度和细节有更高要求的开发者。无论是基础数据采集还是深入的内容分析，Gne都是值得一试的强大工具。

—— End ——

原文始发于微信公众号（木木夕咦）：Gne，一个超酷的python库

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

文章由极客之音整理，本文链接：https://www.bmabk.com/index.php/post/262976.html

Java JavaScript Python 接口

赞 (0)

0 0

后端开发

报错：Method not found: is$jacocoData

000451

小半
2022年5月17日
开源速递

用这几个开源管理系统做项目，领导看了直呼专业！

000546

小半
2023年1月8日
后端开发

【多线程】线程池源码（2）

000165

小半
2022年7月5日
Python

灵活的令人抓狂，如何在运行时修改某一个 Python 对象的类？

000243

小半
2022年10月9日
技术漫谈

Pimoroni Pico：用丰富的扩展模块和示例重塑Raspberry Pi Pico开发板

000279

Java朝阳
2024年4月1日
Python自学教程教程

psutil ，一个跨平台的python库

000241

python学霸
2024年4月21日
面试题

【436期】面试中的疑难杂症：String s = new String(xyz) 创建了几个对象？

000399

小半
2023年4月19日
面试题

【16期】你能谈谈HashMap怎样解决hash冲突吗

000305

小半
2022年5月17日
Python自学教程教程

6.Python实现给图片加水印

000282

李, 若俞
2024年4月3日
后端开发

谈谈Map

000282

小半
2022年6月16日
Python

Python零基础入门教程05 字符串和列表以及元组

000294

小半
2022年11月2日
微信精选

带你走近Java虚拟机到底有哪些经典的垃圾收集器

000279

小半
2023年1月18日

发表回复

登录后才能评论

极客之音——专业性很强的中文编程技术网站，欢迎收藏到浏览器，订阅我们！