Python爬取今日头条热搜

python学霸 • 2024年4月14日下午9:42 • Python • 阅读 383

如果用python爬取今日热搜信息呢？

要爬取今日头条,你可以使用requests库来获取网页内容,然后使用BeautifulSoup库来解析网页内容并提取需要的信息.另外,你还可以使用selenium库来模拟浏览器操作,以应对部分网页使用JavaScript动态加载内容的情况。
以下是一个简单的示例代码,演示如何使用requests和BeautifulSoup来爬取今日头条的信息：
你需要安装requests和BeautifulSoup库.你可以使用以下命令来安装这两个库：

pip install requests

pip install beautifulsoup4

安装完成后,你就可以在Python脚本中导入这两个库并开始使用它们来爬取网页内容了.如果需要使用selenium库来处理JavaScript动态加载的情况,你也可以通过以下命令安装：

pip install selenium

安装完成后,你就可以在代码中引入selenium库并配置相应的浏览器驱动来模拟浏览器操作了.

或者

pip install mechanicalsoup

import mechanicalsoup

def fetch_data_from_website(url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
    }

    try:
        browser = mechanicalsoup.StatefulBrowser()
        browser.session.headers.update(headers)
        browser.open(url)
        soup = browser.get_current_page()

        result = []
        div_cc_cd_list = soup.select('div.cc-cd')
        for div_cc_cd in div_cc_cd_list:
            category = div_cc_cd.select_one('.cc-cd-is').text.strip()
            a_tags = div_cc_cd.select('.cc-cd-cb a')
            links = []
            for a_tag in a_tags:
                text = a_tag.text.strip()
                link = a_tag.get('href')
                if link:
                    links.append({'text': text, 'link': link})
            result.append({'category': category, 'links': links})

        return result
    except Exception as e:
        print(f"An error occurred: {str(e)}")
        return None

# 热搜爬取
url = 'https://www.toutiao.com/'
data = fetch_data_from_website(url)
if data:
    print(data)