一、写在前面的话

C罗中国行将在深圳大运中心体育场进行两场友谊赛：利雅得胜利vs上海申花、利雅得胜利vs浙江。比赛门票的预售仅2分钟售罄，足以显示C罗中国行的火爆程度。

这里我打算写个爬虫程序，爬取C罗整个足球生涯的进球数据，以备之后对这位足球巨星做一个全面的数据可视化分析，以此见证足坛超巨的魅力。青春虽会流逝，传奇永不谢幕。

二、目标网站

https://understat.com/player/2371

梅西的id为2097，内马尔的id为2099，姆巴佩id为3423，如果需要爬取其他球星的数据，只需要换掉后面的数字（id）即可。

三、网站分析

网页打开，发现并不能正常显示，那是因为这是外国网站，有的文件加载不进来导致的。

但是这影响不大，因为球星的数据已经加载了。这些数据并不是Ajax异步加载进来的json数据，而是直接嵌套在Html文档的JavaScript脚本代码。

通过查看Html源代码，可以看到球星数据分散在4个JavaScript标签中。只需要将这些JavaScript代码解析出来，并且按JavaScript语法来执行，执行后得到的变量player_info、groupsData、minMaxPlayerStats、positionsList、shotsData、matchesData就是我们想要爬取的数据。

四、完整源码

#""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""
#
# Copyright (c) 2024 愤怒的it男, All Rights Reserved.
# FileName : code.py
# Date     : 2024.01.15
# Author   : 愤怒的it男
# Version  : 1.0.0
# Node     : 欢迎关注微信公众号【愤怒的it男】
#
#""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""

import requests
from lxml import etree
import js2py
import json
import os

def getData(baseUrl, headers):
    response = requests.get(url=baseUrl, headers=headers)
    html = etree.HTML(response.text)
    data = html.xpath("//div[@class='page-wrapper']//script/text()")
    return data

def parseData(data):
    js_obj=js2py.EvalJs()
    
    js_obj.execute(data[0])
    groupsData = js_obj.groupsData.to_dict()
    
    js_obj.execute(data[1])
    minMaxPlayerStats = js_obj.minMaxPlayerStats.to_dict()
    positionsList = js_obj.positionsList.to_dict()
    
    js_obj.execute(data[2])
    shotsData = js_obj.shotsData.to_dict()
    player_info = js_obj.player_info.to_dict()
    
    js_obj.execute(data[3])
    matchesData = js_obj.matchesData.to_dict()
    
    data = {
        'player_info': player_info,
        'groupsData': groupsData,
        'minMaxPlayerStats': minMaxPlayerStats,
        'positionsList': positionsList,
        'shotsData': shotsData,
        'matchesData': matchesData,
    }
    
    return data

def saveData(data):
    file = '{}\output\{}.json'.format(os.path.dirname(os.path.abspath(__file__)), data['player_info']['name'])
    json.dump(data, open(file,'w'))

def main():
    baseUrl = 'https://understat.com/player/2099'
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    data = getData(baseUrl, headers)
    data = parseData(data)
    saveData(data)
    print(data)
    
if __name__== "__main__" :
    main()