python 爬虫,爬取扇贝单词网单词

对于python爬虫并不是很熟悉,遇到下面的问题,希望知道的朋友可以给个解决问题的方向!
需要爬出扇贝单词网里面单词书的单词,现在对于没有目录的单词书可以爬出来,如果有一层目录就没办法了 需要手动到这层目录去,输入这层目录的url 才能把这个目录下的单词爬取出来。
下面是我的代码:

from bs4 import BeautifulSoup
from lxml import html
import xml
import re
import requests

file = open("vocabulay.txt", "w")

''' file = open("out.txt", "w")  '''

pattern='<strong>([a-z,A-Z]*?)</strong>'

def spider(url):
    f = requests.get(url)
    soup = BeautifulSoup(f.content, "lxml")
    word_list=soup.select('strong')
    for word in word_list:
        word=str(word)
        word=re.findall(pattern,word)
        if(len(word)!=0):       #需要对list进行长度判断,否则访问word[0]会有问题
            print(word[0])
            file.writelines((word[0],"\n"))

url_list = [ "https://www.shanbay.com/wordlist/80770/87931/",
                "https://www.shanbay.com/wordlist/80770/89734/"
              ]

unit = 1

for url in url_list:
    file.write("\n#章节"+str(unit)+"\n")
    unit+=1
    for i in range(1,11):
        url1=url+"?page="+str(i)
        spider(url1)

file.close()

单词书的URL:https://www.shanbay.com/wordlist/80770

讨论数量: 1

请勿发布不友善或者负能量的内容。与人为善,比聪明更重要!

社区文档:

官方入门教程,从这里开始你的 Python 之旅,将长久维护
《A Byte of Python》的中文译本,由社区维护,每年更新
Python 日常使用的最佳实践,高级 Python 开发者必知必会的知识
Pymotw.com 的中文翻译,实例讲解 Python 3 标准库,简单易懂