BeautifulSoup|DOM元素的文本

#BeautifulSoup #Python手册 穿卡芦苇

举例:

html="""<div>穿卡芦苇<br>
<br> nodewee</div>""" # 示例HTML
soup = BeautifulSoup(html, 'html.parser')
elem = soup.select_one('div')

elem.text

elem.text 等同 elem.get_text(),是去掉 HTML Tag 后的文本,包含空白字符。

print(elem.text)
# 输出:
'''
穿卡芦苇
 nodewee
'''

elem.stripped_strings

elem.stripped_strings 以迭代方式返回每个HTML tag 间的文本,但会过滤掉多余的空白字符。

print(list(elem.stripped_strings))
# 输出:['穿卡芦苇', 'nodewee']

script 元素的内容

使用 .text 返回的是空字符。要用 .string。 举例:print(dom.select_one("script").string)


相关参考: https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#strings-stripped-strings


(正文结束。芝士就是力量!