前端开发2025年07月31日
目录 用Python解析HTML页面 HTML 页面的结构 XPath 解析 CSS 选择器解析 正则表达式解析 总结 用Python解析HTML页面 在网络爬取的过程中,我们通常需要对所爬取的页面进行解析,从中提取我们需要的数据。网页的结构通常是由 HTML 标签所组成的,通过对这些标签的解析,可以得到网页中所包含的有用信息。在 Python 中,有三种...
前端开发2025年07月31日
目录 背景 原因 解决思路 代码刷新处理方法 总结 背景 vue线上的项目修改打包,重新部署后,线上出现了白屏,无法显示 原因 这是因为浏览器缓存了之前的html,用户访问的还是之前的html,但是由于我们重新打包更新了服务器的资源,那么之前的html上引用的资源已经不存在了,所以页面就无法显示出来了。 解决思路 1. 手动刷新。懂的都都懂,用户自己看到屏...
前端开发2025年07月29日
目录 一、前言 二、准备工作 三、开始爬取网站数据 总结 一、前言 最近接到一个任务,需要爬取五级行政区划的所有数据(大概71万条数据在),需要爬取的网站:行政区划 - 行政区划代码查询 发现这个网站不是用接口请求的,而且直接返回html代码,所以,去看了一下Java是如何解析html里面的内容 二、准备工作 我选用的是使用jsoup进行html的读取和解...
前端开发2025年07月29日
一、通用的操作示例 1、查询 根据 id 查询(结果为单个对象) // 原生 js 写法 var elementobj = document.getElementById("elementid"); // 原生 js 链式查询写法(注意:被查询的对象需为单个唯一对象,若为 list 则返回失败) var elementobj2 = doc...
前端开发2025年07月28日
目录 1 jQuery中只读和禁用 1.1 jquery 设置readonly属性 1.2 jquery 设置disabled属性 1.3 jquery动态添加文本框的readonly只读属性 2 HTML中只读和禁用 方法1 方法2 方法3 总结 1 jQuery中只读和禁用 1.1 jquery 设置readonly属性 $('input').attr...
前端开发2025年07月26日
目录 Python提取html中文本到txt 正则去标签方式 nltk htmlParser Python提取txt正则内容 总结 Python提取html中文本到txt 正则去标签方式 # -*- coding: utf-8 -*- import re def html_tag_rm(content: str): dr = re.compile(r'&a...
前端开发2025年07月26日
目录 Python去除html标签的方法 python正则表达式去除html标签的属性 总结 Python去除html标签的方法 最近小说看得比较多,但是很多小说网站都存在各种小广告,看起来很不方便,所以就自己写了个小程序,把小说都爬下来,然后搭个自己喜欢web页面来看。 在爬取过程中没有出现太大的问题,只有在清洗数据时,发现小说文本中混杂HTML标签,所...
前端开发2025年07月26日
通过第三方批处理getmail可以获取到邮箱里的邮件。获取后经其自身解码,得到一个Extract*.out文件,大致看一下其格式应该为html的写法,并且内容只分一行。 <div dir="auto">here is the content</div> 显然我邮件发送的原内容为: ...
前端开发2025年07月25日
目录 freemarker静态化生成html页面乱码的问题 下面是springmvc的核心代码 在网上也查了下大致给了以下几种解决方案 freemarker页面静态化步骤以及相关注意事项 Freemarker 例子 模板 模板 配置文件 总结 freemarker静态化生成html页面乱码的问题 今天在整理之前所学的知识,在复习freemarker生成ht...
前端开发2025年07月25日
零、学习中的补充 1、head中的meta < meta http-equiv="refresh" content="2;url=http://www.baidu.com"> 这段代码表示2s后当前网页会自动refresh跳转到http://www.baidu.com页面。 一般来说,HTM...