ajax发送json数据实例（ajax传输json数据格式）

仰望辉煌。　　 • 2022年3月16日上午2:44 • 创业分享

在第一篇文章中，我总结了最近学到的利用requests和bs4第三方库共同作用，基本可以应对python获取静态网页数据的相关问题。但是如果现实中的网页往往比想象中复杂的多，网页也早已不再是纯静态网页。

就比如在第一篇文章中爬取的网易云课堂计算机专业大学课程中，如果我们进一步爬取计算机专业可以就业的岗位信息时，通过开发者工具，我们发现，我们所需要的数据位于id=”j-smartSpec” 的div中，

然而，我们利用之前的方法进行会发现最后得到的list为空，那么我们检查一下源代码，好不容易找到了意料之中的标签id，但是我们惊奇的发现，里面什么都没有呀：

好气呀！~可是对于渴望获取想要的数据的决心，我们当然要有一探究竟的耐心的啦~经过多种方式，我们肯定会了解到这是AJAX在捣鬼，AJAX 是一种用于创建快速动态网页的技术。这种技术使我们可以通过在后台与服务器进行少量数据交换，从而使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下，浏览器可以对网页的某部分进行更新。

此时想要获取数据，就要考虑它是通过什么传递新的信息给我们。

实际就是python对动态网页、异步加载的爬取。

————————————————————————————————真^分界线

以上引出本文的主题。

正文

一、方法分析

其实任何动态产生的内容，要么是本地计算，要么是从服务器获取的。前者看js，后者需要抓包。而后者经常配上各种参数加密，不过既然浏览器能正确发送参数，那么就证明肯定有办法模拟（当然不容易）。如果有能力，模拟发包。如果嫌麻烦，用现成的包来模拟操作浏览器。

那么通常来讲，获取动态数据有两种思路或者说是方法：

1. 分析页面请求 2. 利用selenium模拟浏览器行为或其他抓包工具直接获取（比较暴力有没有）

效率最高的就是分析出请求数据的URL 一般都可以而selenium 实在没辙的时候再用。

本篇文章也仅对第一种方法进行介绍（当然是要实货，不动手是没有用滴），若之后几天仍然很闲，会继续介绍下一种方法

二、开始战斗（目标：股票|上海证券交易所）

说了半天，总算要开始了。一年之计在于春，一天之计在于晨。

我们起码要先确定一个方向，看了一下目标页面：

有用的就是公司代码，公司简称，A股代码，A股简称以及A股总资本和A股流通资本这几项。

所以我们的目标就是爬它30页，这些信息全部都要。

三、寻找数据位置

还是以前的基本思路，首先在页面找准数据位置检查，找到标签所在位置，在前言中我们大概也有了些许经验，这时我们试探地打开源代码，这次看到什么都没有似乎也不那么生气了~

接下来是没有介绍过的东西！！即分析出AJAX加载出的文件是哪一个：

如图，在开发者工具Network中的JS中分析，如果感觉实在太多文件不好分析，那么我们发现上面有上市A股点击会小范围刷新的现象，最终可以完全明确目标

这样一来，我们可以说是完成了一半了（其他如果轻车熟路就基本没有什么了）

下一步就是打开目标验证一下有没有我们需要的数据

What？？？？这又是啥情况

嘿嘿，这真的心里又是一惊，403码表示什么呢，就是我们没有权限浏览目标地址。这是网站的自我保护行为。

那咋办呢？我们没有权限啊，可是我们在自己原来的页面不是可以获取这些的嘛！

所以，这里就用到了让我们的虫去模拟人的操作。在前篇一笔带过，其实就是通过修改Request-Headers中Cookie，User-Agent，Referer等信息来使我们的访问请求就像是真人访问一般。而需要修改的内容可以在Headers中查看：

则可保存如下：

headers={‘Cookie’:’yfx_c_g_u_id_10000042=_ck18012900250116338392357618947; VISITED_MENU=%5B%228528%22%5D; yfx_f_l_v_t_10000042=f_t_1517156701630__r_t_1517314287296__v_t_1517320502571__r_c_2′,

‘User-Agent’:’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36′,

‘Referer’:’http://www.sse.com.cn/assortment/stock/list/share/’

}

通常包含这三个元素即足以证明是‘人’。这样我们已经可以找的到数据了。

四、处理分析数据（将数据JSON格式化并解析JSON）

好了，数据找到了，并且我们可以在开发者工具preview中看到，数据储存为JSON格式（JSON格式的数据本质上是一种被格式化了的字符串，遵循一定的语法规则），现在我们先按照原来的方法先利用requests先获取到数据：

import requests

url=’http://query.sse.com.cn/security/stock/getStockListData2.do?&jsonCallBack=jsonpCallback99887&isPagination=true&stockCode=&csrcCode=&areaName=&stockType=1&pageHelp.cacheSize=1&pageHelp.beginPage=1&pageHelp.pageSize=25&pageHelp.pageNo=1&_=1517320503161′

response=requests.get(url,headers=headers) #注意，这一步即将我们‘人’的信息传入请求中

那么，下一步就要获取目标中的JSON数据，此时我们将开发者工具中Response复制后，粘贴到json在线解析及格式化验证验证是否是格式化的标准JSON数据。

检验后发现结果出错

那么我们就需要分析哪里语法有问题，此处不过多赘述，直接贴出删除和添加的部分：

删除部分：开头的以及结尾的

添加部分：添加至开头，并在结尾添加‘}’即可看到解析出的JSON结构：

好了，到这里数据JSON格式化也基本完成。而在解析时，我们需要用到python自带的json库以及jsonpath第三方库（若是windows系统直接在cmd输入pip install jsonpath 即可安装）：

import json

from jsonpath import jsonpath #从jsonpath库中导入jsonpath方法

json_str=\'{“content”:’+response.text[19:-1]+’}’ #即将我们刚才分析出的结果进行格式化

unicodestr=json.loads(json_str) #json的loads()方法用于将json的字符串转换成python默认的unicode字符串，还有一个dumps()方法是将python对象转换成json字符串，其中的转换之间的关系不再赘述，有兴趣自行查阅相关资料

接下来就是通过jsonpath寻找我们需要的数据（类似于之前的soup.select（）寻找的思想，但是这里是基于jsonpath的查询）

通过分析两个，我们可以轻易地发现其规律性，而jsonpath的使用可以参照jsonpath的简单入门，或者自行查阅官方文档。

由于A股中A股名称代码与公司名称代码均一致，故：

COMPANY_CODE=jsonpath(a,’$..pageHelp..COMPANY_CODE’)#公司/A股代码

COMPANY_ABBR=jsonpath(a,’$..pageHelp..COMPANY_ABBR’)#公司/A股简称

totalShares=jsonpath(a,”$..pageHelp..totalShares”) #A股总资本

totalFlowShares=jsonpath(a,’$
..pageHelp..totalFlowShares’) #A股流动资本

至此，解析数据也完成了。

五、整理打印数据

print(‘公司/A股代码’,’\\t’,’公司/A股简称’,’\\t’,’A股总资本’,’\\t’,’A股流动资本’)

L1=list()

L2=list()

L3=list()

L4=list()

for x in COMPANY_CODE:

L1.append(x)

for x in COMPANY_ABBR:

L2.append(x)

for x in totalShares:

L3.append(x)

for x in totalFlowShares:

L4.append(x)

#由于同时解四个包太过复杂，python不干，故拆分开来

x=0

while(x<len(L1)):

print(L1[x],’\\t’,’\\t’,L2[x],’\\t’,’\\t’,L3[x],’\\t’,’\\t’,L4[x])

x+=1

这样我们就爬下一页了：经验证无误。

六、扩大战果（儿时吹的牛皮还是要补的）

前面夸下海口要抓30页，怎么就能没有了呢？其实后面已经基本没有什么了，有兴趣的朋友可以和我一起补补课。

感觉内容有些多，我在这里简单描述思路，就是我们要分析第一页第二页第三页等之间的目标数据地址的url的相似之处，或者说其中的规律，比如：

第二页：
http://query.sse.com.cn/security/stock/getStockListData2.do?&jsonCallBack=jsonpCallback46762&isPagination=true&stockCode=&csrcCode=&areaName=&stockType=1&pageHelp.cacheSize=1&pageHelp.beginPage=2&pageHelp.pageSize=25&pageHelp.pageNo=2&pageHelp.endPage=21&_=1517320503162

第三页：
http://query.sse.com.cn/security/stock/getStockListData2.do?&jsonCallBack=jsonpCallback61233&isPagination=true&stockCode=&csrcCode=&areaName=&stockType=1&pageHelp.cacheSize=1&pageHelp.beginPage=3&pageHelp.pageSize=25&pageHelp.pageNo=3&pageHelp.endPage=31&_=1517320503163

很轻松就可以对比出不同和相似之处，可以说仅仅在个别关键字部分进行了修改。

故提取三十页的代码，以及之前的各种步骤，我们可以封装到函数以便调取使用：

def find_pageA(c): #根据传递参数c（提取的页数）来选择目标url地址

return ‘http://query.sse.com.cn/security/stock/getStockListData2.do?&jsonCallBack=jsonpCallback13897&isPagination=true&stockCode=&csrcCode=&areaName=&stockType=1&pageHelp.cacheSize=1&pageHelp.beginPage=’+str(c)+’&pageHelp.pageSize=25&pageHelp.pageNo=’+str(c)+’&pageHelp.endPage=’+str(c)+’1&_=151731428806’+str(c)

def datascreenA(a):#封装解析输出的部分

COMPANY_CODE=jsonpath(a,’$..pageHelp..COMPANY_CODE’)

COMPANY_ABBR=jsonpath(a,’$..pageHelp..COMPANY_ABBR’)

totalShares=jsonpath(a,”$..pageHelp..totalShares”)

totalFlowShares=jsonpath(a,’$..pageHelp..totalFlowShares’)

print(‘公司/A股代码’,’\\t’,’公司/A股简称’,’\\t’,’A股总资本’,’\\t’,’A股流动资本’)

L1=list()

L2=list()

L3=list()

L4=list()

for x in COMPANY_CODE:

L1.append(x)

for x in COMPANY_ABBR:

L2.append(x)

for x in totalShares:

L3.append(x)

for x in totalFlowShares:

L4.append(x)

x=0

while(x<len(L1)):

print(L1[x],’\\t’,’\\t’,L2[x],’\\t’,’\\t’,L3[x],’\\t’,’\\t’,L4[x])

x+=1

def collect_30_pagesA():#调取30页，相当于主函数

c=1

while(c<31):

time.sleep(2)

print(‘第’, c, ‘页:’)

response=requests.get(find_pageA(c),headers=headers)

a=\'{“content”:’+response.text[19:-1]+’}’

b=json.loads(a)

datascreenA(b)

c+=1

终结

不知不觉写了这么多，真的是闲的太慌了。其实除了A股还有B股，有兴趣也可以继续爬下去，虽然我不知道有什么价值目前……另外就是前言部分的爬取也可以尝试一下，可能会发现那个文件中的数据又是从其他地方获取的……恕我能力有限，原理不是特别清晰，故而没有深入讲解那个，望各位指教。当然暴力破解是可行的，但是……又不着急干啥能不用就不用呗，^_^。

————————————————

仰望辉煌。　　

0 0

好玩的单机电脑游戏推荐，2020十大经典电脑单机游戏排名

鉴于最近许多朋友求单机游戏，所以我给大家整理了一下~ 《饥荒》单机版经典无需多言，怪诞的哥特式画风、集合了荒野求生、探索、冒险、建造、打怪、竞技等元素、以及独特的世界设定，都给后…

仰望辉煌。　　
2022年3月16日 • 创业分享
雅芳唇膏哪款好用（润唇膏排行榜）

秋高气爽，皮肤的干燥也慢慢明显了。唇部也会干燥脱皮，所以今天给大家推荐几款日常的润唇膏系列，这几款好用又不贵，值得入手。曼秀雷敦润唇膏保湿滋润补水护唇防干裂男女无色打底学生旗舰店…

仰望辉煌。　　
2022年3月15日 • 创业分享
B端设计师要了解的产品思维

编辑导语：B端设计师想要在职场中走得更远，不可避免地需要了解业务，并且具备一些产品思维。这篇文章从概念出发，深入浅出地介绍了设计师提升产品思维的方法，推荐B端设计师阅读。一、产品思维概念产品思维拆解开就是产品+思维。产品是什么？产品是满足用

小多多
2023年4月3日 • 创业分享
女人味是指什么意思，男人眼中的女人味一定有这三个特征

经常会有人对女人味津津乐道，甚至会争论不休，可是到底女人味如何定义，或者女人味究竟来自哪里，想必大多数人不能系统以及不能全面阐述清楚，如若需要理清来龙去脉，关键需要对现实生活的女人…

仰望辉煌。　　
创业分享 2022年3月16日
笔记本电脑功能键怎么转换（联想笔记本电脑各个按键说明）

电脑键盘是我们日常生活中最常用、接触最多的电脑外设。很多人只知道电脑键盘能够打字，其实键盘上还有很多实用的按键，可能你还不知道，今天就让我们来一起学习一下吧！电脑键盘一、键盘上…

仰望辉煌。　　
创业分享 2022年3月16日
隐形眼镜哪种好适配度好（新手戴隐形眼镜的技巧）

隐形眼镜的出现，让很多注重自己外貌的朋友们摘掉了框架眼镜，戴上了隐形眼镜，不仅能矫正视力，增大眼睛的效果，而且在生活上提供了极大的便利，当隐形眼镜的品种越来越多的时候，各种负面的新…

仰望辉煌。　　
创业分享 2022年3月16日
kgf是什么单位名称（最值收藏的单位换算大全）

一、面积换算 1平方公里（k㎡）=100公顷（ha）=247.1英亩（acre）=0.386平方英里（mile2） 1平方米（㎡）=10.764平方英尺（ft2） 1平方英寸（in…

仰望辉煌。　　
创业分享 2022年3月15日
手机电池充不进电怎么办，手机充不进电的解决方案

今天想和大家聊聊手机充不进电的问题，因为现在手机行业已经逐渐的以续航为主了，因此对电池的要求也是相当的高，只要你经常出论坛就会发现很多人都在讨论“耗电快、充电慢”等问题，而在问题的…

仰望辉煌。　　
2022年3月15日 • 创业分享
宝岛电动车三轮车价格及图片（宝岛电动车超级炫酷车型图和价格）

随着休闲电动三轮车申报电摩资质成功，可以合法生产和销售，市场迎来了井喷期。今年的北方国际电动车展览会可以略窥一二，几乎一半展出的产品都是休闲三轮。很多厂家也推出了许多实用的车型，比…

仰望辉煌。　　
2022年3月15日 • 创业分享
cad关闭图层命令（cad只留一个图层其余全关闭）

相信就算是刚入门的小白也知道CAD的图层，这是我们在绘图过程中肯定会接触到的，但是很多人对图层的功能和使用技巧却不是很了解，其实这是一个很基础的东西，但是想要学好CAD，我们就必须…

仰望辉煌。　　
2022年3月15日 • 创业分享
苹果手机拍照技巧有哪些（教你从入门到精通做拍照达人）

很多朋友都说，苹果手机拍照不好看，那么苹果手机上的拍照功能，你真的会用吗？再不学的话手机可就白买了，下面就一起来看看吧。一、拍照技巧大全 1.拍摄模式首先我们打开苹果手机相机，…

仰望辉煌。　　
2022年3月13日 • 创业分享
静音散热风扇推荐（分享6款高性能静音散热器）

夏天天气热，待在空调房又觉得很干燥，这个时候购买一款合适电风扇尤为重要，随着科技发展，市面上出现各种类型风扇，如落地扇，塔扇、无叶风扇等，既能带给大家清凉，又有安全保障风扇有哪些呢…

仰望辉煌。　　
2022年3月13日 • 创业分享
创业分享

网络推广专家有哪些，怎样的人能称为专家

近年来，我国网络基础设施建设实现了从窄带接入到低速宽带再到高速光纤接入的快速演进升级，网民规模特逐年扩大。根据Analysys易观智库数据显示，预计2016年中国互联网市场规模46…

仰望辉煌。　　
2022年3月15日
vivo系列手机高端机型排名（性价比排名前三的vivo手机）

暑期至，一年一度的高考后换机热潮也一同到来。一部趁手、好用的智能手机，将更好地伴随学子们学习与生活。今天将向大家介绍三款机型，这三款手机定位不同，分别对应着不同的预算以及需求。正在…

仰望辉煌。　　
2022年3月15日 • 创业分享
创业分享

按键精灵电脑版怎么用（教你在电脑上做自动点击脚本）

命令库是按键精灵8新引入的一个功能，可以将常用的脚本子程序放在命令库当中，命令库最大的优势是让多个脚本共享一个命令，修改一处就等于修改多处。命令库的存放地址在按键精灵目录下的li…

仰望辉煌。　　
2022年3月15日

发表回复

登录后才能评论

ajax发送json数据实例（ajax传输json数据格式）

相关推荐

发表回复