抓取链家网站上的上海二手房数据并进行分析建模
最编程
2024-06-28 21:17:57
...
一.分析网页结构并编写程序
import requests
import csv
import time
import math
import random
from lxml import etree
from multiprocessing.dummy import Pool
def getPage(url):
time.sleep(random.choice([2, 2.5, 3, 3.5]))
page = requests.get(url, headers={
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 OPR/57.0.3098.110"})
return etree.HTML(page.text)
def csvWrite(item):
with open("lianjia_sh_ershoufang_data.csv", "a", encoding="utf-8", newline="") as f:
csv.writer(f).writerow(item)
def get_areas_regions_urls():
areas = [
"pudong",
"minhang",
"baoshan",
"xuhui",
"putuo",
"yangpu",
"changning",
"songjiang",
"jiading",
"huangpu",
"jingan",
"zhabei",
"hongkou",
"qingpu",
"fengxian",
"jinshan",
"chongming",
"shanghaizhoubian"]
areas_regions_urls = []#这是我们要返回的元组列表,其内每一个元组将包含地区、地点、和url
for area in areas:
page = getPage("https://sh.lianjia.com/ershoufang/" + area)
region_names = page.xpath("/html/body/div[3]/div/div[1]/dl[2]/dd/div[1]/div[2]/a/text()")#获取地点名
region_urls = page.xpath("/html/body/div[3]/div/div[1]/dl[2]/dd/div[1]/div[2]/a/@href")#获取地点对应的url
for url in region_urls:
#创建元组并将其写入目标列表
areas_regions_urls.append((area,region_names[region_urls.index(url)], "https://gz.lianjia.com"+url))
# print(area,region_names[region_urls.index(url)],"https://gz.lianjia.com"+url)
# print("Region urls in Area {} have been added!".format(area))
print("All regions urls have been added")
return areas_regions_urls
def region_spider(x):
#获取信息条数
info_num = int(getPage(x[2]).xpath("/html/body/div[4]/div[1]/div[2]/h2/span/text()")[0])
#计算信息页数(已知每页最多30条数据)
page_num = math.ceil(info_num/30)
# print("{}有{}条数据,共{}页".format(x[1],info_num,page_num))
for url in [x[2]+"pg" + str(num+1) for num in range(page_num)]:
page = getPage(url)
for house in page.xpath("/html/body/div[4]/div[1]/ul/li"):
try:
# print(house.xpath("div[1]/div[1]/a/text()")[0])
#x代表get_areas_regions_urls()返回的列表中的每一个元组,则x[0]代表地区,x[1]代表地点,x[2]代表url
Area = x[0]
Region = x[1]
info = house.xpath("div[1]/div[2]/div/text()")[0].split("|")
#由于别墅房源和普通房源的网页结构稍有不同,所以这里我们需要做一个判断
if info[1].strip()[-2:]=="别墅":
Garden = house.xpath("div[1]/div[2]/div/a/text()")[0]
Layout = info[2]
Acreage = info[3].strip()
Direction = info[4].strip()
Renovation = info[5].strip()
Elevator = info[6].strip()
Price = int(house.
推荐阅读
-
抓取上海链家的二手房数据信息,并使用 mysql 保存。
-
抓取链家网站上的上海二手房数据并进行分析建模
-
从链家网抓取北京各区二手房价格数据并进行可视化分析-使用工具
-
房产中介遭遇寒冬,链家转型之路任重道远?-房产中介寒冬到来,链家急切求生? “想到了市场会变坏,但没有想到会来得这么快,逼着我们转型。”这是2017年下半年,已经处于转型当中的搜房网董事长莫天全说过的一句话,这句话反映了链家所在的房产交易市场近两年来并不好过。 2017年链家在北京和上海的二手房市场陷入低谷。链家在北京二手房成交量同比下滑51%,在上海,链家2017年月均交易量只有一万套左右。上海北京一直是支撑链家房产交易量的两个重点城市,这两个城市交易量呈现下降,很大程度上说明其它地方可能也不好过。据业内人士估算,二手房市场月成交1.5万套才是盈亏的分水岭,并且规模越大,亏损得越多。 事实上,链家所在的房产中介行业,从2016年开始,受国家不断出台的房产调控政策,比如“去库存”、“棚改”、“房产税收”等影响,行业内各个房产中介开始出现裁员收缩、关店、交易量下降等现象。这些现象虽然都是正常的市场反应,不必过慌,但对于链家而言,每少一家线下店,每少一名经纪人,可能都是不小的打击。 链家闫觅曾说:“目前如何提高运营效率是长租公寓运营商面临的一大难题,推出贝壳找房一方面能给加入者带来流量红利,一方面为参与者带来业务升级,提升房产交易效率。”如此看来,加入贝壳找房好处颇多。不过天下毕竟没有免费的午餐,链家如此让利给入局者,总得有一个说得过去理由。其实,长期以上述模式走下去的贝壳找房,能帮助链家实现真房源数据的维护。如果是出于这样的目的,那么推出贝壳找房可以看成是链家在行业压力下寻求自救的举措。 链家拥抱第三方平台,真实房源数据是终极目标? 要问链家的核心资源在哪里,那么毫无疑问,全国约7000万套真房源数据是链家的核心所在,这是链家生态系统得以运转的血液,也是链家在对外讲话当中,常常提到的事情。从链家的官网简介当中可以看出,链家已经涉及到房产交易服务、大数据处理、资产管理等业务,这些业务大多数是建立在房源数据交易的基础之上。因而如果房源数据出现了问题,那么其产生的后果可想而知。 真房源数据甄别的主体可以来源于两方面,要么亲力亲为,要么让别人去帮你完成甄别。对于主打真房源的链家而言,线下门店是链家真房源的有利保障,要知道从链家一开始提出真房源理念后,其线下门店就开始马不停蹄地扩张,所以即使当行业虚假房源信息泛滥的时候,链家也能有底气提出“真房源”理念。而随着线下门店数量的减少,在2017年8月,链家开始和拥有1800家门店、覆盖54座城市的21世纪中国不动产,就双方加盟合作事宜进行谈判,而且在今年1月份,链家重启德佑品牌,进行加盟模式的布局,可见链家对于加盟模式的重视程度。 目前链家的加盟模式可以分为轻加盟和重度加盟。对于一些平台,例如对乐乎、同创、城家、湾流等品牌公寓,链家采取的是“品质联盟”的形式,换个角度可以理解为轻加盟模式,大家签个正品协议,然后你把你的房源挂到我的平台上。而对于个人加盟甚至是中小中介平台,链家一般采用重度加盟模式,这种模式会从人员的招聘、培训、管理等环节对加入者实行全程干预。 例如链家在2017年下半年,鼓励内部员工自主加盟到链家网当中,加盟者需承担门店的一切费用。同时向链家支付10%的营业额作为加盟费,而加盟者的员工由链家培训,以确保加盟模式跟自己的直营模式在服务上做到无差异。这些事例都在一定程度上反映了链家想找最省钱的真房源确认途径。 其实,链家很清楚,重度垂直门店模式会占用大量的资金,在业务不景气的时候,易造成资金周转困难,不过链家也明白,线下门店是链家开疆扩土的前沿阵地,是真房源数据的最基础来源。因而在线下门店处于收缩的时候,以第三方平台确认真房源的打法,自然而然会成为链家现今的最佳选择。 匆忙布局,链家转型之路并不平坦
-
使用 Python 对链家网站上的北京二手房进行简单数据分析
-
使用 Python 对链家网站上的北京二手房进行简单数据分析
-
《京沪公园使用大数据报告》解读城市公园新机遇-Part One 公园基本情况 1 城市公园分布 城市公园分布广泛,主要集中在中心城区和郊区的居住密集区 根据公开数据,北京市注册公园数为403个(2016年),上海市为165个(2015年)。基于腾讯地图,找到京沪两地所有公园的位置点信息,将它们画在地图上,可以发现,城市公园分布广泛,并且主要集中在中心城区和郊区的居住密集区。 公园数量数据来源:北京-《瞭望东方周刊》,上海-2016年上海市统计年鉴; 公园位置点信息来源:腾讯地图POI数据; 2 人均公园绿地面积 北京北部、上海东北部人均公园绿地面积较多 数据显示,截至2015年年末,北京的人均公园绿地面积为13.6平方米/人,上海则为7.6平方米/人。从各区人均公园绿地面积的数据可以看出,受区域面积和人口数量的双重制约,城市中心区的人均公园绿地面积通常较小。北京人均公园绿地面积较多的地区主要是在北部,而上海则是在东北部。 数据来源:北京市园林局网站,2016年上海市统计年鉴 Part Two 公园受欢迎程度 1 网络热度 哪些公园是“网红”? 樱花季促成玉渊潭公园和顾村公园最热! 根据腾讯位置大数据,春季时,在我们选取的几个公园中,用户通过社交分享最多的公园,北京是玉渊潭公园,上海是顾村公园。这两个公园的热度远远领先其他公园,成为当之无愧的“网红”公园。玉渊潭公园和顾村公园在春季都有樱花节活动,京沪两地的植物园在春季也有较高的网络热度。 注:社交分享包括微信朋友圈、QQzone等社交工具中的签到信息 2 公园吸引力程度 公园有多吸引人? 部分大型公园超50%的游客来源于10公里外 公园的吸引力可以用到访者居住地到公园的直线距离的中位数来衡量。根据腾讯位置大数据分析,京沪两地都是知名公园吸引力较大。以北京颐和园和上海辰山植物园为例,50%的游客来源于20.3公里和17.6公里以外。热度最高的北京玉渊潭公园和上海顾村公园也有较高的吸引力。 3 外地游客比例 只有知名公园有外地游客? 社区公园仍有5~10%的外地游客到访 颐和园作为全国景点,毫不意外,外地游客比例高达40%,远超京沪其他公园。上海的公园中,人民公园的外地游客比例达到19%,可能与其临近旅游热点南京路和人民广场有关。总的来说,本身就是景点或临近人群聚集地的公园外地游客比例高。通常意义上社区公园主要服务于当地居民,而数据显示,京沪的社区公园仍有5~10%的外地游客到访。 Part Three 公园使用情况 1 工作日和周末人流量对比 北京奥林匹克森林公园超200%, 上海辰山植物园周末游客增幅达170% 大型的综合公园、主题公园、郊区公园周末人流量都有至少50%的增长,北京的奥林匹克森林公园、南海子郊野公园,上海的辰山植物园、顾村公园,周末游客增幅达到了100%以上。一些距离工作区较近的公园如上海陆家嘴中心广场公园、北京CBD历史文化公园,周末时人流量则出现了明显下降。 2 人流量随时间变化 上海的周末人流高峰期更晚更集中 上海中心型公园、主题型公园和郊区公园的高峰期在周末更为集中,并会发生明显推迟,到14~15点才达到人流量高峰。而北京的公园在上午10~12点期间就进入了高峰期,在15~16点也有一个高峰期。 Part Four 位置大数据带来的启示 1 建立合理的公园体系结构 丰富体系结构:大型公园和小微公园结合,优化空间利用率 公园的使用情况可以用空间利用效率衡量,即“到访人数/公园面积” 。从数据来看,京沪两地空间利用效率高的公园都是中小型公园,而大型公园的空间利用效率则较低; 考虑到安全、环境等管理成本,大型公园多采取收费、围合等管理模式,这会降低公园的空间利用率,可进一步研究费用高低、范围设定和利用率的关系,优化空间利用率; 合理的城市公园体系还需要与就业中心结合的公园以及服务社区的公园。在空间资源日益紧张的大城市,除了在郊区新建大型公园外,在城市中心区新建更多的微型、小型公园也是不错的选择。 2 混搭多种功能区域 混搭区域功能:城市公园选址宜与多种功能区域搭配,关注慢行设施 城市公园可以和工作区、商圈、公共活动区等多种区域相结合。公园在工作日可服务于区域就业、商务人士,在周末也可以服务市民休闲和社会活动。有利于凝聚人气,更大地发挥公园的功能。如上海的徐家汇公园,周边是写字楼聚集区,又是商圈,同时又有大量居民区,周末的空间利用效率相比于工作日反升8%;。 关注公园周边慢行设施的设计,方便游客步行到达。结合热力图和三维地图可以看出,徐家汇公园东西两侧的汇金广场、港汇广场、徐家汇国际大厦、宛平宾馆、上海财政局等是公园使用者集聚程度最高的地区。五洲国际广场、均瑶国际广场虽然距离较远,但是沿肇嘉浜路到徐家汇公园较为便捷,也在步行范围内,所以也同样具有较高互动性。可见便利的慢行设施可以增强公园和周边的互动。 3 位置大数据优化公园服务 优化公园服务:根据到访人群来源判断服务偏向,提供精准服务 通过位置大数据,可以识别出公园的服务偏向,判断公园的使用是否符合预期,及时优化公园内部及周边服务设施。服务偏向可以根据到访过公园的游客工作或居住在公园周边2公里内的占比判断。如北京的北小河公园、上海的彭浦公园等服务周边的居住人群更多,这些公园可以考虑多配备小广场、健身器材、儿童游乐场等设施;而北京的CBD历史文化公园、上海的西康公园服务工作人群更多,则可以考虑多进行绿化并配备长椅等休闲设施。 4 位置大数据助力公园管理 助力公园管理:位置大数据提供精准宣传和功能评估依据 在“互联网+”日益发达的今天,位置大数据可以帮助有意发展旅游产业的城市公园:
-
反传销网8月30日发布:视频区块链里的骗子,币里的韭菜,杜子建骂人了!金融大V周召说区块链!——“一小帮骗子玩一大帮小白,被割韭菜,小白还轮流被割,割的就是你!” 什么区块链,统统是骗子 作者:周召(知乎金融领域大V,毕业于上海财经大学,目前任职上海某股权投资基金合伙人) 有人问我,区块链现在这么火,到底是不是骗局? 我的回答是: 是骗局。而且我并不是说数字货币是骗局,而是说所有搞区块链的都是骗局。 -01- 区块链是一种鸡肋技术 人类社会任何技术的发明应用,本质都是为了提高社会的生产效率。而所谓区块链技术本质不过是几种早已成熟的技术的大杂烩,冗余且十分低效,除了提高了洗钱和诈骗的效率以外,对人类社会的进步毫无贡献。 真正意义上的区块链得包含三个要素:分布式系统(包括记账和存储),无法篡改的数据结构,以及共识算法,三者互为基础和因果,就像三体世界一样。看上去挺让人不明觉厉的,而经过几年的瞎折腾,稍微懂点区块链的碰了几次壁后都已经渐渐明白区块链其实并没有什么卵用,区块链技术已经名存实亡,沦为了营销工具和传销组织的画皮。 因为符合上述定义的、以比特币为代表的原教旨区块链技术,是反效率的,从经济学角度来说,不但不是一种帕累托改进,甚至还可以说是一种帕累托倒退。 原教旨区块链技术的效率十分低下,因为要遍历所有节点,只能做非常轻量级的数据应用,一旦涉及到大量的数据传输与更新,区块链就瞎了。 一方面整条链交易速度会极慢,另一方面数据库容量极速膨胀,考虑到人手一份的存储机制,区块链其实是对存储资源和能源的一种极大的浪费。 这里还没有加上为了取得所谓的共识和挖矿消耗的巨大的能源,如果说区块链技术是屎,那么这波区块链投机浪潮可谓人类历史上最大规模的搅屎运动。 区块链也验证不了任何东西。 所谓的智能合约,即不智能,也非合约。我看有人还说,如果有了智能合约,就可以跟老板签一份放区块链上,如果明年销售业绩提升30%,就加薪10%,由于区块链不能篡改,不能抵赖,所以老板必须得执行,说得有板有眼,不懂行的愣一看,好像还真是那么回事。 但仔细一想,问题就来了。首先,在区块链上如何证明你真的达到了30%业绩提升?即便真的达到老板耍赖如何执行? 也就是说,如果区块链真这么厉害,要法院和仲裁干什么。 人类社会真正的符合成本效益原则的是代理制度。之前有人说要用区块链改造注册会计师行业,我不知道他准备怎么设计,我猜想他思路大概是这样的,首先肯定搞去中心化,让所有会计师到链上来,然后一个新人要成为注册会计师就要所有会计师同意并记录在链上。 那我就请问了,我每天上班累死累活,为什么还要花时间去验证一个跟我无关的的人的专业能力?最优做法当然是组织一个委员会,让专门的人来负责,这不就是现在注册会师协会干的事儿吗?区块链的逻辑相当于什么事情都要拿出来公投,这个绝对是扯淡的。 当然这么说都有点抬举区块链了,区块链技术本身根本没有判断是非能力,如果这么高级的人工智能,靠一个无脑分布式记账就能实现的话,我们早就进入共产主义社会了。 虽然EOS等数字货币采用了超级节点,通过再中心化的方式提高效率,有点行业协会的意思,是对区块链原教旨主义的一种修正,但是依然无法突破区块链技术最本质的局限性。有人说,私有链和联盟链是区块链技术的未来,也是扯淡,因为区块链技术没有未来。如果有,说明他是包装成区块链的伪区块链技术。 区块链所涉及的所有底层技术,不管是分布式数据库技术,加密技术,还是点对点传输技术等,基本都是早已存在没什么秘密可言的技术。 比特币系统最重要的特性是封闭性和自洽性,他验证不了任何系统自身以外产生的信息的真实性。 所谓系统自身产生的信息,就是数据库数据的变动信息,有价值的基本上有且只有交易信息。所以说比特币最初不过是中本聪一种炫技的产物,来证明自己对几种技术的掌握,你看我多牛逼,设计出了一个像三体一样的系统。因此,数字货币很有可能是区块链从始至终唯一的杀手应用。 比特币和区块链概念从诞生到今天已经快10年了,很多人说区块链技术在爆发的前夜,但这个前夜好像是不是有点过长了啊朋友,跟三体里的长夜有一拼啊。都说区块链技术像是90年代初的互联网,可是90年代初的互联网在十年发展后,已经出现了一大批伟大的公司,阿里巴巴在99年都成立了,区块链怎么除了币还是币呢? 正规的数字货币未来发展的形式无外乎几种,要么就是论坛币形式,或者类似股票的权益凭证等。问题是论坛币和股票之前,本来也都电子化了,区块链来了到底改变了什么呢? 所有想把TOKEN和应用场景结合起来的人最后都很痛苦,最后他们会发现区块链技术就是脱裤子放屁,自己辛苦搞半天,干嘛不自己作为中心关心门来收钱?最后这些人都产生了价值的虚无感,最终精神崩溃,只能发币疯狂收割韭菜,一边嘴里还说着我是个好人之类的奇怪的话。 因此,之前币圈链圈还泾渭分明,互相瞧不起,但这两年链圈逐渐坐不住了,想着是不是趁着泡沫没彻底破灭之前赶快收割一波,不然可能什么都捞不着了。 前段时间和一个名校毕业的链圈朋友瞎聊天,他说他们“致力于用区块链技术解决数字版权保护问题”,我就问他一个问题,你们如何保证你链的版权所有权声明是真实的,万一盗版者抢先一步把数据放在链上怎么办。他说他们的解决方案是连入国家数字版权保护中心的数据库进行验证…… 所以说区块链技术就是个鸡肋,研究到最后都会落入效率与真实性的黑洞,很多人一头扎进链圈后才发现,真正意义上的区块链技术,其实什么都干不了。 -02- 不是蠢就是坏的区块链媒体 空气币和区块链的造富神话,让区块链自媒体也开始迎风乱扭。一群群根本不知道区块链为何物的妖魔鬼怪纷纷进驻区块链自媒体战场,开始大放厥词胡编乱造。 任何东西,但凡只要和区块,链,分,分布式,记账,加密,验证,可追溯等等这些个关键词沾到哪怕一点点,这些所谓的区块链媒体人就会像狗闻到了屎了一样疯狂地把区块链概念往上套。 这让我想起曾经一度也是热闹非凡的物联网,我曾经去看过江苏一家号称要改变世界的“物联网”企业,过去一看是生产路由器的,我黑人问号脸,对方解释说没有路由器万物怎么互联,我觉得他说得好有道理,竟无言以对。 好,下面让我们进入奇葩共赏析时间,来看看区城链媒体经常有哪些危言耸听的奇谈怪论 区块链(分布式记账)的典型应用是*?? 正如前面所说,真正意义上的区块链分布式记账,不光包括“记”这个动作,还包括分布式存储和共识机制等。而*诞生远远早于区块链这个词的出现,勉强算是“分布式编辑”吧,就被很多区块链媒体拿来强行充当区块链技术应用的典范。 其实事实恰恰相反,*恰恰是去中心化失败的典范,现在如果没有精英和专业人士的编辑和维护,*早就没法看了。 区块链会促进社会分工?? 罗振宇好像就说过类似的话,虽然罗振宇说过很多没有逻辑的话,但这句话绝对是最没逻辑思维的。很多区块链自媒体也常常用这句话来忽悠老百姓,说分工代表效率提高社会进步,而区块链“无疑”会促进分工,他们的理由仅仅是分工和分布式记账都共用一个“分”字,就强行把他们扯到一起。 实际情况恰恰相反,区块链是逆分工的,区块链精神是号召所有人积极地参与到他不擅长也不想掺合的事情里面去。 区块链不能像上帝一样许诺他的子民死后上天国,只能给他们许诺你们是六度人脉中的第一级,我可以赚后面五级人的钱,你处于金字塔的顶端。