如何使用Python读取腾讯在线文档
最编程
2024-01-02 19:19:35
...
需求背景:
读取腾讯文档在线表格
实现思路:
利用python+requests接口自动化思路,先将在线文档导出至本地,然后用pandas的read_excel方法进行读取,过程中采用fiddler进行抓包分析。
详细步骤:
1、创建导出任务:提取返回的操作id
2、查询导出任务:轮询至进度为100,提取返回的file_url
3、get方法请求file_url下载文件
4、写入本地文件
file_name= "test.xlsx"
# 若存在则先删除文件
if os.path.exists(file_name):
os.remove(file_name)
# 写入文件
with open(file_name,"wb")as code:
code.write(content.content)
print("下载完成。")
5、读取本地文件
io= r'C:\Users\user\PycharmProjects\xxx\test.xlsx'
# 读取表格,只读取sheet_name为xx,以第二行为表头,只读取指定行
data= pd.read_excel(io,sheet_name='xxx',header=1,usecols=[0,1,2,5,6,7,8])
核心问题:
各个接口的登录态问题,共需要5个cookie键值对,一般同一个企业微信只有uid_key、wedrive_ticket会过期,
(注意:若该账号再次登录访问该腾讯文档会刷新cookie,到时候只需要替换新的uid_key、wedrive_ticket即可。)
uid_key=xx
uid=xxx
wedrive_sid=xxxxxx
wedrive_skey=xxxxxxx
wedrive_ticket=xxxxxx
实战代码:-小白代码请轻喷
# -*- coding: utf-8 -*-
"""
__author__: @xxx
__datetime__: xxx
"""
import json
import os
from timeimport sleep
# 生成导出任务配置
import click
import pandasas pd
import requests
# 导出表格地址
EXPORT_OFFICE_URL= "https://doc.weixin.qq.com/v1/export/export_office"
# 查询导出任务配置
QUERY_PROGRESS_URL= "https://doc.weixin.qq.com/v1/export/query_progress"
# 腾讯文档地址
project_excel_url= "https://doc.weixin.qq.com/sheet/xxx"
project_excel_name= "xxx表"
class ProjectRemindRobot:
"""导出腾讯文档到本地"""
def __init__(self,
uid: str,
uid_key: str,
doc_id: str,
file_name: str,
wedrive_ticket: str,
wedrive_skey: str,
wedrive_sid: str
):
self.uid= uid
self.uid_key= uid_key
self.doc_id= doc_id
self.file_name= file_name
self.wedrive_ticket= wedrive_ticket
self.wedrive_skey= wedrive_skey
self.wedrive_sid= wedrive_sid
# uid doc_id wedrive_skey wedrive_sid通常不变
def create_export_office_task(self):
"""
创建导出文件任务"""
# 组织请求cookie并赋为全局变量方便后面接口使用
global cookie_value
cookie_value= 'uid=%s; uid_key=%s; wedrive_ticket=%s; wedrive_skey=%s; wedrive_sid=%s;' % (
self.uid,self.uid_key,self.wedrive_ticket,self.wedrive_skey,self.wedrive_sid)
doc_id_value= '%s' % self.doc_id
headers= {'content-type': 'application/x-www-form-urlencoded','Cookie': cookie_value}
# 请求体
body= {'docId': doc_id_value,'version': '2'}
#调用request发送post请求
response_body= requests.post(url=EXPORT_OFFICE_URL,headers=headers,data=body)
print("添加导出任务返回内容为:", response_body.text)
return response_body
def query_progress_task(self,operation_id):
"""
查询导出文件任务进度"""
# 组织请求cookie
headers= {'content-type': 'application/x-www-form-urlencoded','Cookie': cookie_value}
# 请求体
body= {'operationId': operation_id}
#调用request发送get请求
response_body= requests.get(url=QUERY_PROGRESS_URL,headers=headers,params=body)
print("查询进度内容为:", response_body.text)
return response_body
def down_file(self,file_url):
"""
下载文件"""
headers= {'Cookie': cookie_value}
response_body= requests.get(url=file_url,headers=headers)
print("查询进度内容为:", response_body)
return response_body
def read_data(self):
io= r'C:\Users\user\PycharmProjects\xxx\test.xlsx'
# 读取表格,只读取sheet_name为xx,以第二行为表头,只读取指定行
data= pd.read_excel(io,sheet_name='xxx')',header=1,usecols=[0,1,2,5,6,7,8])
return data
def main(self):
"""
程序入口"""
# 1、创建任务
resp_create_export_office= self.create_export_office_task()
print("添加导出任务返回内容为:%s" % resp_create_export_office.text)
operation_id= resp_create_export_office.json()["operationId"]
print("创建任务成功:%s" % operation_id)
# 2、轮询任务,直到 100% 停止
while True:
resp_query_progress= self.query_progress_task(operation_id)
progress= resp_query_progress.json()["progress"]
print("|" + "#" * progress+ "| " + "%s/100" % progress)
if progress>= 100:
file_url= resp_query_progress.json()["file_url"]
print("导出任务完成:%s" % resp_query_progress)
break
sleep(1)
# 3、下载文件
print("开始下载文件。。。")
content= self.down_file(file_url)
print(type(content))
file_name= "test.xlsx"
# 若存在则先删除文件
if os.path.exists(file_name):
os.remove(file_name)
# 写入文件
with open(file_name,"wb")as code:
code.write(content.content)
print("下载完成。")
# 读取文件
self.read_data()
if __name__== '__main__':
# 只需要定时替换uid_key wedrive_ticket
prr= ProjectRemindRobot(
uid="xxx",
doc_id="xx",
file_name="export_file.xlsx",
wedrive_skey="xx",
wedrive_sid="xx",
uid_key="xxx",
wedrive_ticket="xxx",
)
prr.main()
上一篇: 腾讯文档适用于哪些格式的在线协作?
下一篇: CODING 代码托管
推荐阅读
-
35 岁实现财务*,腾讯程序员手握2300万提前退休?-1000万房产、1000万腾讯股票、加上300万的现金,一共2300万的财产。有网友算了一笔账,假设1000万的房产用于自住,剩下1300万资产按照平均税后20-50万不等进行计算,大约花上26-60年左右的时间才能赚到这笔钱。也就是说,普通人可能奋斗一辈子,才能赚到这笔钱。在很多人还在为中年危机而惶惶不可终日的时候,有的人的35岁,就已经安全着陆,试问哪个打工人不羡慕?但问题是有这样财富积累必然有像样的实力做靠山。没有人可以不劳而获。 看到这里,肯定有人说,那么对于普通人来说,卷可能真就成了唯一的出路。但是卷也有轻松的卷,“偷懒”的卷法,对于程序员而言,刨除掉一时无法改掉的开会传统占用的大部分时间,如何把有限的时间和精力放在真正重要的架构设计、需求设计上,而不是重复的造*,编码、改bug、手动测试。因此在科技改变生活的今天,学会使用AI工具成为程序员们的必备技能。 以全栈式全自动的软件开发工具飞算SoFlu软件机器人为例,作为全球首款面向微服务架构设计和最佳实践的软件机器人,SoFlu软件机器人改变了原来手工编码的作业模式,通过可视化拖拽方式以及参数配置就能实现等同于编写复杂代码的业务逻辑,在设计业务逻辑时就完成了微服务应用开发,做到“业务即图,图即代码”,实现“软件开发,十倍提效”。 而作为飞算SoFlu软件机器人的一个重要组成部分,FuncGPT(慧函数)支持所有类型函数创建。通过自然语言描述Java函数需求,实时生成高质量、高可读性的Java函数代码。生成代码可直接复制到IDEA,或一键导入Java全自动开发工具函数库。 FuncGPT(慧函数)具有五大核心能力: ● 自然语言:通过自然语言即可生成函数,降低软件开发门槛。 ● 秒级函数开发:全自动秒级开发函数,秒级完成,效率千倍提升。 ● 一站式函数开发应用:函数生成即可直接应用,效率、安全有保障。 ● 质量可靠:生成的函数代码符合业界规范、具备良好的可读性,符合最优解。 ● 灵活生成:可以根据开发人员的具体需求生成并支持调整和修改。 以“将文件流转换为File对象”这个需求为例,以下是FuncGPT(慧函数)秒级生成的代码: / 类名:FileConverter // 函数名:convertStreamToFile // 函数功能:将文件流转换为File对象 // POM依赖包:无 import java.io.File; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; public class FileConverter { /** * 将文件流转换为File对象 * @param inputStream 文件流 * @param filePath 文件路径 * @param fileName 文件名 * @return 转换后的File对象 * @throws IOException 如果发生I/O异常 */ public static File convertStreamToFile(InputStream inputStream, String filePath, String fileName) throws IOException { File file = new File(filePath + File.separator + fileName); // 创建File对象 try (FileOutputStream outputStream = new FileOutputStream(file)) { // 创建文件输出流 byte buffer = new byte[1024]; int bytesRead; while ((bytesRead = inputStream.read(buffer)) != -1) { // 从文件流读取数据并写入文件 outputStream.write(buffer, 0, bytesRead); } } return file; // 返回转换后的File对象 } } // 函数示例 // 将文件流转换为File对象示例 // 入参:inputStream,文件流 // 入参:filePath,文件路径 // 入参:fileName,文件名 // 出参:file,转换后的File对象 // 调用示例: // InputStream inputStream = new FileInputStream("example.txt"); // String filePath = "C:\\Users\\User\\Documents"; // String fileName = "example.txt"; // File file = FileConverter.convertStreamToFile(inputStream, filePath, fileName); // System.out.println(file.getAbsolutePath); // 输出结果:例如,将文件流转换为File对象后,文件的绝对路径为:C:\Users\User\Documents\example.txt // 则输出结果为:C:\Users\User\Documents\example.txt 通过分析,不难发现以上代码:
-
源码为您提供,零基础搭建的免费网址导航站--中国妖怪百集,收集了大量古代文献中的妖怪,非常详细的记录了妖怪的来历、描述甚至图片,让您对中国的妖怪文化有一个整体的了解,茶余饭后的消遣非常有趣,类似的网站还有很多,期待您的探索! 导航站的另一个特点是汇集了大量咖啡平时用的非常好的工具软件,其中大部分都是在线的,不需要下载安装,包括文档协作、分享,图片、音频、视频处理,格式转换,文件传输,各个网站的视频下载等等,兼职就是一个工具百宝箱! 如果你觉得这些网站不符合你的使用习惯,或者想添加一些自己收藏的网站,那么把源码交给你,只需简单修改就可以变成符合自己使用习惯的独特导航了! 如何修改 导航站采用纯静态构建,下载源代码后,只需要修改 html 文件中的代码块即可,代码块结构如下: 只需要修改四个地方,分别对应网站的四个关键信息: 修改相应网站的 URL 地址 修改相应网站的徽标 修改相应网站的名称
-
如何使用 python 详细读取 micaps 文件
-
如何使用Python获取WPS文档内容
-
如何在ROS中使用Python读取雷达生成的PCD点云文件
-
如何使用Python实现XML文件与数据库之间的数据读取与转换操作
-
南邮OJ Web任务大揭秘:层层挑战剖析 1. 挑战一:迷宫般的目录探索 题目作者似乎穷举了所有可能的目录组合,最终在404.php中的