一些著名的数据科学公共数据集和数据源
本文整合数据科学领域一些著名的数据集。包括数据集简介和数据集获取。
方便做数据分析练习和可视化练手时使用。
藏在Python库里的数据集
一些可视化库和机器学习库有着内置数据集的传统。因为库的文档和案例通常会使用一些数据集来举例、内置数据集后方便用户学习该库的可视化语法,方便复现效果。
Python里内置数据集的库有:plotnine、ggplot、Altair、seaborn、bokeh、plotly、sklearn等等。
plotnine里:通过import plotnine.data as pnd; pnd.__all__
语句列出可以直接调用的数据集:
__all__ = ['diamonds', 'economics', 'economics_long', 'midwest', 'mpg', 'msleep', 'presidential', 'seals', 'txhousing', 'luv_colours', 'faithful', 'faithfuld', 'huron', 'meat', 'mtcars', 'pageviews']
通过 df=pnd.diamonds
语句载入数据。数据表实际保存在site-packagesplotninedata 文件夹下,都是csv格式存在本地。
ggplot提供的数据集如下:
chopsticks, diamonds, mtcars, meat, pageviews, pigeons, movies, mpg, salmon, load_world
通过 import ggplot.datasets as gds;df=gds.diamonds
可以导入对应数据集。除了world世界地图数据是需要从github下载之外,其他数据集都存在本地,site-packagesggplotdatasets
目录下,也都是csv文件。
Altair:数据集在vega_data里,
from vega_datasets import data
data.list_datasets()
#['7zip', 'airports', 'annual-precip', 'anscombe', 'barley', 'birdstrikes', 'budget', 'budgets', 'burtin', 'cars', 'climate', 'co2-concentration', 'countries', ...]
vega_data里的数据集内容挺多,有统计数据也有地理数据,还有不同数据量的版本,例如flights数据集包含了2k、5k、200k、3m等多个版本。调用是写:df = data('iris')
或者df = data.iris()
,数据存在Anaconda3/Lib/site-packages/vega_datasets 目录下,存本地的在local_datasets.json
里有描述。本地存的有csv格式的也有json格式的。
seaborn库:seaborn.get_dataset_names()
列出可以调用的数据集:
import seaborn as sns
sns.get_dataset_names()
['anagrams', 'anscombe', 'attention', 'brain_networks', 'car_crashes', 'diamonds', 'dots', 'exercise', 'flights', 'fmri', 'gammas', 'geyser', 'iris', 'mpg', 'penguins', 'planets', 'tips', 'titanic']
通过iris=seaborn.load_dataset('iris')
载入数据,不过值得说明的是seaborn库本地初始时是不存着这些数据集的,这个和其他库不同,seaborn调用 load_dataset() 的时候是从GitHub下载到本地,所以有时候会下载失败,使用时可以从seaborn-data[1] 自行下载文件再导入(或者考虑用其他库内置的数据集)。
plotly:默认的数据集不多,有7个。
import plotly.express as px
px.data.__all__
#['carshare', 'election', 'election_geojson', 'gapminder', 'iris', 'tips', 'wind']
通过df=px.data.gapminder()
调用。
bokeh:数据集相关文件在site-packages/bokeh/sampledata
路径下,它把一些通用的数据集都封装为py文件进行调用,例如iris数据集经过了一层封装叫flowers,载入数据是用from bokeh.sampledata.iris import flowers
。没有语句可以列出有哪些数据集,从代码中拆出来它内置的数据集有:
#files=
['CGM.csv', 'US_Counties.zip', 'us_cities.json', 'unemployment09.csv', 'AAPL.csv', 'FB.csv', 'GOOG.csv', 'IBM.csv', 'MSFT.csv', 'WPP2012_SA_DB03_POPULATION_QUINQUENNIAL.zip', 'gapminder_fertility.csv', 'gapminder_population.csv', 'gapminder_life_expectancy.csv', 'gapminder_regions.csv', 'world_cities.zip', 'airports.json', 'movies.db.zip', 'airports.csv', 'routes.csv']
bokeh里iris数据集的调用关系
sklearn,内置了一些经典的机器学习练手数据集。
import sklearn.datasets as dts
[i for i in dts.__all__ if 'load' in i]
#输出:
['load_boston','load_diabetes','load_digits','load_files','load_iris','load_breast_cancer','load_linnerud', 'load_mlcomp','load_sample_image', 'load_sample_images','load_svmlight_file','load_svmlight_files']
因此其调用方式:df=dts.load_iris()
。
另外,sklearn的数据集有很多种:
•自带的小数据集,也就是我们上面列出的可以通过dts.load_name()直接导入的;•需在线下载的数据集,通过dts.fetch_name()导入;•模拟生成的数据集,dts.make_name();•svmlight/libsvm格式的数据集,导入语句:dts.load_svmlight_file(name);•从data.org在线下载获取的数据集:dts.fetch_mldata(name);
著名公开数据集
一些数据科学领域广泛使用(在教程文章、课程练习等场景也广泛使用)的数据集简介。
iris
鸢尾花数据集。首次出现在著名的英国统计学家和生物学家Ronald Fisher 1936年的论文《The use of multiple measurements in taxonomic problems》中,被用来介绍线性判别式分析。数据集中,包括了三类不同的鸢尾属植物:Iris Setosa,Iris Versicolour,Iris Virginica。每类50个样本、共150个样本。属性包括花萼长度、宽、花瓣长、宽,单位都是cm。
Iris数据集各列含义
如果安装了seaborn、plotly、bokeh这些可视化库,可以通过上一章提到的语句获取iris数据。一些在线的数据集下载地址如下:
•https://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html•https://www.kaggle.com/arshid/iris-flower-dataset
titanic
声名远扬的泰坦尼克号船员数据集,数据集描述的是船员的性别、年龄、所在船仓等级等特征及最后是否存活。网络上大量的文章是关于泰坦尼克号船员生存率分析的,通过分类或回归算法拟合船员的基本特征与获救情况的关系,甚至一些文章鼓吹将这个项目写入简历。
泰坦尼克数据集概览
在seaborn库里可以通过sns.load_dataset('titanic')
获取泰坦尼克数据集。
在线数据源:
•https://www.kaggle.com/hesh97/titanicdataset-traincsv
boston
波士顿房价数据集。经典的用于回归任务的数据集,机器学习类文章大家喜欢写的是波士顿房价预测,热度和泰坦尼克号船员生存率分析接近了。boston数据集有13个特征,包括各类用地比例、师生比例、每居民房子数、可达性指数等,除土地是否在查尔斯河旁边是一个二值变量,其余特征为数值类型。
该数据集在sklearn库里可以直接导入。
diamonds
钻石数据集。该数据集有10列,csv文件约2.64MB,包含了近54000颗钻石的价格及其他属性。Diamonds数据集在各种R语言数据分析文章里有很高的出镜率,大家普遍用来做探索性数据分析和可视化案例。
diamonds数据列概览
具体各特征含义如下:
•钻石价格:以美元计价;•克拉:钻石重量(0.2-5.01);•切割质量:分为公平,良好,非常好,高级,理想 5个等级;•台面:钻石顶部宽度相对于最宽点(43-95);•钻石颜色,从J(最差)到D(最好);•纯度:测量钻石的纯净度(I1(最差),SI2,SI1,VS2,VS1,VVS2,VVS1,IF(最佳));•X:长度mm(0-10.74);•Y:宽度mm(0-58.9);•Z:深度mm(0-31.8);•深度:总深度百分比,根据X,Y,Z算出:=z/平均值(x,y)= 2 * z /(x + y)(43-79)
;
diamonds数据集详细描述:https://ggplot2.tidyverse.org/reference/diamonds.html
包含该数据集的库包括seaborn、plotnine及ggplot。
gapminder
Gapminder[2] 本身是一家位于瑞典斯德哥尔摩的非盈利机构,其收集和公开了关于世界的经济、教育、环境、健康等专题数据。Hans Rosling的TED演讲用了几个生动的例子展现了gapminder统计数据的魅力。
plotly包含了一个gapminder样本数据集, 在线数据集下载:
•https://www.gapminder.org/data/
gapminder数据集可视化案例
wine
葡萄酒数据集,该数据集描述来自意大利同一地区三个不同品种的葡萄酒进行化学分析的结果,每种所含的13种成分的数量。特征包括Alcohol、Ash、Total phenols、Hue等13种。
cars
cars数据集现在有两种可能性,一种是在1983年美国统计协会(ASA)公布的,由Ramos和Donoho收集的406辆汽车数据,包括车重(weight)、马力(horsepower)、没加仑油行驶(MPG)、汽车产地(origin)等特征。
汽车特征数据集概览
该数据集在Altair库里有,Altair的教程文档里有关于cars数据集的可视化案例:https://altair-viz.github.io/altair-tutorial/notebooks/01-Cars-Demo.html
另一种是斯坦福大学整理的16185张汽车图片数据集。该数据集不是表格数据而是图片,主要用于CV的算法训练。
汽车照片数据集介绍
汽车图片数据集下载源:
•http://ai.stanford.edu/~jkrause/cars/car_dataset.html
anscombe
安斯库姆四重奏(Anscombe's Quartet) ,是一个用于展现当数据序列差别非常大时一些统计值却相等的著名数据集。Anscombe数据集由统计学家Francis Anscombe在1973年构造出来,一共包含了4组数据,每组11个X-Y散点。
这四组数据均值、方差、相关系数及线性回归曲线(mean, variance, correlation, and linear regression lines)都相同,X的平均数都是9.0,Y值的平均数都是7.5;X值的方差都是11.0,Y值的方差都是4.12;X、Y之间的相关系数皆为0.816,线性回归线都是y=3.0+0.5x。
从统计值来看,这四个数据集似乎非常接近,但具体分布差别巨大。这个数据集体现了数据实际分布的可视化的重要性以及用对拟合方式的重要性。文字还是苍白了,可以看图去体会:
Anscombe's Quartet数据点分布
从可视化图可以看到,I组是最“正常”的一组数据,也是这几个统计值擅长勾画的内容,II所反映的事实上是一个精确的二次函数关系,只是在错误地应用了线性模型后,各项统计数字与第一组数据恰好都相同;III描述的是一个精确的线性关系,只是这里面有一个异常值,它导致了上述各个统计数字,尤其是相关度值的偏差;IV则是一个更极端的例子,数据集中在(8,7)附近,但异常值(19,12.5)使得平均数、方差、相关度、线性回归线等所有统计数字全部发生偏差。
注,上图绘制代码:
import seaborn as sns
g = sns.FacetGrid(df, col="Series")
g.map(sns.regplot, "X", "Y",color='#1EAFAE',ci=None)
g.add_legend()
airports
地理数据,美国机场的坐标点。包含5列,分别为airport code, city, state, latitude, and longitude。
在Altair、bokeh库里能直接导入使用。数据集公开地址:
•http://ourairports.com/data/
热门整合数据源
•国家统计局数据:http://data.stats.gov.cn 数据来源*国家统计局,包含了我国经济民生等多个方面的数据,并且在月度、季度、年度都有覆盖,全面又权威。•Kaggle:一个数据竞赛网站,收集了很多著名和实用的数据集用于训练和竞赛。https://www.kaggle.com/•UCI:机器学习数据集集合,挺老牌的, http://archive.ics.uci.edu/ml/index.php, 包括经典的Iris、波尔多葡萄酒等数据集;•卡内基·梅隆大学(CMU)统计学院网站的整合数据集页面:http://lib.stat.cmu.edu/datasets/•机器学习数据集整合:•Machine learning datasets:https://www.datasetlist.com•https://archive.ics.uci.edu/ml/machine-learning-databases/。•伯克利自动驾驶数据集:http://bdd-data.berkeley.edu/•UCI 垃圾邮件数据集:https://archive.ics.uci.edu/ml/datasets/Spambase•北京城市实验室地理数据:https://www.beijingcitylab.com/data-released/data1-20/•体育大数据:http://www.sportsdt.com/
References
[1]
seaborn-data: https://github.com/mwaskom/seaborn-data
[2]
Gapminder: https://www.gapminder.org/about/
推荐阅读
-
位、字节、WORD、DWORD 的区别和联系 - Unicode 和 ANSI 的区别就像输入法中 "全宽 "和 "半宽 "的区别一样。 由于不同的 ANSI 编码有不同的标准(不同的字符集),对于给定的多字节字符串,我们必须知道它使用的是哪种字符集,才能知道它包含哪些 "字符"。对于 UNICODE 字符串来说,无论环境如何,它所代表的 "字符 "内容始终是相同的。Unicode 有一个统一的标准,定义了世界上大多数字符的编码,因此拉丁文、数字、简体中文、繁体中文和日文都可以存储在一个编码中。统一码是一个统一的标准,定义了世界上大多数字符的编码。 比特(Bit)和字节(Byte)的区别:例如USB2.0 标准接口的传输速率为 480Mbps,有一些人误认为是每秒 480 兆比特,同样网络带宽为 2MB,就容易误认为是每秒 2 兆比特。其实,480Mbps 应该是 480 兆比特/秒或 480 兆字节/秒,它等于 "60 兆字节/秒";同样,2MB,应该是 256 兆字节/秒。 Bit 和 Byte 译为 "比特",都是数据计量单位,比特="位 "或 "比特"。 Byte = 字节,即 1byte = 8bits,两者的换算关系为 1:8。 Mbps = mega bits per second(兆位/秒)是速率单位,因此 2M 带宽应为 2 兆位/秒,即 2MBps。MB = 兆字节(Megabytes,兆字节)是单位量,1MB/S(兆字节/秒)= 8MBPS(兆字节/秒)。 通常所说的硬盘容量是指 40GB、80GB、100GB,其中的 B 是指 Byte 也称为 "字节"。 1 KB=1024 字节 1 MB=1024 KB=1024*1024 字节 1 GB=1024 MB=1024*1024*1024 字节 例如,以前所谓的 56KB MODEM 转换过来的 56KBps 除以 8 就是 7Kbyte,所以真正从网上下载文件存在硬盘上的速度也是每秒 7Kbyte;也就是说,用 B 表示传输速度一般指 Bit;用 B 表示容量一般指 Byte。比特、字节、WORD、DWORD 的本质。
-
一些著名的数据科学公共数据集和数据源
-
windows下进程间通信的(13种方法)-摘 要 本文讨论了进程间通信与应用程序间通信的含义及相应的实现技术,并对这些技术的原理、特性等进行了深入的分析和比较。 ---- 关键词 信号 管道 消息队列 共享存储段 信号灯 远程过程调用 Socket套接字 MQSeries 1 引言 ---- 进程间通信的主要目的是实现同一计算机系统内部的相互协作的进程之间的数据共享与信息交换,由于这些进程处于同一软件和硬件环境下,利用操作系统提供的的编程接口,用户可以方便地在程序中实现这种通信;应用程序间通信的主要目的是实现不同计算机系统中的相互协作的应用程序之间的数据共享与信息交换,由于应用程序分别运行在不同计算机系统中,它们之间要通过网络之间的协议才能实现数据共享与信息交换。进程间通信和应用程序间通信及相应的实现技术有许多相同之处,也各有自己的特色。即使是同一类型的通信也有多种的实现方法,以适应不同情况的需要。 ---- 为了充分认识和掌握这两种通信及相应的实现技术,本文将就以下几个方面对这两种通信进行深入的讨论:问题的由来、解决问题的策略和方法、每种方法的工作原理和实现、每种实现方法的特点和适用的范围等。 2 进程间的通信及其实现技术 ---- 用户提交给计算机的任务最终都是通过一个个的进程来完成的。在一组并发进程中的任何两个进程之间,如果都不存在公共变量,则称该组进程为不相交的。在不相交的进程组中,每个进程都独立于其它进程,它的运行环境与顺序程序一样,而且它的运行环境也不为别的进程所改变。运行的结果是确定的,不会发生与时间相关的错误。 ---- 但是,在实际中,并发进程的各个进程之间并不是完全互相独立的,它们之间往往存在着相互制约的关系。进程之间的相互制约关系表现为两种方式: ---- (1) 间接相互制约:共享CPU ---- (2) 直接相互制约:竞争和协作 ---- 竞争——进程对共享资源的竞争。为保证进程互斥地访问共享资源,各进程必须互斥地进入各自的临界段。 ---- 协作——进程之间交换数据。为完成一个共同任务而同时运行的一组进程称为同组进程,它们之间必须交换数据,以达到协作完成任务的目的,交换数据可以通知对方可以做某事或者委托对方做某事。 ---- 共享CPU问题由操作系统的进程调度来实现,进程间的竞争和协作由进程间的通信来完成。进程间的通信一般由操作系统提供编程接口,由程序员在程序中实现。UNIX在这个方面可以说最具特色,它提供了一整套进程间的数据共享与信息交换的处理方法——进程通信机制(IPC)。因此,我们就以UNIX为例来分析进程间通信的各种实现技术。 ---- 在UNIX中,文件(File)、信号(Signal)、无名管道(Unnamed Pipes)、有名管道(FIFOs)是传统IPC功能;新的IPC功能包括消息队列(Message queues)、共享存储段(Shared memory segment)和信号灯(Semapores)。 ---- (1) 信号 ---- 信号机制是UNIX为进程中断处理而设置的。它只是一组预定义的值,因此不能用于信息交换,仅用于进程中断控制。例如在发生浮点错、非法内存访问、执行无效指令、某些按键(如ctrl-c、del等)等都会产生一个信号,操作系统就会调用有关的系统调用或用户定义的处理过程来处理。 ---- 信号处理的系统调用是signal,调用形式是: ---- signal(signalno,action) ---- 其中,signalno是规定信号编号的值,action指明当特定的信号发生时所执行的动作。 ---- (2) 无名管道和有名管道 ---- 无名管道实际上是内存中的一个临时存储区,它由系统安全控制,并且独立于创建它的进程的内存区。管道对数据采用先进先出方式管理,并严格按顺序操作,例如不能对管道进行搜索,管道中的信息只能读一次。 ---- 无名管道只能用于两个相互协作的进程之间的通信,并且访问无名管道的进程必须有共同的祖先。 ---- 系统提供了许多标准管道库函数,如: pipe——打开一个可以读写的管道; close——关闭相应的管道; read——从管道中读取字符; write——向管道中写入字符; ---- 有名管道的操作和无名管道类似,不同的地方在于使用有名管道的进程不需要具有共同的祖先,其它进程,只要知道该管道的名字,就可以访问它。管道非常适合进程之间快速交换信息。 ---- (3) 消息队列(MQ) ---- 消息队列是内存中独立于生成它的进程的一段存储区,一旦创建消息队列,任何进程,只要具有正确的的访问权限,都可以访问消息队列,消息队列非常适合于在进程间交换短信息。 ---- 消息队列的每条消息由类型编号来分类,这样接收进程可以选择读取特定的消息类型——这一点与管道不同。消息队列在创建后将一直存在,直到使用msgctl系统调用或iqcrm -q命令删除它为止。 ---- 系统提供了许多有关创建、使用和管理消息队列的系统调用,如: ---- int msgget(key,flag)——创建一个具有flag权限的MQ及其相应的结构,并返回一个唯一的正整数msqid(MQ的标识符); ---- int msgsnd(msqid,msgp,msgsz,msgtyp,flag)——向队列中发送信息; ---- int msgrcv(msqid,cmd,buf)——从队列中接收信息; ---- int msgctl(msqid,cmd,buf)——对MQ的控制操作; ---- (4) 共享存储段(SM) ---- 共享存储段是主存的一部分,它由一个或多个独立的进程共享。各进程的数据段与共享存储段相关联,对每个进程来说,共享存储段有不同的虚拟地址。系统提供的有关SM的系统调用有: ---- int shmget(key,size,flag)——创建大小为size的SM段,其相应的数据结构名为key,并返回共享内存区的标识符shmid; ---- char shmat(shmid,address,flag)——将当前进程数据段的地址赋给shmget所返回的名为shmid的SM段; ---- int shmdr(address)——从进程地址空间删除SM段; ---- int shmctl (shmid,cmd,buf)——对SM的控制操作; ---- SM的大小只受主存限制,SM段的访问及进程间的信息交换可以通过同步读写来完成。同步通常由信号灯来实现。SM非常适合进程之间大量数据的共享。 ---- (5) 信号灯 ---- 在UNIX中,信号灯是一组进程共享的数据结构,当几个进程竞争同一资源时(文件、共享内存或消息队列等),它们的操作便由信号灯来同步,以防止互相干扰。 ---- 信号灯保证了某一时刻只有一个进程访问某一临界资源,所有请求该资源的其它进程都将被挂起,一旦该资源得到释放,系统才允许其它进程访问该资源。信号灯通常配对使用,以便实现资源的加锁和解锁。 ---- 进程间通信的实现技术的特点是:操作系统提供实现机制和编程接口,由用户在程序中实现,保证进程间可以进行快速的信息交换和大量数据的共享。但是,上述方式主要适合在同一台计算机系统内部的进程之间的通信。 3 应用程序间的通信及其实现技术 ---- 同进程之间的相互制约一样,不同的应用程序之间也存在竞争和协作的关系。UNIX操作系统也提供一些可用于应用程序之间实现数据共享与信息交换的编程接口,程序员可以通过自己编程来实现。如远程过程调用和基于TCP/IP协议的套接字(Socket)编程。但是,相对普通程序员来说,它们涉及的技术比较深,编程也比较复杂,实现起来困难较大。 ---- 于是,一种新的技术应运而生——通过将有关通信的细节完全掩盖在某个独立软件内部,即底层的通讯工作和相应的维护管理工作由该软件内部来实现,用户只需要将通信任务提交给该软件去完成,而不必理会它的具体工作过程——这就是所谓的中间件技术。 ---- 我们在这里分别讨论这三种常用的应用程序间通信的实现技术——远程过程调用、会话编程技术和MQSeries消息队列技术。其中远程过程调用和会话编程属于比较低级的方式,程序员参与的程度较深,而MQSeries消息队列则属于比较高级的方式,即中间件方式,程序员参与的程度较浅。 ---- 4.1 远程过程调用(RPC)
-
Grid++Report 锐浪报表开发常见问题解答集锦-报表设计 问:怎样在设计时打印预览报表? 答:为了及时查看报表的设计效果,Grid++Report 报表设计应用程序提供了四种查看视图:普通视图、页面视图、预览视图与查询视图。通过窗口下边的 Tab 按钮可以在四种视图中任意切换。在预览视图中查看报表的打印预览效果,在查询视图中查看报表的查询显示效果。如果在报表的记录集提供了数据源连接串与查询 SQL,在进入预览视图与查询视图时会利用数据源连接串与查询 SQL 从数据源中自动取数,否则 Grid++Report 将自动生成模拟数据进行模拟打印预览与查询显示。注意:在预览视图与查询视图中看到的报表运行结果有可能与在你程序中的最终运行结果有差异,因为在报表的生成过程中我们可以在程序中对报表的生成行为进行一定的控制。 问:怎样用 Grid++Report 设计交叉表? 答:Grid++Report 没有提供专门实现交叉表的功能,其它的报表构件提供的交叉表功能一般也比较死板和功能有限。利用 Grid++Report 的编程接口可以做出灵活多变,功能丰富的交叉表。示例程序 CrossTab 就是一个实现交叉表的例子程序,认真领会此例子程序,你就可以做出自己想要各种交叉表,并能提取一些共用代码,便于重复使用。 问:怎样设置整个报表的缺省字体? 答:设置报表主对象的字体属性,也就是设置了整个报表的缺省字体。如果改变报表主对象的字体属性,则没有专门的设置字体属性的子对象的字体属性也跟随改变。同样每个报表节与明细网格也有字体属性,他们的字体属性也就是其拥有的子对象的缺省字体。 问:怎样在打印时限制一页的输出行数? 答:设定明细网格的内容行的‘每页行数(RowsPerPage)’属性即可。另外要注意‘调节行高(AdjustRowHeight)’属性值:为真时根据页面的输出高度自动调整行的高度,使整个页面的输出区域充满。为假时按设计时的高度输出行。 问:怎样显示中文大写金额? 答:将对象的“格式(Format)”属性设为 “$$” 及可,可以设置格式的对象有:字段(IGRField)、参数(IGRParameter)、系统变量(IGRSystemVarBox)与综合文字框(IGRMemoBox),其中综合文字框是在报表式上设格式。 问:能否实现自定义纸张与票据打印? 答:Grid++Report 完全支持自定义纸张的打印,只要在报表设定时在页面设置中选定自定义纸张,并指定准确的纸张尺寸。当然要在最终输出时得道合适的打印结果,输出打印机必须支持自定义纸张打印。Windows2000/XP/2003 操作系统上可以在打印机上定义自定义纸张,也可以采用这种方式实现自定义纸张打印。 问:怎样实现 0 值不打印? 答:直接设置格式串就可以,在“数字格式”设置对话框中选定“0 不显示”,就会得到合适的格式串。也可以通过直接录入格式串来指定 0 不显示,但格式串必须符合 Grid++Report 的规定格式。另一种实现办法是在报表获取明细记录数据时,在 BeforePostRecord 事件中将值为零的字段设为空,调用字段的 Clear 方法将字段置为空。 问:怎样实现多栏报表? 答:在明细网格上设‘页栏数(PageColumnCount)’属性值大于 1 即可。通过 Grid++Report 的“页栏输出顺序”还可以指定多栏报表的输出顺序是“先从上到下”还是“先从左到右”。 问:如何实现票据套打? 答:Grid++Report 为实现票据套打做了很多专门的安排:报表设计器提供了页面设计模式,按照设定的纸张尺寸显示设计面板,如果将空白票据的扫描图设为设计背景图,在定位报表内容的输出位置会非常方便。报表部件可以设定打印类别,非套打输出的内容在套打打印模式下就不会输出。 问:Grid++Report 有没有横向分页功能? 答:回答是肯定的,在列的总宽度超过打印页面的输出宽度时,Grid++Report 可以另起新页输出剩余的列,如果左边存在锁定列,锁定列可以在后面的新页中重复输出,这样可以保证关键数据列在每一页都有输出。仔细体会 Grid++Report 提供的多种打印适应策略,选用最合适的方式。Grid++Report 的多种打印适应策略为开发动态报表提供了很好的支持。 问:怎样实现报表本页小计功能? 答:定义一个报表分组,将本分组定义为页分组,在本分组的分组头与分组尾上定义统计。页分组就是在每页产生一个分组项,在每页的上端与下端都会分别显示页分组的分组头与分组尾,页分组不用定义分组依据字段。 报表运行 问:怎样与数据库建立连接? 答:如果在设计报表时指定了数据集的数据源连接串与查询 SQL 语句,Grid++Report 采用拉模式直接从数据源取得报表数据,Grid++Report 利用 OLE DB 从数据源取数,OLE DB 提供了广泛的数据源操作能力。如果 Grid++Report 的数据来源采用推模式,即 Grid++Report 不直接与数据库建立连接,各种编程语言/平台都提供了很好的数据库连接方式,并且易于操作,应用程序在报表主对象(IGridppReport)的 FetchRecord 事件中将数据传入,例子程序提供了各种编程语言填入数据的通用方法,对C++Builder 和 Delphi 还进行了专门的包装,直接关联 TDataSet 对象也可以将 TDataSet 对象中的数据传给报表。 问:打印时能否对打印纸张进行自适应?支持表格的折行打印吗? 答:Grid++Report 在打印时采用多种适应策略,通过设置明细网格(IGRDetailGrid)的‘打印策略(PrintAdaptMethod)’属性指定打印策略。(1)丢弃:按设计时列的宽度输出,超出范围的内容不显示。(2)绕行:按设计时列的宽度输出,如果在当前行不能完整输出,则另起新行进行输出。(3)缩放适应:对所有列的输出宽度进行按比例地缩放,使总宽度等于页面的输出宽度。(4)缩小适应:如果列的总宽度小于页面的输出宽度,对所有列的输出宽度进行按比例地缩小,使总宽度等于页面的输出宽度。(5)横向分页:超范围的列在新页中输出。(6)横向分页并重复锁定列。 问:如何改变缺省打印预览窗口的窗口标题? 答:改变报表主对象的‘标题(Title)’属性即可。 问:利用集合对象的编程接口取子对象的接口引用,但不是自己期望的结果。 答:Grid++Report中所有集合对象的下标索引都是从 1 开始,另按对象的名称查找对象的接口引用时,名称字符是不区分大小写的。 问:怎样在运行时控制报表中各个对象的可见性?即怎样在运行时显示或隐藏对象? 答:在报表主对象(GridppReport)的 SectionFormat 事件中设定相应报表子对象的可见(Visible)属性即可。 问:报表主对象重新载入数据,设计器中为什么没有反映新载入的数据? 答:应调用 IGRDesigner 的 Reload 方法。 问:怎样实现不进入打印预览界面,直接将报表打印出来?
-
一些在处理Moore数据集时的实用技巧和步骤