pandas中的随机排序和抽样

最编程 2024-01-15 13:22:30

...

1.随机重排序

使用take()随机排序

如：

df.take([54]) #采取索引为54的数据

可以借助np.random.permutation()函数随机排序

permutation()函数是指产生0~n-1的所有整数的随机排列

、

如：对索引为0~10的数据进行随机排序

df.take(np.random.permutation(10))

(部分)

2.随机抽样：

当dataframe样本数据足够多时，对数据进行随机采样。

方法一：

使用np.random.randint()配合take()函数进行随机抽样

方法二：

使用sample(n)函数

n:是采样个数。

格式：df.sample(n)

上一篇：搞定排序和排名！用Pandas的Series、DataFrame和groupby功能

下一篇： pandas常用操作详解——排序函数sort_values和sort_index

推荐阅读

正负偏差变量即 d2+、d2- 分别表示决策值中超出和未达到目标值的部分。而 di+、di- 均大于 0 刚性约束和目标约束（柔性目标约束有偏差）在多目标规划中，>=/<= 在刚性约束中保持不变。当需要将约束条件转换为柔性约束条件时，需要将 >=/<= 更改为 =（因为已经有 d2+、d2- 用来表示正负偏差），并附加上 (+dii-di+) 注意这里是 +di、-di+！之所以是 +di，-di+，是因为需要将目标还原为最接近的原始刚性约束条件优先级因素和权重因素对多个目标进行优先排序和优先排序目标规划的目标函数是所有偏差变量的加权和。值得注意的是，这个加权和都取最小值。而 di+ 和 dii- 并不一定要出现在每个不同的需求层次中。具体分析需要具体问题具体分析下面是一个例子：题目中说设备 B 既要求充分利用，又要求尽可能不加班，那么列出的时间计量表达式即为：min z = P3 (d3- + d3 +) 使用 + 而不是 -d3 + 的原因是：正负偏差不可能同时存在，必须有 di+di=0 （因为判定值不可能同时大于目标值和小于目标值），而前面是 min，所以只要取 + 并让 di+ 和 dii- 都为正值即可。因此，得出以下规则：最后，给出示例和相应的解法：问题：某企业生产 A 和 B 两种产品，需要使用 A、B、C 三种设备。下表显示了与工时和设备使用限制有关的产品利润率。问该企业应如何组织生产以实现下列目标？ (1) 力争利润目标不低于 1 500 美元； (2) 考虑到市场需求，A、B 两种产品的生产比例应尽量保持在 1：2； (3）设备 A 是贵重设备，严禁超时使用； (4）设备 C 可以适当加班，但要控制；设备 B 要求充分利用，但尽量不加班。从重要性来看，设备 B 的重要性是设备 C 的三倍。建立相应的目标规划模型并求解。解：设企业生产 A、B 两种产品的件数分别为 x1、x2，并建立相应的目标计划模型：以下为顺序求解法，利用 LINGO 求解： 1 级目标：模型。设置。 variable/1..2/:x;! s_con_num/1...4/:g,dplus,dminus;！所需软约束数量（g=dplus=dminus 数量）及相关参数； s_con(s_con_num);！ s_con(s_con_num,variable):c;！软约束系数；结束集数据。 g=1500 0 16 15. c=200 300 2 -1 4 0 0 5; 结束数据 min=dminus(1);！第一个目标函数；！对应于 min=z 的第一小部分；！ 2*x(1)+2*x(2)<12;!硬约束 @for(s_con_num(i):@sum(variable(j):c(i,j)*x(j))+dminus(i)-dplus(i)=g(i)); ！使用设置完成的数据构建软约束表达式；！ !软约束表达式 @for(variable:@gin(x)); ！将变量约束为整数； ! 结束此时，第一级目标的最优值为 0，第一级偏差为 0：第二级目标： !求 dminus(1)=0，然后求解第二级目标。模型。设置。变量/1..2/:x;！设置：变量/1..2/:x; ！ s_con_num/1...4/:g,dplus,dminus;！软约束数量及相关参数； s_con(s_con_num(s_con_num));！ s_con(s_con_num,variable):c;! 软约束系数; s_con(s_con_num,variable):c;！结束集数据。 g=1500 0 16 15; c=200 300 2 -1 4 0 0 5; 结束数据 min=dminus(2)+dplus(2);！第二个目标函数 2*x(1)+2*x(2)<12;!硬约束 @for(s_con_num(i):@sum(variable(j):c(i,j)*x(j))+dminus(i)-dplus(i)=g(i)); ！软约束表达式；！ dminus(1)=0; ！第一个目标结果 @for(variable:@gin(x)); ！结束此时，第二个目标的最优值为 0，偏差为 0：第三目标 !求 dminus(2)=0，然后求解第三个目标。模型。设置。变量/1..2/:x;！设置：变量/1..2/:x; ！ s_con_num/1...4/:g,dplus,dminus;！软约束数量及相关参数； s_con(s_con_num(s_con_num));！ s_con(s_con_num,variable):c;! 软约束系数; s_con(s_con_num,variable):c;！结束集数据。 g=1500 0 16 15; c=200 300 2 -1 4 0 0 5; 结束数据 min=3*dminus(3)+3*dplus(3)+dminus(4);！第三个目标函数。 2*x(1)+2*x(2)<12;!硬约束 @for(s_con_num(i):@sum(variable(j):c(i,j)*x(j))+dminus(i)-dplus(i)=g(i)); ！软约束表达式；！ dminus(1)=0; ！第一个目标约束条件；！ dminus(2)+dplus(2)=0; ！第二个目标约束条件 @for(variable:@gin(x));！结束最终结果为 x1=2，x2=4，dplus(1)=100，最优利润为
气泡排序（超级详细）--升序"，从小到大；另一种是 "降序"，从大到小。该主题可抽象为 "按升序对 n 个数字排序 "的一般形式。排序是一种重要的基本算法。排序的方法有很多种，但在本题中我们将使用冒泡排序法。冒泡法的基本思想冒泡法的基本思想是，每次比较相邻的两个数字时，较小的那个会被移到前面。如果有 5 个数字9,8,5,2,0，第一次将前两个数字 8 和 9 互换。第二次将第二个和第三个数字（9 和 5）对调......这样一共对调 4 次，得到 8-5-2-0-9 的顺序，可以看到：最大的数字 9 一直在 "下沉"，成为最下面的一个数字，而小的数字 "上升" 最小的数字 "上升"。最小的数字 0 已经向上 "浮 "了一个位置。经过第一次比较（共 4 次比较和交换），得到了最大的数字 9。然后进行第二趟比较，对剩下的前 4 个数字（8、5、2、0）进行新一轮比较，这样第二个最大的数字就 "沉到了底部"。同样，按照上述方法进行第二轮比较。经过 3 次比较和交换，我们得到了第二大数 8。按照这个规律，我们可以推断出，比较 5 个数字需要 4 次旅行，才能将 5 个数字从小到大排列起来。在第一次旅行中，两个数字之间进行了 4 次比较，在第二次旅行中，进行了 3 次比较......在第四次旅行中，只进行了一次比较。思路总结总结：如果有 n 个数字，那么要进行 n-1 次比较。在第一次行程中进行 n-1 次比较，在第 i 次行程中进行 n-i 次比较。
必读|spark 中的分区和排序
概率中的随机变量和分布 - 连续分布
排序基础 - c++ 中的插入式排序和打开二维数组
基于 MapReduce+Pandas 的电影排序和推荐以及数据分析和可视化展示
一篇文章：TiDB 和 MySQL 中的常见字符集和排序规则
Mysql 中 utf8_unicode_ci 和 utf8_general_ci 排序规则的区别汇总
紧急模式问题处理 - 图 1 紧急模式根本原因分析应急模式提供了尽可能小的环境，即使无法进入应急模式，也可以在其中修复系统。在应急模式下，系统只安装根文件系统供读取，不尝试安装任何其他本地文件系统，不激活网络接口，只启动一些基本服务。进入应急模式的原因通常是 /etc/fstab 文件中存在错误，导致文件系统挂载失败。文件系统中存在错误，导致。约束和限制本节适用于 Linux 操作系统紧急模式。程序涉及修复文件系统。修复文件系统有丢失数据的风险，因此请先备份数据，然后再执行修复操作。处理方法输入根密码，然后进入修复模式。在应急模式下，根分区以只读模式挂载。要修改根目录中的文件，需要执行以下命令以读写模式重新挂载根分区。# mount -o rw,remount / 请执行以下命令首先检查 fstab 文件是否有误，然后尝试挂载所有未挂载的文件系统。# mount -a 如果挂载点不存在，请创建一个挂载点。如果不存在此类设备，请注释或删除挂载行。如果指定了不正确的挂载选项，请将挂载参数更改为正确的参数。如果没有发生错误，但出现 UNEXPECTED INCONSISTENCY;RUN fsck MANUALLY 消息（通常是由文件系统错误引起的），请跳至第 7 步。执行以下命令打开 /etc/fstab 以修改相应的错误。# vi /etc/fstab /etc/fstab 文件包含以下字段，以空格分隔：[文件系统] [dir] [type] [options] [dump] [fsck] 表 1 /etc/fstab 参数说明参数说明 [文件系统］要挂载的分区或存储设备。文件系统]列建议以 UUID 的形式写入。执行 blkid 命令可查询设备文件系统 UUID。参考格式如下： # <device> <dir> <type> <options> <dump> <fsck>； UUID=b411dc99-f0a0-4c87-9e05-184977be8539 /home ext4 defaults 0 2 使用 UUID 的好处是，它们与磁盘顺序无关。如果你在 BIOS 中更改了存储设备的顺序，或重新插入了存储设备，或者因为某些 BIOS 可能会随机更改存储设备的顺序，那么使用 UUID 会更有效率。 [文件系统］文件系统]的挂载位置。类型挂载设备或分区的文件系统类型，支持多种不同的文件系统：ext2、ext3、ext4、reiserfs、xfs、jfs、smbfs、iso9660、vfat、ntfs、swap 和 auto。设置为自动类型后，挂载命令会猜测所使用的文件系统类型，这对 CDROM 和 DVD 等移动设备非常有用。选项挂载时要使用的参数，有些参数是特定文件系统特有的。例如，默认值参数使用文件系统的默认挂载参数，ext4 的默认参数为：rw、suid、dev、exec、auto、nouser、async。有关更多参数，请执行以下命令查看 man 手册：# man mount
LL今天心情很好，因为他去买了一副扑克牌，发现有2张K和2张Q（一副扑克牌是54张牌^_^）......他从这副扑克牌中随机抽出 5 张牌，想试试自己的运气，看看能不能抽到顺子，如果能抽到顺子的话（简单易懂）-标题说明

pandas中的随机排序和抽样

必读|spark 中的分区和排序

概率中的随机变量和分布 - 连续分布

排序基础 - c++ 中的插入式排序和打开二维数组

基于 MapReduce+Pandas 的电影排序和推荐以及数据分析和可视化展示

一篇文章：TiDB 和 MySQL 中的常见字符集和排序规则

Mysql 中 utf8_unicode_ci 和 utf8_general_ci 排序规则的区别汇总

LL今天心情很好，因为他去买了一副扑克牌，发现有2张K和2张Q（一副扑克牌是54张牌^_^）......他从这副扑克牌中随机抽出 5 张牌，想试试自己的运气，看看能不能抽到顺子，如果能抽到顺子的话（简单易懂）-标题说明