延续来打探dplyr中的外发出因此函数

生个回家就是起来电脑的总公

 

宝贝操碎了心中

1、sample()


目的是得于一个数量框中,随机抽取一些实行,然后成新的数据框。


sample_n(tbl, size, replace = FALSE, weight = NULL, .env =
parent.frame())

混沌村

sample_frac(tbl, size = 1, replace = FALSE, weight = NULL, .env =
parent.frame())

曹县先是叫做村

由参数来拘禁,sample输入数据是tbl格式,size代表抽取的个数,replace指的凡能否再度抽取,weight指的凡抽取比重。

中原睡眠前刷机委认证

另外,sample_frac是依比例进行抽样。

马云马化腾马蓉联名推荐

下面来拘禁几实际的例子

真的不关心呢?

sample_n(mtcars, 10)

统计 1

sample_n(mtcars, 20, replace = TRUE)

统计 2

sample_n(group_by(mtcars,cyl), 3)

统计 3

本着数据分组后,再开展取样是以每组个抽取size个数的数开展抽样。

sample_frac(mtcars, 0.1)

统计 4

意味着从数量由随机抽取1%底数据。

 

2、对少只数据集进行操作的函数 

intersect(x, y, …)

union(x, y, …)

union_all(x, y, …)

setdiff(x, y, …)

setequal(x, y, …)

intersect
用于求少个函数的交集部分数据,union求并集结有数据,union_all求少独数据集的合集,

setdiff求两只数据集差异部分,setequal判别两单数据集是否同样

脚来拘禁把实际的例证

mtcars$model <- rownames(mtcars)
first <- mtcars[1:20, ]
second <- mtcars[10:32, ]

first 数据集打印结果 

统计 5

 

second数据集打印结果 

统计 6

intersect(first, second)

统计 7

union(first, second)

统计 8

setdiff(first, second)

统计 9

setdiff(second, first)

统计 10

 这里值得注意的凡,setdiff(first, second) 和 setdiff(second,
first)的结果是勿一致的。

setequal(mtcars, mtcars[32:1, ])

TRUE  

  

3、slice()

准实际数额所在行进行抽取数据,即定向抽取数据。

slice(.data, …)

下面来拘禁把实际的事例

slice(mtcars, 1L)

统计 11

抽取第一实行数据

slice(mtcars, n())

统计 12

抽取最后一行数

slice(mtcars, 25:n())

统计 13

抽取第25实施至终极一行数

slice(group_by(mtcars, cyl), 1:2)

统计 14

论cyl分组后,每组抽取前片实行数据

本以上各组数据的抽取为堪据此filter函数进行落实

filter(mtcars, row_number() == 1L)
filter(mtcars, row_number() == n())
filter(mtcars, between(row_number(), 5, n()))

  

3、tally()

用于统计数据行数

tally(x, wt, sort = FALSE)

count(x, …, wt = NULL, sort = FALSE)

直接冲实例来观这几乎个函数的区分

tally(mtcars)

统计 15

一直回mtcars总行多次。

count(mtcars)

统计 16

啊是返回mtcars总行数 

tally(mtcars,cyl)

 统计 17

回来cyl列所有数据求和后底结果

count(mtcars,cyl)

统计 18

回到每个cyl并统计每个值得个数。

tally(group_by(mtcars,cyl))

统计 19

跟方count(mtcars,cyl)的效力等同。

tally(group_by(mtcars,cyl),mpg)

 统计 20

依据cyl分组后,对mpg进行求和

count(group_by(mtcars,cyl),mpg)

统计 21

展开频繁分组统计。