1.6 Exercises

Exercise 1.10 找到每个日期分组中到达时间延迟最长的10条记录
Exercise 1.11 找出一年中到达航班多于 365 次的目的地:
Exercise 1.12 哪一架飞机(tailnum)具有最差的准点记录:

衡量一个飞机的准点情况有很多种可能的选择,这里只提供两个方向:

  • 该航班未取消且延误(到达和出发)次数占总飞行次数的比例最小
  • 该航班的平均到达延误时间最长

从第一个方向出发:

接下来是第二个方向:

Exercise 1.13 如果想要尽量避免航班延误,应该在一天中的哪个时间搭乘飞机?

hour 分组计算平均到达延误时间:

Exercise 1.14 计算每个目的地的到达延误总时间的分钟数,以及每条记录到每个目的地的延误时间比例
Exercise 1.15 延误通常是由临时原因造成的:即使最初引起延误的问题已经解决,但因为要让前面的航班先起飞,所以后面的航班也会延误。使用lag() 探究一架航班延误与前一架航班延误之间的关系。

Exercise 1.16 根据到达地点的数量,对航空公司进行排序 ; 找出至少有两个航空公司的目的地
Exercise 1.17 每天取消的航班数量和总航班数量存在什么关系?每天的平均到达延误时间和取消航班的比例有什么关系?

取消的航班定义为is.na(arr_delay) | is.na(dep_delay)

Exercise 1.18 哪个航空公司的延误情况最严重?你能否分清这是因为糟糕的机场设备,还是航空公司的问题?(考虑一下flights %>% group_by(carrier,dest) %>% summarize(n())

You can get part of the way to disentangling the effects of airports versus bad carriers by comparing the average delay of each carrier to the average delay of flights within a route (flights from the same origin to the same destination). Comparing delays between carriers and within each route disentangles the effect of carriers and airports. A better analysis would compare the average delay of a carrier’s flights to the average delay of all other carrier’s flights within a route.