Paramètres

J’ai mis les données sur Github afin de pouvoir répliquer le notebook facilement.

Le code ci dessous importe la data, formate les variables dates et arrange les variables stock et markingdate par ordre croissant.

library(tidyverse)

## ── Attaching packages ────────────────────────────────── tidyverse 1.2.1 ──

## ✔ ggplot2 3.0.0     ✔ purrr   0.3.2
## ✔ tibble  2.1.3     ✔ dplyr   0.8.1
## ✔ tidyr   0.8.3     ✔ stringr 1.3.1
## ✔ readr   1.1.1     ✔ forcats 0.3.0

## ── Conflicts ───────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()

library(lubridate)

## 
## Attaching package: 'lubridate'

## The following object is masked from 'package:base':
## 
##     date

nbStart <- dmy('01/01/2018')
nbEnd <- dmy('31/12/2018')

PATH <- "https://raw.githubusercontent.com/thomaspernet/data_csv_r/master/data/CSAV_data.csv"
####
df <-  read.csv(PATH, sep = ';') %>%
  mutate(MarkingDate = dmy(MarkingDate),
         DateDiv = dmy(DateDiv),
         PayDate = dmy(PayDate)) %>%
  filter(MarkingDate >=nbStart &  MarkingDate <=nbEnd) %>%
  arrange(Stock, MarkingDate)
head(df)

ABCDEFGHIJ0123456789

	Stock <fctr>	MarkingDate <date>	DateDiv <date>	Amount <dbl>	Yield <dbl>	PayDate <date>
1	A	2018-01-19	2028-05-25	0.19840827	0.7314076	2028-05-27
2	A	2018-01-27	2018-03-27	0.66069852	0.9256678	2018-03-29
3	A	2018-03-07	2020-10-15	0.98637098	0.1341740	2020-10-17
4	A	2018-03-09	2027-03-09	0.04810276	0.5438115	2027-03-11
5	A	2018-03-16	2027-03-09	0.12100246	0.5250203	2027-03-11
6	A	2018-05-08	2024-12-18	0.52828346	0.4722505	2024-12-20

1- Bonus Create Bucket

Ici, on souhaite créer une variable bucket, qui est un index si la MarkingDate est entre deux dates. Pour cela, on va utiliser la fonction findInterval.

C’est assez simple, il suffit de créer un vecteur de date qui va spliter la columne MarkingDate. Par exemple, on souhaite créer un bucket index pour un intervalle tous les trois mois. On créer un vecteur de date:

date_bucket <- c(ymd("2018-03-01"), ymd("2018-06-01"), ymd("2018-09-01"))

Note que j’utilise lubridate pour créer les dates, cela facilite la manipulation. Ensuite, je vais grouper les MarkingDate selon si elles sont dans les intervalles. Par exemple, si une date est entre le premier intervalle, alors le bucket est 0, si la date est entre le deuxième intervalle, alors bucket est égale a 1 et ainsi de suite. Toutes les dates au delà du dernier intervalle vont avoir un index max + 1. Dans notre example, il y a 3 intervalles, toutes les dates au delà du dernier intervalle auront la valeur 3

Attention, il faut que les date soient dans un ordre croissant, c’est pour cela que j’utilise arrange()

Pour pus d’info sur la fonction, ici

date_bucket <- c(ymd("2018-03-01"), ymd("2018-06-01"), ymd("2018-09-01"))

df <- df %>% arrange(MarkingDate) %>%
  mutate(bucket = findInterval(MarkingDate, 
                                  date_bucket)
                )
df

ABCDEFGHIJ0123456789

Stock <fctr>	MarkingDate <date>	DateDiv <date>	Amount <dbl>	Yield <dbl>	PayDate <date>	bucket <int>
B	2018-01-06	2021-06-09	0.98567112	0.03032796	2021-06-11	0
E	2018-01-08	2025-01-16	0.90836800	0.04355572	2025-01-18	0
A	2018-01-19	2028-05-25	0.19840827	0.73140765	2028-05-27	0
E	2018-01-25	2020-01-24	0.16332093	0.56345047	2020-01-26	0
A	2018-01-27	2018-03-27	0.66069852	0.92566777	2018-03-29	0
E	2018-02-13	2030-08-07	0.21240680	0.06426655	2030-08-09	0
A	2018-03-07	2020-10-15	0.98637098	0.13417399	2020-10-17	1
A	2018-03-09	2027-03-09	0.04810276	0.54381153	2027-03-11	1
E	2018-03-13	2027-05-13	0.42707006	0.84926764	2027-05-15	1
A	2018-03-16	2027-03-09	0.12100246	0.52502034	2027-03-11	1

1- nb de markind dates sur une periode (01/01/18 à 31/12/18)

On extrait uniquement les valeurs uniques par groupe

df %>% 
  group_by(Stock) %>%
  select(Stock, MarkingDate) %>%
  unique()

ABCDEFGHIJ0123456789

Stock <fctr>	MarkingDate <date>
B	2018-01-06
E	2018-01-08
A	2018-01-19
E	2018-01-25
A	2018-01-27
E	2018-02-13
A	2018-03-07
A	2018-03-09
E	2018-03-13
A	2018-03-16

Intervalle

Intervalle max entre deux dates de marking consécutives +
intervalle aux limites entre a- (01/01/18 et 1ere date de arking) et
b- entre (dernière date de marking et 31/12/18) + les cas où il n’y a pas d’observation

on prend seulement le lag

#### No upper/lower bounds
df %>% group_by(Stock) %>%
select(Stock, MarkingDate) %>%
mutate(diff_days = MarkingDate - lag(MarkingDate, 1))

ABCDEFGHIJ0123456789

Stock <fctr>	MarkingDate <date>	diff_days <time>
B	2018-01-06	NA days
E	2018-01-08	NA days
A	2018-01-19	NA days
E	2018-01-25	17 days
A	2018-01-27	8 days
E	2018-02-13	19 days
A	2018-03-07	39 days
A	2018-03-09	2 days
E	2018-03-13	28 days
A	2018-03-16	7 days

On séléctionne par groupe uniquement la première et dernière date

#### Upper/lower bounds   

df %>% group_by(Stock) %>%
  select(Stock, MarkingDate) %>%
  filter(row_number() %in% c(1, n())) %>%
  mutate(diff_days_limits = ifelse(row_number() == 1,
                                   MarkingDate - nbStart,
                                   nbEnd - MarkingDate))

ABCDEFGHIJ0123456789

Stock <fctr>	MarkingDate <date>	diff_days_limits <dbl>
B	2018-01-06	5
E	2018-01-08	7
A	2018-01-19	18
D	2018-07-06	186
B	2018-07-17	167
E	2018-08-21	132
D	2018-10-19	73
A	2018-11-26	35

intervalle avec nombre d’obs

Intervalle max contenant 4 observations

On souhaite avoir les dates non pas en lag mais en forward; Pour aller vers l’avant, on utilise lead

df %>% group_by(Stock) %>%
  select(Stock, MarkingDate) %>%
  mutate(diff_days =lead(MarkingDate, 4) - MarkingDate)

ABCDEFGHIJ0123456789

Stock <fctr>	MarkingDate <date>	diff_days <time>
B	2018-01-06	NA days
E	2018-01-08	88 days
A	2018-01-19	56 days
E	2018-01-25	82 days
A	2018-01-27	101 days
E	2018-02-13	83 days
A	2018-03-07	149 days
A	2018-03-09	147 days
E	2018-03-13	119 days
A	2018-03-16	164 days

intervalle aux limites entre (01/01/18 et les 5 ères dates de marking)

On séléctionne uniquement les 5 premières valeurs par groupe

df %>% group_by(Stock) %>%
  select(Stock, MarkingDate) %>%
  filter(row_number() %in% c(seq(1,5))) %>%
  mutate(diff_days = MarkingDate - nbStart)

ABCDEFGHIJ0123456789

Stock <fctr>	MarkingDate <date>	diff_days <time>
B	2018-01-06	5 days
E	2018-01-08	7 days
A	2018-01-19	18 days
E	2018-01-25	24 days
A	2018-01-27	26 days
E	2018-02-13	43 days
A	2018-03-07	65 days
A	2018-03-09	67 days
E	2018-03-13	71 days
A	2018-03-16	74 days

entre (4 dernières dates de marking et 31/12/18)

On séléctionne les 4 dernières valeurs par groupe

df %>% group_by(Stock) %>%
  select(Stock, MarkingDate) %>%
  filter(row_number() %in% c(seq(n() - 3, n()))) %>%
  mutate(diff_days = nbEnd- MarkingDate)

ABCDEFGHIJ0123456789

Stock <fctr>	MarkingDate <date>	diff_days <time>
B	2018-01-06	359 days
E	2018-04-17	258 days
E	2018-05-07	238 days
D	2018-07-06	178 days
E	2018-07-10	174 days
B	2018-07-11	173 days
B	2018-07-17	167 days
E	2018-08-21	132 days
A	2018-08-27	126 days
D	2018-09-17	105 days

cas ou il y a exactement 4 observations + le cas ou il y a moins de 4 observations
- Je ne comprends pas très bien

Exclure duplicates

Faire les memes KPI que ci-dessus mais cette fois on ne conservant que les marking dates pour lesquelles les valeurs ont bougé (nos fameux carrés).

L’idée est de séléctionner les index des observations qui ont des duplicates ie valeurs identiques. Ensuite, on peut filtrer la data en séléctionnant uniquement les indexes non duplicates

Attention, j’ai crée à la main des valeurs identiques pour faire un test.

PATH2 <- "https://raw.githubusercontent.com/thomaspernet/data_csv_r/master/data/CSAV_data_square.csv"
##### Ci dessous, test avec 2018-01-19 & 2018-01-27 & 2018-08-03 & 2018-08-27 complétements identiques
df_s <-  read.csv(PATH2, sep = ';') %>%
  mutate(MarkingDate = dmy(MarkingDate),
         DateDiv = dmy(DateDiv),
         PayDate = dmy(PayDate)) %>%
  filter(MarkingDate >=nbStart &  MarkingDate <=nbEnd) %>%
  arrange(Stock, MarkingDate)

Juste pour info, voici les duplicates

### For the record: the duplicates
df_s %>% 
  rownames_to_column() %>%
  group_by(Stock, DateDiv,Amount,Yield,PayDate) %>%
  filter(n() > 1)

ABCDEFGHIJ0123456789

rowname <chr>	Stock <fctr>	MarkingDate <date>	DateDiv <date>	Amount <fctr>	Yield <fctr>	PayDate <date>
1	A	2018-01-19	2018-03-27	0,504180175	0,529691742	2018-03-29
2	A	2018-01-19	2019-03-06	0,617089322	0,802879881	2019-03-08
3	A	2018-01-19	2021-02-13	0,249404778	0,214731983	2021-02-15
4	A	2018-01-19	2028-05-25	0,169321967	0,062993934	2028-05-27
5	A	2018-01-19	2030-07-25	0,70249701	0,830123581	2030-07-27
6	A	2018-01-27	2018-03-27	0,504180175	0,529691742	2018-03-29
7	A	2018-01-27	2019-03-06	0,617089322	0,802879881	2019-03-08
8	A	2018-01-27	2021-02-13	0,249404778	0,214731983	2021-02-15
9	A	2018-01-27	2028-05-25	0,169321967	0,062993934	2028-05-27
10	A	2018-01-27	2030-07-25	0,70249701	0,830123581	2030-07-27

Premièrement, on extrait les duplicated indexes

##### Extract index duplicates
index_duplicates <- df_s %>% 
  rownames_to_column() %>%
  group_by(Stock, DateDiv,Amount,Yield,PayDate) %>%
  filter(n() > 1) %>% 
  ungroup()%>%
  select(rowname) %>%
  mutate(rowname = as.integer(rowname))

index_duplicates$rowname

##  [1]  1  2  3  4  5  6  7  8  9 10 15 16 17 18

Ensuite, on filtre la data de base

###### Extract row index of non duplicates
df_s %>%
  filter(!row_number() %in% index_duplicates$rowname)

ABCDEFGHIJ0123456789

Stock <fctr>	MarkingDate <date>	DateDiv <date>	Amount <fctr>	Yield <fctr>	PayDate <date>
A	2018-03-07	2020-10-15	0,751402437	0,928430407	2020-10-17
A	2018-03-09	2027-03-09	0,804697678	0,115214351	2027-03-11
A	2018-03-16	2027-03-09	0,978694376	0,60700226	2027-03-11
A	2018-05-08	2024-12-18	0,955958964	0,348264355	2024-12-20
A	2018-11-07	2025-01-09	0,06871976	0,156615967	2025-01-11
A	2018-11-26	2023-11-03	0,581073654	0,224794875	2023-11-05
B	2018-01-06	2021-06-09	0,236671727	0,913383095	2021-06-11
B	2018-07-11	2027-01-15	0,413232814	0,92665377	2027-01-17
B	2018-07-17	2023-02-26	0,480667267	0,357772605	2023-02-28
D	2018-07-06	2020-01-23	0,808655576	0,454175883	2020-01-25

R Notebook

Paramètres

1- Bonus Create Bucket

1- nb de markind dates sur une periode (01/01/18 à 31/12/18)

Intervalle

intervalle avec nombre d’obs

Exclure duplicates