Difficile d'expliquer synthétiquement dans mon titre. Cette commande part d'une video de départs (en général 24 ou 25 images par secondes) et à partir de cette video, ne va extrair UN image toutes les N secondes, puis les concatene. Chacune de ces images sera affichée N secondes.
Ici, N vaut 2 :

ffmpeg -i script-out.mp4 -an -vf "select='isnan(prev_selected_t)+gte(t-prev_selected_t,2)',setpts=0.20*PTS" output.mp4