This function is used to scrape one element from a website.
scrap(link, node, clean = FALSE, askRobot = FALSE)
the link of the web page to scrape
the HTML or CSS element to consider, the SelectorGadget tool is highly recommended
logical. Should the function clean the extracted vector or not ? Default is FALSE.
logical. Should the function ask the robots.txt if we're allowed or not to scrape the web page ? Default is FALSE.
a character vector
# \donttest{
# Extracting imdb top 250 movie titles
link <- "https://www.imdb.com/chart/top/"
node <- "h3.ipc-title__text"
scrap(link, node)
#> [1] "IMDb Charts"
#> [2] "1. Die Verurteilten"
#> [3] "2. Der Pate"
#> [4] "3. The Dark Knight"
#> [5] "4. Der Pate 2"
#> [6] "5. Die zwölf Geschworenen"
#> [7] "6. Der Herr der Ringe: Die Rückkehr des Königs"
#> [8] "7. Schindlers Liste"
#> [9] "8. Pulp Fiction"
#> [10] "9. Der Herr der Ringe: Die Gefährten"
#> [11] "10. Zwei glorreiche Halunken"
#> [12] "11. Forrest Gump"
#> [13] "12. Der Herr der Ringe: Die zwei Türme"
#> [14] "13. Fight Club"
#> [15] "14. Inception"
#> [16] "15. Star Wars: Episode V - Das Imperium schlägt zurück"
#> [17] "16. Matrix"
#> [18] "17. GoodFellas - Drei Jahrzehnte in der Mafia"
#> [19] "18. Interstellar"
#> [20] "19. Einer flog über das Kuckucksnest"
#> [21] "20. Sieben"
#> [22] "21. Ist das Leben nicht schön?"
#> [23] "22. Das Schweigen der Lämmer"
#> [24] "23. Die sieben Samurai"
#> [25] "24. Der Soldat James Ryan"
#> [26] "25. The Green Mile"
#> [27] "Recently viewed"
# }