# www.websiteboosting.com / Patrik Luerwer & Mario Fischer

# Codebeispiel fuer R - Website Boosting Ausgabe 66
# Aus der Serie "R Leuchtungen", Teil 5
# Alle Zeilen, die mit # beginnen, dienen nur der Erklaerung
# und werden von R ignoriert.

### Teil 1 des Skrips

# Hinweis. Die vier nachfolgenden Librarys muessen einmalig installiert
# werden. Wie das geht, steht im Heft! Danach kann man die beiden Zeilen loeschen.

# Das erste Mal installieren:

install.packages("googleAuthR")
install.packages("searchConsoleR")
install.packages("tidyverse")
install.packages("janitor ")

# Nachfolgended werden die Librarys in den Speicher von R geladen:

library(googleAuthR)
library(searchConsoleR)
library(tidyverse)
library(janitor)

# Authentifizierung ---------------------------------------------

options(googleAuthR.scopes.selected = "https://www.googleapis.com/auth/webmasters.readonly")

PATH_TO_KEY_FILE <- "r-leuchtungen-cf8226dd9718.json"

gar_auth_service(PATH_TO_KEY_FILE)

#### TOEDIT: Berichtszeitraum eintragen
START_DATE <- "2019-11-01"
END_DATE <- "2020-11-30"

#### TOEDIT: Abzufragende Property eintragen
# list_websites() %>% View()
GSC_PROP <- "https://www.websiteboosting.com/"

#### TOEDIT: Begriffe eintragen, der den eigenen Brand ausschliesst
BRAND <- c("website boosting",
           "websiteboosting")

# Begriffe zusammenbauen, um die Brand-Phrasen spaeter auszuschliessen
BRAND_REGEX <- str_c(BRAND, collapse = "|") %>% 
  str_c("(", ., ")")

# Daten von der API abfrgen
gsc_data <- search_analytics(siteURL = GSC_PROP,
                             startDate = START_DATE,
                             endDate = END_DATE,
                             dimensions = c("page", "query"),
                             searchType = "web",
                             walk_data = "byBatch",
                             rowLimit = 50000)

# Top Keywords pro Seite ermittlen
top_query_page <- gsc_data %>%
  filter(!str_detect(page, "#.*")) %>% # Anker URls entfernen. Koennen u.a. durch Featured-Snippet-Rankings entstehen
  filter(!str_detect(query, BRAND_REGEX)) %>% # Brand entfernen, da solche Rankings hier nicht von Interesse sind
  group_by(page) %>%
  slice_max(impressions, n = 1) %>% # Nur die Query je Page mit den meisten Impressions behalten
  ungroup()

# URLs der Keywords (Queries) exportieren, um sie mit dem Screaming Frog zu crawlen
top_query_page %>%
  select(page) %>%
  write.table("pages.txt", quote = FALSE, row.names = FALSE, col.names = FALSE)

### Ende des ersten Teils des Skrips
### Siehe Beitrag im Heft / Jetzt wird der Screaming Frog verwendet