Skip to content

Commit 6aad7d0

Browse files
committed
Dataproc tutorial: clean-up, spelling fixes, link from readme
1 parent fd3d098 commit 6aad7d0

2 files changed

Lines changed: 17 additions & 9 deletions

File tree

README.md

Lines changed: 2 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -24,7 +24,7 @@ If you find a bug or you want to contribute some comments, please [fill an issue
2424
- Clustering
2525
- [Docker](infra/docker/docker.md)
2626
- [Kubernetes](infra/kubernetes/kubernetes.md)
27-
- [Cloud Dataproc](infra/dataproc.md)
27+
- [Cloud Dataproc](infra/dataproc.md) - [Start Tutorial](https://ssh.cloud.google.com/cloudshell/open?cloudshell_git_repo=https://github.com/luisbelloch/data_processing_course.git&page=editor&cloudshell_tutorial=infra/dataproc.md) (in Spanish)
2828
8. Apache Beam
2929
- [Rationale](http://www.vldb.org/pvldb/vol8/p1792-Akidau.pdf)
3030
- [Docker container using Python SDK](infra/beam/beam.md)
@@ -94,7 +94,7 @@ To be added soon, stay tuned!
9494
- [Beam on Docker](infra/beam/beam.md)
9595
- [Spark on Kubernetes](infra/kubernetes/kubernetes.md)
9696
- [Spark on Google Cloud Dataproc](infra/dataproc.md)
97-
- Tutorial for Dataproc in Cloud Shell [[English]() / [Spanish]()]
97+
- Tutorial for Dataproc in Cloud Shell English / [Spanish](https://ssh.cloud.google.com/cloudshell/open?cloudshell_git_repo=https://github.com/luisbelloch/data_processing_course.git&page=editor&cloudshell_tutorial=infra/dataproc.md)]
9898
- [PySpark Jupyter Notebook](infra/pyspark-jupyter/README.md)
9999

100100
## Assignments

infra/dataproc.md

Lines changed: 15 additions & 7 deletions
Original file line numberDiff line numberDiff line change
@@ -4,6 +4,10 @@ Dataproc es la versión gestionada de Spark en Google Cloud. En este tutorial va
44

55
Duración estimada: <walkthrough-tutorial-duration duration="45"></walkthrough-tutorial-duration>
66

7+
## Selecciona un proyecto
8+
9+
<walkthrough-project-setup></walkthrough-project-setup>
10+
711
## Preparación
812

913
### 1. Habilita las APIs necesarias
@@ -12,11 +16,7 @@ Antes de continuar es necesario habilitar las APIs de Cloud Storage y Dataproc.
1216

1317
<walkthrough-enable-apis apis="dataproc.googleapis.com,storage.googleapis.com ">Habilitar APIs</walkthrough-enable-apis>
1418

15-
### 2. Selecciona un proyecto
16-
17-
<walkthrough-project-setup></walkthrough-project-setup>
18-
19-
### 3. Abre una terminal
19+
### 2. Abre una terminal
2020

2121
La mayoría de los comandos pueden ejecutarse desde la interfaz de usuario, pero en el tutorial utilizaremos la consola de cloudshell.
2222

@@ -27,7 +27,13 @@ arriba a la derecha, o utilizando el siguiente enlace:
2727

2828
### 3. Materiales de clase
2929

30-
Asegurate de que la carpeta `cloudshell_open/data_processing_course` se ha creado. Sino, puedes abrir de nuevo el proyecto desde [bigdata.luisbelloch.es](http://bigdata.luisbelloch.es) y seleccionando [Open in Cloud Shell](https://console.cloud.google.com/cloudshell/editor?cloudshell_git_repo=https://github.com/luisbelloch/data_processing_course.git).
30+
Asegurate de que la carpeta `cloudshell_open/data_processing_course` se ha creado y la terminal apunta a esa carpeta.
31+
32+
```sh
33+
cd ~/cloudshell_open/data_processing_course
34+
```
35+
36+
Sino, puedes abrir de nuevo el proyecto desde [bigdata.luisbelloch.es](http://bigdata.luisbelloch.es) y seleccionando [Open in Cloud Shell](https://console.cloud.google.com/cloudshell/editor?cloudshell_git_repo=https://github.com/luisbelloch/data_processing_course.git).
3137

3238
Alternativamente puedes clonar el repositorio mediante `git`:
3339

@@ -45,6 +51,8 @@ En nuestro caso podemos usar la terminal para crearlo:
4551
gsutil mb -c regional -l europe-west1 gs://NOMBRE_BUCKET
4652
```
4753

54+
Recuerda que el nombre del bucket `NOMBRE_BUCKET` debe ser único en internet.
55+
4856
Para copiar datos puede utilizarse tambien `gsutil` con `cp`:
4957

5058
```sh
@@ -141,7 +149,7 @@ STATUS: DONE
141149
Utilizando ese `JOB_ID` podemos también consultar el estado y los logs del trabajo, incluso antes de que finalize:
142150

143151
```sh
144-
gcloud dataproc jobs wait 2c5c402a995e424ca24087498d559731 --project bigdataupv2021 --region europe-west1
152+
gcloud dataproc jobs wait 2c5c402a995e424ca24087498d559731 --project bigdataupv2022 --region europe-west1
145153
```
146154

147155
## Paso 6: Eliminar el cluster

0 commit comments

Comments
 (0)