◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。
我在Medium.com上发布了一系列七篇免费公开文章“如何在Google云平台的免费层上构建现代数据平台”。 主要文章位于:https://medium.com/@markwkiehl/building-a-data-platform-on-gcp-0427500f62e8
第一部分“在GCP上构建数据平台”定义了功能要求,并详细说明了如何安装所需的软件。
第二部分“GCP 基础设施和身份验证”解释了如何使用 Google 应用程序默认凭据 (ADC) 来对用户管理的服务帐户进行身份验证。
第三部分“Google Cloud Pub/Sub 消息传递”展示了如何使用 Python 脚本生成和订阅 Google Pub/Sub 消息传递服务。
第四部分“使用 Docker 进行容器化”介绍了如何为 Python 脚本构建本地 Docker 镜像,在本地运行它,然后将其推送到 Google ArtifactRegistry(存储库)。
第五部分“Google Cloud Run 作业和调度程序”演示了如何使用 Google CLI 配置 Google Cloud Run 作业和 Cloud Scheduler 作业,以从任何 Google 区域以指定的时间间隔执行存储在 Google Artifact 注册表中的 Python 脚本。
第六部分“Google BigQuery 云数据库”使用 Google CLI 设置 Google BigQuery 数据集和表,然后使用 Python 脚本通过 SQL 编写和查询数据。
第七部分“Google Cloud Analytics”探索了如何从 Google BigQuery 表中提取数据,将其加载到 Pandas DataFrame 中,并轻松执行分析和可视化 - 所有这些都来自 Python 脚本。
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。