2  Google Colab 入门指南

2.1 学习目标

  • 了解什么是Google Colab 以及它在数据科学和人工智能方面的优势
  • 学习如何访问和使用 Google Colab
  • 在 Google Colab 中创建和管理笔记本
  • 在 Colab 单元格中运行 Python 代码
  • 使用文本单元格进行解释和格式化
  • 导入和使用系统自带的数据分析库
  • 导入和使用外部数据进行分析
  • 分享 Colab 笔记本

2.2 简介

Google Collaboratory(简称 Colab)是一个免费的在线平台,允许您在浏览器中使用 Python 或 R 代码。对于 Python 入门来说,这是一个很好的方式,因为您不需要在计算机上安装任何系统。

如果运行重负载工作,系统会有一些限制,可能会出现超时的情况。但对于初学数据分析的人来说,Google Colab确实是一个完美的选择。

请注意,本文档是视频的摘要,不能完全替代视频。您需要观看视频以获得更完整的体验。

2.3 Colab 入门

  • 在您喜欢的搜索引擎中搜索”Google Colab”
  • 通常第一个结果就是正确的。目前是 colab.research.google.com,但未来可能会改变
  • 使用您的 Google 账户登录(如果没有,请创建一个 Gmail 账户)

2.4 创建和管理笔记本

  • 笔记本是在 Colab 中组织工作的主要方式,包含代码单元格和文本单元格
  • 创建新笔记本:文件 > 新建笔记本
  • 重命名笔记本以便于组织

2.5 使用代码单元格

  • 左上角应该有一个按钮,允许您添加代码或文本单元格
  • 代码单元格是编写和执行 Python 代码的地方
  • 在单元格中输入 1 + 1 然后运行
  • 通过点击播放按钮或使用键盘快捷键运行单元格:
    • Mac 上使用 Command + Enter 或 Windows 上使用 Ctrl + Enter:运行当前单元格
    • Shift + Enter:运行当前单元格并在下方创建新单元格
  • 尝试熟悉键盘快捷键
  • 第一次运行代码单元格可能需要一段时间,因为需要初始化 Python 引擎
  • 运行单元格时,最终输出显示在单元格下方
  • 要查看多个输出,请使用 print() 显式打印。例如:
print(1)
print(2)

2.6 文本单元格

  • 使用文本单元格进行解释和标题
  • 文本单元格上方的工具栏允许您格式化文本,但要注意生成的 markdown

2.7 数据处理示例

  • 点击文件选项卡查看”sample_data”文件夹
  • 导入加利福尼亚房屋测试数据集:
import pandas
housing_data = pandas.read_csv("/content/sample_data/california_housing_test.csv")
housing_data.describe()
  • 在单元格中输入 housing_data 并运行以查看数据集

2.8 练习题:导入数据

  • 导入”california_housing_train”数据集
  • 使用 describe() 函数获取数据集摘要

2.9 从 Drive 获取数据

  • 在文件选项卡中,点击按钮挂载您的驱动器
  • 创建文件夹并从计算机上传 CSV 文件到该文件夹
  • 我们可以像之前一样使用 pandas 导入数据

2.10 练习题:导入数据

  • 导入您上传到驱动器的 CSV 文件
  • 使用 describe() 函数获取数据集摘要

2.11 笔记本保存在哪里?

  • 所有工作自动保存到您的 Google Drive
  • 在 drive.google.com 的”Colab Notebooks”文件夹中访问您的笔记本

2.12 分享和协作

  • 通过链接分享笔记本,给予查看者或编辑者访问权限
  • 之后可以从 Google Drive 访问笔记本
  • 以各种格式下载笔记本(ipynb, py)

2.13 结论

Google Colab 为数据科学和人工智能项目提供了一个强大、易用的平台。它预配置的环境和便捷的分享功能使其成为开始数据分析的绝佳方式。