Google資料分析課程筆記-3
Course 3 - Prepare Data for Exploration
簡介
This is the third course in the Google Data Analytics Certificate. As you continue to build on your understanding of the topics from the first two courses, you’ll be introduced to new topics that will help you gain practical data analytics skills. You’ll learn how to use tools like spreadsheets and SQL to extract and make use of the right data for your objectives, and how to organize and protect your data.
章節大綱
- Data types and structures
學習數據是如何產生的以及分析師挑選數據,並且了解結構化和非結構化資料、資料類型和資料格式 - Data responsibility
學習識別數據偏差並確保數據是公正且可信的,了解開放資料、資料道德和資料隱私的重要性。 - Database essentials
學習如何提取、過濾和排序資料庫內的資料。 - Organize and protect data
學習組織資料以及確保資料安全,並學習如何有規律地命名文件。 - Engage in the data community
探索如何利用 LinkedIn 管理線上形象,並且與其他數據分析師交流學習。
內容筆記
Module 1 - Data types and structures
資料格式
- 主要 & 輔助數據
分類 | 解釋 | 例子 |
---|---|---|
主要數據 | 研究人員蒐集的一手資料 | 親自訪談、蒐集問卷得到的數據 |
輔助數據 | 其他人或是其他研究蒐集的數據 | 從其他公司購買的數據、政府數據 |
- 內部 & 外部數據
分類 | 解釋 | 例子 |
---|---|---|
內部數據 | 儲存在公司內部的數據 | 不同部門的薪資數據、商品銷售統計 |
外部數據 | 儲存在公司外部的數據 | 全國平均薪資、人口普查資料 |
- 連續 & 離散數據
分類 | 解釋 | 例子 |
---|---|---|
連續數據 | 數據幾乎可以是任何數值 | 身高、氣溫 |
離散數據 | 數據是可計量或有限的數值 | 員工人數、設備數量 |
- 定性 & 定量數據
分類 | 解釋 | 例子 |
---|---|---|
定性數據 | 對品質或特徵的主觀和解釋性衡量 | 運動偏好、時尚趨勢 |
定量數據 | 具體且客觀的衡量標準,例如數量或範圍 | 物種數量、通勤時間 |
- 名目 & 序數數據
英文為 Nominal & ordinal data,也有人翻為定類 & 定序數據,且這兩種數據都屬於定性數據。
分類 | 解釋 | 例子 |
---|---|---|
名目數據 | 沒有固定順序進行分類 | 新顧客、回頭客、老顧客 (彼此之間沒有排序關係) |
序數數據 | 有設定順序或範圍的數據 | 電影評分、滿意度分級 |
- 結構化 & 非結構化數據
分類 | 解釋 | 例子 |
---|---|---|
結構化數據 | 以某種格式組織的數據,例如行和列 | 報稅紀錄、門市庫存 |
非結構化數據 | 無法在資料庫中儲存為行和列的資料 | 影片、社交媒體貼文 |

長資料與寬資料
長資料 | 寬資料 |
---|---|
每列只有一個觀察值 | 每列有多個觀察值 |
適合建立少量變數的圖表 | 適合儲存大量變數 |
使用簡單的折線圖 | 進行進階的分析與繪圖 |
長資料範例

寬資料範例

Module 2 - Data responsibility
數據偏差
類型 | 解釋 |
---|---|
採樣偏差 | 採集的部分樣本不足以代表整體 |
觀察者偏差 | 不同的觀察者可能觀察到不同的結果 |
解釋偏差 | 因為不同的背景經驗導致模稜兩可的內容有不同的解釋 |
確認偏差 | 選擇性的解釋內容得到自己偏向的結果,而忽略了其他數據 |
資料的可靠性 - ROCCC
流程 | 解釋 |
---|---|
Reliable | 使用經過審查完整且公正的資料 |
Original | 確保資料是原創的 |
Comprehensive | 資料包含問題所需的多個面向 |
Current | 盡可能使用最新的資料 |
Cited | 引用來自可信的組織的資料 |
資料匿名化
透過消除個人識別資訊 (PII,Personally identifiable information) 來保護人們的私人或敏感資料的過程,通常包含清空、雜湊或屏蔽個人訊息等過程,使用固定長度的編碼來表示,或直接隱藏該資料。
常見需要匿名化的資料:
- 電話號碼
- 名字
- 車牌
- IP 位址
- 病例
- 帳號 … 等
開放資料
常見的開放資料包含政府以及 Google 等大公司提供的數據集,而開放資料必須滿足以下三個標準:
- 完整的數據集向公眾提供和訪問。
- 有允許重複使用和分發的條款。
- 任何人都可以重複使用和分發資料。
Module 3 - Database essentials
關聯式資料庫
關係資料庫包含一系列可以連接以形成關係的表,其中的表格透過它們共有的欄位連接,接下來將簡介幾個關係資料庫中常提到的鍵。
主鍵 (primary key) 是欄位的標識符,其中每個值都是唯一的,用於標識該表中的每筆記錄,如果 customer_id 是客戶表的主鍵,則任何兩個客戶都不會具有相同的 customer_id。
主鍵也可以使用表格的多個欄位組成,稱為複合鍵 (composite key),如果 customer_id 和 location_id 是客戶表的複合鍵的兩個欄,則這些欄位的值在整個表中必須是唯一的。
外鍵 (foreign key) 是一個表中的欄位,同時也是另一個表中的主鍵,一張表只能有一個主鍵,但可以有多個外鍵,這些鍵在關聯式資料庫中的表之間建立關係。

後設資料 (metadata)
又稱為元數據,簡單來說就是一個資料的資料,主要包含幾個元素:
- 文件類型
- 創建時間和創建者
- 標題和描述
- 標籤和分類
- 最後修改時間與修改者
- 誰擁有存取、修改權限
更多 SQL 語法
- BETWEEN
value1
ANDvalue2
挑選出指定範圍的資料。
1 | BETWEEN 20 AND 30 |
- ORDER BY
col1
,col2
, …
以指定欄位進行排序,預設為升序排序。
1 | ORDER BY Price |
如果想要以降序排序,可以在後面加上 DESC
1 | ORDER BY Price DESC |
- LIMIT
number
僅顯示指定數量的資料。
1 | LIMIT 15 |
Module 4 - Organize and protect data
如何命名文件
良好的文件命名可以讓使用者更快了解文件的內容,建議保持命名風格和順序一致,並且包含以下幾點:
- 項目名稱
- 文件創建日期
- 修訂版本號
例如: SalesReport_20231125_v02
安全性與分析的平衡
資料安全是透過採取適當的安全措施來保護資料免遭未經授權的存取或損壞,而資料分析師必須找到一種方法來平衡資料安全性與實際分析需求,以便能夠做出有意義且及時的觀察又不會影響到資料的安全性,常見的有兩種方式:
-
加密
使用獨特的演算法來更改數據,並使不知道該演算法的用戶和應用程式無法使用數據,而擁有密鑰的人仍然可以使用原始資料。 -
令牌化
將想要保護的資料替換為隨機產生的數據 (令牌),將原始資料儲存在單獨的位置並映射到令牌,即使資料被駭客攻擊,原始資料在單獨的位置仍然安全。
除了以上兩種方法,版本控制也能幫助實現平衡,讓所有協作者能夠追蹤隨時間的變化,了解誰對文件進行了哪些更改、更改時間以及原因。
詞彙
- Bias (偏見、偏差): A conscious or subconscious preference in favor of or against a person, group of people, or thing.
- CSV (comma-separated values) file: A delimited text file that uses a comma to separate values.
- Data ethics (資料倫理): Well-founded standards of right and wrong that dictate how data is collected,
shared, and used. - Data governance (資料治理): A process for ensuring the formal management of a company’s data assets.
- Field (欄位): A single piece of information from a row or column of a spreadsheet; in a data table, typically a column in the table.
- Metadata (後設資料、元數據): Data about data.
- Record (紀錄?): A collection of related data in a data table, usually synonymous with row.