Course 1 - Foundations: Data, Data, Everywhere

簡介

This is the first course in the Google Data Analytics Certificate. Organizations of all kinds need data analysts to help them improve their processes, identify opportunities and trends, launch new products, and make thoughtful decisions. In this course, you’ll be introduced to the world of data analytics through hands-on curriculum developed by Google. The material shared covers plenty of key data analytics.

章節大綱

  1. Introducing data analytics and analytical thinking
    學習資料分析師如何使用各種工具和技能來為日常生活和商業中的決策提供資訊,並且簡單的介紹了本課程的期望。
  2. The wonderful world of data
    介紹與工作息息相關的資料生命週期以及資料分析過程,並且將其應用到實際的分析之中。
  3. Set up your data analytics toolbox
    簡介資料分析師工作中常見的試算表、SQL以及資料視覺化工具,並且利用範例來介紹其工作原理。
  4. Become a fair and impactful data professional
    簡介資料分析師在不同類型的企業中扮演的角色,以及 Google 資料分析證書對於未來求職的幫助。

內容筆記

Module 1 - Introducing data analytics and analytical thinking

資料分析的六個階段

資料分析的流程主要可以分為六個步驟 ask、prepare、process、analyze、share、act,這邊將簡單介紹各個步驟。

階段 解釋
Ask 透過提問來了解要解決的問題,並且充分了解利害關係人 (stakeholder) 的期望,要先了解整個問題才能進入之後的規劃步驟。
Prepare 對於專案的流程等細節進行規劃,並且蒐集相關資料,辨別其是否對於資料分析有幫助,在流程種也要確保決策以事實為依據,維持其公平、公正。
Process 處理前一步驟蒐集的資料 (清理、合併、刪除異常值…),並且將其轉換為方便分析的格式。
Analyze 使用試算表、SQL等工具進行資料分析,以找出問題的解決方案。
Share 透過簡報或其他資料視覺化工具向決策者展示結果,而在這個階段所使用的媒體非常重要。常見以直覺呈現資料的工具包含 Google Sheets、Tableau 和 R 等。
Act 公司將資料分析的結果付諸行動,實施新的業務策略或者其他改變。

資料分析師的技能

技能 解釋
Curiosity 可以使分析師以預期或意外的方式從數據中獲得更多資訊,幫助在提問階段獲取更多與目標相關的資料來源。
Understanding context 了解要分析的數據背景,可以幫助分析師縮小變數範圍,找到最有可能影響結果的變數,從而得出更有意義的見解。
Technical mindset 以系統化並且有邏輯的方式處理問題,將複雜問題分解成為方便處理的一個個小問題。
Data design 資料設計技能是技術思維的延伸,主要是關於資訊的組織方式,透過不同的組織資料方式來獲得結論,透過資料設計可以使分析變得更容易,得出更具有洞察力的結果。
Data strategy 資料策略主要聚焦於管理層面,管理資料分析中的人員、流程和工具,以及如何進行資源的分配以取得更好的結果。

Module 2 - The wonderful world of data

資料的生命週期

注意這邊的生命週期與前面的資料分析流程是不同的,不同的流程之間不能混用。

週期 解釋
Plan 決定需要什麼類型的資料、如何管理資料、由誰負責。
Capture 蒐集或引入來自各種不同來源的數據。
Manage 關心和維護資料,確定其儲存方式以及用於儲存的工具。
Analyze 使用數據解決問題、做出決策並支援業務目標。
Archive 保存相關數據以供長期和未來參考。
Destroy 刪除資料以及任何共用副本。

常用資料分析工具

  1. Spreadsheets 試算表
    常用的有 Microsoft Excel 和 Google Sheets,有以下幾個特點:
  • 方便 收集、儲存、組織和分類資訊
  • 識別出規律並整合資料。
  • 以圖形和圖表進行資料視覺化。
  1. Databases and query languages 資料庫與查詢語言
    資料庫是儲存在電腦系統中的結構化資料的集合,常見的結構化查詢語言 (SQL) 程式包括 MySQL、Microsoft SQL Server 和 BigQuery,並且它們有以下特點:
  • 允許分析師從資料庫中分離出特定訊息。
  • 可以輕鬆地學習並理解對資料庫提出的請求。
  • 允許分析師從資料庫中選擇、建立、新增或下載資料進行分析。
  1. 視覺化工具
    圖形、地圖、表格、圖表等都是分析師常用的視覺化工具,而 Tableau 和 Looker 是兩種最常使用的視覺化工具,而這些工具具有以下特點:
  • 將複雜的數字變成人們可以理解的圖表。
  • 幫助利害關係人得出結論,從而做出明智的決策和有效的業務策略。
  • 擁有多種功能:
    • Tableau 擁有簡單的拖放功能可讓使用者在儀表板中建立互動式圖表。
    • Looker 可以與資料庫通信,讓資料直接產生視覺效果。
  1. 工具比較
試算表 資料庫
透過軟體存取 使用查詢語言存取資料庫
行和列格式的結構化數據 使用規則和關係的結構化數據
提供對有限數量數據的訪問 提供對大量數據的訪問
手動數據輸入 嚴格一致的資料輸入
通常一次一個用戶 多用戶
由使用者控制 由資料庫管理系統控制

Module 3 - Set up your data analytics toolbox

SQL 查詢語法

  1. SELECT
    選擇要檢索的 columns (欄),如果要取多個欄可以使用逗號隔開。
1
2
3
4
SELECT
customer_id,
first_name,
last_name

而如果在 SELECT 後面加上一個 * 代表選擇表內的所有欄位,在較大的表中需要謹慎使用。

1
SELECT *
  1. FROM
    選擇資料所在的 table (表),表示方法為 dataset_name.table_name (資料集名稱和表的名稱用一個點隔開)。
1
FROM customer_data.customer_name
  1. WHERE
    用來篩選資料的條件,和 SELECT 不同,條件之間可以用 AND、OR、NOT 等運算符連接,以表達想要使用的條件。
1
2
3
4
WHERE
customer_id > 0
AND first_name = 'Tony'
AND last_name = 'Magnolia'

如果要使用條件來篩選出特定的名字,我們可以這樣寫:

1
WHERE name = 'Chavez'

但是如果要找到特定開頭的名字的話,必須使用 LIKE 來幫助篩選,範例中可以篩選出所有以 “Ch” 開頭的名字,而其中的 % 符號則代表一個或多個字元 (有的語言以 * 作為代表)。

1
WHERE name LIKE 'Ch%'
  1. 註解
    註解的寫法有兩種,分別是單行註解 --以及多行註解 /* */,可以讓程式更好理解。
1
2
3
-- 單行註解
/* 多行
註解*/
  1. 別名
    在 SELECT 和 FROM 兩個區塊選擇資料範圍時,可以使用 AS 加上資料的別名,方便之後使用。
1
2
3
4
SELECT 
my_table_alias.actual_column_name AS my_column_alias
FROM
actual_table_name AS my_table_alias

Module 4 - Become a fair and impactful data professional

確保公平性

資料專業人員有責任確保他們所做的分析是公平的,意味著確保分析不會產生甚至是加深偏見,如果分析不客觀,可能會產生誤導或有害的結論,而課程中提供了幾個策略以確保分析的公平性:

策略
解釋
考慮所有可用數據 資料分析時必須確定哪些資料對分析有用,而遇到某些與關注內容無關或與期望不符的數據時,不應該直接捨棄,才能使分析結果反映事實。
辨別周圍因素 之前有提到過了解背景是資料分析師的重要技能,對於分析的最終結論至關重要,因此與考慮所有可用數據類似,還必須了解可能影響分析結果的的周圍因素。
使用自我報告的數據 自我報告是一種資料收集技術,使用問卷或訪談等方式,讓參與者在無干擾的情況下提供有關自己的資訊,可以避免人們對他人的偏見。
善用"過採樣" 過採樣是增加總體中非主導群體樣本的過程,增加部分數據的採樣數量,增加資料的公平性。
確保資料始終公平 確保從專案的最初到分析出結果並採取行動時都是公平的,也代表資料在收集、清理、處理和分析都是在公平的情況下進行。

詞彙

  1. Attribute (屬性): A characteristic or quality of data used to label a column in a table.
  2. Context (情境、背景): The condition in which something exists or happens.
  3. Formula (公式): A set of instructions used to perform a calculation using the data in a spreadsheet.
  4. Function (函數): A preset command that automatically performs a specified process or task using the data in a spreadsheet.
  5. Gap analysis (差距分析): A method for examining and evaluating the current state of a process in order to identify opportunities for improvement in the future.
  6. Oversampling (過採樣): The process of increasing the sample size of nondominant groups in a population. This can help you better represent them and address imbalanced datasets.
  7. Self - reporting (自我報告): A data collection technique where participants provide information about themselves.
  8. Stakeholders (利害關係人): People who invest time and resources into a project and are interested in its outcome.