到底這個月的業績是多少?「數據治理」是數據應用的基礎 Why Data Governance matters?

數據治理 (Data Governance)是數據應用的根本。一個品牌的會員資料?業績是多少?沒有好的數據治理,甚至這些根本的數據都是錯的,永遠看不到對報表,看不清楚自己公司的經營全貌。

Happy Lee 李昆謀
Happy Lee 李昆謀
本文內容目錄 table of content

我們越來越知道數據的重要性,數據是AI的油田、是經營會員的基礎,零售業也越來越知道要掌握自己的數據,從原本的CRM,都進階到要有自己的CDP

但今天先別管CDP了,你有聽過GIGO嗎?

「GIGO」(Garbage In, Garbage Out),你丟進去垃圾、出來就是垃圾。在數據的世界沒有再生資源這件事,數據處理得好是資產,處理不好就是垃圾。拿垃圾資料做數據分析,分析出來的結果還是垃圾。

公司買了厲害的CDP,都是為了從數據中練出黃金,千萬不要在高檔的CDP中,放了滿滿的數據垃圾。

想要透過數據應用來創造價值,數據治理就是一切數據應用的根本,但卻也是最常被忽略的一件事。

看不清楚的會員數

品牌知道會員經營的重要,但品牌卻很常搞不清楚自己有多少會員。大多數的累積會員數,都是一種自High的虛華指標。

為什麼品牌會弄不清楚自己的會員數?因為有太多的會員是沒有意義的。也就是「會員資料是髒的」,會員資料是需要清洗的

我們常常會遇到一些品牌,號稱有400萬會員,可以一經過資料清洗(Data Cleansing),最後留下可用的會員數,可能最後只剩下100多萬。

什麼是會員資料清洗?為什麼會員資料會越洗越少呢?

  1. 確保「唯一性」:

    過去以門市經營為主的品牌,常常會留下很多的重複會員資料。作為消費者,我們也常常忘記是否加過某個品牌的會員,櫃姐為了方便,通常也就會乾脆地請你「再加入一次會員」。

    我們常常在協助品牌清理會員資料時,看到會員資料裡面,一個手機號碼有三個會員帳號的這種資料重複的狀況,而且,每一個帳號下面,可能最近都還有交易紀錄。

    這種原始的會員資料,就需要「清洗」,把重複的會員做資料整併。
  2. 確保「有效性」:

    有些會員資料是「無效的」。

    像是很多會員的原始資料,只留下了會員姓名、編號,但沒有手機號碼、email、地址,也就是「完全沒有可溝通的資料」。

    這種會員資料,通常我們會挑出來,備存在其他的資料庫裡面。

    一般來說,沒有任何可溝通資料,也沒有任何交易資料的會員,基本上就跟不存在一樣,存在的意義就僅是讓會員數可以加一。
  3. 確保「可驗證性」:

    有些會員資料雖然有手機號碼,但他卻不是10碼,例如是「12345678」,或是「0900000000」,也就是一看就很明確這種欄位的資料是錯誤的。

    Email也是可被驗證的資料欄位,例如沒有@、@後面只有一個英文沒有「.」,都是錯誤的欄位資料,理論上都要挑出來把欄位清掉。

    有些會員資料的生日也非常有趣,他可能像是「1900/08/20」,也就是這個會員已經超過100歲了,通常就是在填會員資料時亂填或櫃姐是亂Key的。尤其當這些會員近期還有交易紀錄的時候,如果真的不是當時亂填亂打的,那就要去拜拜了。
  4. 確保「相依性」

    有一些資料欄位之間,是有「關聯邏輯的」。例如如果會員性別欄位是「男性」,他的身分證字號欄位的資料,開頭應該要是1。如果地址欄位填寫的是台北市,那郵遞區號就要是1開頭。

    會員現在的點數與等級資料,理論上也可以透過交易資料回溯的。例如某個會員已經是第三等級的VIP會員,可是近一年卻沒有任何交易資料,如果他不是公司內有「特別關係」的會員,那可能就是哪裡有問題了。
  5. 避免「資料誤差」

    在洗完會員資料之後,我們會開始做第一次快速的會員資料分析。

    通常我們會把所有會員的年度累積貢獻加總,依據每個會員的累積貢獻做排序。通常前10大的累積貢獻會員裡面,會藏有很多的驚喜。

    例如某個品牌可能平均會員的年度累積貢獻約10,000元,但前幾大可能都超過1,000,000元,而且第一大貢獻度的會員,可能是高達一年花費3,000,000元。

    通常老闆會很意外,哪裡來這麼熱情的品牌粉絲,很想好好的認識她謝謝他,一聯絡才發現,接電話的這個會員,可能是某個分店的櫃姐。

    這類的「超超超級大戶」,很多不意外都是特定櫃姐自己養的帳號。而真正的超級大戶,是藏在櫃姐的口袋名單裡,而品牌自己的會員資料庫,反而永遠看不到。

    這類並非由正常的會員消費行為所累積下來的數據,通常會造成整個資料分析的偏差,也是要挑出來清洗

算不清楚的業績數字

零售業的業績數字,是老闆最最最在乎,但也常常是最最最不準的數字。

  1. 時間差:

    以往的零售業,以實體門市為主,業績需要在關帳後回檔,有時候因為各門市檔案拋回時間的不同,造成不同時間看業績,可能得到的結果是不同的。

    但零售業開始增加線上購物的通路,買賣不再是單純的銀貨兩訖,一手交錢一手交貨,而變成會有一個相對負責的「訂單生命週期」。

    也就是一張訂單會有許多的狀態,像是從成立訂單、到撿貨、出貨、到到貨後、鑑賞期完成等。

    因為一張訂單所產生的各種狀態,也讓業績的結算變得更加複雜。不同的狀態就像數學上的不同單位,也就是說我們不能把已出貨的訂單加上剛成立的訂單業績,得到的總業績數據的意義,會變成意義不明。
  2. 狀態差:

    線上購物的訂單,也就是消費者今天在網站上下單的這些業績,可以直接算進今日業績嗎?

    一般來說,訂單成立之後只是一種預售,真實要轉變成為可以結算成業績的訂單,需要到訂單真實撿貨、包裝、出貨後,才能落袋算成業績。

    而且訂單還有可能會取消、退貨。如果取消退貨的比率平均有20%,單純看每日線上購物的GMV,很容易跟老闆報告的業績數字,變成一個高20%的歡樂指標。
  3. 邏輯差:

    而退貨的單,要怎麼結算呢?

    如果退貨要「勾稽」回原來的訂單,那每個月結算的業績數字,會變成是「浮動」的

    舉例來說,如果11/25的訂單,12/5完成了退貨,結果因為勾稽回原來11/25的單,造成本來11月結算的總業績,會因為12初每天的退貨勾稽回11月訂單,而需要再扣除原本11月才結算的的總業績,結果會因為12月發生的退貨,讓11月的總業績雖然結算了,但卻隨著12月的退貨回來的數字而一直變動。

    另外一種做法,是為了讓業績好結算,今天退貨完成的單,就扣在當天,而不勾稽回原訂單。這種做法雖然會讓已經結算的業績不會再變動,但卻會讓當月的總業績,因為上個月活動退貨的數字,造成對當月業績的影響,甚至在經營上誤判。

    甚至,有時品牌規模小,還會因為某天退貨量太大,造成某天結算後總業績反而是負的情形。
  4. 語意差:

    含稅、不含稅?實際結帳金額?發票金額?要不要扣除點數折抵?

    所以到底業績報表上的總業績,到底是指哪一種業績呢?有時候光一個業績欄位,可能就有10幾種定義,計算的邏輯都不同。

    如果來自不同通路的業績報表,沒有釐清各自數字欄位的意義,就把這些通路報表的數字直接加起來變成總業績數字,很容易就算不準真實的數字。

    這種欄位定義不同的數字相加,就像雞和兔子放在一起數一樣,怎麼加都不對,而我們並不是在解雞兔同籠的問題。
數據治理 - Data Governance

數據治理的關鍵做法

廚師要做出好吃的食物,新鮮且品質好的食材是最關鍵的。

有時候真正好的食材,越少的烹調反而更能凸顯食物的美味。而好的食材,則來自於從生產開始的每一個步驟,每一個環節,理應都可以看到每一步用心的力道。

所有數據應用都依賴「數據」本身,所以做為原料的數據,從數據源頭開始的每一個步驟,到成為數據應用的產出,都需要好好的管控,每一步驟都是數據治理所涵蓋的範圍。

從食材到每一道料理,從數據源到每一個數據應用,管理好流程上的每一步,才能創造最終的高價值產出。

  1. 數據清洗:

    如同上述會員資料的原始資料狀況,會員資料可能會有重複、資料的缺漏、資料當時輸入時的手誤等等,在正式存入數據庫之前,都要進行「數據清洗」,以確保數據的正確性、一致性、可驗證性、完整性、相依性等等。

    就零售業來多,通路越來越多元,等於有很多不同的數據源,來自門市的POS、來自電商的訂單、來自社群平台的訂單等等。不同的數據可能原始數據的格式不同、欄位的定義也不同,也需要在匯入資料庫前,進行數據清洗,把不同定義不同格式的數據拉齊。
  2. 數據定義

    在整個完整的數據處理的數據流中,每一個欄位數字代表的意義與內容,都要能保持前後一致。

    數據定義在完整的數據流中,是一個如同憲法般的存在,確立了所有數據清洗(input)、數據應用(output)的根本。

    每一個數據從開始進來賦予了名字之後,在整個數據處理流程中,每一個單一個數字,從頭到尾都要帶著自己的名字,以及知道這個名字背後的意義。

    無論到哪裡,不要遺失了自己名字,無論怎麼各種應用中流動,不要忘記了自己是誰。
  3. 數據驗證

    數據驗證是數據處理的QA,如果數據處理的數據流是一條生產線,數據驗證就像品保一樣。

    數據的處理過程中,會經過許多的運算加工,為了確保這些運算邏輯的合理性,就需要透過數據驗證來確保。

    數據定義是確保每一個欄位的內容與意義,數據驗證是確保數據在被計算的過程中的算法與邏輯的合理性。

    就像做數學題一樣,數據驗證就是一種驗算。只是處理的是很巨量的數據,透過一種自動化的方式,有效率的做邏輯確認。
  4. 數據安全

    數據要被安全的保存,未雨綢沒的進行異地備援。因為涉及了大量個資的數據,需要有效的進行加密。

    數據的存取要被控管,除了基本的防火牆等軟硬體的保護,最重要的反而是人員的管控。

    誰可以存取這些數據?不同的人有不同的權限可以存取這些數據?存取數據的過程是不是都有完整的log紀錄。大多數都牽涉到組織對於數據相關人員的管理機制,需要有完整的SOP。

更多大數據相關文章:
DMP 與 CDP - 網路廣告的數據基石
當第三方追蹤碼被淘汰,零售品牌因應網路廣告的巨變,要透過CDP掌握自己的數據,並串連DMP來提升廣告成效。網路廣告運作的基礎靠數據,而CDP是DMP是數位行銷重要的數據基石。
廣告追蹤碼到底在追蹤什麼?—重建「顧客旅程」(Customer Journey)
追蹤並儲存網站的每一個點擊,把這些消費者的網站行為,轉換成有意義的零售業數據,依據時序重建顧客旅程(Customer Journey),透過顧客旅程,可以理解消費者意圖,並重新檢視媒體佈局的策略。
NAPL模型 - 零售業數據教我們的人生哲理
NAPL模型 - 是一個零售業的會員分群模型,透過大數據分析,協助零售品牌了解會員分布的樣貌,追蹤會員經營的成效,並針對不同分群的會員,設計會員行銷活動。
數據分析CDP大數據

「零售的科學」全通路

哈囉,你好,我是Happy,歡迎來到「零售的科學」,這裡主要分享「零售業」的各樣內容, 而且所有圖文只有我一位作者。 (請參考關於本站)

你可以在以下的地方找到我:

在Twiiter上追蹤我

說說你的想法