企業AI:如何建構AI資料集
尋找和獲取建立企業資料集所需的數據,這對於那些希望建立自己的AI模型的組織來說是可能是最關鍵的任務。
顧問公司Rockborne執行長Waseem Ali表示,即使有實務經驗,事情也容易出錯。 “一切總是從數據開始的,如果你的數據不好,模型就不會好。”
相反地他建議,很多時候,企業面臨的挑戰不應該是想要用他們的第一個專案征服世界,而是先進行試點,讓他們能夠走得更遠。
檢查資料或數位專案的具體業務需求和要求,詢問需要解決什麼問題,需要查詢什麼“預感”,但首先要避免深入研究“全局影響”。
正如工業物聯網專業公司Hexagon的AI負責人Johannes Maunz所解釋的,從第一原則開始著手獲取特定用例的資料。
Maunz說:“沒有一個深度學習模型可以解決所有用例。將現狀與需要改進的地方進行比較,需要捕獲哪些可用數據?以小規模或有限的方式進行,僅針對那一個用例。”
Hexagon的方法通常專注於自己的感測器,其中包含牆壁、窗戶、門等建築的數據。透過在瀏覽器中呈現的內容,Hexagon可以了解資料及其標準、格式、一致性等。
首先考慮企業已經擁有的、或可以使用的、符合要求的資料和資料集。這通常需要與法律和隱私團隊密切合作,即使在工業內部環境中也是如此。 Maunz建議,要確保指定使用的資料不包含任何私人個人資訊。然後,企業就可以建立他們想要使用的模型並對其進行訓練——假設成本和可行性都已經到位。
接下來,你需要決策點透明度,以及訊號值來評估可用性、可行性和業務效果等因素,或潛在表現與競爭對手相比的數據等。
對於企業目前沒有的數據,可能需要一些合作夥伴或客戶協商來取得。
Maunz表示:「坦白說,人們非常開放——但總是要有一份合約。只有這樣,我們才能開始我們通常所說的數據活動。有時候超過所需量的數據也是有意義的,這樣企業就可以進行向下採樣。
數據品質和簡單性至關重要
供應鏈諮詢公司BearingPoint的合夥人Emile Naus強調了對AI/ML資料品質的關注。要盡可能保持簡單,複雜性使正確的決策變得困難並且會損害結果——然後還有偏見和智慧財產權需要考慮。 Naus補充說:“內部數據並不完美,但至少你可以了解它有多好。”
他警告說,與易於使用的2D線擬合甚至3D線擬合相比,由AI/ML驅動的複雜多維線擬合可以帶來更好的結果——優化生產、解決方案「配方」、最大限度地減少浪費等等——如果企業能夠「自由」地取得所需的數據。
「和所有的模型一樣,因為AI模型被用來建立另一個模型,而模型總是出錯,因此資料治理是關鍵。你沒有的部分實際上可能更重要,你必須弄清楚資料的完整性和準確性。
鄧白氏(D&B)數據和分析高級副總裁Andy Crisp建議使用客戶洞察和關鍵數據元素來建立數據品質標準和公差、測量和監控。
Crisp表示:「例如,[客戶想要的、或從我們這裡獲得的]數據也可能會為他們的模型提供信息,我們正在進行大約460億次數據質量計算,獲取我們的數據,然後可能根據這些標準再次進行計算,然後每月發布數據品質觀察。
例如,透過特定標準,特定屬性必須表現得足夠好,才能傳遞給下一個團隊,團隊採用這些標準和公差、這些測量和觀察點的結果,與資料管理部門合作取得、整理和維護資料。
「花時間做事並加深理解,別無他法。這就像,從切割一塊木頭開始,然後檢查長度,防止接下來你完全錯誤地切割了50塊木板。”
企業需要“知道什麼是好的”,以提高數據效能和洞察力,然後將它們整合在一起。維持問題陳述的嚴謹性,縮小所需資料集的資料辨識範圍。細緻的註釋和元資料可以實現控制資料集的管理,實現真正科學的方法,識別偏差並幫助最大限度地減少偏差。
小心將多個因素混為一談的大膽陳述,確保要“測試到破壞”,這是IT企業不想“快速行動並打破常規”的一個領域。所有使用的數據都必須符合標準,而且必須不斷檢查和補救。
“測量和監控,補救和改進,”Crisp指出,鄧白氏的質量工程團隊是由全球約70名團隊成員組成的,“高質量的工程能力將有助於減少幻覺等。”
Informatica北歐、中東和非洲地區副總裁Greg Hanson也認為,制定目標至關重要,可以幫助企業確定如何最好地利用時間進行資訊編目、資訊整合、訓練AI以支持結果所需的資料。
即使是企業自己的資料通常也會分散並隱藏在不同位置、雲端或本地環境中。
Hanson說:“對所有數據資產進行編目,了解這些數據的位置,也可以考慮使用AI來加快數據管理的速度。”
確保在採集資料之前進行治理
在AI引擎採集資料之前要實施所有的資料品質規則,並假設已經採取了適當的治理和合規性。如果企業沒有進行衡量、量化和修復,那麼只會更快地做出錯誤決策,Hanson補充說:“記住:垃圾進,垃圾出。”
資料套件廠商Precisely的技術長Tendü Yogurtçu表示,根據規模和產業類型,企業可以考慮成立指導委員會或跨職能委員會,協助定義所有相關AI計畫的最佳實踐和流程。也可以透過識別團隊之間的常見用例或模式來幫助加速進程,隨著組織從試點和生產中學習,這些用例或模式本身也會持續變化。
資料治理框架可能需要擴展以涵蓋各種AI模型。話雖如此,潛在的AI用例比比皆是。
「以保險業為例。為了模擬風險和定價準確性,保險公司需要有關野火和洪水風險、地塊地形、地塊內建築物的確切位置、與消防栓的距離以及與加油站等潛在危險點的距離等詳細信息,」Yogurtçu解釋說。
然而,諮詢公司Slalom的高級數據和分析負責人Richard Fayers警告稱,構建AI模型(尤其是生成式AI)可能會花費不菲。
「也許,在某些領域企業可以合作——例如法律或醫學,我們開始看到價值的地方,就是當你用你的數據增強生成式AI的時候——你可以用各種方法來實現它。 」
例如,在建築領域,使用者可以使用自己的資料集和文件來補充大型語言模型,以供查詢。類似做法還有票務搜尋平台,平台可以智慧地考慮一組基於自然語言的標準,這些標準並非與元資料和標籤一一相關。
“例如,你可以使用一個票務平台來發現'適合兒童觀看的周末演出',目前這種搜索類型是相當困難的,”Fayers說。
他說,即使是ChatGPT之類的資料集建置和提示工程,為了實現更有「對話性」的方法,仍需要專注於資料品質和治理,提示工程將成為一項需求旺盛的基本技能。