企業AI：如何建構AI資料集

2024.09.12

尋找和獲取建立企業資料集所需的數據，這對於那些希望建立自己的AI模型的組織來說是可能是最關鍵的任務。

顧問公司Rockborne執行長Waseem Ali表示，即使有實務經驗，事情也容易出錯。 “一切總是從數據開始的，如果你的數據不好，模型就不會好。”

相反地他建議，很多時候，企業面臨的挑戰不應該是想要用他們的第一個專案征服世界，而是先進行試點，讓他們能夠走得更遠。

檢查資料或數位專案的具體業務需求和要求，詢問需要解決什麼問題，需要查詢什麼“預感”，但首先要避免深入研究“全局影響”。

正如工業物聯網專業公司Hexagon的AI負責人Johannes Maunz所解釋的，從第一原則開始著手獲取特定用例的資料。

Maunz說：“沒有一個深度學習模型可以解決所有用例。將現狀與需要改進的地方進行比較，需要捕獲哪些可用數據？以小規模或有限的方式進行，僅針對那一個用例。”

Hexagon的方法通常專注於自己的感測器，其中包含牆壁、窗戶、門等建築的數據。透過在瀏覽器中呈現的內容，Hexagon可以了解資料及其標準、格式、一致性等。

首先考慮企業已經擁有的、或可以使用的、符合要求的資料和資料集。這通常需要與法律和隱私團隊密切合作，即使在工業內部環境中也是如此。 Maunz建議，要確保指定使用的資料不包含任何私人個人資訊。然後，企業就可以建立他們想要使用的模型並對其進行訓練——假設成本和可行性都已經到位。

接下來，你需要決策點透明度，以及訊號值來評估可用性、可行性和業務效果等因素，或潛在表現與競爭對手相比的數據等。

對於企業目前沒有的數據，可能需要一些合作夥伴或客戶協商來取得。

Maunz表示：「坦白說，人們非常開放——但總是要有一份合約。只有這樣，我們才能開始我們通常所說的數據活動。有時候超過所需量的數據也是有意義的，這樣企業就可以進行向下採樣。

供應鏈諮詢公司BearingPoint的合夥人Emile Naus強調了對AI/ML資料品質的關注。要盡可能保持簡單，複雜性使正確的決策變得困難並且會損害結果——然後還有偏見和智慧財產權需要考慮。 Naus補充說：“內部數據並不完美，但至少你可以了解它有多好。”

他警告說，與易於使用的2D線擬合甚至3D線擬合相比，由AI/ML驅動的複雜多維線擬合可以帶來更好的結果——優化生產、解決方案「配方」、最大限度地減少浪費等等——如果企業能夠「自由」地取得所需的數據。

「和所有的模型一樣，因為AI模型被用來建立另一個模型，而模型總是出錯，因此資料治理是關鍵。你沒有的部分實際上可能更重要，你必須弄清楚資料的完整性和準確性。

鄧白氏（D&B）數據和分析高級副總裁Andy Crisp建議使用客戶洞察和關鍵數據元素來建立數據品質標準和公差、測量和監控。

Crisp表示：「例如，[客戶想要的、或從我們這裡獲得的]數據也可能會為他們的模型提供信息，我們正在進行大約460億次數據質量計算，獲取我們的數據，然後可能根據這些標準再次進行計算，然後每月發布數據品質觀察。

例如，透過特定標準，特定屬性必須表現得足夠好，才能傳遞給下一個團隊，團隊採用這些標準和公差、這些測量和觀察點的結果，與資料管理部門合作取得、整理和維護資料。

「花時間做事並加深理解，別無他法。這就像，從切割一塊木頭開始，然後檢查長度，防止接下來你完全錯誤地切割了50塊木板。”

企業需要“知道什麼是好的”，以提高數據效能和洞察力，然後將它們整合在一起。維持問題陳述的嚴謹性，縮小所需資料集的資料辨識範圍。細緻的註釋和元資料可以實現控制資料集的管理，實現真正科學的方法，識別偏差並幫助最大限度地減少偏差。

小心將多個因素混為一談的大膽陳述，確保要“測試到破壞”，這是IT企業不想“快速行動並打破常規”的一個領域。所有使用的數據都必須符合標準，而且必須不斷檢查和補救。

“測量和監控，補救和改進，”Crisp指出，鄧白氏的質量工程團隊是由全球約70名團隊成員組成的，“高質量的工程能力將有助於減少幻覺等。”

Informatica北歐、中東和非洲地區副總裁Greg Hanson也認為，制定目標至關重要，可以幫助企業確定如何最好地利用時間進行資訊編目、資訊整合、訓練AI以支持結果所需的資料。

即使是企業自己的資料通常也會分散並隱藏在不同位置、雲端或本地環境中。

Hanson說：“對所有數據資產進行編目，了解這些數據的位置，也可以考慮使用AI來加快數據管理的速度。”

在AI引擎採集資料之前要實施所有的資料品質規則，並假設已經採取了適當的治理和合規性。如果企業沒有進行衡量、量化和修復，那麼只會更快地做出錯誤決策，Hanson補充說：“記住：垃圾進，垃圾出。”

資料套件廠商Precisely的技術長Tendü Yogurtçu表示，根據規模和產業類型，企業可以考慮成立指導委員會或跨職能委員會，協助定義所有相關AI計畫的最佳實踐和流程。也可以透過識別團隊之間的常見用例或模式來幫助加速進程，隨著組織從試點和生產中學習，這些用例或模式本身也會持續變化。

資料治理框架可能需要擴展以涵蓋各種AI模型。話雖如此，潛在的AI用例比比皆是。

「以保險業為例。為了模擬風險和定價準確性，保險公司需要有關野火和洪水風險、地塊地形、地塊內建築物的確切位置、與消防栓的距離以及與加油站等潛在危險點的距離等詳細信息，」Yogurtçu解釋說。

然而，諮詢公司Slalom的高級數據和分析負責人Richard Fayers警告稱，構建AI模型（尤其是生成式AI）可能會花費不菲。

「也許，在某些領域企業可以合作——例如法律或醫學，我們開始看到價值的地方，就是當你用你的數據增強生成式AI的時候——你可以用各種方法來實現它。」

例如，在建築領域，使用者可以使用自己的資料集和文件來補充大型語言模型，以供查詢。類似做法還有票務搜尋平台，平台可以智慧地考慮一組基於自然語言的標準，這些標準並非與元資料和標籤一一相關。

“例如，你可以使用一個票務平台來發現'適合兒童觀看的周末演出'，目前這種搜索類型是相當困難的，”Fayers說。

他說，即使是ChatGPT之類的資料集建置和提示工程，為了實現更有「對話性」的方法，仍需要專注於資料品質和治理，提示工程將成為一項需求旺盛的基本技能。

新聞