English Version Below
Sự phấn khích xung quanh trí tuệ nhân tạo tạo sinh (gen AI) và giá trị tiềm năng to lớn của nó đã thúc đẩy các tổ chức xem xét lại cách tiếp cận của họ đối với chính doanh nghiệp. Các tổ chức đang tìm cách nắm bắt một loạt các cơ hội, từ việc tạo ra các loại thuốc mới đến việc cho phép các tác nhân thông minh chạy toàn bộ quy trình để tăng năng suất cho tất cả người lao động. Tất nhiên, một loạt các rủi ro và cân nhắc mới đi đôi với những phát triển này. Trung tâm của tất cả là dữ liệu. Nếu không có quyền truy cập vào dữ liệu tốt và có liên quan, thế giới mới của những khả năng và giá trị này sẽ nằm ngoài tầm với.
Dựa trên "Doanh nghiệp dựa trên dữ liệu năm 2025" tương tác của chúng tôi, bài viết này nhằm mục đích giúp các giám đốc điều hành suy nghĩ về bảy ưu tiên thiết yếu phản ánh những thay đổi quan trọng nhất đang diễn ra, những phức tạp chính là gì và nơi các nhà lãnh đạo có thể tập trung năng lượng của mình để hiện thực hóa doanh nghiệp dựa trên dữ liệu năm 2030.
Mọi thứ, mọi nơi, tất cả cùng một lúc
Đến năm 2030, nhiều công ty sẽ tiếp cận "tính phổ biến của dữ liệu". Nhân viên không chỉ có dữ liệu mới nhất trong tầm tay, như chúng tôi đã nêu bật trong "Doanh nghiệp dựa trên dữ liệu năm 2025", mà dữ liệu cũng sẽ được nhúng vào các hệ thống, quy trình, kênh, tương tác và điểm quyết định thúc đẩy các hành động tự động (với sự giám sát đầy đủ của con người).
Ví dụ, các công nghệ cảm biến lượng tử sẽ tạo ra dữ liệu chính xác hơn, theo thời gian thực về hiệu suất của các sản phẩm từ ô tô đến thiết bị y tế, mà các khả năng AI ứng dụng sẽ có thể phân tích để sau đó đề xuất và thực hiện các bản cập nhật phần mềm có mục tiêu. Các tác nhân AI thế hệ mới được thông báo bởi dữ liệu khách hàng lịch sử chi tiết sẽ tương tác với các bản sao kỹ thuật số của cùng những khách hàng đó để thử nghiệm các sản phẩm, dịch vụ và ưu đãi được cá nhân hóa trước khi chúng được triển khai ra thế giới thực. Các cụm mô hình ngôn ngữ lớn (LLM) hoạt động cùng nhau sẽ phân tích dữ liệu sức khỏe của từng cá nhân để có được, phát triển và triển khai các loại thuốc được cá nhân hóa.
Một số công ty đã áp dụng tầm nhìn này, nhưng trong nhiều tổ chức, ít người hiểu được dữ liệu nào họ thực sự cần để đưa ra quyết định tốt hơn hoặc hiểu được khả năng của dữ liệu để tạo ra kết quả tốt hơn.
Các hành động thiết yếu dành cho các nhà lãnh đạo dữ liệu
Để thực hiện các tầm nhìn về công nghệ tiên tiến này, nhà lãnh đạo dữ liệu phải kích hoạt tổ chức để suy nghĩ và hành động "dữ liệu và AI trước tiên" khi đưa ra bất kỳ quyết định nào. Điều đó có nghĩa là làm cho dữ liệu dễ sử dụng (bằng cách tạo ra các tiêu chuẩn và công cụ để người dùng và hệ thống dễ dàng truy cập đúng dữ liệu), dễ theo dõi (bằng cách cung cấp tính minh bạch cho các mô hình để người dùng có thể kiểm tra câu trả lời và kết quả tự động) và dễ tin cậy (bằng cách bảo vệ dữ liệu bằng các biện pháp an ninh mạng tiên tiến và liên tục kiểm tra để duy trì độ chính xác cao).
Các nhà lãnh đạo dữ liệu sẽ cần áp dụng tư duy “mọi thứ, mọi nơi, tất cả cùng một lúc” để đảm bảo dữ liệu trên toàn doanh nghiệp có thể được chia sẻ và sử dụng một cách phù hợp. Điều đó bao gồm, ví dụ, xác định rõ ràng và truyền đạt các cấu trúc dữ liệu (tức là, các phân cấp dữ liệu và trường) để các nhóm hiểu các tiêu chuẩn cần thiết cho một tập dữ liệu nhất định và thiết lập các quy tắc kinh doanh rõ ràng (chẳng hạn như quy ước đặt tên hoặc các loại dữ liệu được chấp nhận để thu thập), cần phải được xem xét lại thường xuyên khi các mô hình, quy định và mục tiêu kinh doanh phát triển.
Hai đặc điểm cốt lõi của nhiều công nghệ gần đây—ví dụ, AI gen, mã thấp và không mã, và các mô hình ngôn ngữ nhỏ (SLM)—là mức độ dễ sử dụng và tốc độ phát triển nhanh chóng của chúng. Ví dụ, các nhà cung cấp đang tích hợp AI gen vào các dịch vụ của họ; các công ty khởi nghiệp đang nhanh chóng triển khai các công cụ và mô hình mới; và một lượng lớn người dùng đang sử dụng AI gen để hỗ trợ công việc của họ. Sáu mươi lăm phần trăm số người trả lời khảo sát gần đây của McKinsey cho biết tổ chức của họ thường xuyên sử dụng AI gen trong ít nhất một chức năng kinh doanh, tăng từ một phần ba vào năm ngoái.1
Vấn đề với việc áp dụng rộng rãi này là nhiều tổ chức đang sử dụng cùng một công cụ hoặc phát triển các khả năng tương tự, điều đó có nghĩa là họ không tạo ra nhiều lợi thế cạnh tranh. Giống như thể mọi người đều chọn sử dụng cùng một viên gạch để xây một ngôi nhà trông giống hệt ngôi nhà bên cạnh. Tuy nhiên, giá trị không chỉ đến từ bản thân những viên gạch mà còn từ cách chúng được ghép lại với nhau—tầm nhìn và thiết kế để lắp ráp những viên gạch đó thành một ngôi nhà mà mọi người sẽ muốn mua.
Các hành động thiết yếu dành cho các nhà lãnh đạo dữ liệu
Để mở khóa “alpha” (thuật ngữ mà các nhà đầu tư sử dụng để chỉ lợi nhuận vượt mức chuẩn) bằng AI thế hệ mới và các công nghệ khác, các nhà lãnh đạo dữ liệu cần tập trung rõ ràng vào các chiến lược dữ liệu có thể mang lại lợi thế cạnh tranh, chẳng hạn như sau: Tùy chỉnh các mô hình bằng dữ liệu độc quyền. Sức mạnh của LLM và SLM đến từ khả năng đào tạo chúng trên các tập dữ liệu độc quyền của riêng công ty và điều chỉnh chúng thông qua kỹ thuật nhanh chóng có mục tiêu.
Tích hợp dữ liệu, AI và hệ thống. Giá trị ngày càng đến từ cách các công ty kết hợp và tích hợp dữ liệu và công nghệ tốt như thế nào. Ví dụ, việc tích hợp các trường hợp sử dụng AI thế hệ mới và AI ứng dụng có thể tạo ra các khả năng khác biệt, chẳng hạn như sử dụng AI để phát triển các mô hình dự đoán cho dữ liệu hành vi của người dùng và cung cấp những hiểu biết đó cho các mô hình AI thế hệ mới để tạo nội dung được cá nhân hóa.
Tăng gấp đôi các sản phẩm dữ liệu có giá trị cao. Phần lớn giá trị mà một công ty có thể thu được từ dữ liệu sẽ đến từ khoảng năm đến 15 sản phẩm dữ liệu—dữ liệu được xử lý và đóng gói mà các hệ thống và người dùng có thể dễ dàng sử dụng.
Tính dễ sử dụng của nhiều công cụ cơ bản và tính khả dụng ngày càng tăng của chúng đã tạo ra sự gia tăng các trường hợp sử dụng, chương trình thí điểm và tính năng thường không liên quan. Đặc biệt, sự nhiệt tình xung quanh AI thế hệ mới có nghĩa là các nhà lãnh đạo dữ liệu không còn phải thúc đẩy giá trị của dữ liệu cho các đồng nghiệp của mình nữa. Thay vào đó, họ đang phải vật lộn để quản lý "lực kéo". Điều này dẫn đến hai vấn đề: thứ nhất, các nhóm trên toàn doanh nghiệp tung ra các mô hình chứng minh khái niệm và các ứng dụng dựa trên AI không có cơ hội mở rộng quy mô ("nơi luyện ngục thí điểm") và thứ hai, nhiều bên liên quan đầu tư vào các trường hợp sử dụng không đồng nhất đòi hỏi các mô-đun rộng từ ngăn xếp dữ liệu và AI và xây dựng toàn bộ kiến trúc cùng một lúc trước khi có thể nhận ra giá trị.
Để có thể mở rộng quy mô cần thiết để vận hành các doanh nghiệp dựa trên dữ liệu vào năm 2030, các nhà lãnh đạo dữ liệu sẽ cần một phương pháp tiếp cận giúp đẩy nhanh cách các trường hợp sử dụng tạo ra tác động trong khi giải quyết vấn đề mở rộng quy mô thông qua một kiến trúc có thể hỗ trợ doanh nghiệp. Để đạt được điều này, các nhà lãnh đạo dữ liệu cần xây dựng "lộ trình năng lực", là các thành phần công nghệ được nhóm lại cho phép các năng lực có thể được sử dụng cho nhiều trường hợp sử dụng (Biểu đồ 1).
Cách phát triển và duy trì các lộ trình năng lực phụ thuộc một phần vào việc suy nghĩ thấu đáo về các lựa chọn kiến trúc dữ liệu quan trọng. Các lựa chọn thường được chia thành phương pháp tiếp cận tập trung, với một kho dữ liệu được quản lý cẩn thận, ví dụ; phương pháp tiếp cận phi tập trung, theo đó các đơn vị kinh doanh địa phương có toàn quyền sở hữu dữ liệu của họ; và phương pháp tiếp cận liên bang có thể sử dụng lưới dữ liệu.
Phương pháp tiếp cận phi tập trung sẽ gây khó khăn cho việc tạo ra các lộ trình năng lực có thể được sử dụng trên toàn doanh nghiệp, trong khi phương pháp tiếp cận tập trung hơn đòi hỏi phải đầu tư thêm vào các khả năng quản trị và giám sát. Việc lựa chọn nhà cung cấp dịch vụ siêu quy mô (ví dụ: nhà cung cấp dịch vụ đám mây), với bộ công cụ và khả năng nhúng của mình, cũng sẽ ảnh hưởng đến cách phát triển các lộ trình năng lực.
Đầu tiên là lộ trình năng lực AI và máy học để thực hiện phân tích sâu và phân khúc khách hàng của công ty. Để xây dựng lộ trình này, công ty đã tập hợp một số yếu tố, bao gồm thư viện máy học PySpark (để phân cụm và phân tích khuynh hướng), Databricks để lưu trữ tệp và Futurescope để quản lý mô hình bằng MLflow. Lộ trình năng lực khác là để giao tiếp được cá nhân hóa bao gồm LLM, kho dữ liệu bán hàng, công nghệ tiếp thị để gửi và theo dõi hiệu suất email, và bộ dữ liệu khách hàng 360 độ và dữ liệu bên ngoài từ Experian về sở thích và thông tin nhân khẩu học của khách hàng, cùng với các yếu tố kỹ thuật khác. Với
các lộ trình năng lực này, công ty có thể phân khúc khách hàng thành các nguyên mẫu được tinh chỉnh cao, gửi cho họ các ưu đãi cá nhân, cung cấp lời nhắc được cá nhân hóa cho các hoạt động dịch vụ để theo dõi khách hàng và cung cấp thông tin hành vi được cá nhân hóa cho nhân viên bán hàng.
Trong nhiều thập kỷ qua, các công ty đã làm việc với dữ liệu có cấu trúc (ví dụ: SKU, thông số kỹ thuật sản phẩm, giao dịch và số dư được sắp xếp theo dữ liệu chính và dữ liệu tham chiếu). Tuy nhiên, đó chỉ là 10 phần trăm dữ liệu khả dụng. Gen AI đã mở ra 90 phần trăm dữ liệu còn lại, không có cấu trúc (ví dụ: video, hình ảnh, trò chuyện, email và đánh giá sản phẩm). Lượng
dữ liệu dồi dào này có thể làm tăng đáng kể khả năng của các công ty, đặc biệt là khi kết hợp hoặc tích hợp với các nguồn dữ liệu khác. Các ví dụ có thể bao gồm sử dụng các bài đánh giá, bài đăng trên mạng xã hội và lịch sử mua hàng để cho phép các tác nhân gen AI tạo ra các ưu đãi cho khách hàng được cá nhân hóa cao hoặc phân tích các hợp đồng và điều khoản từ các giao dịch kinh doanh trước đây để các tác nhân gen AI có thể quản lý các cuộc đàm phán với nhà cung cấp, đưa lên tàu, thực hiện và cập nhật hợp đồng.
Nhưng quy mô và tính đa dạng của dữ liệu phi cấu trúc là một vấn đề phức tạp hơn về mặt hình học. Theo định nghĩa, dữ liệu phi cấu trúc ít nhất quán hơn, ít khả dụng hơn và khó chuẩn bị và làm sạch hơn - càng trở nên khó khăn hơn do quy mô của dữ liệu. Tương tự như vậy, giống như việc nỗ lực phát triển và quản lý đường ống và hệ thống nước uống và đột nhiên được giao nhiệm vụ quản lý cả một đại dương nước. Và với khối lượng dữ liệu dự kiến sẽ tăng hơn mười lần từ năm 2020 đến năm 2030, vấn đề này sẽ không dễ dàng hơn trong thời gian tới.2
Các hành động thiết yếu dành cho các nhà lãnh đạo dữ liệu
Tạo ra giá trị từ dữ liệu phi cấu trúc là một nỗ lực lớn hơn nhiều và tốn thời gian hơn nhiều so với nhận thức của nhiều người. Những thách thức đáng kể bao gồm các yêu cầu về làm sạch và gắn thẻ, mối quan tâm về quyền riêng tư và thiên vị, chi phí lưu trữ đám mây và mạng tăng vọt và các quy trình chuyển đổi thường tốn kém. Các nhà lãnh đạo dữ liệu sẽ cần đầu tư vào việc xây dựng các khả năng mới như xử lý ngôn ngữ tự nhiên để giúp chuyển đổi dữ liệu phi cấu trúc để LLM có thể "hiểu" và sử dụng dữ liệu đó, cũng như trong việc thử nghiệm và hiệu chỉnh lại LLM liên tục khi các mô hình và nguồn dữ liệu tương ứng được cập nhật.
Điều quan trọng là các nhà lãnh đạo dữ liệu sẽ cần tập trung vào việc "mở khóa alpha" trong việc quản lý lượng dữ liệu phi cấu trúc khổng lồ. Điều đó có nghĩa là phải dành thời gian để lập bản đồ những phần nào của dữ liệu phi cấu trúc là cần thiết để đạt được các ưu tiên kinh doanh và sản phẩm dữ liệu quan trọng tốt nhất.
Khả năng của các công ty trong việc đạt được tầm nhìn về dữ liệu và AI vào năm 2030 sẽ phụ thuộc đáng kể vào khả năng lãnh đạo. Cho đến nay, câu chuyện về điểm số này vẫn còn khá hỗn tạp. Ví dụ, chỉ một nửa số giám đốc dữ liệu và phân tích cảm thấy họ có thể thúc đẩy đổi mới bằng dữ liệu.3 Ngay cả các công ty có hiệu suất cao cũng gặp khó khăn.4 Bảy mươi phần trăm các tổ chức này báo cáo những khó khăn, ví dụ, trong việc phát triển các quy trình quản trị dữ liệu và tích hợp dữ liệu vào các mô hình AI một cách nhanh chóng.5
Vấn đề này thường là do trách nhiệm không rõ ràng, bộ kỹ năng hạn hẹp hoặc khả năng quản trị không gắn kết. Trong một số trường hợp, các nhà lãnh đạo dữ liệu tập trung vào rủi ro nhưng lại không gắn kết với các nhà lãnh đạo doanh nghiệp cần sử dụng dữ liệu để tạo doanh thu. Trong những trường hợp khác, các nhà lãnh đạo có nhiệm vụ rõ ràng là đẩy nhanh quá trình tạo ra giá trị trong các lĩnh vực kinh doanh cụ thể nhưng lại có quan điểm doanh nghiệp hạn chế, dẫn đến khả năng bị cô lập và các giải pháp quy mô nhỏ.
Các hành động thiết yếu dành cho các nhà lãnh đạo dữ liệu
Để đi đúng hướng, các công ty cần tìm những nhà lãnh đạo có kỹ năng trong ba lĩnh vực chính: quản trị và tuân thủ, tập trung nhiều vào các hoạt động phòng thủ (chủ yếu do quy định và rủi ro mạng thúc đẩy); những kiểu nhà lãnh đạo này chủ yếu được tìm thấy trong các ngành tuân thủ cao hoặc những ngành có giá trị thông tin cao
về kỹ thuật và kiến trúc, tập trung vào thiết kế kỹ thuật và xem mọi vấn đề như một cơ hội kỹ thuật để tự động hóa, tái sử dụng và mở rộng
quy mô giá trị kinh doanh, tập trung vào việc tạo ra doanh thu, tăng trưởng và hiệu quả từ dữ liệu; những nhà lãnh đạo này thường làm việc chặt chẽ với doanh nghiệp.
Việc tìm thấy một người có các kỹ năng, tư duy và kinh nghiệm để đảm nhiệm cả ba vai trò là rất hiếm. Tuy nhiên, các nhà lãnh đạo dữ liệu được trao quyền có thể lấp đầy nhóm của họ bằng những người có sự kết hợp kỹ năng phù hợp hoặc các tổ chức có thể thành lập một ủy ban điều hành đại diện cho từng lĩnh vực năng lực. Bất kỳ mô hình nào được chọn, nó sẽ yêu cầu sự tài trợ rõ ràng từ cấp cao nhất, các cuộc thảo luận với ban lãnh đạo rộng hơn về các vai trò và trách nhiệm, trách nhiệm giải trình được chia sẻ và các động lực chung để giải quyết cho cả ba lĩnh vực.
Hồ sơ nhân tài của các tổ chức có thể sẽ trông rất khác vào năm 2030. Công nghệ AI và tự động hóa thế hệ mới đã bắt đầu tiếp quản các nhiệm vụ phân tích và xử lý cơ bản, chẳng hạn như tạo mã, tạo tài liệu, phân loại và tổng hợp dữ liệu. Theo thời gian, chúng ta có thể mong đợi AI thế hệ mới và các công nghệ khác xử lý các nhiệm vụ phức tạp hơn, chẳng hạn như sản xuất dòng dõi và phát triển sản phẩm dữ liệu, trong khi nguồn cung nhân tài thay đổi và các công việc mới xuất hiện.
Các hành động thiết yếu dành cho các nhà lãnh đạo dữ liệu
Những thay đổi trong cách thực hiện công việc này đòi hỏi các nhà lãnh đạo dữ liệu và AI phải phát triển một cái nhìn rõ ràng về những kỹ năng mới cần thiết. Một số kỹ năng mới này sẽ được hấp thụ vào các vai trò hiện có, trong khi những kỹ năng khác sẽ yêu cầu các vai trò hoàn toàn mới (Biểu đồ 2). Ví dụ, các kỹ sư dữ liệu sẽ cần phát triển một loạt các kỹ năng mới, chẳng hạn như điều chỉnh hiệu suất cơ sở dữ liệu, thiết kế dữ liệu, DataOps (kết hợp DevOps, kỹ thuật dữ liệu và khoa học dữ liệu) và phát triển cơ sở dữ liệu vector. Các vai trò mới có thể bao gồm các kỹ sư nhắc nhở, người quản lý đạo đức AI và các chuyên gia về dữ liệu phi cấu trúc.
Sự thay đổi kỹ năng này sẽ yêu cầu các nhà lãnh đạo dữ liệu phải làm việc với ban lãnh đạo HR để xem xét lại cách tìm kiếm và đào tạo mọi người cho các kỹ năng họ cần. Ví dụ, các công ty sẽ cần phát triển cả hai chương trình học nghề trong đó các chuyên gia dữ liệu cao cấp dành thời gian đào tạo tài năng và các chương trình học tập được xây dựng xung quanh các mô-đun kỹ năng riêng biệt.
Trong nỗ lực nâng cao kỹ năng cho tài năng, các nhà lãnh đạo dữ liệu không được quên văn hóa. Phân tích của McKinsey cho thấy các nhà phát triển AI thế hệ mới và người dùng nhiều quan tâm nhất đến những người đáng tin cậy và hỗ trợ, cũng như các nhà lãnh đạo quan tâm và truyền cảm hứng: khoảng hai trong năm người nói rằng công việc có ý nghĩa và một cộng đồng hòa nhập là những động lực cốt lõi, thậm chí còn cao hơn cả sự linh hoạt.6
Rủi ro đã trở thành một lĩnh vực đáng quan tâm hơn nhiều với sự phát triển của các công nghệ tiên tiến, đáng chú ý nhất là AI và AI thế hệ mới. Các chính phủ đang hành động nhanh chóng để đưa ra các quy định mới và các công ty đang đánh giá các chính sách mới.
Một số vấn đề đã được biết đến rộng rãi, chẳng hạn như ảo giác (tức là các mô hình AI thế hệ mới cung cấp câu trả lời không chính xác), thiên vị, quyền sở hữu trí tuệ và quyền riêng tư dữ liệu. Nhưng vì các công nghệ này quá mới và phát triển nhanh chóng nên bối cảnh rủi ro rộng hơn thường không được hiểu rõ. Có ba loại rủi ro nổi bật: Các loại tấn công mới. Sức mạnh của AI thế hệ mới để học hỏi và phát triển nhanh chóng đang mở ra cánh cửa cho các loại tấn công hoàn toàn mới, bao gồm phần mềm độc hại tự phát triển có thể học các hệ thống nội bộ và phát triển để phá vỡ các biện pháp phòng thủ, bot thông minh có thể ngày càng bắt chước con người và dữ liệu bị nhiễm được đưa vào quá trình đào tạo mô hình.
Mở rộng bối cảnh rủi ro. Các mối liên kết rộng lớn giữa AI và các hệ thống dữ liệu, cả bên trong và bên ngoài doanh nghiệp, đã tạo ra một khu vực lớn hơn đáng kể để gây ra thiệt hại.
Những 'ẩn số' mới Khi tương tác với AI trở nên mang tính đối thoại hơn và ít chỉ là tìm kiếm sự thật hơn, các công ty sẽ bước vào một vùng mơ hồ hơn nhiều được xác định bởi các hệ thống giá trị khác nhau. Và với sự gia tăng của các tác nhân AI thế hệ mới về cơ bản là "nói chuyện" với nhau, các loại rủi ro hoàn toàn mới có khả năng sẽ xuất hiện.
Các hành động thiết yếu dành cho các nhà lãnh đạo dữ liệu
Ngoài việc theo kịp các loại rủi ro mới nổi này, các nhà lãnh đạo dữ liệu sẽ cần phải xem xét lại cách tiếp cận rủi ro của họ. Nhiều người vẫn phụ thuộc quá nhiều vào các phương pháp tiếp cận tuân thủ và chất lượng dữ liệu truyền thống, trong khi một số ít đã bắt đầu triển khai mã hóa nâng cao và thử nghiệm đạo đức. Việc đánh giá lại này cần được củng cố bằng sự hiểu biết rằng quản lý rủi ro là một lợi thế cạnh tranh, đạt được bằng cách xây dựng một thương hiệu là người giám hộ an toàn cho sinh kế của khách hàng hoặc đơn giản là tránh những thất bại mà đối thủ cạnh tranh có thể gặp phải. Quan điểm đó sẽ thúc đẩy một tư thế chủ động hơn để giải quyết rủi ro thay vì chỉ đạt được các tiêu chuẩn tuân thủ.
Các nhà lãnh đạo dữ liệu (và các nhà lãnh đạo công nghệ nói chung) có thể theo kịp quy mô của các vấn đề mạng bằng cách triển khai các khả năng AI (và cuối cùng là lượng tử), chẳng hạn như LLM "đối kháng" để kiểm tra các email do LLM tạo ra để tìm nội dung không phù hợp hoặc bất hợp pháp và bộ công cụ công bằng để kiểm tra sự thiên vị.
Mặc dù các công cụ do bên thứ ba phát triển có thể hữu ích, nhưng không nên giao phó bảo mật AI tiên tiến. Những người dẫn đầu về dữ liệu cần phải lưu tâm đến việc xây dựng năng lực của bản thân để theo kịp tốc độ của thị trường.
The excitement around generative AI (gen AI) and its massive potential value has energized organizations to rethink their approaches to business itself. Organizations are looking to seize a range of opportunities, from creating new medicines to enabling intelligent agents that run entire processes to increasing productivity for all workers. A raft of new risks and considerations, of course, go hand in hand with these developments. At the center of it all is data. Without access to good and relevant data, this new world of possibilities and value will remain out of reach.
Building on our interactive “The data-driven enterprise of 2025,” this article is intended to help executives think through seven essential priorities that reflect the most important shifts that are occurring, what the main complexities are, and where leaders can focus their energy to realize the data-driven enterprise of 2030.
Everything, everywhere, all at once
By 2030, many companies will be approaching “data ubiquity.” Not only will employees have the latest data at their fingertips, as we highlighted in “The data-driven enterprise of 2025,” but data will also be embedded in systems, processes, channels, interactions, and decision points that drive automated actions (with sufficient human oversight).
Quantum-sensing technologies, for example, will generate more precise, real-time data on the performance of products from cars to medical devices, which applied-AI capabilities will be able to analyze to then recommend and make targeted software updates. Gen AI agents informed by detailed historical customer data will interact with digital twins of those same customers to test personalized products, services, and offers before they are rolled out to the real world. Clusters of large language models (LLMs) working together will analyze individual health data to derive, develop, and deploy personalized medicines.
Some companies are already embracing this vision, but in many organizations, few people understand what data they really need to make better decisions or understand the capabilities of data to enable better outcomes.
Essential actions for data leaders
Enabling these visions of advanced technologies requires the data leader to activate the organization so it thinks and acts “data and AI first” when making any decision. That means making data easy to use (by creating standards and tools for users and systems to easily access the right data), easy to track (by providing transparency into models so users can check answers and automated outcomes), and easy to trust (by protecting data with advanced cyber measures and continually testing it to maintain high accuracy).
Data leaders will need to adopt an “everything, everywhere, all at once” mindset to ensure that data across the enterprise can be appropriately shared and used. That includes, for example, clearly defining and communicating data structures (that is, data hierarchies and fields) so teams understand the standards needed for a given data set and establishing clear business rules (such as naming conventions or types of data that are acceptable to collect), which will need to be revisited frequently as models, regulations, and business goals evolve.
Two core characteristics of many recent technologies—for example, gen AI, low code and no code, and small language models (SLMs)—are how easy they are to use and how rapidly they have proliferated. Vendors, for instance, are integrating gen AI into their offerings; start-ups are quickly rolling out new tools and models; and large swaths of people are using gen AI to help with their work. Sixty-five percent of respondents to a recent McKinsey survey say their organizations are regularly using gen AI in at least one business function, up from a third last year.1
The problem with this mass adoption is that many organizations are using the same tools or developing similar capabilities, which means they’re not creating much competitive advantage. It’s as if everyone chose to use the same bricks to build a house that looks just like the one next door. The value, however, comes not just from the bricks themselves but also from how they are put together—the vision and design for assembling those bricks into a home that people will want to buy.
Essential actions for data leaders
To unlock “alpha” (a term investors use for obtaining returns above benchmark levels) with gen AI and other technologies, data leaders need to have a clear focus on data strategies that can deliver competitive advantage, such as the following:Customizing models using proprietary data. The power of LLMs and SLMs comes from a company’s ability to train them on its own proprietary data sets and tailor them through targeted prompt engineering.
Integrating data, AI, and systems. Value is increasingly coming from how well companies combine and integrate data and technologies. Integrating gen AI and applied-AI use cases, for example, can create differentiating capabilities, such as using AI to develop predictive models for user behavior data and feeding those insights to gen AI models to generate personalized content.
Doubling down on high-value data products. The lion’s share of the value a company can derive from data will come from about five to 15 data products—treated and packaged data that systems and users can easily consume.
The ease of use of many basic tools and their increasing availability have generated a proliferation of often-disconnected use cases, pilots, and features. The enthusiasm around gen AI in particular means that data leaders no longer have to push the value of data on their colleagues. Instead, they’re struggling to manage the “pull.” This results in two issues: first, teams across the enterprise launch proof-of-concept models and AI-based applications that have no chance of scaling (“pilot purgatory”), and second, various stakeholders invest in heterogeneous use cases that require wide-ranging modules from the data and AI stack and the building of entire architectures at once before value can be realized.
To enable the scale required to operate data-driven businesses in 2030, data leaders will need an approach that accelerates how use cases provide impact while solving for scale through an architecture that can support the enterprise. To achieve this, data leaders need to build “capability pathways,” which are clustered technology components that enable capabilities that can be used for multiple use cases (Exhibit 1).
How to develop and sustain capability pathways depends in part on thinking through critical-data-architecture choices. The choices generally break down between a centralized approach, with a carefully managed data lake house, for instance; a decentralized approach, whereby local business units have full ownership over their data; and a federated approach that might use a data mesh.
A decentralized approach will make it difficult to create capability pathways that can be used across the enterprise, while a more centralized approach requires additional investment in governance and oversight capabilities. The choice of hyperscaler (for example, cloud service provider), with its set of embedded tools and capabilities, will also influence how to develop capability pathways.
The first one was an AI and machine learning capability pathway to perform deep analysis and segmentation of the company’s customers. To build this pathway, the company pulled together a number of elements, including a PySpark machine learning library (for clustering and propensity analysis), Databricks for file storage, and Futurescope for model management using MLflow. The other capability pathway was for personalized communication made up of LLMs, a sales data warehouse, marketing technologies to send and track email performance, and a customer-360 data set and external data from Experian for customer interests and demographics, among other technical elements.
With these capability pathways, the company was able to segment customers into highly refined archetypes, send them personal offers, provide personalized prompts to service operations to follow up with customers, and deliver personalized behavioral information for sales staff.
For decades now, companies have been working with structured data (for instance, SKUs, product specifications, transactions and balances organized by master and reference data). That’s just 10 percent of the data available, however. Gen AI has opened up the other 90 percent of data, which is unstructured (for example, videos, pictures, chats, emails, and product reviews).
This windfall of data can greatly enrich companies’ capabilities, especially when combined or integrated with other data sources. Examples might include using reviews, social media posts, and purchase history to enable gen AI agents to create highly personalized customer offers or analyzing contracts and terms from past business dealings so gen AI agents can manage vendor negotiations, onboarding, fulfillment, and contract updates.
But the scale and variety of the unstructured data are a more geometrically complex issue. By definition, unstructured data is less consistent, less available, and harder to prepare and cleanse—made all the more challenging by the scale of data. As an analogy, it’s like putting in the effort to develop and manage the pipelines and systems for drinking water and suddenly being tasked with managing an ocean of water. And with data volumes expected to increase by more than ten times from 2020 to 2030, this issue is not going to get easier anytime soon.2
Essential actions for data leaders
Creating value from unstructured data is a much bigger and more time-intensive effort than many realize. Significant challenges include cleansing and tagging requirements, privacy and bias concerns, skyrocketing cloud storage and networking costs, and often expensive conversion processes. Data leaders will need to invest in building new capabilities such as natural-language processing to help convert the unstructured data so that LLMs can “understand” and use it, as well as in testing and recalibrating LLMs continually as models and corresponding data sources are updated.
Crucially, data leaders will need to stay focused on “unlocking alpha” in managing the flood of unstructured data. That means investing time to map which parts of unstructured data are needed to best achieve business priorities and critical data products.
The ability of companies to achieve their data and AI vision by 2030 will rely substantially on leadership. To date, the story on this score has been a bit of a mixed bag. Only half of chief data and analytics officers, for example, feel they are able to drive innovation using data.3 Even high-performing companies struggle.4 Seventy percent of these organizations report difficulties, for instance, in developing processes for data governance and integrating data into AI models quickly.5
This issue often comes down to unclear responsibilities, narrow skill sets, or disconnected governance. In some cases, data leaders are focused on risk but are disconnected from the business leaders who need to use data to generate revenue. In others, leaders have a clear mandate to accelerate value creation within specific business areas but with limited enterprise perspective, resulting in siloed capabilities and subscale solutions.
Essential actions for data leaders
To get on the right track, companies need to find leaders who are skilled in three major areas:governance and compliance, with a heavy focus on defensive activities (driven primarily by regulation and cyber risk); these types of leaders are found primarily in high-compliance industries or those with high information value
engineering and architecture, with a focus on technical design and looking at every problem as an engineering opportunity to automate, reuse, and scale
business value, with a focus on generating revenue, growth, and efficiency from data; these leaders often work closely with the business
Finding a single person with the skills, mindset, and experience to cover all three roles is rare. Empowered data leaders, however, can fill out their teams with people who have the right mix of skills, or organizations can create an operating committee representing each capability area. Whichever model is chosen, it will require explicit sponsorship from the top, discussions with broader leadership on roles and responsibilities, shared accountability, and common incentives to solve for all three disciplines.
The talent profiles of organizations will likely look very different in 2030. Gen AI and automation technologies are already starting to take over basic analytical and process tasks, such as code generation, document creation, and data classification and synthesis. Over time, we can expect gen AI and other technologies to handle more sophisticated tasks, such as lineage production and data product development, while the supply of talent shifts and new jobs emerge.
Essential actions for data leaders
These shifts in the way work is done require data and AI leaders to develop a clear view of what new skills are needed. Some of these new skills will be absorbed into existing roles, while others will require completely new roles (Exhibit 2). Data engineers, for example, will need to develop a new range of skills, such as database performance tuning, data design, DataOps (which combines DevOps, data engineering, and data science), and vector database development. New roles might include prompt engineers, AI ethics stewards, and unstructured-data specialists.
This skills shift will require data leaders to work with HR leadership to rethink how to find and train people for the skills they need. Companies, for instance, will need to develop both apprenticeship programs in which senior data experts dedicate time to training talent and learning programs built around discrete skills modules.
In the drive to upskill talent, data leaders must not forget culture. McKinsey analysis shows that gen AI developers and heavy users care most about reliable and supportive people, as well as caring and inspiring leaders: roughly two in five say that meaningful work and an inclusive community are core motivators, even above flexibility.6
Risk has become much more of an area of concern with the rise of advanced technologies—most notably AI and gen AI. Governments are moving quickly to roll out new regulations, and companies are evaluating new policies.
Some of the issues have been well known, such as hallucinations (that is, gen AI models providing inaccurate answers), bias, intellectual property rights, and data privacy. But since these technologies are so new and evolving quickly, the broader risk landscape is often not well understood. Three types of risk stand out:New types of attacks. The power of gen AI to learn and evolve quickly is opening the door to completely new types of attacks, including self-evolving malware that learns internal systems and evolves to breach defenses, intelligent bots that can increasingly mimic humans, and infected data that is inserted into models training.
Broadening landscape for risk. The broad interconnections between AI and data systems—both within and outside of enterprises—have created a significantly greater area for damage to be done.
New ‘unknowns.’ As interacting with AI becomes more conversational and less about just searching for facts, companies will enter a much more ambiguous zone defined by varying value systems. And with the proliferation of gen AI agents essentially “talking” with each other, completely new categories of risk will likely emerge.
Essential actions for data leaders
In addition to keeping abreast of these emerging risk types, data leaders will need to rethink their approaches to risk. Many still rely too much on traditional data quality and compliance approaches, while few have started to implement advanced coding and ethics testing. This reevaluation should be underpinned with the understanding that risk management is a competitive advantage, achieved either by building a brand that is a safe custodian of customer livelihoods or by simply avoiding the failures that competitors might face. That view should drive a more proactive posture to addressing risks than simply hitting compliance benchmarks.
Data leaders (and tech leaders more broadly) can keep up with the scale of cyber issues by implementing AI (and eventually quantum) capabilities, such as “adversarial” LLMs to test LLM-generated emails for inappropriate or illegal content, and fairness tool kits to test for bias.
While tools developed by third parties can be helpful, advanced AI security shouldn’t be farmed out. Data leaders need to be mindful about building up their own capabilities to keep up with the pace of the market.
Vạch ra con đường hướng tới doanh nghiệp dựa trên dữ liệu và AI vào năm 2030
Trí tuệ nhân tạo tạo sinh đã tập trung nhiều hơn vào dữ liệu, tạo áp lực buộc các công ty phải thực hiện những thay đổi đáng kể để xây dựng một tổ chức thực sự dựa trên dữ liệu.Sự phấn khích xung quanh trí tuệ nhân tạo tạo sinh (gen AI) và giá trị tiềm năng to lớn của nó đã thúc đẩy các tổ chức xem xét lại cách tiếp cận của họ đối với chính doanh nghiệp. Các tổ chức đang tìm cách nắm bắt một loạt các cơ hội, từ việc tạo ra các loại thuốc mới đến việc cho phép các tác nhân thông minh chạy toàn bộ quy trình để tăng năng suất cho tất cả người lao động. Tất nhiên, một loạt các rủi ro và cân nhắc mới đi đôi với những phát triển này. Trung tâm của tất cả là dữ liệu. Nếu không có quyền truy cập vào dữ liệu tốt và có liên quan, thế giới mới của những khả năng và giá trị này sẽ nằm ngoài tầm với.
Dựa trên "Doanh nghiệp dựa trên dữ liệu năm 2025" tương tác của chúng tôi, bài viết này nhằm mục đích giúp các giám đốc điều hành suy nghĩ về bảy ưu tiên thiết yếu phản ánh những thay đổi quan trọng nhất đang diễn ra, những phức tạp chính là gì và nơi các nhà lãnh đạo có thể tập trung năng lượng của mình để hiện thực hóa doanh nghiệp dựa trên dữ liệu năm 2030.
Mọi thứ, mọi nơi, tất cả cùng một lúc
Đến năm 2030, nhiều công ty sẽ tiếp cận "tính phổ biến của dữ liệu". Nhân viên không chỉ có dữ liệu mới nhất trong tầm tay, như chúng tôi đã nêu bật trong "Doanh nghiệp dựa trên dữ liệu năm 2025", mà dữ liệu cũng sẽ được nhúng vào các hệ thống, quy trình, kênh, tương tác và điểm quyết định thúc đẩy các hành động tự động (với sự giám sát đầy đủ của con người).
Ví dụ, các công nghệ cảm biến lượng tử sẽ tạo ra dữ liệu chính xác hơn, theo thời gian thực về hiệu suất của các sản phẩm từ ô tô đến thiết bị y tế, mà các khả năng AI ứng dụng sẽ có thể phân tích để sau đó đề xuất và thực hiện các bản cập nhật phần mềm có mục tiêu. Các tác nhân AI thế hệ mới được thông báo bởi dữ liệu khách hàng lịch sử chi tiết sẽ tương tác với các bản sao kỹ thuật số của cùng những khách hàng đó để thử nghiệm các sản phẩm, dịch vụ và ưu đãi được cá nhân hóa trước khi chúng được triển khai ra thế giới thực. Các cụm mô hình ngôn ngữ lớn (LLM) hoạt động cùng nhau sẽ phân tích dữ liệu sức khỏe của từng cá nhân để có được, phát triển và triển khai các loại thuốc được cá nhân hóa.
Một số công ty đã áp dụng tầm nhìn này, nhưng trong nhiều tổ chức, ít người hiểu được dữ liệu nào họ thực sự cần để đưa ra quyết định tốt hơn hoặc hiểu được khả năng của dữ liệu để tạo ra kết quả tốt hơn.
Các hành động thiết yếu dành cho các nhà lãnh đạo dữ liệu
Để thực hiện các tầm nhìn về công nghệ tiên tiến này, nhà lãnh đạo dữ liệu phải kích hoạt tổ chức để suy nghĩ và hành động "dữ liệu và AI trước tiên" khi đưa ra bất kỳ quyết định nào. Điều đó có nghĩa là làm cho dữ liệu dễ sử dụng (bằng cách tạo ra các tiêu chuẩn và công cụ để người dùng và hệ thống dễ dàng truy cập đúng dữ liệu), dễ theo dõi (bằng cách cung cấp tính minh bạch cho các mô hình để người dùng có thể kiểm tra câu trả lời và kết quả tự động) và dễ tin cậy (bằng cách bảo vệ dữ liệu bằng các biện pháp an ninh mạng tiên tiến và liên tục kiểm tra để duy trì độ chính xác cao).
Các nhà lãnh đạo dữ liệu sẽ cần áp dụng tư duy “mọi thứ, mọi nơi, tất cả cùng một lúc” để đảm bảo dữ liệu trên toàn doanh nghiệp có thể được chia sẻ và sử dụng một cách phù hợp. Điều đó bao gồm, ví dụ, xác định rõ ràng và truyền đạt các cấu trúc dữ liệu (tức là, các phân cấp dữ liệu và trường) để các nhóm hiểu các tiêu chuẩn cần thiết cho một tập dữ liệu nhất định và thiết lập các quy tắc kinh doanh rõ ràng (chẳng hạn như quy ước đặt tên hoặc các loại dữ liệu được chấp nhận để thu thập), cần phải được xem xét lại thường xuyên khi các mô hình, quy định và mục tiêu kinh doanh phát triển.
Spotlight
MakerVerse, một thị trường cho các bộ phận công nghiệp, đã tích hợp các mô hình dữ liệu tiên tiến vào chuỗi giá trị của mình. Ví dụ, khi khách hàng gửi bản vẽ thiết kế hỗ trợ máy tính (CAD) và các yêu cầu đối với các bộ phận, các thuật toán sẽ phân tích các mô hình dữ liệu lịch sử để tự động cung cấp chi phí ước tính của nhà cung cấp, giá theo hợp đồng và thời gian giao hàng. Sau khi khách hàng hoàn tất giao dịch mua, các mô hình sẽ phân tích dữ liệu về nhà cung cấp (bao gồm chi phí, lịch sử hiệu suất và khả năng đáp ứng các loại đơn đặt hàng cụ thể) để chọn các tùy chọn tốt nhất, sau đó tự động gửi và xác nhận các đề xuất để sản xuất và giao bộ phận đó. Các hệ thống được liên kết với các nguồn dữ liệu tại nhà cung cấp cho phép MakerVerse tự động theo dõi tiến độ của nhà cung cấp (và điền dữ liệu mới vào cơ sở dữ liệu của họ) và chuyển mọi vấn đề lên các nhà quản lý tài khoản.
Mở khóa 'alpha'
Hai đặc điểm cốt lõi của nhiều công nghệ gần đây—ví dụ, AI gen, mã thấp và không mã, và các mô hình ngôn ngữ nhỏ (SLM)—là mức độ dễ sử dụng và tốc độ phát triển nhanh chóng của chúng. Ví dụ, các nhà cung cấp đang tích hợp AI gen vào các dịch vụ của họ; các công ty khởi nghiệp đang nhanh chóng triển khai các công cụ và mô hình mới; và một lượng lớn người dùng đang sử dụng AI gen để hỗ trợ công việc của họ. Sáu mươi lăm phần trăm số người trả lời khảo sát gần đây của McKinsey cho biết tổ chức của họ thường xuyên sử dụng AI gen trong ít nhất một chức năng kinh doanh, tăng từ một phần ba vào năm ngoái.1
Vấn đề với việc áp dụng rộng rãi này là nhiều tổ chức đang sử dụng cùng một công cụ hoặc phát triển các khả năng tương tự, điều đó có nghĩa là họ không tạo ra nhiều lợi thế cạnh tranh. Giống như thể mọi người đều chọn sử dụng cùng một viên gạch để xây một ngôi nhà trông giống hệt ngôi nhà bên cạnh. Tuy nhiên, giá trị không chỉ đến từ bản thân những viên gạch mà còn từ cách chúng được ghép lại với nhau—tầm nhìn và thiết kế để lắp ráp những viên gạch đó thành một ngôi nhà mà mọi người sẽ muốn mua.
Các hành động thiết yếu dành cho các nhà lãnh đạo dữ liệu
Để mở khóa “alpha” (thuật ngữ mà các nhà đầu tư sử dụng để chỉ lợi nhuận vượt mức chuẩn) bằng AI thế hệ mới và các công nghệ khác, các nhà lãnh đạo dữ liệu cần tập trung rõ ràng vào các chiến lược dữ liệu có thể mang lại lợi thế cạnh tranh, chẳng hạn như sau: Tùy chỉnh các mô hình bằng dữ liệu độc quyền. Sức mạnh của LLM và SLM đến từ khả năng đào tạo chúng trên các tập dữ liệu độc quyền của riêng công ty và điều chỉnh chúng thông qua kỹ thuật nhanh chóng có mục tiêu.
Tích hợp dữ liệu, AI và hệ thống. Giá trị ngày càng đến từ cách các công ty kết hợp và tích hợp dữ liệu và công nghệ tốt như thế nào. Ví dụ, việc tích hợp các trường hợp sử dụng AI thế hệ mới và AI ứng dụng có thể tạo ra các khả năng khác biệt, chẳng hạn như sử dụng AI để phát triển các mô hình dự đoán cho dữ liệu hành vi của người dùng và cung cấp những hiểu biết đó cho các mô hình AI thế hệ mới để tạo nội dung được cá nhân hóa.
Tăng gấp đôi các sản phẩm dữ liệu có giá trị cao. Phần lớn giá trị mà một công ty có thể thu được từ dữ liệu sẽ đến từ khoảng năm đến 15 sản phẩm dữ liệu—dữ liệu được xử lý và đóng gói mà các hệ thống và người dùng có thể dễ dàng sử dụng.
Các con đường năng lực: Từ phản ứng đến mở rộng quy mô
Tính dễ sử dụng của nhiều công cụ cơ bản và tính khả dụng ngày càng tăng của chúng đã tạo ra sự gia tăng các trường hợp sử dụng, chương trình thí điểm và tính năng thường không liên quan. Đặc biệt, sự nhiệt tình xung quanh AI thế hệ mới có nghĩa là các nhà lãnh đạo dữ liệu không còn phải thúc đẩy giá trị của dữ liệu cho các đồng nghiệp của mình nữa. Thay vào đó, họ đang phải vật lộn để quản lý "lực kéo". Điều này dẫn đến hai vấn đề: thứ nhất, các nhóm trên toàn doanh nghiệp tung ra các mô hình chứng minh khái niệm và các ứng dụng dựa trên AI không có cơ hội mở rộng quy mô ("nơi luyện ngục thí điểm") và thứ hai, nhiều bên liên quan đầu tư vào các trường hợp sử dụng không đồng nhất đòi hỏi các mô-đun rộng từ ngăn xếp dữ liệu và AI và xây dựng toàn bộ kiến trúc cùng một lúc trước khi có thể nhận ra giá trị.
Để có thể mở rộng quy mô cần thiết để vận hành các doanh nghiệp dựa trên dữ liệu vào năm 2030, các nhà lãnh đạo dữ liệu sẽ cần một phương pháp tiếp cận giúp đẩy nhanh cách các trường hợp sử dụng tạo ra tác động trong khi giải quyết vấn đề mở rộng quy mô thông qua một kiến trúc có thể hỗ trợ doanh nghiệp. Để đạt được điều này, các nhà lãnh đạo dữ liệu cần xây dựng "lộ trình năng lực", là các thành phần công nghệ được nhóm lại cho phép các năng lực có thể được sử dụng cho nhiều trường hợp sử dụng (Biểu đồ 1).
Cách phát triển và duy trì các lộ trình năng lực phụ thuộc một phần vào việc suy nghĩ thấu đáo về các lựa chọn kiến trúc dữ liệu quan trọng. Các lựa chọn thường được chia thành phương pháp tiếp cận tập trung, với một kho dữ liệu được quản lý cẩn thận, ví dụ; phương pháp tiếp cận phi tập trung, theo đó các đơn vị kinh doanh địa phương có toàn quyền sở hữu dữ liệu của họ; và phương pháp tiếp cận liên bang có thể sử dụng lưới dữ liệu.
Phương pháp tiếp cận phi tập trung sẽ gây khó khăn cho việc tạo ra các lộ trình năng lực có thể được sử dụng trên toàn doanh nghiệp, trong khi phương pháp tiếp cận tập trung hơn đòi hỏi phải đầu tư thêm vào các khả năng quản trị và giám sát. Việc lựa chọn nhà cung cấp dịch vụ siêu quy mô (ví dụ: nhà cung cấp dịch vụ đám mây), với bộ công cụ và khả năng nhúng của mình, cũng sẽ ảnh hưởng đến cách phát triển các lộ trình năng lực.
Spotlight
Một công ty ô tô muốn tạo ra khả năng cung cấp nhiều dịch vụ và phương thức giao tiếp được cá nhân hóa với khách hàng. Để đáp ứng nhu cầu này, công ty đã quyết định phát triển hai lộ trình khả năng.
Đầu tiên là lộ trình năng lực AI và máy học để thực hiện phân tích sâu và phân khúc khách hàng của công ty. Để xây dựng lộ trình này, công ty đã tập hợp một số yếu tố, bao gồm thư viện máy học PySpark (để phân cụm và phân tích khuynh hướng), Databricks để lưu trữ tệp và Futurescope để quản lý mô hình bằng MLflow. Lộ trình năng lực khác là để giao tiếp được cá nhân hóa bao gồm LLM, kho dữ liệu bán hàng, công nghệ tiếp thị để gửi và theo dõi hiệu suất email, và bộ dữ liệu khách hàng 360 độ và dữ liệu bên ngoài từ Experian về sở thích và thông tin nhân khẩu học của khách hàng, cùng với các yếu tố kỹ thuật khác. Với
các lộ trình năng lực này, công ty có thể phân khúc khách hàng thành các nguyên mẫu được tinh chỉnh cao, gửi cho họ các ưu đãi cá nhân, cung cấp lời nhắc được cá nhân hóa cho các hoạt động dịch vụ để theo dõi khách hàng và cung cấp thông tin hành vi được cá nhân hóa cho nhân viên bán hàng.
Sống trong một thế giới không có cấu trúc
Trong nhiều thập kỷ qua, các công ty đã làm việc với dữ liệu có cấu trúc (ví dụ: SKU, thông số kỹ thuật sản phẩm, giao dịch và số dư được sắp xếp theo dữ liệu chính và dữ liệu tham chiếu). Tuy nhiên, đó chỉ là 10 phần trăm dữ liệu khả dụng. Gen AI đã mở ra 90 phần trăm dữ liệu còn lại, không có cấu trúc (ví dụ: video, hình ảnh, trò chuyện, email và đánh giá sản phẩm). Lượng
dữ liệu dồi dào này có thể làm tăng đáng kể khả năng của các công ty, đặc biệt là khi kết hợp hoặc tích hợp với các nguồn dữ liệu khác. Các ví dụ có thể bao gồm sử dụng các bài đánh giá, bài đăng trên mạng xã hội và lịch sử mua hàng để cho phép các tác nhân gen AI tạo ra các ưu đãi cho khách hàng được cá nhân hóa cao hoặc phân tích các hợp đồng và điều khoản từ các giao dịch kinh doanh trước đây để các tác nhân gen AI có thể quản lý các cuộc đàm phán với nhà cung cấp, đưa lên tàu, thực hiện và cập nhật hợp đồng.
Nhưng quy mô và tính đa dạng của dữ liệu phi cấu trúc là một vấn đề phức tạp hơn về mặt hình học. Theo định nghĩa, dữ liệu phi cấu trúc ít nhất quán hơn, ít khả dụng hơn và khó chuẩn bị và làm sạch hơn - càng trở nên khó khăn hơn do quy mô của dữ liệu. Tương tự như vậy, giống như việc nỗ lực phát triển và quản lý đường ống và hệ thống nước uống và đột nhiên được giao nhiệm vụ quản lý cả một đại dương nước. Và với khối lượng dữ liệu dự kiến sẽ tăng hơn mười lần từ năm 2020 đến năm 2030, vấn đề này sẽ không dễ dàng hơn trong thời gian tới.2
Các hành động thiết yếu dành cho các nhà lãnh đạo dữ liệu
Tạo ra giá trị từ dữ liệu phi cấu trúc là một nỗ lực lớn hơn nhiều và tốn thời gian hơn nhiều so với nhận thức của nhiều người. Những thách thức đáng kể bao gồm các yêu cầu về làm sạch và gắn thẻ, mối quan tâm về quyền riêng tư và thiên vị, chi phí lưu trữ đám mây và mạng tăng vọt và các quy trình chuyển đổi thường tốn kém. Các nhà lãnh đạo dữ liệu sẽ cần đầu tư vào việc xây dựng các khả năng mới như xử lý ngôn ngữ tự nhiên để giúp chuyển đổi dữ liệu phi cấu trúc để LLM có thể "hiểu" và sử dụng dữ liệu đó, cũng như trong việc thử nghiệm và hiệu chỉnh lại LLM liên tục khi các mô hình và nguồn dữ liệu tương ứng được cập nhật.
Điều quan trọng là các nhà lãnh đạo dữ liệu sẽ cần tập trung vào việc "mở khóa alpha" trong việc quản lý lượng dữ liệu phi cấu trúc khổng lồ. Điều đó có nghĩa là phải dành thời gian để lập bản đồ những phần nào của dữ liệu phi cấu trúc là cần thiết để đạt được các ưu tiên kinh doanh và sản phẩm dữ liệu quan trọng tốt nhất.
Lãnh đạo dữ liệu: Cần cả một ngôi làng
Khả năng của các công ty trong việc đạt được tầm nhìn về dữ liệu và AI vào năm 2030 sẽ phụ thuộc đáng kể vào khả năng lãnh đạo. Cho đến nay, câu chuyện về điểm số này vẫn còn khá hỗn tạp. Ví dụ, chỉ một nửa số giám đốc dữ liệu và phân tích cảm thấy họ có thể thúc đẩy đổi mới bằng dữ liệu.3 Ngay cả các công ty có hiệu suất cao cũng gặp khó khăn.4 Bảy mươi phần trăm các tổ chức này báo cáo những khó khăn, ví dụ, trong việc phát triển các quy trình quản trị dữ liệu và tích hợp dữ liệu vào các mô hình AI một cách nhanh chóng.5
Vấn đề này thường là do trách nhiệm không rõ ràng, bộ kỹ năng hạn hẹp hoặc khả năng quản trị không gắn kết. Trong một số trường hợp, các nhà lãnh đạo dữ liệu tập trung vào rủi ro nhưng lại không gắn kết với các nhà lãnh đạo doanh nghiệp cần sử dụng dữ liệu để tạo doanh thu. Trong những trường hợp khác, các nhà lãnh đạo có nhiệm vụ rõ ràng là đẩy nhanh quá trình tạo ra giá trị trong các lĩnh vực kinh doanh cụ thể nhưng lại có quan điểm doanh nghiệp hạn chế, dẫn đến khả năng bị cô lập và các giải pháp quy mô nhỏ.
Các hành động thiết yếu dành cho các nhà lãnh đạo dữ liệu
Để đi đúng hướng, các công ty cần tìm những nhà lãnh đạo có kỹ năng trong ba lĩnh vực chính: quản trị và tuân thủ, tập trung nhiều vào các hoạt động phòng thủ (chủ yếu do quy định và rủi ro mạng thúc đẩy); những kiểu nhà lãnh đạo này chủ yếu được tìm thấy trong các ngành tuân thủ cao hoặc những ngành có giá trị thông tin cao
về kỹ thuật và kiến trúc, tập trung vào thiết kế kỹ thuật và xem mọi vấn đề như một cơ hội kỹ thuật để tự động hóa, tái sử dụng và mở rộng
quy mô giá trị kinh doanh, tập trung vào việc tạo ra doanh thu, tăng trưởng và hiệu quả từ dữ liệu; những nhà lãnh đạo này thường làm việc chặt chẽ với doanh nghiệp.
Việc tìm thấy một người có các kỹ năng, tư duy và kinh nghiệm để đảm nhiệm cả ba vai trò là rất hiếm. Tuy nhiên, các nhà lãnh đạo dữ liệu được trao quyền có thể lấp đầy nhóm của họ bằng những người có sự kết hợp kỹ năng phù hợp hoặc các tổ chức có thể thành lập một ủy ban điều hành đại diện cho từng lĩnh vực năng lực. Bất kỳ mô hình nào được chọn, nó sẽ yêu cầu sự tài trợ rõ ràng từ cấp cao nhất, các cuộc thảo luận với ban lãnh đạo rộng hơn về các vai trò và trách nhiệm, trách nhiệm giải trình được chia sẻ và các động lực chung để giải quyết cho cả ba lĩnh vực.
Vòng đời tài năng mới
Hồ sơ nhân tài của các tổ chức có thể sẽ trông rất khác vào năm 2030. Công nghệ AI và tự động hóa thế hệ mới đã bắt đầu tiếp quản các nhiệm vụ phân tích và xử lý cơ bản, chẳng hạn như tạo mã, tạo tài liệu, phân loại và tổng hợp dữ liệu. Theo thời gian, chúng ta có thể mong đợi AI thế hệ mới và các công nghệ khác xử lý các nhiệm vụ phức tạp hơn, chẳng hạn như sản xuất dòng dõi và phát triển sản phẩm dữ liệu, trong khi nguồn cung nhân tài thay đổi và các công việc mới xuất hiện.
Các hành động thiết yếu dành cho các nhà lãnh đạo dữ liệu
Những thay đổi trong cách thực hiện công việc này đòi hỏi các nhà lãnh đạo dữ liệu và AI phải phát triển một cái nhìn rõ ràng về những kỹ năng mới cần thiết. Một số kỹ năng mới này sẽ được hấp thụ vào các vai trò hiện có, trong khi những kỹ năng khác sẽ yêu cầu các vai trò hoàn toàn mới (Biểu đồ 2). Ví dụ, các kỹ sư dữ liệu sẽ cần phát triển một loạt các kỹ năng mới, chẳng hạn như điều chỉnh hiệu suất cơ sở dữ liệu, thiết kế dữ liệu, DataOps (kết hợp DevOps, kỹ thuật dữ liệu và khoa học dữ liệu) và phát triển cơ sở dữ liệu vector. Các vai trò mới có thể bao gồm các kỹ sư nhắc nhở, người quản lý đạo đức AI và các chuyên gia về dữ liệu phi cấu trúc.
Sự thay đổi kỹ năng này sẽ yêu cầu các nhà lãnh đạo dữ liệu phải làm việc với ban lãnh đạo HR để xem xét lại cách tìm kiếm và đào tạo mọi người cho các kỹ năng họ cần. Ví dụ, các công ty sẽ cần phát triển cả hai chương trình học nghề trong đó các chuyên gia dữ liệu cao cấp dành thời gian đào tạo tài năng và các chương trình học tập được xây dựng xung quanh các mô-đun kỹ năng riêng biệt.
Trong nỗ lực nâng cao kỹ năng cho tài năng, các nhà lãnh đạo dữ liệu không được quên văn hóa. Phân tích của McKinsey cho thấy các nhà phát triển AI thế hệ mới và người dùng nhiều quan tâm nhất đến những người đáng tin cậy và hỗ trợ, cũng như các nhà lãnh đạo quan tâm và truyền cảm hứng: khoảng hai trong năm người nói rằng công việc có ý nghĩa và một cộng đồng hòa nhập là những động lực cốt lõi, thậm chí còn cao hơn cả sự linh hoạt.6
Người bảo vệ niềm tin kỹ thuật số
Rủi ro đã trở thành một lĩnh vực đáng quan tâm hơn nhiều với sự phát triển của các công nghệ tiên tiến, đáng chú ý nhất là AI và AI thế hệ mới. Các chính phủ đang hành động nhanh chóng để đưa ra các quy định mới và các công ty đang đánh giá các chính sách mới.
Một số vấn đề đã được biết đến rộng rãi, chẳng hạn như ảo giác (tức là các mô hình AI thế hệ mới cung cấp câu trả lời không chính xác), thiên vị, quyền sở hữu trí tuệ và quyền riêng tư dữ liệu. Nhưng vì các công nghệ này quá mới và phát triển nhanh chóng nên bối cảnh rủi ro rộng hơn thường không được hiểu rõ. Có ba loại rủi ro nổi bật: Các loại tấn công mới. Sức mạnh của AI thế hệ mới để học hỏi và phát triển nhanh chóng đang mở ra cánh cửa cho các loại tấn công hoàn toàn mới, bao gồm phần mềm độc hại tự phát triển có thể học các hệ thống nội bộ và phát triển để phá vỡ các biện pháp phòng thủ, bot thông minh có thể ngày càng bắt chước con người và dữ liệu bị nhiễm được đưa vào quá trình đào tạo mô hình.
Mở rộng bối cảnh rủi ro. Các mối liên kết rộng lớn giữa AI và các hệ thống dữ liệu, cả bên trong và bên ngoài doanh nghiệp, đã tạo ra một khu vực lớn hơn đáng kể để gây ra thiệt hại.
Những 'ẩn số' mới Khi tương tác với AI trở nên mang tính đối thoại hơn và ít chỉ là tìm kiếm sự thật hơn, các công ty sẽ bước vào một vùng mơ hồ hơn nhiều được xác định bởi các hệ thống giá trị khác nhau. Và với sự gia tăng của các tác nhân AI thế hệ mới về cơ bản là "nói chuyện" với nhau, các loại rủi ro hoàn toàn mới có khả năng sẽ xuất hiện.
Các hành động thiết yếu dành cho các nhà lãnh đạo dữ liệu
Ngoài việc theo kịp các loại rủi ro mới nổi này, các nhà lãnh đạo dữ liệu sẽ cần phải xem xét lại cách tiếp cận rủi ro của họ. Nhiều người vẫn phụ thuộc quá nhiều vào các phương pháp tiếp cận tuân thủ và chất lượng dữ liệu truyền thống, trong khi một số ít đã bắt đầu triển khai mã hóa nâng cao và thử nghiệm đạo đức. Việc đánh giá lại này cần được củng cố bằng sự hiểu biết rằng quản lý rủi ro là một lợi thế cạnh tranh, đạt được bằng cách xây dựng một thương hiệu là người giám hộ an toàn cho sinh kế của khách hàng hoặc đơn giản là tránh những thất bại mà đối thủ cạnh tranh có thể gặp phải. Quan điểm đó sẽ thúc đẩy một tư thế chủ động hơn để giải quyết rủi ro thay vì chỉ đạt được các tiêu chuẩn tuân thủ.
Các nhà lãnh đạo dữ liệu (và các nhà lãnh đạo công nghệ nói chung) có thể theo kịp quy mô của các vấn đề mạng bằng cách triển khai các khả năng AI (và cuối cùng là lượng tử), chẳng hạn như LLM "đối kháng" để kiểm tra các email do LLM tạo ra để tìm nội dung không phù hợp hoặc bất hợp pháp và bộ công cụ công bằng để kiểm tra sự thiên vị.
Mặc dù các công cụ do bên thứ ba phát triển có thể hữu ích, nhưng không nên giao phó bảo mật AI tiên tiến. Những người dẫn đầu về dữ liệu cần phải lưu tâm đến việc xây dựng năng lực của bản thân để theo kịp tốc độ của thị trường.
Spotlight
Skyflow cung cấp một nền tảng có tên là Skyflow Data Privacy Vault, được thiết kế để giúp các công ty quản lý, bảo vệ và sử dụng dữ liệu nhạy cảm trong khi vẫn đảm bảo tuân thủ và quyền riêng tư. Nó hoạt động như một trung tâm an toàn cho dữ liệu nhạy cảm, cô lập dữ liệu khỏi các hệ thống khác và mã hóa dữ liệu bằng các kỹ thuật tiên tiến. Mặc dù có tính bảo mật mạnh mẽ, các API an toàn của Skyflow vẫn cho phép người dùng sử dụng dữ liệu này cho quy trình làm việc, chia sẻ hoặc phân tích—tất cả mà không cần giải mã thông tin gốc.
Charting a path to the data- and AI-driven enterprise of 2030
Generative AI has increased the focus on data, putting pressure on companies to make substantive shifts to build a truly data-based organization.The excitement around generative AI (gen AI) and its massive potential value has energized organizations to rethink their approaches to business itself. Organizations are looking to seize a range of opportunities, from creating new medicines to enabling intelligent agents that run entire processes to increasing productivity for all workers. A raft of new risks and considerations, of course, go hand in hand with these developments. At the center of it all is data. Without access to good and relevant data, this new world of possibilities and value will remain out of reach.
Building on our interactive “The data-driven enterprise of 2025,” this article is intended to help executives think through seven essential priorities that reflect the most important shifts that are occurring, what the main complexities are, and where leaders can focus their energy to realize the data-driven enterprise of 2030.
Everything, everywhere, all at once
By 2030, many companies will be approaching “data ubiquity.” Not only will employees have the latest data at their fingertips, as we highlighted in “The data-driven enterprise of 2025,” but data will also be embedded in systems, processes, channels, interactions, and decision points that drive automated actions (with sufficient human oversight).
Quantum-sensing technologies, for example, will generate more precise, real-time data on the performance of products from cars to medical devices, which applied-AI capabilities will be able to analyze to then recommend and make targeted software updates. Gen AI agents informed by detailed historical customer data will interact with digital twins of those same customers to test personalized products, services, and offers before they are rolled out to the real world. Clusters of large language models (LLMs) working together will analyze individual health data to derive, develop, and deploy personalized medicines.
Some companies are already embracing this vision, but in many organizations, few people understand what data they really need to make better decisions or understand the capabilities of data to enable better outcomes.
Essential actions for data leaders
Enabling these visions of advanced technologies requires the data leader to activate the organization so it thinks and acts “data and AI first” when making any decision. That means making data easy to use (by creating standards and tools for users and systems to easily access the right data), easy to track (by providing transparency into models so users can check answers and automated outcomes), and easy to trust (by protecting data with advanced cyber measures and continually testing it to maintain high accuracy).
Data leaders will need to adopt an “everything, everywhere, all at once” mindset to ensure that data across the enterprise can be appropriately shared and used. That includes, for example, clearly defining and communicating data structures (that is, data hierarchies and fields) so teams understand the standards needed for a given data set and establishing clear business rules (such as naming conventions or types of data that are acceptable to collect), which will need to be revisited frequently as models, regulations, and business goals evolve.
Spotlight
MakerVerse, a marketplace for industrial parts, has integrated advanced data models into its value chain. When customers submit computer-aided-design (CAD) drawings of and requirements for parts, for example, algorithms analyze historical data models to automatically provide estimated supplier costs, contractual pricing, and delivery timing. After a customer has completed the purchase, models analyze data about suppliers (including costs, performance history, and capabilities in fulfilling specific kinds of orders) to select the best options, then automatically send and confirm proposals to make and deliver the part. Systems that are tied to the data sources at the supplier allow MakerVerse to automatically track supplier progress (and populate their databases with new data) and escalate any issues to account managers.
Unlocking ‘alpha’
Two core characteristics of many recent technologies—for example, gen AI, low code and no code, and small language models (SLMs)—are how easy they are to use and how rapidly they have proliferated. Vendors, for instance, are integrating gen AI into their offerings; start-ups are quickly rolling out new tools and models; and large swaths of people are using gen AI to help with their work. Sixty-five percent of respondents to a recent McKinsey survey say their organizations are regularly using gen AI in at least one business function, up from a third last year.1
The problem with this mass adoption is that many organizations are using the same tools or developing similar capabilities, which means they’re not creating much competitive advantage. It’s as if everyone chose to use the same bricks to build a house that looks just like the one next door. The value, however, comes not just from the bricks themselves but also from how they are put together—the vision and design for assembling those bricks into a home that people will want to buy.
Essential actions for data leaders
To unlock “alpha” (a term investors use for obtaining returns above benchmark levels) with gen AI and other technologies, data leaders need to have a clear focus on data strategies that can deliver competitive advantage, such as the following:Customizing models using proprietary data. The power of LLMs and SLMs comes from a company’s ability to train them on its own proprietary data sets and tailor them through targeted prompt engineering.
Integrating data, AI, and systems. Value is increasingly coming from how well companies combine and integrate data and technologies. Integrating gen AI and applied-AI use cases, for example, can create differentiating capabilities, such as using AI to develop predictive models for user behavior data and feeding those insights to gen AI models to generate personalized content.
Doubling down on high-value data products. The lion’s share of the value a company can derive from data will come from about five to 15 data products—treated and packaged data that systems and users can easily consume.
Capability pathways: From reacting to scaling
The ease of use of many basic tools and their increasing availability have generated a proliferation of often-disconnected use cases, pilots, and features. The enthusiasm around gen AI in particular means that data leaders no longer have to push the value of data on their colleagues. Instead, they’re struggling to manage the “pull.” This results in two issues: first, teams across the enterprise launch proof-of-concept models and AI-based applications that have no chance of scaling (“pilot purgatory”), and second, various stakeholders invest in heterogeneous use cases that require wide-ranging modules from the data and AI stack and the building of entire architectures at once before value can be realized.
To enable the scale required to operate data-driven businesses in 2030, data leaders will need an approach that accelerates how use cases provide impact while solving for scale through an architecture that can support the enterprise. To achieve this, data leaders need to build “capability pathways,” which are clustered technology components that enable capabilities that can be used for multiple use cases (Exhibit 1).
How to develop and sustain capability pathways depends in part on thinking through critical-data-architecture choices. The choices generally break down between a centralized approach, with a carefully managed data lake house, for instance; a decentralized approach, whereby local business units have full ownership over their data; and a federated approach that might use a data mesh.
A decentralized approach will make it difficult to create capability pathways that can be used across the enterprise, while a more centralized approach requires additional investment in governance and oversight capabilities. The choice of hyperscaler (for example, cloud service provider), with its set of embedded tools and capabilities, will also influence how to develop capability pathways.
Spotlight
An automotive company wanted to create capabilities to offer a range of personalized services and communications with its customers. To meet this need, it decided to develop two capability pathways.
The first one was an AI and machine learning capability pathway to perform deep analysis and segmentation of the company’s customers. To build this pathway, the company pulled together a number of elements, including a PySpark machine learning library (for clustering and propensity analysis), Databricks for file storage, and Futurescope for model management using MLflow. The other capability pathway was for personalized communication made up of LLMs, a sales data warehouse, marketing technologies to send and track email performance, and a customer-360 data set and external data from Experian for customer interests and demographics, among other technical elements.
With these capability pathways, the company was able to segment customers into highly refined archetypes, send them personal offers, provide personalized prompts to service operations to follow up with customers, and deliver personalized behavioral information for sales staff.
Living in an unstructured world
For decades now, companies have been working with structured data (for instance, SKUs, product specifications, transactions and balances organized by master and reference data). That’s just 10 percent of the data available, however. Gen AI has opened up the other 90 percent of data, which is unstructured (for example, videos, pictures, chats, emails, and product reviews).
This windfall of data can greatly enrich companies’ capabilities, especially when combined or integrated with other data sources. Examples might include using reviews, social media posts, and purchase history to enable gen AI agents to create highly personalized customer offers or analyzing contracts and terms from past business dealings so gen AI agents can manage vendor negotiations, onboarding, fulfillment, and contract updates.
But the scale and variety of the unstructured data are a more geometrically complex issue. By definition, unstructured data is less consistent, less available, and harder to prepare and cleanse—made all the more challenging by the scale of data. As an analogy, it’s like putting in the effort to develop and manage the pipelines and systems for drinking water and suddenly being tasked with managing an ocean of water. And with data volumes expected to increase by more than ten times from 2020 to 2030, this issue is not going to get easier anytime soon.2
Essential actions for data leaders
Creating value from unstructured data is a much bigger and more time-intensive effort than many realize. Significant challenges include cleansing and tagging requirements, privacy and bias concerns, skyrocketing cloud storage and networking costs, and often expensive conversion processes. Data leaders will need to invest in building new capabilities such as natural-language processing to help convert the unstructured data so that LLMs can “understand” and use it, as well as in testing and recalibrating LLMs continually as models and corresponding data sources are updated.
Crucially, data leaders will need to stay focused on “unlocking alpha” in managing the flood of unstructured data. That means investing time to map which parts of unstructured data are needed to best achieve business priorities and critical data products.
Data leadership: It takes a village
The ability of companies to achieve their data and AI vision by 2030 will rely substantially on leadership. To date, the story on this score has been a bit of a mixed bag. Only half of chief data and analytics officers, for example, feel they are able to drive innovation using data.3 Even high-performing companies struggle.4 Seventy percent of these organizations report difficulties, for instance, in developing processes for data governance and integrating data into AI models quickly.5
This issue often comes down to unclear responsibilities, narrow skill sets, or disconnected governance. In some cases, data leaders are focused on risk but are disconnected from the business leaders who need to use data to generate revenue. In others, leaders have a clear mandate to accelerate value creation within specific business areas but with limited enterprise perspective, resulting in siloed capabilities and subscale solutions.
Essential actions for data leaders
To get on the right track, companies need to find leaders who are skilled in three major areas:governance and compliance, with a heavy focus on defensive activities (driven primarily by regulation and cyber risk); these types of leaders are found primarily in high-compliance industries or those with high information value
engineering and architecture, with a focus on technical design and looking at every problem as an engineering opportunity to automate, reuse, and scale
business value, with a focus on generating revenue, growth, and efficiency from data; these leaders often work closely with the business
Finding a single person with the skills, mindset, and experience to cover all three roles is rare. Empowered data leaders, however, can fill out their teams with people who have the right mix of skills, or organizations can create an operating committee representing each capability area. Whichever model is chosen, it will require explicit sponsorship from the top, discussions with broader leadership on roles and responsibilities, shared accountability, and common incentives to solve for all three disciplines.
The new talent life cycle
The talent profiles of organizations will likely look very different in 2030. Gen AI and automation technologies are already starting to take over basic analytical and process tasks, such as code generation, document creation, and data classification and synthesis. Over time, we can expect gen AI and other technologies to handle more sophisticated tasks, such as lineage production and data product development, while the supply of talent shifts and new jobs emerge.
Essential actions for data leaders
These shifts in the way work is done require data and AI leaders to develop a clear view of what new skills are needed. Some of these new skills will be absorbed into existing roles, while others will require completely new roles (Exhibit 2). Data engineers, for example, will need to develop a new range of skills, such as database performance tuning, data design, DataOps (which combines DevOps, data engineering, and data science), and vector database development. New roles might include prompt engineers, AI ethics stewards, and unstructured-data specialists.
This skills shift will require data leaders to work with HR leadership to rethink how to find and train people for the skills they need. Companies, for instance, will need to develop both apprenticeship programs in which senior data experts dedicate time to training talent and learning programs built around discrete skills modules.
In the drive to upskill talent, data leaders must not forget culture. McKinsey analysis shows that gen AI developers and heavy users care most about reliable and supportive people, as well as caring and inspiring leaders: roughly two in five say that meaningful work and an inclusive community are core motivators, even above flexibility.6
Guardians of digital trust
Risk has become much more of an area of concern with the rise of advanced technologies—most notably AI and gen AI. Governments are moving quickly to roll out new regulations, and companies are evaluating new policies.
Some of the issues have been well known, such as hallucinations (that is, gen AI models providing inaccurate answers), bias, intellectual property rights, and data privacy. But since these technologies are so new and evolving quickly, the broader risk landscape is often not well understood. Three types of risk stand out:New types of attacks. The power of gen AI to learn and evolve quickly is opening the door to completely new types of attacks, including self-evolving malware that learns internal systems and evolves to breach defenses, intelligent bots that can increasingly mimic humans, and infected data that is inserted into models training.
Broadening landscape for risk. The broad interconnections between AI and data systems—both within and outside of enterprises—have created a significantly greater area for damage to be done.
New ‘unknowns.’ As interacting with AI becomes more conversational and less about just searching for facts, companies will enter a much more ambiguous zone defined by varying value systems. And with the proliferation of gen AI agents essentially “talking” with each other, completely new categories of risk will likely emerge.
Essential actions for data leaders
In addition to keeping abreast of these emerging risk types, data leaders will need to rethink their approaches to risk. Many still rely too much on traditional data quality and compliance approaches, while few have started to implement advanced coding and ethics testing. This reevaluation should be underpinned with the understanding that risk management is a competitive advantage, achieved either by building a brand that is a safe custodian of customer livelihoods or by simply avoiding the failures that competitors might face. That view should drive a more proactive posture to addressing risks than simply hitting compliance benchmarks.
Data leaders (and tech leaders more broadly) can keep up with the scale of cyber issues by implementing AI (and eventually quantum) capabilities, such as “adversarial” LLMs to test LLM-generated emails for inappropriate or illegal content, and fairness tool kits to test for bias.
While tools developed by third parties can be helpful, advanced AI security shouldn’t be farmed out. Data leaders need to be mindful about building up their own capabilities to keep up with the pace of the market.
Spotlight
Skyflow offers a platform called the Skyflow Data Privacy Vault, designed to help companies manage, protect, and use sensitive data while ensuring compliance and privacy. It acts as a secure central hub for sensitive data, isolating it from other systems and encrypting it with advanced techniques. Despite strong security, Skyflow’s secure APIs still allow users to use this data for workflows, sharing, or analysis—all without ever decrypting the original information.
Nguồn: https://www.mckinsey.com/capabilities/mckinsey-digital/our-insights/charting-a-path-to-the-data-and-ai-driven-enterprise-of-2030