TIN TIẾNG ANH
Is 2026 The Year AI Runs Out of Training Data?
The more data it has, and the higher the quality of that data, the better the AI can perform its tasks and improve over time.
But what would happen if the world runs out of data?
A recently revised published paper found that if AI development trends continue, all data available online will be exhausted somewhere between 2026 to 2032 — or even earlier if models are overtrained.
The first author of the study, Pablo Villalobos, from the research institute Epoch AI, spoke about the study with Live Science.
“If chatbots consume all of the available data, and there are no further advances in data efficiency, I would expect to see a relative stagnation in the field. Models [will] only improve slowly over time as new algorithmic insights are discovered and new data is naturally produced.”
If data does run out, researchers say private data and synthetic data will emerge as leading solutions. But not everyone is convinced this situation will ever become a reality.
Key Takeaways
- A recent study predicts AI could exhaust all publicly available data by 2026-2032, hindering further advancements without access to new information.
- Experts propose solutions like private data, transfer learning from rich data sets, and even synthetic data generation to address potential data limitations.
- While some argue AI’s ability to learn and conduct research will allow it to create its own data sources, lessening dependence on external data, others say AI would be limited without data.
Mikhail Dunaev, Chief AI Officer at Comply Control, a provider of AI-powered risk management and compliance services, told Techopedia that he disagrees with the study findings that suggest that the growth of large language models (LLMs) is limited by a lack of data.
“I believe that, at this point, there is already enough data available, and future AI development will focus on improving learning algorithms rather than acquiring more data.”
“The study predicts a data shortage in a few years, but given the current rapid speed of AI development, it’s hard to make forecasts so far ahead,” Dunaev said. “Furthermore, over the course of this time, humanity will continue to generate even more data and research, aided by AI itself.”
Jim Kaskade, CEO at Conversica, a Conversational AI provider, also spoke to Techoipedia about the study. Kaskade recognized that the study’s methodology and projections are robust and well-founded.
“However, we have to take into account the dynamic nature of the internet and data generation – over 2.5 quintillion bytes of data is created every day.
“Social platforms generate 100 trillion of text annually, tweets of 1.5 trillion text content per year. YouTube alone has over 260 million hours of video uploaded per year. People capture and share over 1 trillion photos each year as well.”
Dmytro Shevchenko, Classic Machine Learning, Computer Vision, and Natural Language Processing expert, and Data Scientist at Aimprosoft, a custom software development company, told Techopedia that while he agrees with the study, the conclusions are incomplete as they do not account for new changes.
“For example, improvements in data compression algorithms and optimization techniques may significantly reduce the need for vast data.”
“In addition, the use of synthetic data and transfer learning seems promising, but the research does not take into account all possible complexities and limitations of these methods.”
AI Companies Emerge By The Thousands
The AI ecosystem is expanding, with new companies developing, integrating, and applying AI on the rise. This exponential rise of new AI companies is recognized by the study as one of the factors impacting data availbility and usage.
According to the global startup data platform Tracxn, as of June 27, there are 75,741 companies working in AI. Some of these are top leaders or AI startups expected to blow up in 2024. The number of companies in the sector grows about 10% every month.
Shevchenko told Techopedia that this growth leads to inevitable impacts global data.
“At the current rate of development of LLMs, with the number of new organizations actively working with LLMs increasing by 10% each month for the past five years, it goes without saying that the threat that available public textual data will be exhausted by 2032 hangs over us.”
Can AI Technology Evolve Without Data?
One of the study’s conclusions is that without data, AI tech advancements are not possible. Kaskade from Conversica told Techopedia that without access to new data, AI advancements will be hindered.
“The study highlights that LLMs rely heavily on large-scale, high-quality data for training,” Kaskade said. “A lack of new data would limit these models’ ability to learn from evolving trends and contexts, reducing their effectiveness and accuracy.
“However, the study also suggests potential solutions such as synthetic data generation, transfer learning from data-rich domains, and improvements in data efficiency.”
While Kaskade expressed reservations about synthetic data, he said it could help maintain AI development momentum by providing alternative data sources, even in the absence of new human-generated data.
¨If AI were to run out of data due to resource constraints or otherwise, I would assume providers would simply purge the old data in the interest of capturing the new — aside of models trained specifically on prior periods, requiring no recent data to perform their tasks.”
If synthetic data, learning transfers, and the private data industry fail to meet the demands of future AIs, the technology will reach a performance plateau, Kaskade said. The result would be something similar to model drift — a situation where a model’s performance degrades over time because the data it was trained on becomes outdated or irrelevant.
“This would result in models becoming less effective over time as they fail to incorporate new information and trends. Secondly, the absence of fresh data could lead to overfitting, where models become too specialized on the existing data and perform poorly on any new tasks.”
Dunaev from Comply Control said the answer is not acquiring more data but optimizing algorithms. “Given the current pace of development and AI’s capability to generate new data and research, a lack of data is not a significant limitation for future progress,” Dunaev said.
“If AI does run out of data, it will still improve by optimizing learning algorithms and conducting its own research to get new data. So, even with limited data, AI will be able to keep growing and getting better.”
Shevchenko from Aimprosoft is unsure whether the AI models will evolve without problems if there is a data crisis.
“Real data is the backbone of the foundation in AI development as it provides diverse, rich, and contextually relevant information that allows models to learn, adapt, and generalize efficiently to different scenarios,” Shevchenko said.
“Synthetic data generation, transfer learning, and data optimization techniques can mitigate the impact of data scarcity. However, these methods cannot fully replace the richness and contextual relevance of real data.”
The Bottom Line
While AI could devour all publicly available data in the coming years, the future of AI development is a complex issue with no easy answers. Experts disagree on the severity of the data shortage and propose various solutions.
The ever-growing field of AI, with new companies emerging monthly, will undoubtedly place a strain on data availability. However, advancements in data efficiency, transfer learning, and even synthetic data generation have the potential to mitigate the impact of a data shortage.
The bottom line? The future of AI may be a bright one, but the journey will require innovation and a multi-pronged approach to data management and utilization.
TIN TIẾNG VIỆT
Có phải 2026 là năm AI cạn kiệt dữ liệu đào tạo?Trí tuệ nhân tạo cần dữ liệu để đào tạo, vận hành và phát triển — nó giống như năng lượng của AI.
Càng có nhiều dữ liệu và chất lượng dữ liệu càng cao thì AI càng có thể thực hiện nhiệm vụ của mình tốt hơn và cải thiện theo thời gian.
Nhưng điều gì sẽ xảy ra nếu thế giới hết dữ liệu?
Một bài báo mới được xuất bản gần đây đã phát hiện ra rằng nếu xu hướng phát triển AI tiếp tục, mọi dữ liệu có sẵn trực tuyến sẽ cạn kiệt vào khoảng năm 2026 đến năm 2032 — hoặc thậm chí sớm hơn nếu các mô hình được đào tạo quá mức.
Tác giả đầu tiên của nghiên cứu, Pablo Villalobos, từ viện nghiên cứu Epoch AI, đã chia sẻ về nghiên cứu này với Live Science .
“Nếu chatbot tiêu thụ tất cả dữ liệu có sẵn và không có tiến bộ nào nữa về hiệu quả dữ liệu, tôi dự đoán sẽ thấy sự trì trệ tương đối trong lĩnh vực này. Các mô hình [sẽ] chỉ cải thiện chậm theo thời gian khi những hiểu biết sâu sắc về thuật toán mới được phát hiện và dữ liệu mới được tạo ra một cách tự nhiên.”
Nếu hết dữ liệu, các nhà nghiên cứu cho biết dữ liệu riêng tư và dữ liệu tổng hợp sẽ nổi lên như những giải pháp hàng đầu. Nhưng không phải ai cũng tin rằng tình trạng này sẽ trở thành hiện thực.
Bài học chính
- Một nghiên cứu gần đây dự đoán AI có thể khai thác hết toàn bộ dữ liệu công khai vào năm 2026-2032, cản trở những tiến bộ hơn nữa nếu không có quyền truy cập vào thông tin mới.
- Các chuyên gia đề xuất các giải pháp như dữ liệu riêng tư, chuyển giao việc học từ các tập dữ liệu phong phú và thậm chí tạo dữ liệu tổng hợp để giải quyết các hạn chế tiềm ẩn về dữ liệu.
- Trong khi một số người cho rằng khả năng học hỏi và tiến hành nghiên cứu của AI sẽ cho phép nó tạo ra nguồn dữ liệu của riêng mình, giảm bớt sự phụ thuộc vào dữ liệu bên ngoài, thì những người khác lại cho rằng AI sẽ bị hạn chế nếu không có dữ liệu
Mikhail Dunaev , Giám đốc AI tại Comply Control , nhà cung cấp dịch vụ tuân thủ và quản lý rủi ro do AI cung cấp, nói với Techopedia rằng ông không đồng ý với các kết quả nghiên cứu cho thấy rằng sự phát triển của các mô hình ngôn ngữ lớn (LLM) bị hạn chế do thiếu dữ liệu .
“Tôi tin rằng, tại thời điểm này, đã có đủ dữ liệu và việc phát triển AI trong tương lai sẽ tập trung vào việc cải thiện các thuật toán học tập thay vì thu thập thêm dữ liệu.”
Dunaev cho biết: "Nghiên cứu dự đoán tình trạng thiếu hụt dữ liệu trong vài năm tới, nhưng xét đến tốc độ phát triển nhanh chóng hiện nay của AI, thật khó để đưa ra dự báo xa như vậy". "Hơn nữa, trong suốt thời gian này, nhân loại sẽ tiếp tục tạo ra nhiều dữ liệu và nghiên cứu hơn nữa, với sự hỗ trợ của chính AI".
Jim Kaskade , CEO tại Conversica , một nhà cung cấp AI đàm thoại, cũng đã nói chuyện với Techoipedia về nghiên cứu này. Kaskade thừa nhận rằng phương pháp luận và dự đoán của nghiên cứu này là mạnh mẽ và có cơ sở.
“Tuy nhiên, chúng ta phải tính đến tính chất năng động của Internet và việc tạo dữ liệu – hơn 2,5 triệu byte dữ liệu được tạo ra mỗi ngày.
“Các nền tảng xã hội tạo ra 100 nghìn tỷ văn bản mỗi năm, các tweet có 1,5 nghìn tỷ nội dung văn bản mỗi năm. Chỉ riêng YouTube đã có hơn 260 triệu giờ video được tải lên mỗi năm. Mọi người cũng chụp và chia sẻ hơn 1 nghìn tỷ bức ảnh mỗi năm.”
Dmytro Shevchenko , chuyên gia về Học máy cổ điển, Thị giác máy tính và Xử lý ngôn ngữ tự nhiên, đồng thời là Nhà khoa học dữ liệu tại Aimprosoft , một công ty phát triển phần mềm tùy chỉnh, chia sẻ với Techopedia rằng mặc dù ông đồng ý với nghiên cứu này, nhưng kết luận vẫn chưa đầy đủ vì không tính đến những thay đổi mới.
“Ví dụ, việc cải thiện thuật toán nén dữ liệu và kỹ thuật tối ưu hóa có thể làm giảm đáng kể nhu cầu về dữ liệu khổng lồ.”
“Ngoài ra, việc sử dụng dữ liệu tổng hợp và học chuyển giao có vẻ hứa hẹn, nhưng nghiên cứu không tính đến tất cả những phức tạp và hạn chế có thể có của các phương pháp này.”
Hàng nghìn công ty AI nổi lên
Hệ sinh thái AI đang mở rộng, với các công ty mới phát triển, tích hợp và ứng dụng AI ngày càng tăng. Nghiên cứu này công nhận sự gia tăng theo cấp số nhân của các công ty AI mới là một trong những yếu tố tác động đến tính khả dụng và việc sử dụng dữ liệu.
Theo nền tảng dữ liệu khởi nghiệp toàn cầu Tracxn , tính đến ngày 27 tháng 6, có 75.741 công ty hoạt động trong lĩnh vực AI. Một số trong số này là những công ty khởi nghiệp hàng đầu hoặc AI dự kiến sẽ bùng nổ vào năm 2024. Số lượng công ty trong lĩnh vực này tăng khoảng 10% mỗi tháng.
Shevchenko nói với Techopedia rằng sự tăng trưởng này sẽ dẫn đến những tác động không thể tránh khỏi đối với dữ liệu toàn cầu.
“Với tốc độ phát triển hiện tại của LLM, với số lượng các tổ chức mới tích cực làm việc với LLM tăng 10% mỗi tháng trong năm năm qua, không cần phải nói thì chúng ta cũng biết rằng mối đe dọa về việc dữ liệu văn bản công khai có sẵn sẽ cạn kiệt vào năm 2032 đang đe dọa chúng ta.”
Công nghệ AI có thể phát triển mà không cần dữ liệu?
Một trong những kết luận của nghiên cứu là nếu không có dữ liệu, những tiến bộ về công nghệ AI sẽ không thể thực hiện được. Kaskade từ Conversica nói với Techopedia rằng nếu không có quyền truy cập vào dữ liệu mới, những tiến bộ về AI sẽ bị cản trở.
Kaskade cho biết: “Nghiên cứu nhấn mạnh rằng LLM phụ thuộc rất nhiều vào dữ liệu quy mô lớn, chất lượng cao để đào tạo”. “Việc thiếu dữ liệu mới sẽ hạn chế khả năng học hỏi từ các xu hướng và bối cảnh đang phát triển của các mô hình này, làm giảm tính hiệu quả và độ chính xác của chúng.
“Tuy nhiên, nghiên cứu cũng đề xuất các giải pháp tiềm năng như tạo dữ liệu tổng hợp, chuyển giao việc học từ các miền giàu dữ liệu và cải thiện hiệu quả dữ liệu”.
Trong khi Kaskade bày tỏ sự dè dặt về dữ liệu tổng hợp, ông cho biết nó có thể giúp duy trì đà phát triển AI bằng cách cung cấp các nguồn dữ liệu thay thế, ngay cả khi không có dữ liệu mới do con người tạo ra.
¨Nếu AI hết dữ liệu do hạn chế về tài nguyên hoặc do nguyên nhân khác, tôi cho rằng các nhà cung cấp sẽ chỉ xóa dữ liệu cũ để thu thập dữ liệu mới - ngoài các mô hình được đào tạo cụ thể trong các giai đoạn trước, không yêu cầu dữ liệu gần đây để thực hiện nhiệm vụ.”
Kaskade cho biết, nếu dữ liệu tổng hợp, chuyển giao học tập và ngành dữ liệu cá nhân không đáp ứng được nhu cầu của AI trong tương lai, thì công nghệ này sẽ đạt đến mức ổn định về hiệu suất. Kết quả sẽ tương tự như hiện tượng trôi mô hình - một tình huống trong đó hiệu suất của mô hình giảm dần theo thời gian do dữ liệu được đào tạo trở nên lỗi thời hoặc không còn phù hợp.
“Điều này sẽ dẫn đến việc các mô hình trở nên kém hiệu quả hơn theo thời gian vì chúng không kết hợp được thông tin và xu hướng mới. Thứ hai, việc thiếu dữ liệu mới có thể dẫn đến tình trạng quá khớp, khi các mô hình trở nên quá chuyên biệt về dữ liệu hiện có và hoạt động kém trên bất kỳ tác vụ mới nào.”
Dunaev từ Comply Control cho biết câu trả lời không phải là thu thập thêm dữ liệu mà là tối ưu hóa các thuật toán. Dunaev cho biết: “Với tốc độ phát triển hiện tại và khả năng tạo ra dữ liệu và nghiên cứu mới của AI, việc thiếu dữ liệu không phải là hạn chế đáng kể cho tiến trình trong tương lai”.
“Nếu AI hết dữ liệu, nó vẫn sẽ cải thiện bằng cách tối ưu hóa các thuật toán học tập và tiến hành nghiên cứu riêng để có được dữ liệu mới. Vì vậy, ngay cả với dữ liệu hạn chế, AI sẽ có thể tiếp tục phát triển và ngày càng tốt hơn.”
Shevchenko từ Aimprosoft không chắc liệu các mô hình AI có phát triển mà không gặp vấn đề gì hay không nếu xảy ra khủng hoảng dữ liệu.
Shevchenko cho biết: “Dữ liệu thực là xương sống của nền tảng phát triển AI vì nó cung cấp thông tin đa dạng, phong phú và phù hợp với ngữ cảnh cho phép các mô hình học hỏi, thích ứng và khái quát hóa một cách hiệu quả cho các tình huống khác nhau”.
“Các kỹ thuật tạo dữ liệu tổng hợp, học chuyển giao và tối ưu hóa dữ liệu có thể giảm thiểu tác động của tình trạng khan hiếm dữ liệu. Tuy nhiên, các phương pháp này không thể thay thế hoàn toàn sự phong phú và tính liên quan theo ngữ cảnh của dữ liệu thực.”
Dòng cuối cùng
Trong khi AI có thể nuốt chửng mọi dữ liệu công khai trong những năm tới, tương lai của sự phát triển AI là một vấn đề phức tạp không có câu trả lời dễ dàng. Các chuyên gia không đồng ý về mức độ nghiêm trọng của tình trạng thiếu dữ liệu và đề xuất nhiều giải pháp khác nhau.
Lĩnh vực AI ngày càng phát triển, với các công ty mới nổi lên hàng tháng, chắc chắn sẽ gây áp lực lên tính khả dụng của dữ liệu. Tuy nhiên, những tiến bộ trong hiệu quả dữ liệu, học chuyển giao và thậm chí là tạo dữ liệu tổng hợp có khả năng giảm thiểu tác động của tình trạng thiếu dữ liệu.
Tóm lại là gì? Tương lai của AI có thể tươi sáng, nhưng hành trình này sẽ đòi hỏi sự đổi mới và cách tiếp cận đa hướng đối với việc quản lý và sử dụng dữ liệu.
Người giới thiệu
- [2211.04325] Chúng ta sẽ hết dữ liệu chứ? Giới hạn của việc mở rộng LLM dựa trên dữ liệu do con người tạo ra (Arxiv)
- Các mô hình AI có thể nuốt chửng toàn bộ kiến thức viết trên Internet vào năm 2026 | Khoa học sống (LiveScience)
- Mikhail Dunaev – Kiểm soát tuân thủ | LinkedIn (Linkedin)
- Kiểm soát tuân thủ | Xdata Group Ltd (ComplyControl)
- Jim Kaskade – Conversica | LinkedIn (Linkedin)
- Conversica | Các cuộc hội thoại được hỗ trợ bởi AI để mở khóa doanh thu (Conversica)
- Công ty Dịch vụ Phát triển Phần mềm Doanh nghiệp – Aimprosoft (Aimprosoft)
- Top 10 công ty và công ty khởi nghiệp về Trí tuệ nhân tạo trên thế giới tháng 5 năm 2024 – Tracxn (Tracxn)