AI Training Data – Nhật Phúc

AI companies cần dữ liệu độc quyền để nổi bật giữa đám đông

Linh Nguyễn — Mon, 13 Jan 2025 14:02:40 +0000

Năm 2024, các công ty AI trên toàn cầu đã huy động hơn 100 tỷ đô la từ các quỹ đầu tư mạo hiểm, theo dữ liệu từ Crunchbase. Mức tăng này cao hơn 80% so với năm 2023, cho thấy sự bùng nổ ấn tượng trong ngành công nghiệp AI, khi mà số tiền này chiếm gần một phần ba tổng số tiền đầu tư VC trong năm 2024. Điều này tạo ra một bức tranh cho thấy có rất nhiều tiền được đổ vào những công ty AI, nhưng đồng thời cũng đặt ra thách thức cho các nhà đầu tư tìm kiếm những khởi nghiệp tiềm năng thực sự.

Ngành công nghiệp AI trong hai năm qua đã phát triển rất nhanh chóng, dẫn đến tình trạng tràn ngập các công ty chồng chéo lẫn nhau. Nhiều startup vẫn chỉ sử dụng AI trong tiếp thị nhưng chưa vận dụng vào thực tế, trong khi một số startup khác thực sự đang nỗ lực để đạt được thành công. Để tìm ra những startup có khả năng trở thành những người dẫn đầu trong từng lĩnh vực, các nhà đầu tư cần đánh giá kỹ lưỡng.

TechCrunch gần đây đã thực hiện một cuộc khảo sát với 20 quỹ đầu tư mạo hiểm chuyên hỗ trợ các startup xây dựng ứng dụng cho doanh nghiệp, nhằm tìm hiểu những yếu tố nào giúp các startup AI có lợi thế cạnh tranh. Hơn một nửa số người tham gia khảo sát cho rằng chất lượng hay sự hiếm có của dữ liệu độc quyền là yếu tố quan trọng nhất.

Paul Drews, một đối tác điều hành tại Salesforce Ventures, cho biết thật khó để các startup AI có được lợi thế bền vững, vì bối cảnh thị trường thay đổi quá nhanh. Ông nhấn mạnh tầm quan trọng của sự kết hợp giữa dữ liệu khác biệt, đổi mới công nghệ và trải nghiệm người dùng hấp dẫn.

Cùng quan điểm, Jason Mendel, một nhà đầu tư tại Battery Ventures, cho rằng các lợi thế về công nghệ đang giảm dần. Ông tìm kiếm các công ty có dữ liệu sâu và quy trình làm việc chắc chắn. “Truy cập vào dữ liệu độc quyền, duy nhất cho phép các công ty cung cấp sản phẩm tốt hơn so với đối thủ cạnh tranh, trong khi một quy trình làm việc hấp dẫn cho phép họ trở thành những hệ thống cốt lõi mà khách hàng phụ thuộc vào hàng ngày,” Mendel chia sẻ.

Đối với những công ty xây dựng các giải pháp theo từng lĩnh vực, việc sở hữu dữ liệu độc quyền hoặc khó thu thập trở nên ngày càng quan trọng. Scott Beechuk, một đối tác tại Norwest Venture Partners, cho biết những công ty mà có thể tập trung vào dữ liệu độc đáo của mình chính là những startup có tiềm năng lâu dài nhất.

Andrew Ferguson, phó giám đốc tại Databricks Ventures, nhấn mạnh tầm quan trọng của việc có dữ liệu khách hàng phong phú, cùng với khả năng tạo ra vòng phản hồi trong hệ thống AI, điều này không chỉ làm cho hệ thống hiệu quả hơn mà còn giúp các startup nổi bật hơn.

Valeria Kogan, CEO của Fermata – một startup sử dụng thị giác máy tính để phát hiện sâu bệnh và các bệnh trên cây trồng, cho biết một trong những lý do giúp Fermata thu hút được sự chú ý chính là mô hình của họ được đào tạo từ cả dữ liệu khách hàng và dữ liệu từ trung tâm nghiên cứu và phát triển của công ty. Việc công ty thực hiện toàn bộ công việc gán nhãn dữ liệu trong nội bộ cũng góp phần làm tăng độ chính xác của mô hình.

The post AI companies cần dữ liệu độc quyền để nổi bật giữa đám đông appeared first on Nhật Phúc.

Youtube mở cửa cho trí tuệ nhân tạo: cơ hội mới cho nhà sáng tạo nội dung

Linh Nguyễn — Tue, 17 Dec 2024 01:51:53 +0000

Youtube, nền tảng video lớn nhất thế giới, đã công bố một tính năng mới cho phép các nhà sáng tạo nội dung tự mình lựa chọn việc chia sẻ video của họ cho các công ty bên thứ ba để huấn luyện các mô hình trí tuệ nhân tạo (AI). Đây là một bước đi quan trọng trong việc hỗ trợ các nhà sáng tạo khám phá giá trị mới từ nội dung của họ trong kỷ nguyên AI. Tuy nhiên, Youtube nhấn mạnh rằng cài đặt mặc định của tính năng này sẽ là “tắt”, nhằm bảo vệ quyền lợi của các nhà sáng tạo bất kể lý do nào.

Rob, một thành viên trong nhóm hỗ trợ của Youtube, chia sẻ, “Chúng tôi coi đây là một bước đi quan trọng trong việc hỗ trợ nhà sáng tạo và giúp họ hiện thực hóa giá trị mới cho nội dung của mình trong thời đại AI.” Ông cũng tiết lộ rằng trong thời gian sắp tới, Youtube sẽ tiếp tục tìm kiếm các cơ hội hợp tác mới, đảm bảo quyền lợi của các nhà sáng tạo thông qua các phương thức truy cập nội dung được cấp phép cho các công ty bên thứ ba.

Chức năng mới này sẽ được triển khai dần dần trên YouTube Studio trong vài ngày tới, và việc truy cập trái phép vào video vẫn bị nghiêm cấm. Danh sách các công ty bên thứ ba có thể huấn luyện AI trên video của người dùng bao gồm các tên tuổi lớn như AI21 Labs, Adobe, Amazon, Anthropic, Apple, ByteDance, Cohere, IBM, Meta, Microsoft, Nvidia, OpenAI, Perplexity, Pika Labs, Runway, Stability AI, và xAI. Theo phát ngôn viên của Youtube, Jack Malon, các công ty này được chọn bởi vì họ đang phát triển các mô hình AI sáng tạo và là những đối tác tiềm năng hợp lý.

Thông báo này được đưa ra sau khi có báo cáo về các mô hình AI từ các công ty lớn như OpenAI, Apple, và Anthropic đã sử dụng dữ liệu và nội dung từ Youtube để huấn luyện AI. Ngay cả Google cũng đã sử dụng dữ liệu từ Youtube để cải tiến các công cụ AI của mình. Trong tháng 9 vừa qua, Google đã công bố việc nghiên cứu tính năng mới này nhằm cải thiện trải nghiệm sản phẩm cho cả nhà sáng tạo và người xem trên Youtube thông qua ứng dụng machine learning và AI.

Hành động mở cửa của Youtube đối với các công ty phát triển AI không chỉ tạo ra cơ hội hợp tác mới mà còn khơi dậy một làn sóng mới trong cách tiếp cận công nghệ AI. Đây là bước tiến cho thấy sự chuyển mình đầy mạnh mẽ và hợp tác hơn trong không gian kỹ thuật số, khi mà khả năng tích hợp công nghệ và nội dung đang dần trở thành hiện thực.

The post Youtube mở cửa cho trí tuệ nhân tạo: cơ hội mới cho nhà sáng tạo nội dung appeared first on Nhật Phúc.

Ilya Sutskever dự báo tương lai đầy “giới hạn” của dữ liệu AI

Linh Nguyễn — Mon, 16 Dec 2024 01:32:43 +0000

Ilya Sutskever, đồng sáng lập và cựu nhà khoa học trưởng của OpenAI, gần đây đã có một buổi phát biểu công khai hiếm hoi tại hội thảo thường niên NeurIPS ở Vancouver. Đây là một sự kiện đặc biệt khi từ lúc rời OpenAI để thành lập phòng thí nghiệm AI riêng mang tên Safe Superintelligence Inc, Sutskever ít khi xuất hiện trước công chúng. Trong bài phát biểu của mình, Sutskever thảo luận về một vấn đề đang khiến ngành công nghiệp AI phải đối mặt: sự cạn kiệt dữ liệu để huấn luyện các mô hình trí tuệ nhân tạo.

Sutskever nhấn mạnh rằng giai đoạn tiền huấn luyện (pre-training) sẽ sớm kết thúc do đã đạt đến “đỉnh dữ liệu”. Ông cho rằng chúng ta đang khai thác hết dữ liệu mới từ internet và điều này sẽ buộc các mô hình AI tương lai thay đổi cách thức phát triển. Ông so sánh việc này với năng lượng hóa thạch: “Cũng như dầu mỏ là nguồn tài nguyên có hạn, internet cũng chỉ có một số lượng nhất định về nội dung do con người tạo ra.” Điều đó có nghĩa là chúng ta phải tận dụng những dữ liệu hiện có mà không dựa vào việc bổ sung thêm từ bên ngoài.

Dự báo về các mô hình AI thế hệ tiếp theo, Sutskever cho rằng chúng sẽ có khả năng tự chủ hơn, hay còn gọi là ‘agentic.’ Những hệ thống này sẽ có khả năng lý luận thay vì chỉ kết hợp mẫu dựa trên dữ liệu đã thấy trước đó. Ông nhấn mạnh rằng khi hệ thống tự lý luận tốt hơn, chúng sẽ trở nên khó dự đoán hơn, tương tự như các hệ thống AI chơi cờ đỉnh cao ngày nay trở thành một bài toán thách thức đối với các kỳ thủ giỏi nhất.

Sutskever cũng gợi ý rằng AI có thể tìm ra những cách tiếp cận mới để mở rộng, không giống như cách mà huấn luyện trước đây. Điều này giống như tiến hóa đã tìm ra mô hình tỷ lệ khối lượng não và cơ thể mới cho các loài hominid. Qua đó, AI cũng có thể phát hiện các quy mô mới, xa hơn so với cách thức huấn luyện truyền thống đang sử dụng.

Câu hỏi cuối cùng trong buổi hội thảo liên quan đến khả năng tạo ra các cơ chế khuyến khích đúng đắn để AI phát triển một cách nhân văn đã khiến Sutskever ngập ngừng suy nghĩ. Ông thừa nhận cần có một cấu trúc chính phủ toàn diện để giải quyết vấn đề này và không dám khẳng định về vai trò của tiền điện tử nhưng hy vọng rằng nếu AI có thể tồn tại hòa bình cùng con người và có quyền lợi riêng, đó sẽ là kết quả không tệ. Ông kêu gọi mọi người tiếp tục suy ngẫm và tưởng tượng về viễn cảnh tương lai này.

The post Ilya Sutskever dự báo tương lai đầy “giới hạn” của dữ liệu AI appeared first on Nhật Phúc.

OpenAI gặp sự cố gây mất dữ liệu trong vụ kiện về dữ liệu huấn luyện AI

Linh Nguyễn — Fri, 22 Nov 2024 07:40:59 +0000

Trong một sự cố gây kinh ngạc, các kỹ sư của OpenAI đã vô tình xóa mất bằng chứng quan trọng mà The New York Times và các tòa soạn lớn khác thu thập được trong vụ kiện liên quan đến dữ liệu huấn luyện AI, theo một đơn gửi tòa án vào thứ Tư. Đội ngũ pháp lý của các tòa soạn đã dành hơn 150 giờ tìm kiếm trong dữ liệu huấn luyện của OpenAI để tìm ra những trường hợp bài viết của họ bị sử dụng. Tuy nhiên, đơn kiện không giải thích lỗi này xảy ra như thế nào hay những dữ liệu cụ thể nào bị ảnh hưởng. Dù OpenAI thừa nhận sai sót và cố gắng khôi phục dữ liệu, nhưng những gì thu được vẫn không đầy đủ và không tin cậy — điều này khiến việc truy vết cách các bài báo của các tổ chức tin tức bị sử dụng trong xây dựng các mô hình AI của OpenAI trở nên không khả thi. Luật sư của OpenAI mô tả sự cố xóa dữ liệu này chỉ là “lỗi kỹ thuật,” tuy nhiên các luật sư của The New York Times lưu ý rằng họ “không có lý do để tin” rằng sự việc này là cố ý.

Công ty The New York Times khởi đầu cuộc chiến pháp lý này từ tháng 12 năm ngoái, cáo buộc OpenAI và đối tác của họ, Microsoft, đã xây dựng các công cụ AI bằng cách “sao chép và sử dụng hàng triệu” bài báo của họ, dẫn đến việc “cạnh tranh trực tiếp” với nội dung của tờ báo này. The New York Times yêu cầu OpenAI phải chịu trách nhiệm pháp lý cho “hàng tỷ USD thiệt hại thực tế và pháp lý” vì sao chép tác phẩm của họ. Tờ báo này đã chi hơn 1 triệu USD trong cuộc chiến pháp lý với OpenAI — một số tiền không nhiều nhà xuất bản có thể sánh nổi. Trong khi đó, OpenAI đã ký hợp đồng với nhiều hãng thông tấn lớn như Axel Springer, Conde Nast, và Vox Media, công ty mẹ của The Verge, ngụ ý rằng nhiều nhà xuất bản có xu hướng hợp tác thay vì đối đầu.

OpenAI từ chối tham gia cùng The New York Times trong việc gửi bản cập nhật lên tòa án. Thông báo này được gửi bởi luật sư Jennifer Maisel, người đại diện cho các tổ chức tin tức, nhằm thông báo chính thức với tòa về sự cố đã xảy ra. Trong một email gửi tới The Verge, phát ngôn viên của OpenAI, Jason Deutrom, cho biết công ty không đồng ý với các mô tả được đưa ra và sẽ sớm gửi phản hồi của mình. The New York Times từ chối yêu cầu bình luận của The Verge.

The post OpenAI gặp sự cố gây mất dữ liệu trong vụ kiện về dữ liệu huấn luyện AI appeared first on Nhật Phúc.

OpenAI Orion: Tương lai không như kỳ vọng với những giới hạn về dữ liệu

Linh Nguyễn — Wed, 13 Nov 2024 01:31:46 +0000

Theo một báo cáo mới đây từ The Information, mô hình Orion của OpenAI, được đồn đoán sẽ ra mắt cuối năm nay nhưng bị phủ nhận từ phía công ty, có thể không mang lại những cải tiến đáng kể như kỳ vọng. Các nhân viên giấu tên của OpenAI cho biết, Orion chỉ cải thiện một cách “nhỏ nhoi” so với GPT-4 – một sự thay đổi không lớn như sự chuyển mình giữa GPT-3 sang GPT-4. Đặc biệt, Orion không hẳn vượt trội hơn GPT-4 trong việc xử lý các nhiệm vụ mã hóa, dù có những tiến bộ trong việc xử lý ngôn ngữ tổng quát, như tóm tắt văn bản hay tạo email.

Vấn đề lớn hiện nay là nguồn dữ liệu văn bản chất lượng cao để đào tạo các mô hình mới đang dần cạn kiệt. Ngành công nghiệp AI đang đối diện với một cuộc khủng hoảng dữ liệu, khi đã khai thác hầu hết các nguồn dữ liệu dễ dàng từ các nền tảng mạng xã hội như X (Twitter cũ), Facebook và YouTube. Điều này làm giảm hiệu quả đào tạo, ảnh hưởng lớn đến môi trường và thương mại. Khi số lượng tham số của mô hình tăng lên hàng nghìn tỉ, lượng năng lượng và tài nguyên cần thiết cũng tăng lên sáu lần trong thập kỷ tới.

Để khắc phục, OpenAI đã thành lập một “đội ngũ nền tảng” nhằm vượt qua khó khăn về dữ liệu đào tạo. Một số giải pháp có thể bao gồm sử dụng dữ liệu nhân tạo, giống như cách mà Nvidia sử dụng trong các mô hình Nemotron. Đội ngũ này cũng đang tìm cách cải thiện hiệu suất mô hình sau khi đào tạo, nhưng điều này chỉ góp phần hạn chế trong bối cảnh hiện tại.

Orion, theo dự kiến ban đầu là tên gọi mã cho GPT-5, có thể sẽ ra đời vào năm 2025. Tuy nhiên, việc có đủ năng lượng để cho mô hình này hoạt động mà không gây gián đoạn cho hệ thống điện lưới của các thành phố vẫn là một câu hỏi lớn. OpenAI cũng có kế hoạch chỉ cung cấp mô hình này cho một số doanh nghiệp và đối tác chọn lọc, thay vì công khai cho người dùng rộng rãi như các phiên bản trước. Chiến lược này tương tự Nvidia với dòng sản phẩm NVLM 1.0.

Trong khi đó, Perplexity đã ra mắt một ứng dụng mới dành riêng cho Mac, hứa hẹn mang đến trải nghiệm tìm kiếm trí tuệ nhân tạo ngay trên desktop mà không cần trình duyệt web. Ứng dụng này hiện có sẵn trên Apple App Store.

Cùng lúc, một làn sóng phản đối đang đổ dồn vào OpenAI khi 11,500 nghệ sĩ ký vào một tuyên bố kêu gọi chấm dứt việc sử dụng trái phép các tác phẩm sáng tạo để đào tạo công cụ AI như ChatGPT, miêu tả đây là “mối đe dọa” đối với nguồn sống của những người tạo ra các tác phẩm này.

The post OpenAI Orion: Tương lai không như kỳ vọng với những giới hạn về dữ liệu appeared first on Nhật Phúc.