Dall-E là một phần mềm có thể tạo ra các hình ảnh chi tiết chỉ bằng một lời miêu tả ngắn gọn. Trí tuệ nhân tạo đang trở nên sáng tạo hơn bao giờ hết. Nó có thể đánh bại các kiện tướng cờ vua, tạo ra các bản giao hưởng, những bài thơ cảm động và giờ đây tạo ra tác phẩm nghệ thuật.
Nhóm nghiên cứu tại OpenAI gần đây đã tạo ra một phần mềm thông minh có thể tạo ra nhiều loại hình ảnh trong vài giây, chỉ từ một chuỗi từ được đưa ra. Chương trình này được gọi là Dall-E 2 và được xây dựng để cách mạng hóa cách chúng ta sử dụng AI với hình ảnh.
Dall-E 2 làm được gì?
Trở lại năm 2021, công ty phát triển nghiên cứu AI OpenAI đã tạo ra một chương trình được gọi là ‘Dall-E’ - sự pha trộn giữa hai cái tên Salvador Dali và Wall-E. Phần mềm này có thể tạo ra một hình ảnh hoàn toàn độc đáo nhờ AI. Ví dụ: khi bạn gõ “một con cáo trên cây" sẽ hiển thị một bức ảnh của một con cáo đang ngồi trên cây hoặc tìm kiếm "phi hành gia với chiếc bánh mì tròn trên tay" đều sẽ có thể hiển thị.
Mặc dù điều này khá ấn tượng, nhưng hình ảnh thường bị mờ, không hoàn toàn chính xác và mất một lúc để tạo ra. Giờ đây, OpenAI đã thực hiện những cải tiến lớn đối với phần mềm, tạo ra Dall-E 2 - một phiên bản mạnh mẽ mới, hoạt động ở cấp độ cao hơn nhiều. Cùng với một số tính năng mới khác, điểm khác biệt chính với mô hình thứ hai này là sự cải tiến lớn về độ phân giải hình ảnh, thời gian tạo hình ảnh và thuật toán tạo hình ảnh thông minh hơn.
Phần mềm không chỉ tạo ra một hình ảnh theo một phong cách duy nhất, bạn có thể thêm các kỹ thuật khác nhau tuỳ theo yêu cầu, đưa vào các phong cách vẽ, sơn dầu, mô hình plasticine, dệt kim từ len, vẽ trên tường hang động, hoặc thậm chí là áp phích phim những năm 1960.
Dall-E là trợ lý rất hữu ích, giúp khuếch đại những gì một người bình thường có thể làm, nhưng đồng thời vẫn phụ thuộc vào sự sáng tạo của người sử dụng. Một nghệ sĩ hoặc một người có khả năng sáng tạo có thể tạo ra những thứ thực sự thú vị.
Các tính năng đặc biệt
Ngoài khả năng tạo ra hình ảnh chỉ bằng các miêu tả bằng chữ, Dall-E 2 còn có hai kỹ thuật thông minh khác - inpainting và biến thể. Hai ứng dụng này hoạt động theo cách tương tự như Dall-E.
Với inpainting, bạn có thể lấy một hình ảnh hiện có và chỉnh sửa các tính năng mới vào đó hoặc thay đổi các phần của nó. Nếu bạn có một hình ảnh của phòng khách, bạn có thể thêm một tấm thảm mới, một con chó trên ghế sofa, thay đổi bức tranh trên tường hoặc thậm chí đặt một con voi trong phòng.
Biến thể là dịch vụ yêu cầu nhiều phiên bản từ hình ảnh hiện có. Nguồn cấp dữ liệu trong ảnh, hình minh họa hoặc một số loại hình ảnh khác và công cụ biến thể của Dall-E sẽ tạo ra hàng trăm phiên bản của riêng nó.
Bạn có thể cung cấp cho ứng dụng hình ảnh của một chiếc Teletubby, sau đó công cụ sẽ sao chép hình ảnh và tạo ra các phiên bản tương tự. Bạn cũng có thể sử dụng công cụ này để kết hợp hai hình ảnh thành một. Trộn một con rồng và một con chó corgi, hoặc một cầu vồng và một cái chậu để tạo ra những chiếc chậu có màu cầu vồng chẳng hạn.
Hạn chế của Dall-E 2
Mặc dù không có nghi ngờ về mức độ ấn tượng của công nghệ này, nhưng Dall-E 2 đương nhiên vẫn có giới hạn nhất định.
Một vấn đề bạn phải đối mặt là sự nhầm lẫn của một số từ hoặc cụm từ nhất định. Ví dụ: khi nhập "một lỗ đen bên trong một cái hộp", Dall-E 2 trả về một lỗ có màu đen bên trong một cái hộp, thay vì thiên thể vũ trụ. Điều này có thể xảy ra thường xuyên khi một từ có nhiều nghĩa, các cụm từ có thể bị hiểu nhầm, vì trí tuệ nhân tạo hiểu theo nghĩa đen của lời nói.
Một điều khác cần làm quen với hệ thống là cách thức hoạt động của miêu tả và phong cách nghệ thuật. Khi bạn nhập nội dung nào đó, hình ảnh ban đầu có thể không chính xác và mặc dù nó khớp về mặt kỹ thuật với yêu cầu của bạn, nhưng nó không hoàn toàn đáp ứng được cảm giác hoặc ý tưởng mà bạn tưởng tượng trong đầu. Điều này có thể mất một số thời gian để làm quen và cần một số điều chỉnh nhỏ.
Cuộc chiến chống lại những định kiến
Để giải quyết những vấn đề liên quan, nhóm OpenAI đằng sau Dall-E đã thực hiện chính sách an toàn cho tất cả các hình ảnh trên nền tảng hoạt động theo hai giai đoạn. Giai đoạn đầu tiên liên quan đến việc lọc ra dữ liệu có vi phạm lớn. Điều này bao gồm bạo lực, nội dung khiêu dâm và hình ảnh mà nhóm sẽ xem xét trong chính phủ. Giai đoạn thứ hai là bộ lọc để tìm ra những điểm tinh vi khó phát hiện, có thể là nội dung liên quan đến chính trị hoặc tuyên truyền chính trị dưới một số hình thức.
Mặc dù sử dụng chính sách này, nhóm vẫn nhận thức rõ ràng sự tồn tại những rủi ro và hạn chế của Dall-E. Chẳng hạn hình ảnh thường có thể cho thấy sự thiên vị hoặc khuôn mẫu như việc sử dụng thuật ngữ đám cưới thì kết quả chủ yếu là đám cưới phương Tây. Hoặc tìm kiếm luật sư phần lớn ra kết quả đàn ông da trắng lớn tuổi, với các y tá thì chỉ ra phụ nữ. Đây hoàn toàn không phải là những vấn đề mới và đó là điều mà Google đã giải quyết trong nhiều năm. Do đó, công ty đang cố gắng cải thiện cùng với chính sách an toàn mà người dùng cần tuân thủ của nhóm.
Tương lai của Dall-E
Hiện tại, phần mềm đang được triển khai nhưng vẫn chưa có kế hoạch rõ ràng về việc phổ biến rộng rãi với công chúng hơn.
Bằng cách phát hành sản phẩm của mình, nhóm OpenAI có thể theo dõi sự phát triển của nó, phát triển các quy trình an toàn và chuẩn bị sản phẩm của họ cho hàng triệu người sử dụng. Họ muốn đưa nghiên cứu này đến tay mọi người nhưng hiện tại họ vẫn chưa có kế hoạch thương mại hóa.
Men&life
Bình Luận