Nam diễn viên Tom Hanks đã đảm nhận nhiều vai diễn qua các năm, tuy vậy chúng ta vẫn luôn nhìn nhận ông là Tom Hanks. Tại sao vậy? Phải chăng do vóc dáng của ông? Hay phong cách riêng của ông? Hay cách ông chuyển động?
Một nghiên cứu mới đây sẽ giúp chúng ta tiến gần hơn đến câu trả lời. Nó cho thấy tiềm năng của các thuật toán máy tính trong việc nắm bắt “tính cách” và tạo ra mô hình kỹ thuật số của người nổi tiếng như Tom Hanks từ một số lượng lớn các bức ảnh chụp hình ông trên mạng Internet.
Nếu có thể khai thác đầy đủ các dữ liệu thị giác, các thuật toán sẽ tạo ra một mô hình kỹ thuật số của Tom Hanks, và mô hình này sẽ có thể nói những điều mà nhân vật ngoài đời thực chưa hề thể hiện.
“Điều gì khiến Tom Hanks trông giống Tom Hanks? Câu trả lời có thể được minh họa bằng một hệ thống máy tính mô phỏng theo những điều Tom Hanks thực hiện”, trưởng nhóm nghiên cứu Supasorn Suwajanakorn – một sinh viên cao học ngành khoa học máy tính và kỹ thuật tại Đại học Washington – chia sẻ.
Công nghệ này dựa trên các cải tiến trong kỹ thuật tái tạo gương mặt 3D, theo dấu, lập mô hình đa kết cấu, và điều khiển con rối vốn đã được phát triển trong vòng 5 năm qua bởi một nhóm nghiên cứu dẫn đầu bởi Ira Kemelmacher-Shlizerman, phó giáo sư ngành khoa học máy tính và kỹ thuật.
Những đột phá mới nhất của nhóm nghiên cứu này bao gồm khả năng chuyển giao những nét biểu cảm và cử chỉ nói chuyện sang khuôn mặt của một người khác—lấy ví dụ, chuyển giao phong cách của cựu tổng thống Mỹ George W. Bush sang khuôn mặt của các chính trị gia và những người nổi tiếng khác.
Đây là một bước tiến hướng đến một mục tiêu đáng nể: tạo ra những nhân vật ảo kỹ thuật số 3D, có khả năng tương tác đầy đủ, từ các bộ ảnh và video gia đình, các bộ sưu tập lịch sử, hoặc các tư liệu thị giác hiện hữu khác.
Học tập ‘nơi hoang dã’
Với sự phát triển của các loại công nghệ thực tế ảo (virtual reality) và thực tế ảo tăng cường (augmented reality), các nhà nghiên cứu đang mường tượng đến một viễn cảnh trong đó họ sẽ sử dụng các ảnh chụp và video gia đình để tạo ra một mô hình tương tác của một người thân sống ở nước ngoài hay một ông bà sống ở xa, thay vì chỉ đơn giản gặp mặt nhau qua Skype trên màn hình máy tính 2 chiều (2D).
“Một ngày nào đó bạn sẽ có thể đeo một chiếc kính thực tế ảo tăng cường, và rồi một mô hình 3D của mẹ bạn đang ngồi trên chiếc ghế sofa ở đó”, Phó tiến sĩ Kemelmacher-Shlizerman, người hướng dẫn nghiên cứu, nói. “Công nghệ như vậy chưa tồn tại hiện nay—công nghệ màn hình đang tiến rất nhanh về phía trước —nhưng làm thế nào bạn có thể thực sự tái lập hình ảnh của mẹ bạn trong không gian 3 chiều?”
Một ngày nào đó công nghệ mô phỏng thậm chí sẽ có thể tiến thêm một bước nữa.
“Hãy tưởng tượng việc bạn có thể giao tiếp với bất kỳ ai mà trong thực tế bạn không thể gặp mặt trực tiếp—cầu thủ bóng rổ LeBron James, tổng thống Mỹ Barack Obama, hay danh hài quá cố Charlie Chaplin—và tương tác với họ”, đồng tác giả Steve Seitz, giáo sư khoa học máy tính và kỹ thuật nói. “Chúng tôi đang cố gắng đạt được mục tiêu đó thông qua một loạt các bước nghiên cứu. Một trong những thử nghiệm thật sự là liệu bạn có thể làm họ (các hình ảnh mô phỏng) nói những điều họ (người thực) chưa hề nói nhưng chúng ta vẫn cảm giác thấy giống như thật? Bài nghiên cứu đang tìm cách chứng minh cho tiềm năng này”.
Đối với các công nghệ hiện hành nhằm tái lập các hình ảnh 3 chiều hoặc hình ảnh kỹ thuật số chi tiết của các diễn viên như Benjamin Button, thông thường một người sẽ phải được trực tiếp mang vào trường quay. Họ sẽ phải tỉ mỉ tóm chụp từng góc cạnh của người đó cũng như cách họ chuyển động—một công việc không thể được tiến hành trong căn phòng khách.
Các phương pháp khác vẫn đòi hỏi phải quét chụp một người bằng một chiếc camera để tạo nên các hiện thân ảo trên trò chơi điện tử hay các môi trường ảo khác. Nhưng các chuyên gia tầm nhìn máy tính lại muốn tái lập mô hình kỹ thuật số 3D của một người chỉ dựa trên một loạt các bức ảnh đã có.
Để tái tạo mô phỏng những người nổi tiếng như Tom Hanks, Barack Obama, và Daniel Craig, các thuật toán máy tính sẽ khai thác tối thiểu 200 bức ảnh nhân vật đó ở các hoàn cảnh và tư thế đa dạng được chụp qua các năm và đăng tải trên mạng internet—một quá trình được gọi là học tập “nơi hoang dã”.
“Chúng tôi đặt câu hỏi như vậy, ‘Từ những bức ảnh chụp internet hay bộ sưu tập ảnh cá nhân, liệu bạn có thể tái lập một mô hình thực tế của người đó, dù họ chưa tương tác với một chiếc camera hay không?’” Phó giáo sư Kemelmacher-Shlizerman nói. “Qua nhiều năm chúng tôi đã thiết lập các thuật toán có khả năng xử lý loại dữ liệu không giới hạn này, vốn là một thành quả rất đáng chú ý”.
Gần đây anh Suwajanakorn đã phát triển các công nghệ nhằm tóm chụp các kết cấu biểu cảm, ví như các biển đổi nhỏ khi một người cười, hay trông có vẻ bối rối, hoặc di chuyển miệng của anh ta/cô ta.
Bằng cách điều chỉnh các điều kiện ánh sáng trong những bức ảnh chụp khác nhau, anh đã phát triển được một phương pháp mới nhằm chuyển giao những nét mặt và nét biểu cảm của một người sang một người khác. Đột phá này cho phép nhóm nghiên cứu “điều khiển” mô hình kỹ thuật số bằng một video của một người khác, và có thể tạo ra một loạt các ứng dụng hoạt ảnh và thực tế ảo mới.
“Bạn làm cách nào truyền giao nét biểu cảm của một người lên khuôn mặt của một người khác mà không đánh mất đặc tính của họ?” GS Seitz đặt câu hỏi. “Đây là một trong những khía cạnh thú vị của công việc này. Chúng tôi nhận thấy rằng nhân vật mô phỏng của bạn có thể có các nét biểu cảm và miệng cũng như cách thức chuyển động giống với George Bush, nhưng nó trông vẫn giống George Clooney”.
Nghiên cứu này, được trình bày trong Hội thảo Quốc tế về Tầm nhìn Máy tính được tổ chức từ ngày 11-18 vừa qua ở Chile, đã nhận được tài trợ từ Samsung, Google, Intel, và Đại học Washington.
Tác giả: Jennifer Langston, Đại học Washington.
Đăng tải từ Futurity.org. Đọc bản gốc ở đây.
Quý Khải biên dịch