Thứ Năm ngày 28 tháng 3 năm 2024

Tech MediaOnline

“Chó săn” tấn công các trợ lý ảo Siri và Cortana

“Chó săn” tấn công các trợ lý ảo Siri và Cortana
April 17
15:53 2016

 

Hồi giữa năm 2015, trong khi thiên hạ đang trầm trồ với ba trợ lý cá nhân bằng giọng nói (voice-enabled personal assistant) là Siri của Apple, Cortana của Microsoft và Google Now của Google, Công ty SoundHound đã giới thiệu ứng dụng Hound (Chó Săn) được tin rằng sẽ là đối thủ cạnh tranh đáng gờm của cả ba trợ lý ảo kia. Tính khác biệt và nổi trội của trợ lý cá nhân bằng giọng nói Hound so với 3 đối thủ là không chỉ chạy nhanh hơn mà còn có thể hiểu và trả lời chính xác các câu hỏi mang tính phức tạp cao.

Thật ra, để đẻ ra được một con “Chó Săn” có đủ sức tấn công các trợ lý ảo của 3 “ông lớn” công nghệ hàng đầu thế giới như vậy, các ông cha bà mẹ của nó đã phải mang nặng đẻ đau còn hơn là “chửa trâu” tới hơn 9 năm trời.

hound

Cách đây gần một thập niên, Keyvan Mohajer, nhà sáng lập Công ty SoundHound (ra đời năm 2005), đã trình bày với một nhóm các nhà đầu tư ý tưởng mà anh ấp ủ từ khi còn là một nghiên cứu sinh tiến sĩ chuyên ngành nhận diện giọng nói tại Đại học Stanford danh giá. Anh muốn làm một hệ thống cho phép người ta nói chuyện với các máy tính một cách bình thường như đang nói chuyện với một người khác. Thật ra đây không phải là một ý tưởng mới. Các nhà làm phim ở Hollywood bằng trí tưởng tượng siêu cấp của mình cứ mãi đi trước hiện thực. Trong bộ phim 2001: A Space Odyssey (Năm 2001, một chuyến phiêu lưu không gian), người ta đã sử dụng một chiếc máy tính có khả năng nói chuyện như một nhân vật chính của phim. Mohajer nghĩ rằng chiếc máy tính như thế không phải là chuyện khoa học giả tưởng mà hoàn toàn có thể có trong thực tế. Chỉ có điều, anh ước tính mình phải mất 10 năm để biến điều đó thành sự thật. Các nhà đầu tư ủng hộ ý tưởng của Mohajer, nhưng không đồng ý trì hoãn cái sự sung sướng ấy lại quá lâu. Họ nói với Mohajer: “10 năm là quá dài. Anh có thể cho chúng tôi xem một cái gì đó trong vòng 3 năm không?” Và rồi Midomi đã ra đời vào năm 2009 mà sau này được đổi tên thành SoundHound. Đây là một dịch vụ cho phép bạn ngân nga, rên ư ử trong miệng giai điệu của một bài hát mà máy tính vẫn có thể nhận diện được đó là bài hát gì.

Trang công nghệ BGR (2-4-2016) cho biết trong một cuộc phỏng vấn dành riêng cho BGR, Mohajer cho biết anh đã có được một sự thuyết phục sâu sắc rằng bước tiến hóa lớn tới đây trong điện toán cá nhân sẽ đến từ các trợ lý cá nhân có thể nói được. Các phần mềm ứng dụng này không chỉ có thể trả lời các câu hỏi đơn giản mà còn có khả năng trò chuyện với con người, hiểu được những lời nói của con người, kể cả những loại phức tạp.

Mohajer không phải là một kẻ ảo tưởng. Anh hiểu những thách thức về kỹ thuật của dự án này và biết rằng sẽ mất nhiều thời gian. Và để không làm nản lòng các nhà đầu tư, Mohajer chọn giải pháp phát triển những sản phẩm mang tính bắc cầu, cho chúng ra đời cách nhau vài ba năm để nuôi dự án để đời của mình. Đó là lý do mà ứng dụng nhận diện âm nhạc Midomi/SoundHound đã ra đời năm 2009, bốn năm sau khi Công ty SoundHound được thành lập.

Chính cái ứng dụng này đã cung cấp cho Mohajer và êkip của mình những ý niệm, những trải nghiệm xem trước về những thách thức mà họ sẽ phải vượt qua trong dự án xây dựng một phần mềm có thể ăn nói chính xác như con người. Điều đáng chú ý là Mohajer đã đi ngay vào một trong những khó khăn mà ngay cả con người cũng gặp phải khi nghe người khác nói không rõ ràng hay bị biến giọng (cũng như theo chất giọng địa phương). Nếu như chỉ cần hát lên bằng giọng nói để cho máy nhận diện bài hát cũng đủ siêu rồi, đằng này Mohajer phú cho ứng dụng trí thông minh còn siêu cấp hơn khi chỉ cần nghe ai đó ư ử một giai điệu là có thể nhận diện ra bài hát chính xác.

Theo giới chuyên môn, khảo sát các đối thủ đã ra đời, nhóm SoundHound muốn phát triển một phần mềm có thể loại bỏ những bước phụ thêm không cần thiết để không làm ảnh hưởng tới trải nghiệm người dùng. Chẳng hạn, với trợ lý ảo Siri, khi nghe bạn nói, cô nàng sẽ chuyển tiếng nói của bạn thành text sau đó chuyển sang ý nghĩa. Do cần 2 bước, thời gian sẽ bị chậm hơn một chút. Ngược lại, Hound sẽ vừa chuyển tiếng nói thành text, vừa dịch nghĩa cùng một lúc. Nhờ vậy, thời gian đáp ứng sẽ nhanh hơn. Các nhà phát triển cũng dạy cho Hound nhiều kỹ năng nghe, hiểu và trả lời những câu hỏi phức tạp. Thí dụ, Hound vẫn đú khả năng trả lời câu hỏi: lập danh sách tất cả các nhà hàng châu Á trong khoảng cách 3 dặm mà không có các món ăn Trung Hoa và mở cửa từ trưa tới 8 giờ tối vào các ngày Chủ nhật. Quả thiệt, là người mà nghe câu hỏi này cũng phải… đuối!

Thật ra, Hound chỉ là một phần nhỏ trong “đại kế hoạch” mang tên Houndify của Mohajer và Công ty SoundHound. Houndify là một nền tảng cho phép các nhà phát triển ứng dụng bên thứ ba tích hợp công nghệ nhận diện tiếng nói của Hound vào các ứng dụng của họ.

PHẠM HỒNG PHƯỚC

+ Nguồn ảnh: Internet. Thanks.

+ Bài đã in trên tạp chí e-CHÍP.

160413-echip-2_resize

 

TOPS IN THE WORLD

THAM KHẢO REVIEW

Cập nhật Đại Dịch COVID-19 Thế giới