Nhóm nghiên cứu thuộc Phòng Thí nghiệm trí tuệ nhân tạo (AILab), Trường ĐH Khoa học tự nhiên TP.HCM đã giới thiệu những ứng dụng từ nghiên cứu của mình cho giới doanh nghiệp.
AILab đã kiên trì với hướng nghiên cứu về xử lý tiếng nói tiếng Việt nhiều năm nay, thông qua các đề tài, dự án được ĐH Quốc gia TP.HCM, Sở Khoa học - Công nghệ (KH-CN) TP.HCM và Bộ KH-CN tài trợ. Nghiên cứu về tổng hợp tiếng nói của nhóm hướng tới mục tiêu tạo ra tiếng nói nhân tạo giống với tiếng nói tự nhiên của người. Năm 2009, đề tài đã được trao giải 3 trong cuộc thi Nhân tài đất Việt. Hệ thống này cho phép khi chuyển một văn bản dưới dạng chữ viết vào, máy sẽ đọc tự động bằng tiếng Việt (phát thanh viên tự động).
Một số nghiên cứu khác về xử lý tiếng Việt cũng được nhóm phát triển như tìm các đoạn phim có nội dung thuyết minh bằng tiếng Việt thông qua yêu cầu trực tiếp bằng giọng nói; chuyển từ giọng nói tiếng Việt sang văn bản bằng tiếng Nhật và ngược lại (đây là một dự án phối hợp giữa nhóm với ĐH Kyoto - Nhật). Thậm chí người dùng chỉ cần ngâm nga một giai điệu (do không nhớ lời), hệ thống sẽ tìm ra bài hát có giai điệu đó.
Tìm địa điểm trên iPhone bằng giọng nóiMới đây, nhóm nghiên cứu đã giới thiệu phiên bản ứng dụng giao tiếp bằng giọng nói tiếng Việt đầu tiên trên điện thoại iPhone với tên gọi iSago, mô phỏng phiên bản Siri trên iPhone 4S do Viện SRI (Mỹ) phát triển.
Ở phiên bản 1.0, iSago cung cấp chức năng tìm kiếm thông tin nhà hàng, quán bar, café, các địa điểm giải trí trên địa bàn TP.HCM. Người dùng có thể đặt câu hỏi với iPhone bằng giọng nói của mình như: “Tìm cho tôi nhà hàng ở quận 1” hay “Có quán bar nào ở Phú Mỹ Hưng không?”. iSago sẽ truyền nội dung truy vấn này về server để xử lý và gửi lại kết quả tìm kiếm, dạng một danh sách: tên nhà hàng, địa chỉ. iSago cũng cho phép người dùng hiển thị địa chỉ tìm được dạng bản đồ hoặc nghe máy đọc địa chỉ trực tiếp. Ứng dụng này cũng được thể hiện với phiên bản hỏi thời tiết tại một địa phương nào đó bằng giọng nói trên iPhone.
Điều thú vị là mẫu câu hỏi không nhất thiết phải có khuôn mẫu cố định, hệ thống nhận dạng giọng nói sẽ tự động hiểu câu hỏi.
Tự động chuyển cuộc gọiĐH Quốc gia TP.HCM đã bảo trợ cho nhóm giới thiệu ứng dụng thương mại với dự án VIS (Viet voIce System) phiên bản đầu tiên. VIS cho phép một doanh nghiệp có thể không cần vị trí tổng đài viên nhờ khả năng hiểu tiếng nói để tự động chuyển cuộc gọi. Người gọi đến sẽ đối thoại với máy, qua đó hệ thống hiểu yêu cầu và sẽ tự động chuyển cuộc gọi đến các phòng, ban tương ứng mà không phải chờ nhân viên tiếp tân nối máy hoặc như hiện nay là khách phải tự bấm số nội bộ sau khi nghe hướng dẫn. Hệ thống hiểu được các đề nghị bằng nhiều mẫu câu khác nhau một cách linh hoạt.
Tiềm năng ứng dụng của hệ thống này theo PGS-TS Vũ Hải Quân, Trưởng phòng nghiên cứu, là có thể triển khai rộng rãi trong nhiều lĩnh vực hiện đang do người làm trực tiếp như: tổng đài giải đáp số điện thoại, địa chỉ; đặt và xác nhận chỗ, bán vé máy bay, thông báo lịch bay, lịch chạy tàu tự động...
Để nâng cao độ chính xác, PGS-TS Vũ Hải Quân cho biết hệ thống cần khoảng vài trăm giờ huấn luyện với khoảng vài ngàn giọng đọc mẫu đến từ các vùng miền, độ tuổi và giới tính khác nhau. Việc công bố miễn phí các ứng dụng thử nghiệm là cách nhanh nhất mà nhóm có thể thu thập thêm dữ liệu.
Hiện có thể tải miễn phí các ứng dụng này tại
http://www.ailab.hcmus.edu.vn.
Theo TN
AILab đã kiên trì với hướng nghiên cứu về xử lý tiếng nói tiếng Việt nhiều năm nay, thông qua các đề tài, dự án được ĐH Quốc gia TP.HCM, Sở Khoa học - Công nghệ (KH-CN) TP.HCM và Bộ KH-CN tài trợ. Nghiên cứu về tổng hợp tiếng nói của nhóm hướng tới mục tiêu tạo ra tiếng nói nhân tạo giống với tiếng nói tự nhiên của người. Năm 2009, đề tài đã được trao giải 3 trong cuộc thi Nhân tài đất Việt. Hệ thống này cho phép khi chuyển một văn bản dưới dạng chữ viết vào, máy sẽ đọc tự động bằng tiếng Việt (phát thanh viên tự động).
Một số nghiên cứu khác về xử lý tiếng Việt cũng được nhóm phát triển như tìm các đoạn phim có nội dung thuyết minh bằng tiếng Việt thông qua yêu cầu trực tiếp bằng giọng nói; chuyển từ giọng nói tiếng Việt sang văn bản bằng tiếng Nhật và ngược lại (đây là một dự án phối hợp giữa nhóm với ĐH Kyoto - Nhật). Thậm chí người dùng chỉ cần ngâm nga một giai điệu (do không nhớ lời), hệ thống sẽ tìm ra bài hát có giai điệu đó.
Tìm địa điểm trên iPhone bằng giọng nóiMới đây, nhóm nghiên cứu đã giới thiệu phiên bản ứng dụng giao tiếp bằng giọng nói tiếng Việt đầu tiên trên điện thoại iPhone với tên gọi iSago, mô phỏng phiên bản Siri trên iPhone 4S do Viện SRI (Mỹ) phát triển.
Ở phiên bản 1.0, iSago cung cấp chức năng tìm kiếm thông tin nhà hàng, quán bar, café, các địa điểm giải trí trên địa bàn TP.HCM. Người dùng có thể đặt câu hỏi với iPhone bằng giọng nói của mình như: “Tìm cho tôi nhà hàng ở quận 1” hay “Có quán bar nào ở Phú Mỹ Hưng không?”. iSago sẽ truyền nội dung truy vấn này về server để xử lý và gửi lại kết quả tìm kiếm, dạng một danh sách: tên nhà hàng, địa chỉ. iSago cũng cho phép người dùng hiển thị địa chỉ tìm được dạng bản đồ hoặc nghe máy đọc địa chỉ trực tiếp. Ứng dụng này cũng được thể hiện với phiên bản hỏi thời tiết tại một địa phương nào đó bằng giọng nói trên iPhone.
Điều thú vị là mẫu câu hỏi không nhất thiết phải có khuôn mẫu cố định, hệ thống nhận dạng giọng nói sẽ tự động hiểu câu hỏi.
Tự động chuyển cuộc gọiĐH Quốc gia TP.HCM đã bảo trợ cho nhóm giới thiệu ứng dụng thương mại với dự án VIS (Viet voIce System) phiên bản đầu tiên. VIS cho phép một doanh nghiệp có thể không cần vị trí tổng đài viên nhờ khả năng hiểu tiếng nói để tự động chuyển cuộc gọi. Người gọi đến sẽ đối thoại với máy, qua đó hệ thống hiểu yêu cầu và sẽ tự động chuyển cuộc gọi đến các phòng, ban tương ứng mà không phải chờ nhân viên tiếp tân nối máy hoặc như hiện nay là khách phải tự bấm số nội bộ sau khi nghe hướng dẫn. Hệ thống hiểu được các đề nghị bằng nhiều mẫu câu khác nhau một cách linh hoạt.
Tiềm năng ứng dụng của hệ thống này theo PGS-TS Vũ Hải Quân, Trưởng phòng nghiên cứu, là có thể triển khai rộng rãi trong nhiều lĩnh vực hiện đang do người làm trực tiếp như: tổng đài giải đáp số điện thoại, địa chỉ; đặt và xác nhận chỗ, bán vé máy bay, thông báo lịch bay, lịch chạy tàu tự động...
Để nâng cao độ chính xác, PGS-TS Vũ Hải Quân cho biết hệ thống cần khoảng vài trăm giờ huấn luyện với khoảng vài ngàn giọng đọc mẫu đến từ các vùng miền, độ tuổi và giới tính khác nhau. Việc công bố miễn phí các ứng dụng thử nghiệm là cách nhanh nhất mà nhóm có thể thu thập thêm dữ liệu.
Hiện có thể tải miễn phí các ứng dụng này tại
http://www.ailab.hcmus.edu.vn.