- vừa được xem lúc

Ngày AI Nghe Thấy Những Điều Tôi Không Thể Nghe

0 0 2

Người đăng: Thành Sơn

Theo Viblo Asia

"Thôi chết, lại quên tai nghe rồi!"

Tôi nghĩ bụng khi nhận ra mình sẽ phải ngồi hơn hai tiếng trên chuyến bay từ Hà Nội đến Đà Nẵng mà không có gì để cách ly với địa ngục âm thanh của khoang máy bay. Bạn biết cảm giác đó không? Khi bạn kẹt trong một không gian chật hẹp, bao quanh bởi tiếng ồn đều đều của động cơ, tiếng trẻ con khóc đâu đó phía sau, và những cuộc trò chuyện lác đác mà bạn không muốn nghe nhưng không thể không nghe.

Ngồi bí bách trên ghế 23C, tôi bất chợt nhìn xuống chiếc Apple Watch Series 8 trên tay. Một ý nghĩ điên rồ lóe lên trong đầu - ý nghĩ mà sau này sẽ thay đổi hoàn toàn cách tôi nhìn nhận về công nghệ, về quyền riêng tư, và về chính bản thân mình.

"Hay là... ghi âm cả chuyến bay này xem sao?"

Thí Nghiệm Ngớ Ngẩn

Đừng hiểu lầm - tôi không phải loại người thích nghe lén hay gì đó kỳ cục. Tôi chỉ đơn giản là một kỹ sư với tò mò: Nếu để AI "nghe" toàn bộ bối cảnh âm thanh hỗn loạn này, liệu nó có thể hiểu được gì không? Và nếu tôi chợt nghĩ ra ý tưởng gì hay ho trong lúc bay, tôi sẽ thì thầm với đồng hồ để ghi lại.

Thành thật mà nói, tôi không kỳ vọng gì nhiều. Chiếc đồng hồ này có mỗi một cái micro tí hon, không có công nghệ chống ồn gì ghê gớm, lại còn bị che dưới lớp áo sơ mi. Trong cái "địa ngục âm thanh" của khoang máy bay, với tiếng động cơ rền rĩ ở mức 85 decibel, việc ghi được gì đó có ích chắc chỉ là giấc mơ.

Tôi bấm nút ghi âm trên ứng dụng Voice Memos, kéo tay áo xuống che đồng hồ, và quên luôn về nó.

Nhưng đôi khi, những điều kỳ diệu nhất lại đến từ những thí nghiệm ngớ ngẩn nhất.

Máy bay vừa đáp xuống, tôi đã nôn nóng mở file ghi âm. 2 giờ 37 phút. File WAV nặng gần 1GB - gần như toàn bộ dung lượng còn lại của đồng hồ.

Tôi đeo tai nghe (mua ở sân bay với giá cắt cổ 1 triệu đồng), bấm phát, và... đúng như dự đoán. Một mớ hỗn độn âm thanh khủng khiếp. Tiếng động cơ rền rĩ át hết mọi thứ. Thỉnh thoảng có vài âm thanh giống giọng người, nhưng mờ nhạt như tiếng ma trong phim kinh dị hạng B.

"Thôi, vứt đi," tôi nghĩ, chuẩn bị xóa file để lấy lại dung lượng.

Nhưng rồi một phần của tôi - có lẽ là phần không chịu chấp nhận thất bại của một kỹ sư - quyết định thử thêm lần nữa. Tôi kéo file vào Whisper, mô hình nhận dạng giọng nói mã nguồn mở của OpenAI.

Khi AI Bắt Đầu "Nghe"

Whisper phiên bản cơ bản đầu hàng ngay lập tức. Kết quả: một trang trắng tinh. Không có lấy một từ.

"Được rồi, đánh liều luôn." Tôi quyết định dùng phiên bản khủng nhất - Whisper Large V3 Turbo (1,55 tỷ tham số. Được huấn luyện trên 680.000 giờ âm thanh đa ngôn ngữ). Nếu cái này cũng không được thì thôi.

Thanh tiến trình chạy chậm rãi. 1%... 5%... 20%...

Tôi đi pha cà phê ở góc phòng chờ. Quay lại. 67%...

Rồi màn hình bắt đầu hiện chữ.

Và tôi không tin vào mắt mình. Dòng chữ đầu tiên hiện ra làm tôi đông cứng:

"Bé nhà chị giờ học lớp mấy rồi ạ?" "Cháu học lớp 7 rồi. Nhà mình đang thử phương pháp học qua thầy mới..."

Khoan đã. Đây là cuộc trò chuyện của hai hành khách ngồi hàng ghế trước tôi! Tôi nhớ mang máng có nghe thấy họ nói chuyện, nhưng với tiếng ồn động cơ, tôi chỉ nghe được vài từ rời rạc không rõ nghĩa.

Nhưng AI? Nó nghe được trọn vẹn câu chuyện.

Tôi đọc tiếp với cảm giác như đang xem một bộ phim khoa học viễn tưởng. AI không chỉ ghi lại cuộc trò chuyện về con cái và giáo dục. Nó còn chép lại được:

  • Lời chào của tiếp viên hàng không: "Chào anh chị, đây là tuần đầu tiên em làm việc. Em đang cố gắng học hỏi, mong anh chị thông cảm."
  • Thông báo của cơ trưởng về thời tiết và thời gian bay dự kiến
  • Cuộc trao đổi khi phục vụ đồ uống: "Anh chị dùng gì ạ?" "Cho tôi nước lọc thôi." "Có đá không ạ?" "Không cần đá."
  • Thậm chí cả tiếng ai đó ho khan vài tiếng rồi xin lỗi người bên cạnh

Tôi quay lại nghe file gốc. Vẫn chỉ là một mớ tiếng ồn khủng khiếp. Tôi phải căng tai, tua đi tua lại nhiều lần mới nghe được mấy câu mà AI đã chép lại. Và có những đoạn, dù cố gắng thế nào, tôi cũng không nghe ra được gì - nhưng AI chép ra y chang những gì tôi nhớ đã xảy ra.

Đây là lúc tôi nhận ra một sự thật gây sốc: AI vừa nghe tốt hơn tôi. Rất nhiều.

Suốt 5 năm làm việc với công nghệ, tôi luôn tin vào một quy tắc bất di bất dịch: "Garbage in, garbage out". Dữ liệu đầu vào tệ thì kết quả đầu ra tệ. Muốn ghi âm tốt? Mua micro xịn. Muốn ảnh đẹp? Máy ảnh phải ngon. Đó là chân lý của ngành khoa học dữ liệu.

Nhưng thí nghiệm này vừa đập tan quan niệm đó một cách không thương tiếc.

Với 1,55 tỷ tham số được huấn luyện trên gần 700.000 giờ âm thanh từ khắp nơi trên thế giới, Whisper đã học được cách "nghe" theo một cách hoàn toàn khác con người.

Nó không cần âm thanh "sạch". Nó chỉ cần đủ thông tin để so khớp với những khuôn mẫu nó đã học. Giống như cách bạn có thể đọc được một tin nhắn đầy lỗi chính tả vì não bạn tự động "sửa" dựa trên ngữ cảnh.

Nhưng AI làm điều này ở một tầm cao hoàn toàn khác. Nó có thể:

  • Tách giọng nói ra khỏi tiếng ồn động cơ máy bay
  • Phân biệt nhiều người nói cùng lúc
  • Điền vào chỗ trống khi âm thanh bị mất
  • Thậm chí suy luận nội dung dựa trên ngữ cảnh xung quanh

Và tất cả diễn ra với một chiếc Apple Watch có micro tệ đến mức Apple chưa bao giờ quảng cáo nó như một thiết bị ghi âm chuyên nghiệp (hoặc cũng có thể họ cố tình không nói...).

Ngồi một mình trong quán cà phê sân bay, nhìn những dòng chữ được chép lại trên màn hình máy tính, tôi chợt nhận ra mình vừa chạm vào điều gì đó lớn hơn nhiều so với một mẹo công nghệ hay ho.

Nếu AI có thể nghe tốt hơn con người với phần cứng tệ như vậy, thì...

Thì mọi thứ xung quanh chúng ta đều có thể trở thành "tai" của AI?

Tôi nhìn quanh quán cà phê đông đúc. Chiếc đồng hồ thông minh mọi người đeo hàng ngày. Chiếc điện thoại đặt trên bàn. Tai nghe không dây. Camera an ninh ở góc quán. Loa thông minh phát nhạc. Máy tính xách tay mở với camera và micro...

Tất cả những thứ có micro - dù tệ đến đâu - đều có thể trở thành nguồn dữ liệu cho AI.

Và nếu AI có thể "nghe" mọi thứ, mọi lúc, mọi nơi... thì thế giới thực đang trở thành gì?

Một giao diện lập trình ứng dụng khổng lồ?

**Hai Tuần Tiếp Theo

Trong hai tuần sau đó, tôi quyết định biến mình thành vật thí nghiệm cho cuộc thử nghiệm này. Apple Watch ghi âm suốt cả ngày. Từ lúc thức dậy đến lúc đi ngủ. Họp hành, ăn uống, tập thể dục, gặp gỡ bạn bè...

Mỗi tối, tôi cho AI "nghe" lại cả ngày của mình. Và mỗi tối, tôi lại phát hiện ra điều gì đó mới về chính bản thân.

Phát hiện 1: Tôi nói "ừm" nhiều khủng khiếp

Thật đấy, cứ 3 câu lại có một "ừm". Tôi chưa bao giờ để ý điều này. Nhưng khi thấy nó trong bản chép lại, rõ ràng như ban ngày, lặp đi lặp lại như một khuôn mẫu rõ ràng, tôi mới nhận ra mình có vấn đề.

Phát hiện 2: Tôi hay cắt ngang người khác

Đặc biệt trong các cuộc họp. AI chép lại những chỗ hai người nói chồng lên nhau. Đoán xem? 80% là do tôi nhảy vào khi người khác chưa nói xong. Tôi luôn nghĩ mình là người biết lắng nghe. Dữ liệu nói khác.

Phát hiện 3: Căng thẳng hiện rõ trong giọng nói

Có một cuộc gọi với khách hàng khó tính. Khi đọc bản chép lại, tôi thấy câu trả lời của mình ngắn dần, cộc dần. Từ "Vâng, tôi hiểu quan điểm của anh" trở thành "Được rồi" rồi thành "Ừ". Tốc độ nói nhanh dần. Ngắt câu nhiều hơn.

Nhưng khám phá lớn nhất? Là khi tôi nhờ AI phân tích sâu hơn. Một tối, sau khi xem lại bản chép của cả tuần, tôi thử hỏi ChatGPT:

"Dựa trên những cuộc trò chuyện này, bạn nhận thấy khuôn mẫu nào trong cách tôi giao tiếp?"

Câu trả lời làm tôi im lặng một lúc lâu:

"Tôi nhận thấy bạn có xu hướng giải thích quá chi tiết khi không tự tin, nhưng lại cực kỳ súc tích khi căng thẳng. Trong các cuộc trò chuyện cá nhân, bạn thường hỏi han người khác nhưng hiếm khi chia sẻ về bản thân. Điều này có thể tạo khoảng cách trong các mối quan hệ..."

Đau. Nhưng đúng đến từng chi tiết.

AI còn chỉ ra:

  • Tôi dùng "thực ra" và "thành thật mà nói" khi sắp nói điều gì đó khó chịu
  • Tôi im lặng bất thường trước phản hồi tiêu cực, sau đó phòng thủ
  • Tôi thường kết thúc câu bằng "bạn biết không?" khi không chắc chắn
  • Giọng tôi cao hơn một quãng tám khi hào hứng về chủ đề kỹ thuật

Lần đầu tiên trong đời, tôi được "xem lại" chính mình từ góc nhìn khách quan. Không qua ký ức đã được não bộ "chỉnh sửa", mà qua dữ liệu thô, trần trụi.

Tuần thứ 3

Tuần thứ 3 của thí nghiệm. Tôi bắt đầu ý thức về những khuôn mẫu mình phát hiện.

Trong cuộc họp, khi cảm thấy thôi thúc muốn cắt ngang ai đó, tôi nhớ đến những dòng chữ được chép lại với người nói chồng chéo. Tôi cố gắng đợi thêm 2 giây. Chỉ 2 giây thôi. Kết quả? Người kia thường nói thêm điều gì đó quan trọng mà tôi suýt bỏ lỡ.

Khi căng thẳng, tôi nhận ra mình đang trả lời cộc lốc. Tôi hít một hơi thật sâu. Nhắc mình rằng người đối diện không phải kẻ thù.

Khi thuyết trình, tôi để ý mỗi khi sắp nói "ừm". Tạm dừng thay vì lấp đầy khoảng lặng với âm thanh vô nghĩa. Sự im lặng có sức mạnh - điều tôi chưa bao giờ tin trước đây.

Những thay đổi nhỏ. Nhưng sau một tháng, phản hồi tôi nhận được thay đổi rõ rệt:

  • "Anh bình tĩnh hơn hẳn dạo này"
  • "Cảm ơn anh đã lắng nghe đến cuối"
  • "Bài thuyết trình của anh hôm nay rõ ràng và hấp dẫn quá"

Tất cả từ việc... một chiếc đồng hồ ghi âm + AI phân tích.

Một buổi tối, khi đang xem lại bản chép, tôi chợt thấy một đoạn lạ:

"[Cuộc trò chuyện nền] ...ừ, số bảo hiểm xã hội của tôi là 523-..."

Tôi giật mình. Đây không phải cuộc trò chuyện của tôi. Là của ai đó ở bàn bên cạnh trong quán cà phê. Apple Watch của tôi đã ghi lại. Và Whisper đã giải mã được.

Cảm giác rùng rợn lan khắp người. Nếu chiếc đồng hồ tầm thường của tôi có thể làm vậy... thì bao nhiêu thiết bị khác cũng đang "nghe"? Và ai đang nghe?

Tôi bắt đầu chú ý những thứ tôi chưa từng để ý:

  • Những chiếc điện thoại đặt úp trên bàn (nhưng micro vẫn hoạt động)
  • Những chiếc đồng hồ thông minh trên cổ tay mọi người
  • Những chiếc tai nghe không dây trong tai
  • Camera an ninh với khả năng ghi âm ở mọi góc phố
  • TV thông minh với micro "luôn bật" trong nhà
  • Trợ lý ảo lặng lẽ chờ lệnh đánh thức

Chúng ta đang sống trong một thế giới nơi mọi thứ đều có thể là "tai" của AI. Và với khả năng xử lý ngày càng mạnh, AI có thể hiểu được ngay cả những gì được thu trong điều kiện tệ nhất.

Quyền riêng tư? Quyền riêng tư nào?

Tôi đứng trước một nghịch lý kỳ lạ và đầy mâu thuẫn.

Một mặt, khả năng "phát lại" và phân tích cuộc sống của mình vô cùng mạnh mẽ. Nó giúp tôi:

  • Hiểu rõ bản thân hơn bao giờ hết
  • Cải thiện kỹ năng giao tiếp một cách có dữ liệu hỗ trợ
  • Nhận ra điểm mù trong tư duy và hành vi
  • Thậm chí cải thiện các mối quan hệ thông qua tự nhận thức

Mặt khác, ý nghĩ rằng bất kỳ ai với một thiết bị có micro và khả năng tiếp cận AI đủ mạnh đều có thể làm điều tương tự... với tôi, với bạn, với bất kỳ ai... thật đáng sợ.

Chúng ta đang ở ngã rẽ của lịch sử. Công nghệ này sẽ không biến mất. Nó sẽ chỉ mạnh hơn, rẻ hơn, phổ biến hơn. Câu hỏi không phải là "liệu nó có được sử dụng?" mà là "ai sử dụng, như thế nào, và với mục đích gì?"

Hai Tương Lai Song Song

Kịch Bản Tươi Sáng:

Hãy tưởng tượng một thế giới nơi mọi người có "huấn luyện viên cuộc sống AI" cá nhân. Nó giúp bạn giao tiếp tốt hơn, hiểu rõ các khuôn mẫu cảm xúc của mình, nhận ra khi bạn đang căng thẳng và cần nghỉ ngơi, cải thiện các mối quan hệ thông qua sự hiểu biết tốt hơn.

Các chuyên gia tâm lý được tăng cường với những hiểu biết sâu sắc từ dữ liệu thực tế. Giáo viên hiểu rõ hơn cách học sinh tương tác và học tập. Bác sĩ có thể phát hiện sớm dấu hiệu của các vấn đề sức khỏe tâm thần qua khuôn mẫu lời nói. Tư vấn hôn nhân trở nên hiệu quả hơn với dữ liệu khách quan về động lực giao tiếp.

Kịch Bản Đen Tối:

Nhưng cũng hãy tưởng tượng một thế giới nơi mọi cuộc trò chuyện đều bị ghi lại và phân tích. Nhà tuyển dụng theo dõi từng tương tác của nhân viên. Chính phủ xây dựng hồ sơ chi tiết về mọi công dân. Công ty bảo hiểm từ chối bảo hiểm dựa trên "khuôn mẫu căng thẳng" trong giọng nói. Điểm tín dụng xã hội dựa trên cách bạn nói chuyện.

Cả hai kịch bản đều có thể xảy ra. Và có lẽ, cả hai sẽ xảy ra đồng thời, ở những nơi khác nhau, với những người khác nhau.

Sau hai tháng thí nghiệm, đây là những gì tôi học được:

1. Công nghệ này có thật và mạnh mẽ

Đừng đánh giá thấp nó. Một chiếc Apple Watch + AI đã có thể làm những điều đáng kinh ngạc. Và nó sẽ chỉ tốt hơn. Các mô hình sẽ nhỏ hơn, nhanh hơn, chính xác hơn. Phần cứng sẽ rẻ hơn, phổ biến hơn.

2. Lợi ích là có thật

Tự nhận thức và tự cải thiện thông qua phân tích AI không phải trò lừa đảo. Nó thực sự có thể thay đổi cuộc sống bạn nếu bạn tiếp cận nó với tâm trí cởi mở và sẵn sàng thay đổi.

3. Rủi ro cũng rất thật

Lo ngại về quyền riêng tư không phải hoang tưởng. Chúng ta cần nghiêm túc về việc ai có quyền thu thập và phân tích dữ liệu này. Khung pháp lý chưa theo kịp công nghệ.

4. Chúng ta cần chuẩn mực xã hội mới

Giống như cách chúng ta có chuẩn mực xã hội về việc chụp ảnh người khác, chúng ta cần chuẩn mực về ghi âm và phân tích AI. Sự đồng ý quan trọng. Tính minh bạch quan trọng.

Kết Luận

Tôi vẫn đeo Apple Watch và vẫn ghi âm mỗi ngày. Nhưng giờ tôi làm vậy với nhận thức đầy đủ về cả sức mạnh và trách nhiệm.

Mỗi tối, khi xem lại bản chép, tôi không chỉ học về bản thân. Tôi còn suy ngẫm về thế giới chúng ta đang xây dựng. Một thế giới nơi ranh giới giữa vật lý và kỹ thuật số, giữa riêng tư và công khai, giữa con người và AI ngày càng mờ nhạt.

Bạn có thể gọi đó là địa ngục trần gian hoặc thiên đường. Tôi gọi nó là thực tại. Thực Tại API - nơi mọi khoảnh khắc của cuộc sống đều có thể được ghi lại, phân tích, và hiểu bởi AI.

Câu hỏi không phải là bạn có muốn sống trong thế giới đó không. Bạn đã đang sống trong đó rồi. Câu hỏi là: bạn sẽ làm gì với nó?

Sử dụng nó để hiểu rõ bản thân và trở thành phiên bản tốt hơn của mình? Hay để theo dõi và kiểm soát người khác?

Xây dựng công nghệ phục vụ con người? Hay để con người phục vụ công nghệ?

Lựa chọn là của chúng ta. Nhưng chúng ta cần chọn. Và chọn nhanh. Trước khi ai đó chọn hộ chúng ta.


Tái bút: Nếu bạn quyết định thử nghiệm này, hãy nhớ: quyền lực lớn đi kèm trách nhiệm lớn. Ghi âm chính mình để học hỏi - được. Ghi âm người khác mà không có sự cho phép - không được. Đơn giản vậy thôi.

Tái tái bút: Và nếu bạn đang đọc này trong một quán cà phê, hãy nhìn quanh. Có bao nhiêu thiết bị có thể đang "nghe"? Chiếc điện thoại trong túi bạn? Chiếc đồng hồ thông minh trên tay? Chiếc máy tính xách tay mở trước mặt?

Bình luận

Bài viết tương tự

- vừa được xem lúc

Deploy website với 1 dòng lệnh - SaltStack

Mở đầu. Khi còn là sinh viên ta thường làm việc với một vài Server đơn lẻ, dễ dàng quản lý bằng cách login vào server và cài đặt các package cần thiết, lỗi đâu sửa đấy.

0 0 46

- vừa được xem lúc

Kiểm thử tự động là gì và cách thức hoạt động của nó

Trước khi phần mềm trở thành sản phẩm, kiểm thử tự động là một bước quan trọng kiểm tra xem phần mềm đó có hoạt động chính xác và đáp ứng được các tiêu chí đề ra không. Các bước kiểm tra phần mềm đã đ

0 0 10

- vừa được xem lúc

Giới thiệu về DeepFaceLab công cụ để tạo ra Deepfake thật sự hoàn hảo

I.Làm thế nào 'Furious 7' đã đưa Paul Walker quá cố trở lại cuộc sống. Dưới đây là video. .

0 0 31

- vừa được xem lúc

Hiểu sâu về You Only Look One-YOLOv1

Object detection: bài toán phát hiện + nhận diện vật thể. Bước một là đi tìm vị trí của vật thể trong toàn ảnh rồi bao quanh vật thể ấy bằng một khung hình chữ nhật được gọi là bounding box.

0 0 25

- vừa được xem lúc

TOP 5 BLOG VỀ IT ĐÁNG ĐỌC

Vào những lúc rảnh rỗi, các bạn thường sẽ làm gì? Coi phim, đi chơi, ...Có ai như mình lúc rảnh thì tìm 1 chỗ yên tĩnh nào đó đeo tai phone nghe những bài nhạc chill và đọc truyện và tìm các blog hay

0 0 33

- vừa được xem lúc

Học với tôi(bebuoi1) : BLOG! -> Tại sao lại có cookie và session

Câu hỏi của mình : Tại sao lại có cookie và session trong khi đã có tài khoản mật khẩu . --Tk mk nó giống như 1 cái cccd rồi mà tại sao CÓ NGƯỜI NÓI COOKIE NÓ LẠI GIỐNG CCCD ĐỂ ĐỊNH DANH NHỈ.

0 0 17