Sau khi được truyền cảm hứng từ các đồng nghiệp tại XDA, tôi bắt đầu sử dụng Obsidian làm ứng dụng ghi chú chính trên máy tính của mình. Tôi dùng nó để ghi lại suy nghĩ, ý tưởng, liên kết, ảnh và các thông tin liên quan khác. Tuy nhiên, việc gõ ghi chú dài đôi khi khá mệt mỏi, và tôi ước rằng Obsidian có tính năng chuyển đổi ghi chú giọng nói thành văn bản. Trước đây, tôi đã thử sử dụng ứng dụng Notes của Apple để ghi và chuyển đổi ghi chú giọng nói, nhưng trải nghiệm của tôi không mấy ấn tượng. Mọi thứ đã thay đổi khi tôi phát hiện ra Whisper plugin for Obsidian. Kể từ khi bắt đầu sử dụng plugin này, nó đã thực sự thay đổi cách tôi làm việc. Tôi sử dụng nó thường xuyên để ghi lại ghi chú giọng nói mà không phải lo lắng về việc khi nào hay làm thế nào để chuyển đổi chúng thành văn bản.

Whisper plugin đã giúp tôi biến Obsidian thành một giải pháp ghi chú mạnh mẽ thực sự. Nó đã thay đổi cách làm việc của tôi theo cách mà tôi không ngờ tới, và trải nghiệm tổng thể khi sử dụng Obsidian đã trở nên đáng giá hơn. Nhờ đó, tôi giữ cho nhật ký cá nhân của mình luôn hoạt động để có thể ghi nhanh các ghi chú âm thanh ngay lập tức. Việc tìm kiếm văn bản liên quan trong biển ghi chú giúp mục nhập liên quan nổi bật ngay lập tức, nhờ vào các bản chuyển đổi do plugin cung cấp. Mặc dù tôi đã đến muộn, nhưng tôi tiếc rằng không sử dụng nó sớm hơn.

Whisper plugin tự động chuyển đổi nhanh chóng ghi chú giọng nói thành văn bản

Như một trợ lý giọng nói mà bạn muốn

Gallery Image

Tôi nghĩ rằng ứng dụng Notes đủ để chuyển đổi ghi chú giọng nói một cách dễ dàng, nhưng tôi đã sai. Whisper plugin, dù không phải là tính năng tích hợp, vẫn đủ tốt để thuyết phục tôi chuyển hoàn toàn từ ứng dụng Notes sang Obsidian. Whisper là hệ thống nhận dạng giọng nói tự động của OpenAI, lắng nghe giọng nói và chuyển đổi thành văn bản. Do đó, tôi đã nhập API keys của OpenAI vào cài đặt của plugin để đảm bảo nó hoạt động mượt mà.

Tiếp theo, chỉ có tôi và micro ghi lại các ghi chú giọng nói trong Obsidian. Khi tôi dừng ghi âm, Obsidian hiển thị một trình phát mini cho âm thanh như một ghi chú mới, và bản chuyển đổi xuất hiện tự động dưới dạng văn bản. Sau vài lần thử, tôi nhận thấy plugin chuyển đổi các ghi chú ngắn nhanh chóng. Nhưng khi tôi thử tải lên các tệp âm thanh đã có, như một tập podcast dài 25 phút, việc chuyển đổi giọng nói thành văn bản mất khá nhiều thời gian.

Plugin đã làm tôi ngạc nhiên với độ chính xác trong việc chuyển đổi, ngay cả khi phát âm của tôi đôi khi khác biệt với một số từ. Plugin thậm chí còn làm tôi kinh ngạc khi tôi cố gắng giả giọng. Để thử thêm, tôi lấy cuốn sách tiếng Pháp cũ của mình và đọc to, và nó vẫn được chuyển đổi tốt, dù tiếng Pháp của tôi đã bị rỉ sét. Tất nhiên, nó không thể xử lý những từ không rõ ràng do sử dụng mic tai nghe giá rẻ.

Plugin giúp tôi tập trung vào việc nói mà không có bất kỳ rào cản nào trong khi ghi chú. Tôi luôn có thể xem lại và sửa các lỗi trong ghi chú chuyển đổi sau đó. Để làm được điều đó, tôi đã tạo các thư mục để lưu trữ âm thanh và bản chuyển đổi từ plugin. Theo mặc định, plugin làm cho Obsidian lưu tất cả các ghi chú giọng nói riêng biệt, vì vậy tôi cần di chuyển chúng vào thư mục ghi chú giọng nói riêng của mình. Điều đó là điều tôi có thể chấp nhận.

Có nhược điểm nào khi sử dụng Whisper plugin không?

Riêng tư với một cái giá

Whisper plugin for Obsidian

Thiết lập Whisper plugin trong Obsidian không tốn nhiều công sức. Tuy nhiên, bạn sẽ cần nạp một số tiền vào tài khoản OpenAI của mình vì gói miễn phí sẽ không hoạt động, và bạn cũng cần đăng ký làm nhà phát triển. Về chi phí, tôi mất khoảng 2 giờ 45 phút để tiêu hết một đô la cho việc sử dụng dịch vụ chuyển đổi âm thanh thành văn bản của Whisper thông qua API. Đáng tiếc, tôi phải trả tiền riêng cho điều đó vì nó không được bao gồm trong tài khoản ChatGPT trả phí của tôi và tôi bị tính phí theo mô hình trả tiền theo sử dụng.

Khi nhận thấy thiết lập Obsidian của tôi với Whisper, một người bạn đã bình luận rằng việc để OpenAI nghe và xử lý tất cả suy nghĩ của tôi. Và bình luận đó đã ám ảnh tôi. Sau khi điều tra, tôi phát hiện OpenAI cung cấp tùy chọn tắt ghi dữ liệu từ cài đặt tài khoản, và điều đó giải quyết các mối lo ngại về quyền riêng tư. Nếu không, dữ liệu âm thanh của tôi được lưu trữ trên máy chủ của OpenAI trong 30 ngày. Ít nhất đó là điều OpenAI tuyên bố, ngoài việc không sử dụng dữ liệu đó để huấn luyện mô hình. Tuy nhiên, tôi muốn khám phá xem liệu tôi có thể chạy một mô hình chuyển đổi giọng nói thành văn bản cục bộ trên máy tính của mình không.

Chạy mô hình Whisper cục bộ trên PC

Đòi hỏi khá nhiều công sức

Gallery Image

Vì mô hình cốt lõi của Whisper là mã nguồn mở, tôi đã khám phá cách làm cho nó hoạt động trên MacBook Air M1 cơ bản của mình với 8GB RAM. Tôi đã tìm được phiên bản C/C++ của Whisper, có thể chạy cục bộ trên máy tính ở chế độ offline. Sau khi sao chép kho lưu trữ và tải xuống một mô hình Whisper lớn được chuyển đổi thành định dạng nhị phân tùy chỉnh, tôi đã xây dựng ứng dụng Whisper.cpp.

Sử dụng một script shell, tôi đã chạy một máy chủ mô hình Whisper cục bộ để làm việc với Whisper plugin trong Obsidian và ghi lại một ghi chú giọng nói. Bản chuyển đổi xuất hiện tự động với ghi chú âm thanh sử dụng phiên bản mô hình Whisper cục bộ. Sau khi thử nghiệm nhiều lần, tôi nhận ra rằng mô hình Whisper cục bộ không chính xác và đôi khi không bắt được giọng điệu. Dù vậy, tôi đã đạt được kết quả hài lòng với một vài lần chuyển đổi ghi chú giọng nói thành văn bản.

Nói để giải phóng bản thân khỏi việc gõ ghi chú

Gõ không phải là cách duy nhất để ghi chú trong Obsidian. Whisper plugin làm cho nó phù hợp với bất kỳ ai muốn thoát khỏi tiếng gõ phím. Ngay cả khi bạn thích gõ, tôi khuyến khích bạn thử plugin ít nhất một lần. Plugin này là một ví dụ điển hình về cộng đồng Obsidian đang phát triển mạnh mẽ, không ngừng xây dựng các tiện ích bổ sung để làm cho ứng dụng trở thành lựa chọn yêu thích của nhiều người. Ngay cả khi mô hình Whisper cục bộ được hỗ trợ bởi nhị phân tùy chỉnh hoạt động tốt, tôi khuyên bạn nên sử dụng một máy tính mạnh với CPU khá và ít nhất 16GB RAM.

Whisper plugin đã khiến tôi tự tin hơn, nói ra suy nghĩ và ý tưởng của mình một cách cởi mở bằng cách ghi lại chúng. Đó là lý do tại sao nó nhanh chóng trở thành ứng dụng ghi chú ưa thích của tôi sau khi thử qua nhiều ứng dụng khác.