Internet không phải là nơi lưu trữ vĩnh viễn. Đây là điều mà nhiều người trong chúng ta thường quên cho đến khi một blog yêu thích biến mất, một diễn đàn bị đóng cửa hoặc một bài viết đã lưu trữ cho mục đích nghiên cứu không còn tồn tại. Hoặc có thể, tác phẩm yêu thích của bạn bị ẩn sau một bức tường phí. Trong vài năm qua, tôi nhận ra rằng internet rất mong manh với các trang web có thể bị hỏng và máy chủ biến mất, và bạn không bao giờ có thể chắc chắn rằng nội dung yêu thích của mình sẽ tồn tại mãi mãi.

Là một người viết chuyên nghiệp, điều đó khiến tôi lo lắng. Các tác phẩm của tôi đều tồn tại trên internet và tôi muốn chúng tồn tại lâu dài hơn cả những quyết định của các nhà xuất bản đang thay đổi. Tôi luôn muốn giữ bản sao của những câu chuyện mình đã viết, không chỉ là các liên kết, mà là những bản sao đầy đủ chức năng. Quan trọng hơn, tôi muốn chúng nằm dưới sự kiểm soát của mình, trên máy chủ riêng của tôi để có thể quản lý và sao lưu thay vì trên đám mây. Đó là lý do tôi tìm kiếm một cách để lưu trữ trang web tự quản lý. Một giải pháp tôi có thể chạy trên NAS hoặc máy chủ gia đình, không cần đăng ký hoặc phụ thuộc vào dịch vụ bên thứ ba. Tìm kiếm đó dẫn tôi đến Sosse, một công cụ self-hosted web scraper dựa trên Selenium, cho phép tôi lưu bất kỳ trang web nào hoặc lưu trữ đầy đủ HTML chỉ với vài cú nhấp chuột.

Cài đặt Sosse trên hệ thống tự quản lý

Triển khai nhanh chóng với Docker, sẵn sàng trong vài phút

sosse running on a Synology NAS
 

Với Docker và Portainer đã được cài đặt trên NAS của tôi, đây là giải pháp tự nhiên mà tôi lựa chọn khi thử nghiệm ứng dụng cho các bài viết hoặc chạy chúng trong môi trường sản xuất. Sosse cung cấp một hình ảnh Docker và một tệp Compose đơn giản, giúp việc cài đặt và hoạt động trở nên cực kỳ dễ dàng. Thực tế, tôi chỉ mất chưa đến mười phút để cài đặt và chạy nó online.

Tôi bắt đầu bằng cách tạo một thư mục cục bộ trên NAS để lưu trữ các trang đã lưu trữ, gắn kết các volume đúng cách bằng Portainer và nhấn nút triển khai. Thế là xong. Container chạy ngay lập tức mà không cần tinh chỉnh hay hướng dẫn gì thêm. Điều này làm giảm đáng kể rào cản cho những người dùng ít kỹ thuật. Một khi đã hoạt động, Sosse mở ra một trang chào mừng sạch sẽ trên mạng cục bộ của tôi. Tôi cũng đã cấu hình chuyển tiếp cổng cho truy cập từ xa, nhưng điều đó không cần thiết. Tài liệu xuất sắc do nhà phát triển cung cấp giúp dễ dàng tiếp cận các quy trình làm việc nâng cao và là một lời nhắc nhở về cách phần mềm self-hosted có thể dễ dàng với tài liệu chất lượng và tính dễ tiếp cận.

Giao diện tối giản dành riêng cho việc lưu trữ tập trung

Thiết kế sạch sẽ, mặc định thông minh và các tính năng phù hợp

Gallery Image

Sosse là một công cụ được thiết kế để thực hiện một nhiệm vụ duy nhất. Bạn cung cấp cho nó một URL, và nó tạo ra một bản sao HTML đầy đủ của trang. Nhưng nó không dừng lại ở việc tải xuống mã nguồn. Nó còn có thể viết lại các liên kết nội bộ để đảm bảo chúng vẫn hoạt động ngay cả khi bạn không có kết nối internet. Nó tải về các stylesheet và tài nguyên, vì vậy mọi thứ trông giống như bản gốc. Nó thậm chí hiển thị mỗi trang lưu trữ trong một bố cục tối giản, loại bỏ hầu hết các chi tiết bố cục và chỉ hiển thị nội dung, giống như chế độ đọc tích hợp trong trình duyệt.

Tôi thích việc Sosse không cố gắng làm quá nhiều, như thêm vào một tiện ích mở rộng trình duyệt hay công cụ cơ sở dữ liệu phức tạp. Nó đơn giản hơn nhiều với bố cục tối giản cho phép bạn dán một URL, nhấn lưu và có được một bản sao lưu trữ cục bộ hoạt động dù trang gốc có tồn tại hay không. Giao diện sạch sẽ, phản hồi nhanh và dễ dàng điều hướng. Bạn có thể sắp xếp các mục theo thẻ, tạo hiệu quả một cấu trúc thư mục phân cấp. Bạn thậm chí có thể cài đặt tác nhân trình duyệt, lịch trình và phát hiện thay đổi để giữ cho các trang luôn được cập nhật. Thật tuyệt vời.

Sử dụng Sosse hàng ngày

Một kho lưu trữ đáng tin cậy tích hợp vào quy trình làm việc của bạn

Sosse document management

Sosse nhanh chóng trở thành một phần của quy trình làm việc hàng tuần của tôi. Tôi sử dụng nó để lưu và lưu trữ các bài viết của mình ngay khi chúng được xuất bản. Tôi cũng sử dụng nó để lưu trữ tài liệu kỹ thuật có thể bị offline. Mỗi lần tôi nhấn lưu, tôi biết rằng mình đang có một bản sao hoạt động sẽ không biến mất hoặc trở thành các liên kết hỏng sau vài tháng, và điều đó mang lại cho tôi sự yên tâm.

Nơi khác, giao diện tìm kiếm nhanh chóng và, với sự kết hợp của tìm kiếm và thẻ, rất dễ dàng để tìm thấy các bài viết rất nhanh. Mỗi mục đã lưu tải lên ngay lập tức và các trang cảm thấy như bản gốc. Thực tế, tôi chưa gặp phải bất kỳ stylesheet bị hỏng nào, điều này thường là vấn đề phổ biến với các công cụ như vậy. Sosse cũng xử lý tốt các trang web phức tạp hơn. Cho dù đó là một blog tối giản hay một trang web nặng JavaScript, Sosse có thể chụp gần như hoàn hảo, làm cho nó trở thành một lựa chọn tuyệt vời. Và nếu bạn cần một bản sao lưu thêm, bạn có thể cấu hình để lưu cả ảnh chụp màn hình.

Tại sao Sosse nổi bật so với các web scraper khác

Có hàng tá công cụ cho phép bạn lưu nội dung web nhưng không phải tất cả đều cung cấp sự kết hợp của giao diện đơn giản, cài đặt nhanh chóng và khả năng tự quản lý. Sosse giữ mọi thứ đơn giản. Nó hỗ trợ nhiều người dùng, dễ dàng triển khai trên toàn bộ nhà hoặc văn phòng của bạn, không có phân tích. Nếu bạn quan tâm đến nội dung bạn đọc, viết hoặc chia sẻ, việc giữ một bản sao ngoại tuyến là điều có giá trị. Sosse không chỉ làm điều đó có thể mà còn làm cho nó trở nên liền mạch. Đối với tôi, nó đã trở thành một phần thiết yếu nhưng âm thầm của cách tôi sử dụng internet.