Lịch sử hình thành các kho lưu trữ dữ liệu
Lưu trữ tài liệu hiện nay đang trở thành một công việc vô cùng cấp thiết và quan trọng với giới nghiên cứu khoa học. Tuy nhiên, rất ít người, ngay cả những người đang làm công việc lưu trữ, biết rõ nguồn gốc của nó.
Trong bài viết “With Slips and Scraps: How Early Modern Naturalists Invented the Archive” trên tạp chí Book History, nhà sử học Elizabeth Yale giải thích tường tận về nguồn gốc của các kho lưu trữ dữ liệu.
Vào thế kỉ 17, những bản sao duy nhất của rất nhiều kiến thức cổ xưa tại các tu viện Anh đã bị đem ra dùng lót bánh hay thậm chí để lau giầy. Sự việc đau lòng này diễn ra khi cuộc Cải cách Tin lành bắt đầu trên đất Anh.
Năm 1536, chính sách giải thể các tu viện được Nghị viện Anh thông qua. Trong hai thập kỷ tiếp theo, chính quyền ra sức phá hủy các thư viện của tu viện nhằm phục vụ cho kế hoạch chính trị của vua Henry VIII. Trong khi đó, một số người cố gắng cứu vớt những tài liệu quý giá, nhưng một vấn đề vô cùng khó khăn với họ lúc này là không có bất cứ nơi nào để lưu trữ an toàn khối lượng lớn sách và tài liệu.
Chính bởi những yếu tố chính trị và lịch sử nêu trên mà theo Elizabeth Yale, các bản thảo lưu lạc ở khắp nơi; và phần lớn chúng sẽ bị tiêu tùng, mất mát. Người dân khi đó chỉ xem các bản thảo, thường là bằng giấy hoặc da, có thể dùng vào việc gì thay vì xét tới nội dung trong đó.
Sự việc trên là nỗi kinh hoàng với rất nhiều học giả lúc bấy giờ. Một nhà tự nhiên học và cổ vật thời kì đó là John Aubrey đã vô cùng đau khổ khi nhìn thấy tại trường của mình vào những năm 1630, người ta sử dụng giấy da kín đặc chữ để lau súng hoặc làm găng tay thay vì tìm cách học hỏi và áp dụng kiến thức trong đó. Thậm chí, thầy hiệu trưởng tại ngôi trường này còn dùng một tờ bản thảo để bịt lỗ thủng ở thùng ủ bia của mình. Lời ông nói “Không có vật nào làm việc này tốt hơn đâu [việc bịt lỗ thủng]” càng khiến cho Aubrey thêm đau xót.
Nhằm cố gắng cứu vãn tình hình tồi tệ này, những học giả thế kỷ 17 như Aubrey bắt đầu tìm kiếm những gì còn sót lại và tìm cách bảo quản chúng.
Theo tư tưởng của triết gia Francis Bacon (1561-1626), các học giả ngày càng coi trọng vai trò của các bài báo trong nghiên cứu thực nghiệm. Vì vậy, họ cùng hợp tác để thu thập, tổ chức và xây dựng dữ liệu. Để bảo vệ văn bản cả mới và cũ, các cơ quan mới với mục đích lưu trữ, bảo quản tài liệu đã được thành lập. Một trong số đó là Bảo tàng Ashmolean tại Đại học Oxford, được thành lập bởi Elias Ashmole. Ashmole để lại bộ sưu tập lớn các giấy tờ, bản thảo và sách cho trường đại học với điều kiện trường sẽ lưu giữ chúng vĩnh viễn và thuê một người quản gia để duy trì và lập danh mục tài liệu. Do đó, Ashmolean trở thành bảo tàng đại học đầu tiên trên thế giới được tổ chức sao cho Đại học Oxford có thể sử dụng nó vào mục đích giảng dạy.
Những nỗ lực bảo tồn bản thảo của các học giả đã vượt xa việc hoàn thành công việc lưu trữ các bài viết. Không những góp phần truyền lại kiến thức cho đời sau, nó còn tạo một bước đi mới cho nghiên cứu khoa học nói chung và lưu trữ dữ liệu nói riêng.
Những nỗ lực bảo tồn bản thảo của các học giả thế kỷ 17 chính là nguồn gốc của công nghệ lưu trữ ngày nay, cho phép chúng ta lưu trữ toàn bộ thư viện trên một ổ cứng và chia sẻ các bài báo ngay lập tức với mọi người trên khắp thế giới.
Mặc dù nguồn gốc của lưu trữ tài liệu khoa học xuất phát từ nước Anh nhưng nó chỉ thực sự phát triển mạnh và ảnh hưởng rộng khắp nhờ đóng góp của những nhà khoa học Mỹ. Bằng cách triển khai đồng bộ các chính sách phát hiện, đào tạo, đãi ngộ, sử dụng và thu hút nhân tài trên toàn thế giới về làm việc, nước Mỹ đã có được vô vàn nghiên cứu quan trọng, đặc biệt là Internet và số lượng lớn các bài báo khoa học là hai trong nhiều yếu tố giúp cho hệ thống lưu trữ hiện đại tại Mỹ ra đời, thành công và phát triển đến ngày hôm nay.
Năm 1991, hệ thống lưu trữ bản thảo số đầu tiên arXiv được các nhà khoa học tự nhiên giới thiệu. Hiện nay, đã có hơn 1,6 triệu bản thảo trong các lĩnh vực toán học, vật lý, thiên văn học, kỹ thuật điện, khoa học máy tính, sinh học định lượng, thống kê, tài chính toán học và kinh tế được công bố thông qua nền tảng này, một số các bài báo có thể được truy cập trực tuyến miễn phí.
Đến năm 2013, lấy cảm hứng và dự định bổ sung cho kho arXiv, hệ thống lưu trữ dành riêng cho chuyên ngành sinh học bioRxiv được Cold Spring Harbor Laboratories giới thiệu. Thành công của bioRxiv với hơn 13.000 bài viết sau gần 5 năm đã mang đến thêm nhiều hệ thống lưu trữ khác cho từng ngành riêng biệt như hóa học với ChemRxiv, khoa học xã hội với SocArXiv, kỹ thuật với engrXiv hay AgriXiv cho nông nghiệp,…. Chữ X trong tên các hệ thống lưu trữ kể trên thực chất là chữ χ trong bảng chữ cái Hy Lạp, phát âm gần giống “arch” trong từ Archive (nghĩa là lưu trữ trong tiếng Anh).
Bên cạnh việc lưu trữ phục vụ những mục đích ban đầu như hoàn thiện, tiếp tục phát triển các nghiên cứu, các hệ thống đang ngày càng phát triển ưu việt nhằm phục vụ cho việc xuất bản, phát hiện các trường hợp đạo văn, thúc đẩy tính minh bạch và cởi mở trong nghiên cứu khoa học…
Việc lưu trữ số lượng lớn có phần dễ dàng hơn nhờ công nghệ nhưng các nhà lưu trữ ngày nay vẫn tiếp tục phải đối mặt với những câu hỏi tương tự mà các học giả đã gặp khi xưa: thu thập thông tin gì và cách lưu trữ, lập danh mục, chia sẻ nó một cách hiệu quả để hệ thống lưu trữ hỗ trợ các nhà khoa học mang tri thức đến với nhân loại.