Ngày hiện tại:

Evo 2: Trí tuệ nhân tạo đọc hiểu DNA của mọi sự sống trên Trái Đất

Evo 2: Trí tuệ nhân tạo đọc hiểu DNA của mọi sự sống trên Trái Đất

Evo 2: Trí tuệ nhân tạo đọc hiểu DNA của mọi sự sống trên Trái Đất

Từ Evo đời đầu đến Evo 2

Năm 2025, phiên bản Evo đầu tiên đã gây chú ý khi chứng minh rằng chỉ cần dữ liệu bộ gen vi khuẩn, AI có thể dự đoán gen tiếp theo trong cụm gen hoặc thậm chí đề xuất protein mới. Tuy nhiên, DNA của vi khuẩn vốn gọn gàng, còn bộ gen của sinh vật nhân thực lại vô cùng phức tạp: gen bị chia cắt bởi intron, các yếu tố điều hòa nằm rải rác, xen kẽ là những đoạn DNA “rác” khổng lồ.

Evo 2 được thiết kế để giải quyết sự hỗn độn này. Với 40 tỷ tham số, hệ thống có khả năng phát hiện gen, vị trí nối intron, các yếu tố điều hòa và nhiều đặc điểm di truyền khác mà không cần được dạy trước.

Cách Evo 2 được huấn luyện

  • Kiến trúc: StripedHyena 2, một mạng nơ-ron tích chập.
  • Quy trình: ban đầu xử lý chuỗi dài ~8.000 base, sau đó mở rộng tới hàng triệu base để nhận diện cấu trúc quy mô lớn.
  • Dữ liệu: bộ OpenGenome2 với 8,8 nghìn tỷ base từ ba giới sinh vật và cả thực khuẩn thể. Virus nhân thực bị loại bỏ để tránh nguy cơ lạm dụng.
  • Nguyên tắc: các chuỗi được bảo tồn qua nhiều loài thường mang ý nghĩa chức năng, giúp AI học được các mẫu thống kê quan trọng mà không cần tinh chỉnh theo nhiệm vụ cụ thể.

Những gì Evo 2 học được

Các công cụ giải thích cho thấy Evo 2 có thể:

  • Phân biệt vùng mã hóa protein với DNA xung quanh.
  • Nhận diện ranh giới intron.
  • Dự đoán cấu trúc protein (alpha-helix, beta-sheet).
  • Phát hiện đột biến gây rối loạn cấu trúc protein.
  • Nhận diện các yếu tố di truyền di động.

Đặc biệt, Evo 2 vẫn giữ nguyên khả năng phân tích vi khuẩn và vi khuẩn cổ, đồng thời tự động chọn đúng “mã di truyền” cho từng loài có biến thể trong tín hiệu kết thúc dịch mã.

Hiệu năng và thí nghiệm

  • Nhận diện vị trí nối intron: vượt trội hơn một số phần mềm chuyên dụng.
  • Đánh giá đột biến BRCA2: cho kết quả chính xác, đặc biệt khi được bổ sung dữ liệu huấn luyện về các biến thể liên quan đến ung thư.
  • RNA phi mã hóa: Evo 2 nhận biết khi đột biến làm gián đoạn các chuỗi RNA chức năng.

Trong thử nghiệm tạo mới DNA, Evo 2 có thể sinh ra các đoạn mang yếu tố điều hòa và cấu trúc gen hợp lý, nhưng tỷ lệ hoạt động khác biệt rõ rệt giữa hai loại tế bào chỉ đạt 17%. Đây vẫn là thành tựu đáng kể trong sinh học tổng hợp, dù chưa đạt mức đột phá như kỳ vọng.

Tương lai mở ra

Evo 2 được công bố chỉ sau bốn tháng kể từ Evo đời đầu, với toàn bộ mã nguồn, tham số và dữ liệu đều được mở. Điều này cho phép cộng đồng nghiên cứu khai thác cho nhiều ứng dụng: từ phân tích bộ gen ung thư, chú giải loài mới, đến thiết kế DNA chức năng.

Điều hấp dẫn nhất là khả năng Evo 2 đã nhận diện những mẫu gen mà khoa học chưa từng đặt tên – tương tự như cách CRISPR hay microRNA từng được phát hiện. Các công cụ giải thích có thể giúp giới nghiên cứu “truy vấn” mô hình để tìm ra những yếu tố di truyền hoàn toàn mới.