Tích hợp dữ liệu ngữ nghĩa là gì?

Thứ hai - 17/04/2017 05:24

What is Semantic Data Integration?

Theo: http://ontotext.com/knowledgehub/fundamentals/semantic-data-integration/

Xem thêm: Dữ liệu Mở liên kết - Linked Open Data.

Tích hợp dữ liệu ngữ nghĩa cho phép những người sử dụng nhanh chóng thiết kế các công việc xử lý dữ liệu có sự tham gia của GraphDB™ và Kiến trúc Chung cho Kỹ thuật Văn bản - GATE (General Architecture for Text Engineering). Những người sử dụng có quan tâm trong dữ liệu “được RDF hóa” của họ có thể xuất khẩu các công việc như là các quy trình thực thi được hoặc các dịch vụ REST. Một phần của quy trình này liên quan tới phân giải nhận diện nơi những người sử dụng có thể xác định trước các tiêu chí trùng khớp. Khung Phân giải Nhận diện (Identity Resolution Framework) trực tiếp hỗ trợ cho việc truy cập các kho ngữ nghĩa thông qua SPARQL.

Ontotext Workbench (công cụ quản lý GraphDB) cung cấp cho những người sử dụng giao diện web và giao diện lập trình ứng dụng API (Application Programming Interface) để tạo thuận lợi cho các tác vụ quản lý, quản trị, và phát triển ứng dụng của cơ sở dữ liệu RDF. Các bộ kết nối GraphDB™ Connectors gồm một tập hợp các bộ tiếp hợp (adapters) và các giao diện cấu hình cho phép những người sử dụng kết nối GraphDB™ với các động cơ thường trực bên ngoài (external persistence engines). Hãy học về các công cụ và Khung Khai phá Web (Web Mining Framework) bên dưới.

Tạo kiểu nhìn 360 độ với tích hợp dữ liệu ngữ nghĩa

Tích hợp dữ liệu là tối thượng trong thế giới nơi mà tính trực quan toàn diện, phân tích chính xác và sự phức tạp của dữ liệu áp đảo bức tranh tổng thể. Ngày nay, các tổ chức đang tìm kiếm các giải pháp cho phép họ quản lý tất cả các dữ liệu của họ - dữ liệu có cấu trúc, bán cấu trúc và không có cấu trúc. Dù cơ sở dữ liệu đồ họa của bạn vận hành đứng riêng lẻ một mình hay được tích hợp vào hệ sinh thái cơ sở dữ liệu lớn hơn, thì bạn vẫn cần một tập hợp đầy đủ các công cụ để đảm bảo bạn có được kiểu nhìn 360 độ được đồng bộ hóa các dữ liệu của bạn. Khả năng dễ dàng thực hiện các tác vụ - tạo ra các tài liệu từ các tệp, tạo và xuất khẩu các chú giải, tải các lệnh RDF vào GraphDB™ và trộn 2 hoặc nhiều hơn cơ sở dữ liệu GraphDB™ - là tất cả các chức năng cơ bản hỗ trợ cho các giải pháp ngữ nghĩa cấp thế giới. Với Bộ Tích hợp Ngữ nghĩa (Semantic Integration Suite) của chúng tôi, khả năng tích hợp dữ liệu của bạn là dễ hơn nhiều.

Các công cụ tích hợp ngữ nghĩa

Đội các chuyên gia của chúng tôi có hàng trăm năm kinh nghiệm làm việc với các công cụ khai thác văn bản và tích hợp dữ liệu RDF. Các khách hàng của chúng tôi sử dụng các công cụ và dịch vụ của chúng tôi để giúp chỉ dẫn cho họ qua vòng đời tích hợp dữ liệu ngữ nghĩa, gồm việc tải các tài liệu, xử lý các chú giải, tạo các lệnh RDF, tải các lệnh đó vào các kho ngữ nghĩa và trộn 2 hoặc nhiều hơn các kho khi cần thiết. Người sử dụng có thể nhanh chóng thiết kế các công việc xử lý dữ liệu cho cả GraphDB™ và Gate. Họ có thể xuất khẩu các công việc như là các quy trình thực thi được hoặc như các dịch vụ REST và áp dụng chúng để tích hợp lượng dữ liệu khổng lồ.

Khung Phân giải Nhận diện (Identity Resolution Framework)

Trong nhiều trường hợp, 2 hoặc nhiều hơn lệnh RDF có thể được tham chiếu tới cùng một thực thể. Điều này từng được xác định qua phân tích định hướng trong quy trình khai thác văn bản. Biết rằng các thực thể khác nhau đó thực sự là y hệt như nhau cho phép những người sử dụng sau này tìm kiếm và định vị tất cả các tham chiếu theo một cách thức được tối ưu hóa. Các kết quả nghiên cứu và phân tích là chính xác hơn. Khung Phân giải Nhận diện (Identity Resolution Framework) sử dụng các tiêu chí trùng khớp đặc thù lĩnh vực được xác định trước và được trình bày theo cách thức thân thiện với con người dựa vào logic của vị ngữ. Bản thể học (Ontologies) được sử dụng để trình bày tri thức trong GraphDB™. Truy cập trực tiếp được cung cấp qua SPARQL.

Các trường hợp điển hình để Phân giải Nhận diện

Data Consolidation - Tăng cường dữ liệu – Khi phân giải nhận diện, người sử dụng thường muốn phát hiện các tham chiếu tới cùng y hệt đối tượng đang tồn tại trong các nguồn dữ liệu khác nhau. Về cơ bản, họ muốn ghép các đối tượng đó. Kỹ thuật này có 2 lợi ích chính - các mã nhận diện được phân giải VÀ sự dư thừa trong các dữ liệu đến (incoming data) đã được tăng cường trong cơ sở dữ liệu đồ họa và sau này có thể được sử dụng trong phân tích. Nói cách khác, sự phân giải có các hiệu ứng lớn hơn nhiều và vượt ra khỏi sự tích hợp dữ liệu ngữ nghĩa.
Cross Document Co-Reference - Đồng tham chiếu liên các tài liệu - Tiếp cận của chúng tôi về điều này cho các tổ chức nhận diện các biến thể của cùng các đối tượng từ các định dạng khác nhau - các tài liệu văn bản, các trang web, các bản ghi cơ sở dữ liệu, bản thể học và hơn thế nữa. Chúng tôi tạo ra kiểu nhìn dữ liệu duy nhất nơi mà các sự kiện khác nhau được liên kết với nhau và sự dư thừa được loại bỏ. Điều này cho phép những người sử dụng dễ dàng truy vấn và sử dụng các tập hợp dữ liệu lớn theo các cách thức đa dạng khác nhau. Về cơ bản chúng tôi tăng cường cho các đối tượng, liên kết các bản ghi và cho phép phân giải đồng tham chiếu liên các tài liệu (cross document co-reference resolution), một năng lực rất mạnh được sử dụng rộng rãi bởi bất kỳ ai có quan tâm trong việc xử lý ngôn ngữ tự nhiên, tính lượng bản thể học (ontology population) và web ngữ nghĩa.

Efficient Extraction & Aggregation - Trích xuất và tổng hợp có hiệu quả – Các tổ chức có quan tâm trong việc tăng cường thông tin từ nhiều hệ thống và nguồn dữ liệu có thể giải quyết vấn đề thông tin lặp đi lặp lại. Các mã nhận diện có thể được phân giải qua các bản thể học khác nhau. Trích xuất thông tin có thể được thực hiện có hiệu quả từ các nguồn khác nhau. Việc quyết định dữ liệu nào là “mới” và dữ liệu nào đã được trích xuất rồi cần phải được quản lý thận trọng nếu các ứng dụng kết quả sẽ là thành công. Những người sử dụng có quan tâm trong việc tổng hợp các chi tiết về các mã nhận diện được phân giải cũng có thể làm thế. Chính tiếp cận rất y hệt này cũng có thể được áp dụng cho các đối tượng khác nơi bạn muốn kết hợp 2 đối tượng với nhau mà làm việc được cùng nhau như bu lông và ốc vít.

Industry Applications - Các ứng dụng công nghiệp – Trong các dịch vụ tài chính, các tổ chức ngân hàng và môi giới chứng khoán rất quan tâm về phân giải nhận diện để hỗ trợ phân tích dò tìm giả mạo và chống rửa tiền. Các công ty Truyền thông và Xuất bản cần tìm kiếm các kho lưu trữ lịch sử để nhanh chóng nhận diện khi nào 2 hoặc nhiều tham chiếu hơn về một thực thể là y như nhau. Các phòng dịch vụ khách hàng trong thương mại điện tử hoặc trong môi trường bán lẻ tăng cường dữ liệu từ các hệ thống khác nhau và cần phải phân giải các mã nhận diện trong quá trình đó. Các ứng dụng phát hiện điện tử (eDiscovery) có thể liên kết các tài liệu với nhau nơi mà một con người duy nhất được tham chiếu theo các cách thức khác nhau. Các trường hợp điển hình dạng này của tích hợp ngữ nghĩa là bất tận.

Khung khai thác web - Web Minging Framework

Nhiều doanh nghiệp muốn tải các cơ sở dữ liệu đồ họa với các thông tin được thu thập từ web. Điều này có thể là tri thức có tính cạnh tranh, các cái tên có chủ đích, các sự việc ở các địa điểm khác nhau - bất kỳ sự việc nào bạn muốn sử dụng trong phân tích và nghiên cứu. Khung Khai thác Web là một nền tảng tìm kiếm web và tri thức web toàn diện và có hiệu quả. Nó cung cấp khả năng đào sâu, lấy, phân tích, trích xuất và lưu trữ các tài liệu hỗn tạp khác nhau từ web, biến chúng thành tập hợp dữ liệu có cấu trúc tốt. Dữ liệu kết quả có thể được sử dụng để làm giàu cho cơ sở dữ liệu đồ họa hiện hành của bạn và được sử dụng trong các ứng dụng nghiên cứu.

Các bộ kết nối GraphDB™ - GraphDB™ Connectors

Các bộ kết nối GraphDB™ là bộ các tiếp hợp (adapters) và các giao diện cấu hình cho phép những người sử dụng kết nối kho ngữ nghĩa với các động cơ thường trực bên ngoài (external persistence engines) khác nhau. Ví dụ bạn có thể kết nối các động cơ tìm kiếm bên ngoài như Lucene, SoLR và Elasticsearch để tìm kiếm và điều hướng nhanh hơn các trường hợp cùng diễn ra. Những người sử dụng có thể có được các bản cập nhật từ các kho dữ liệu lớn và ghi vào các hệ thống tệp bên ngoài để sao lưu hoặc nhân bản dữ liệu. Hiện hành, chúng tôi hỗ trợ các kết nối tới SoLR, Lucene và Elasticsearch, nhưng đang có các kế hoạch để mở rộng thư viện này.

Các đối tác công nghệ có quan tâm trong việc chào bộ đầy đủ công nghệ ngữ nghĩa nên kết nối với chúng tôi. Công nghệ này mở rộng nhanh chóng nền tảng của chúng tôi, cho phép các tổ chức tích hợp các nguồn và quy trình dữ liệu khác. Chúng làm việc với công nghệ chú giải GraphDB™ và API cài cắm của chúng tôi.

GraphDB™ Workbench

GraphDB™ Workbench là giao diện web và API để tạo thuận lợi cho các tác vụ quản lý, quản trị và phát triển ứng dụng cơ sở dữ liệu RDF. Với chỉ một cái nhấn chuột, những người sử dng có thể bắt đầu xác định mọi điều qua giao diện này. Workbench cho phép dễ dàng cấu hình và vận hành các cơ sở dữ liệu RDF. Chúng tôi hỗ trợ Sesame API, nền tảng Xuất bản Dữ liệu Kết nối (Linked Data Publishing) từ W3C, khả năng để tạo, tái cấu hình và xóa các kho, quản lý an toàn, thiết lập của người sử dụng, ghi các quyền, tạo và sửa các nguồn dữ liệu được liên kết và hơn thế nữa. Hãy liên hệ với chúng tôi để có demo về GraphDB™ Workbench và tìm ra cách thức nó được thiết lập và quản lý dễ dàng như thế nào các kho RDF của chúng tôi.

Các dịch vụ Chuyên nghiệp về Ontotext - Ontotext Professional Services

Các nhân viên các dịch vụ chuyên nghiệp của chúng tôi đã giúp cho hàng trăm khách hàng áp dụng tập hợp toàn diện này các công cụ tích hợp ngữ nghĩa. Nhiều tổ chức liên hệ với chúng tôi để xây dựng, triển khai và duy trì các kho GraphDB™ được phát triển và cập nhật bằng việc sử dụng các công cụ quản lý tài liệu, khai thác văn bản và chú giải. Họ coi chúng tôi như một phần của đội mở rộng của họ. Để học được nhiều hơn về các dịch vụ của chúng tôi, hãy liên hệ ngày với chúng tôi.

RDF hóa dữ liệu của riêng bạn với bản mới nhất GraphDB Free 7.2. Hãy nhập khẩu dữ liệu của bạn và chạy các truy vấn siêu nhanh.

Semantic Data Integration allows users to quickly design data processing jobs involving GraphDB™ and GATE (General Architecture for Text Engineering). Users interested in “RDF-izing” their data can export the jobs as executable processes or REST services. Part of this process involves identity resolution where users can predefine matching criteria. The Identity Resolution Framework directly supports accessing semantic repositories through SPARQL.

The Ontotext Workbench provides users with a web interface and API to facilitate RDF database management, administration, and application development tasks. GraphDB™ Connectors include a set of adapters and configuration interfaces allowing users to connect GraphDB™ to external persistence engines. Learn about these tools and the Web Mining Framework below.

Creating a 360 Degree View with Semantic Data Integration

Data integration is paramount in a world where complete visibility, accurate analysis and data complexity dominate the landscape. Today, organizations are searching for solutions that allow them to manage all of their data – structured, semi-structured and unstructured data. Whether your graph database operates standalone or integrated into a larger database ecosystem, you need a complete set of tools to ensure you have a synchronized 360-degree view of your data. The ability to easily perform tasks – create documents from files, create and export annotations, load RDF statements into GraphDB™ and merge two or more GraphDB™ databases – are all essential functions that support world-class semantic solutions. With our Semantic Integration Suite, your ability to integrate data is much easier.

Semantic Integration Tools

Our team of experts has hundreds of years of experience working with text mining and RDF data integration tools. Our customers use these tools and our services to help guide them through a semantic data integration lifecycle including loading documents, processing annotations, creating RDF statements, loading those statements into semantic repositories and merging two or more repositories when needed. User can quickly design data processing jobs for both GraphDB™ and Gate. They can export the jobs as executable processes or REST services and apply them to integrate massive amounts of data. Ontotext Semantic Data Integration allows you to rapidly RDF-ize your data.

Identify Resolution Framework

In many cases, two or more RDF statements may be referring to the same entity. This has been determined through disambiguation analysis in the text mining process. Knowing that these different entities are really the same allows users to later search and locate all of the references in an optimized way. Search results and analysis are more accurate. The Identity Resolution Framework uses domain-specific predefined matching criteria expressed in a human friendly way based on predicate logic. Ontologies are used to represent the knowledge in GraphDB™. Direct access is provided through SPARQL.

Use Cases for Identity Resolution

Data Consolidation – In identify resolution, users typically want to discover references to the same object that exist in different data sources. In essence, they want to pair these objects. This technique has two major benefits – the identities are resolved AND redundancy in the incoming data has been consolidated in the graph database and later can be used in analysis. In other words, the resolution has far reaching effects beyond semantic data integration.

Cross Document Co-Reference – Our approach to this allows organizations to identify variations of the same objects from different formats – textual documents, web pages, database records, ontologies and more. We create a single data view where different facts are interlinked and redundancy is removed. This allows users to easily query and use large data sets in a variety of ways. In essence we consolidate objects, linking records and allow for cross document co-reference resolution, a very powerful capability widely used by anyone interested in natural language processing, ontology population and the semantic web.

Efficient Extraction & Aggregation – Organizations interested in consolidating information from many systems and data sources can resolve repetitive information. Identities can be resolved across different ontologies. Information extraction can be done efficiently from different sources. Deciding which data is “new” and which has already been extracted needs to be carefully managed if the resulting applications are to be successful. Users interested in aggregating details about the resolved identities can do so. This very same approach can also be applied to different objects where you want to pair together two objects that work together like a nut and bolt.

Industry Applications – In financial services, banks and brokerages organizations are very interested in identity resolution in support of fraud detection and anti-money laundering analysis. Media and Publishing companies need to search historical archives to quickly identify when two or more references to an entity are the same. Customer service departments in the eCommerce or Retail space consolidate data from various systems and need to resolve identities in the process. eDiscovery applications can link together documents where the same person is referenced in different ways. The use cases for this type of semantic integration are endless.

Web Mining Framework

Many businesses want to load graph databases with information collected from the web. This could be competitive intelligence, target names, facts about places – any fact that you want to use in analysis and search. The Web Mining Framework is a comprehensive, efficient web intelligence and web search platform. It provides the capability to crawl, fetch, parse, extract and store heterogeneous documents from the web, transforming them into a well-structured data set. The resulting data can be used to enrich your current graph database and used in search applications.

GraphDB™ Connectors

GraphDB™ Connectors are a suite of adapters and configuration interfaces allowing users to connect the semantic repository to various external persistence engines. For example you can connect external search engines like Lucene, SoLR and Elasticsearch for faster co-occurrence, faceted search and navigation. Users can obtain updates from big data stores and write to external file systems for backup or data replication. Today, we support connectors to SoLR, Lucene and Elasticsearch but plans are well underway to extend this library.

Technology partners interested in offering a full suite of semantic technology should connect us. This technology dramatically extends our platform allowing organizations to integrate other data sources and processes. They work with our GraphDB™ notification technology and the plug-in API.

GraphDB™ Workbench

GraphDB™ Workbench is a web interface and API to facilitate RDF database management, administration and application development tasks. With a single click users can start to define everything through this interface. The workbench allows for easy configuration and operation of RDF databases. We support a Sesame API, the Linked Data Publishing platform from w3C, the ability to create, reconfigure and delete repositories, security management, user setup, write permissions, creating and modifying linked data sources and more. Contact us for a demo of GraphDB™ Workbench and find out how easy it is to set up and manage your RDF repositories.

Ontotext Professional Services

Our professional services staff has helped hundreds of customers apply this complete set of semantic integration tools. Many organizations contract with us to build, deploy and maintain GraphDB™ repositories that are populated and updated using document management, annotation and text mining tools. They consider us part of their extended team. To learn more about our services, contact us today.

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com