China ASEAN Language Intelligence Institute baut unabhängig einen mehrsprachigen Korpus auf
In den letzten Jahren ist die Konstruktion von mehrsprachigen Korpus mit der rasanten Entwicklung künstlicher Intelligenz und technologischer Verarbeitungstechnologie zu einer wichtigen Grundlage für die Förderung der Kommunikation und technologischen Innovation. Das China ASEAN Research Institute of Language Intelligence (im Folgenden als "Institut" bezeichnet) gab kürzlich bekannt, dass es erfolgreich ein mehrsprachiges Korpus aufgebaut hat, das die Hauptsprachen der zehn ASEAN -Länder abdeckt, um die Interoperabilität der Sprache, die kulturelle Verbreitung und die Zusammenarbeit mit intelligenten Technologien zwischen China und ASEAN -Ländern zu fördern.
Die Konstruktion dieses Korpus füllt nicht nur die Lücke im Bereich mehrsprachiger Sprachressourcen in China, sondern bietet auch hochwertige Datenunterstützung für Anwendungen für künstliche Intelligenz wie maschinelle Übersetzung, Spracherkennung und Textanalyse. Hier finden Sie einen Überblick über die Hauptmerkmale und Daten dieses Korpus:
Sprachtypen | Corpus -Skala (100 Millionen Wörter) | Abdeckungsbereiche | Datenquelle |
---|---|---|---|
chinesisch | 50 | Nachrichten, Recht, Wissenschaft und Literatur | Öffentliche Veröffentlichungen, Regierungsdokumente |
Thai | 12 | Soziale Medien, Nachrichten, Reisen | Bereitgestellt von Netzwerkkriech- und Genossenschaftsinstitutionen |
Vietnamesisch | 10 | Wirtschaft, Kulturen, Bildung | Akademische Papiere, Nachrichtenmedien |
malaiisch | 8 | Geschäft, Recht, tägliche Gespräche | Unternehmenskooperation, Übersetzungsagentur |
Indonesisch | 8 | Nachrichten, soziale Medien, Film und Fernsehen | Öffentliche Datensätze, Netzwerkkriechen |
Corpus -Anwendungsszenarien
Der Bau dieses Korpus bietet grundlegende Unterstützung für Anwendungen in mehreren Bereichen, hauptsächlich einschließlich:
1.Maschinelle Übersetzung: Durch hochwertige mehrsprachige parallele Korpus hat das Institut ein Übersetzungsmodell ausgebildet, das Sprachpaare wie chinesisch-englisch, chinesisch-thailand und chinesisch-vietnam unterstützt, und die Übersetzungsgenauigkeit wird erheblich verbessert.
2.Spracherkennung: Die Sprachdaten im Corpus bieten Schulungsmaterial für die Spracherkennungssysteme der ASEAN -Länder und helfen bei der Entwicklung von Anwendungen wie intelligenten Sprachassistenten und Kundendienstsystemen.
3.Cross-Language Information Abruf: Benutzer können verwandte Inhalte in ASEAN -Sprachen über chinesische Schlüsselwörter durchsuchen, die die akademische Forschung und den Erwerb kommerzieller Informationen erheblich erleichtern.
4.Kulturelle Kommunikation und Forschung: Die Literatur-, Film- und Fernsehinhalte im Korpus bietet Kulturwissenschaftlern reichhaltige analytische Materialien und fördert den kulturellen Austausch zwischen China und ASEAN -Ländern.
Zukünftige Planung
Das Institut sagte, dass die Skala- und Spracharten des Korpus in Zukunft weiter erweitert werden und plant, mehr kleine Sprachen wie Burmesisch und Kambodschaner aufzunehmen. Gleichzeitig wird das Institut mit akademischen Institutionen und Unternehmen in den ASEAN -Ländern zusammenarbeiten, um die offene Teile von Korpus zu fördern und zur Forschung in der globalen Sprachinformation beizutragen.
Die Konstruktion dieses mehrsprachigen Korpus ist nicht nur eine wichtige Leistung des China Asean Institute of Language Intelligence, sondern bietet auch eine starke Unterstützung für die Interoperabilität der Sprache und die technische Zusammenarbeit unter der Initiative "Belt and Road". Mit der kontinuierlichen Weiterentwicklung der Technologie für künstliche Intelligenz werden die Anwendungsaussichten für mehrsprachige Korpus breiter sein.
Überprüfen Sie die Details
Überprüfen Sie die Details