<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Technische Dokumentation, Terminologie &#38; Co. &#187; TMX</title>
	<atom:link href="http://www.dokumentation-terminologie.de/tag/tmx/feed" rel="self" type="application/rss+xml" />
	<link>http://www.dokumentation-terminologie.de</link>
	<description>Tipps und Trends aus der Technischen Dokumentation und angrenzenden Fachgebieten</description>
	<lastBuildDate>Sun, 29 Aug 2010 18:16:07 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.8.4</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>TMX-Kompatibilität testen</title>
		<link>http://www.dokumentation-terminologie.de/tmx-kompatibilitat-testen.html</link>
		<comments>http://www.dokumentation-terminologie.de/tmx-kompatibilitat-testen.html#comments</comments>
		<pubDate>Fri, 16 Oct 2009 10:44:01 +0000</pubDate>
		<dc:creator>Marcel Saft</dc:creator>
				<category><![CDATA[Translation-Memory]]></category>
		<category><![CDATA[LISA]]></category>
		<category><![CDATA[TMX]]></category>

		<guid isPermaLink="false">http://www.dokumentation-terminologie.de/?p=56</guid>
		<description><![CDATA[Bei der LISA (Localization Industry Standard Association) gibt es ein &#8220;TMX Compliance Kit&#8221;. Damit kann überprüft werden, inwieweit eine Software (z. B. ein Translation-Memory-System)  oder eine damit erzeugte TMX-Datei den TMX-Standard einhält. Das &#8220;TMX Compliance Kit&#8221; enthält folgendes:

Spezifikation (Beschreibung des TMX-Standards)
Beschreibung des Vorgehens beim Testen der TMX-Kompatibilität
DTD (Document Type Definition)
TMXCheck, ein kleines Windows-Programm zum Überprüfen [...]]]></description>
			<content:encoded><![CDATA[<p>Bei der LISA (Localization Industry Standard Association) gibt es ein &#8220;TMX Compliance Kit&#8221;. Damit kann überprüft werden, inwieweit eine Software (z. B. ein Translation-Memory-System)  oder eine damit erzeugte TMX-Datei den <a title="Erläuterung Translation-Memory/Übersetzungsspeicher Wikipedia" href="http://de.wikipedia.org/wiki/%C3%9Cbersetzungsspeicher" target="_blank">TMX-Standard</a> einhält. Das &#8220;<a title="TMX-Kompatibilität überprüfen" href="http://www.lisa.org/Translation-Memory-e.34.0.html" target="_blank">TMX Compliance Kit</a>&#8221; enthält folgendes:</p>
<ul>
<li>Spezifikation (Beschreibung des TMX-Standards)</li>
<li>Beschreibung des Vorgehens beim Testen der TMX-Kompatibilität</li>
<li>DTD (Document Type Definition)</li>
<li>TMXCheck, ein kleines Windows-Programm zum Überprüfen der TMX-Kompatibilität einer Software</li>
</ul>
<p>Link: <a href="http://www.lisa.org/Translation-Memory-e.34.0.html" target="_blank">http://www.lisa.org/Translation-Memory-e.34.0.html</a></p>
]]></content:encoded>
			<wfw:commentRss>http://www.dokumentation-terminologie.de/tmx-kompatibilitat-testen.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Effektivere Termextraktion aus TMX-Dateien</title>
		<link>http://www.dokumentation-terminologie.de/termextraktion-tmx-translation-memory.html</link>
		<comments>http://www.dokumentation-terminologie.de/termextraktion-tmx-translation-memory.html#comments</comments>
		<pubDate>Mon, 12 Oct 2009 10:20:10 +0000</pubDate>
		<dc:creator>Marcel Saft</dc:creator>
				<category><![CDATA[Terminologiemanagement]]></category>
		<category><![CDATA[Termextraktion]]></category>
		<category><![CDATA[TMX]]></category>

		<guid isPermaLink="false">http://www.dokumentation-terminologie.de/?p=48</guid>
		<description><![CDATA[Im Rahmen eines Terminologieprojekts stand ich kürzlich u.a. vor der Aufgabe, eine bilinguale Termextraktion aus einem Translation-Memory bzw. aus einer TMX-Datei durchzuführen. Das Termextraktions-Tool war im konkreten Fall SDL MultiTerm Extract 7 und die TMX-Datei war ein Export aus dem TMS (Translation-Memory-System) across. Wie alle halbwegs modernen Termextraktions-Tools arbeitet MultiTerm Extract 7 mit statistischen Verfahren*. [...]]]></description>
			<content:encoded><![CDATA[<p>Im Rahmen eines Terminologieprojekts stand ich kürzlich u.a. vor der Aufgabe, eine bilinguale Termextraktion aus einem <a title="Erläuterung Translation-Memory/Übersetzungsspeicher Wikipedia" href="http://de.wikipedia.org/wiki/%C3%9Cbersetzungsspeicher" target="_blank">Translation-Memory</a> bzw. aus einer <a title="Erläuterung TMX Wikipedia" href="http://de.wikipedia.org/wiki/Translation_Memory_eXchange" target="_blank">TMX</a>-Datei durchzuführen. Das Termextraktions-Tool war im konkreten Fall SDL MultiTerm Extract 7 und die TMX-Datei war ein Export aus dem TMS (Translation-Memory-System) across. Wie alle halbwegs modernen Termextraktions-Tools arbeitet MultiTerm Extract 7 mit statistischen Verfahren*. Wörter oder Phrasen, die häufig vorkommen, werden deshalb als Termkandidaten vorgeschlagen.<span id="more-48"></span>Eine TMX-Datei enthält nun neben den eigentlichen Sprachpaaren auch jede Menge Metadaten und Informationen zur TMS-internen Verwaltung. Das sieht beispielsweise so aus:</p>
<blockquote><p>&lt;prop  type=&#8221;user-defined&#8221;&gt;customer  id:00000000-0000-0000-0000&lt;/prop&gt;</p></blockquote>
<p>Die Dauer der bilingualen Termextraktion und vor allem die Qualität des Ergebnisses wurden dadurch stark beeinträchtigt. Die von mir verwendete TMX-Datei war übrigens 50 MB groß. Das ist noch ein relativ kleines Translation-Memory, aber das sind doch schon einige Millionen Zeichen, die da verarbeitet werden müssen. Kurzum: Ich habe die TMX-Datei erst einmal bereinigt. Dazu habe ich den <a href="http://www.pspad.com/de/" target="_blank">kostenlosen Code-Editor PSPad</a> verwendet. Nachfolgend eine Kurzanleitung:</p>
<ul>
<li>Voraussetzung: Sie haben PSPad gestartet und die TMX-Datei darin geöffnet.</li>
</ul>
<ol>
<li>Klicken Sie in der Statusleiste auf &#8220;Text&#8221;.<br />
Das Fenster &#8220;Syntax-Highlighter wählen &#8230;&#8221; wird geöffnet.</li>
<li>Doppelklicken Sie auf &#8220;XML&#8221;.<br />
Das Fenster &#8220;Syntax-Highlighter wählen &#8230;&#8221; wird geschlossen. Die XML-Syntaxerkennung<br />
wird aktiviert.</li>
<li>Wählen Sie in der Menüleiste &#8220;Suchen &gt; Ersetzen&#8221;.<br />
Das Fenster &#8220;Ersetzen&#8221; wird geöffnet.</li>
<li>Geben Sie in das Textfeld &#8220;Suchen&#8221; Folgendes ein: &lt;prop.*prop&gt;|&lt;bpt.*bpt&gt;|&lt;ept.*ept&gt;<br />
(Das Feld &#8220;Ersetzen&#8221; bleibt leer.)</li>
<li>Markieren Sie in der Gruppe &#8220;Suchoptionen&#8221; das Kästchen &#8220;Regular Expressions&#8221;.</li>
<li>Stellen Sie sicher, dass alle anderen Kästchen in der Gruppe &#8220;Suchoptionen&#8221;<em> </em><strong>nicht </strong>markiert sind.</li>
<li>Markieren in der Gruppe &#8220;Suchrichtung&#8221; die Option &#8220;Gesamt&#8221;.</li>
<li>Klicken Sie auf &#8220;OK&#8221;.<br />
PSPad löscht alle Tags namens prop, bpt und ept sowie deren Inhalt.</li>
<li>Wählen Sie in der Menüleiste &#8220;Datei &gt; Speichern&#8221; unter und speichern Sie die bereinigte TMX-Datei unter einem anderen Namen.</li>
</ol>
<p>Durch die Bereinigung wurde die Anzahl der Wörter aus der Sicht  von  MultiTerm  Extract von 1,3 Mio. auf rund 290.000 reduziert, wie die Projektstatistik von MultiTerm Extract veranschaulicht:</p>
<div id="attachment_50" class="wp-caption alignnone" style="width: 525px"><img class="size-full wp-image-50" title="Termextraktion, Statistik" src="http://www.dokumentation-terminologie.de/wp-content/uploads/2009/10/tmx-termextraktion.jpg" alt="Termextraktion, Statistik" width="515" height="246" /><p class="wp-caption-text">Projektstatistik MultiTerm Extract vor der Bereinigung (oben) und danach</p></div>
<p>Die aus der Termextraktion resultierende Liste mit Termkandidaten war nach der Bereinigung wesentlich kürzer und &#8220;sauberer&#8221;. Außerdem lief die Termextraktion wesentlich schneller.</p>
<p>Und wenn wir schon dabei sind &#8230; In der von mir verwendeten TMX-Datei waren auch Ausgangs- und Zielsprache (DE -&gt; EN) falsch angegeben. Auch das habe ich mit PSPad im Handumdrehen korrigiert:</p>
<ul>
<li>Überprüfen Sie ca. in Zeile 6 der TMX-Datei den Wert des Attributs &#8220;srclang&#8221;. Dieses Attribut legt die Ausgangssprache fest. Falls der Wert &#8220;en-US&#8221; lautet, die Ausgangssprache aber Deutsch sein soll, muss er im ganzen Dokument auf &#8220;de-DE&#8221; korrigiert werden.</li>
<li>Voraussetzung: Sie haben PSPad gestartet und die TMX-Datei darin geöffnet.</li>
</ul>
<ol>
<li>Wählen Sie in der Menüleiste &#8220;Suchen &gt; Ersetzen&#8221;.<br />
Das Fenster &#8220;Ersetzen&#8221; wird geöffnet.</li>
<li>Geben Sie in das Textfeld &#8220;Suchen&#8221; Folgendes ein: srclang=&#8221;en-US&#8221;</li>
<li>Geben Sie in das Textfeld &#8220;Ersetzen&#8221; Folgendes ein: srclang=&#8221;de-DE&#8221;</li>
<li>Entmarkieren Sie das Sie das Kästchen &#8220;Regular Expressions&#8221;.</li>
<li>Klicken Sie auf &#8220;OK&#8221;.<br />
PSPad erstetzt alle Vorkommen von &#8220;srclang=&#8217;en-US&#8217;&#8221; mit &#8220;srclang=&#8217;de-DE&#8217;&#8221;.</li>
<li>Wählen Sie in der Menüleiste &#8220;Datei &gt; Speichern&#8221;.</li>
</ol>
<p>Anmerkung: Die Bereinigung der TMX-Datei könnte bequemer mit einem XSL-Skript und einem XSL-Prozessor erledigt werden. Die aus across  exportierten TMX-Dateien sind jedoch mit der Zeichenkodierung UTF-16 kodiert. Diese Kodierung wird von Saxon (Version 9.1.0.2), einem der wenigen kostenlosen XSL-Prozessoren, nicht unterstützt. Weil die TMX-Datei daher mindestens zum Umkodieren ohnehin in einem Code-Editor geöffnet werden muss, entschied ich mich dafür, dort auch die Bereinigung zu erledigen, um die Anzahl der Arbeitsschritte und der benötigten Programme möglichst gering zu halten. Bei entsprechendem Bedarf könnte also überprüft werden, ob die oben beschriebene Aufgabe durch einen geeigneten XSL-Prozessor effektiver erledigt werden könnte.</p>
<p>* In neueren Versionen von MultiTerm Extract kommen hybride Extraktionsverfahren zum Einsatz.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.dokumentation-terminologie.de/termextraktion-tmx-translation-memory.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
