מחקר

Google יצרה מסד נתונים של אלפי רשומות דיבור מסונתזות.

נראה כי בעתיד הקרוב, תקשורת אנושיתיישמר למינימום. לפחות הכל הולך על זה: כאן ב- Google, למשל, הם הצליחו לאסוף מסד נתונים מתוך אלפי רשומות של דיבור אנגלית מסונתז, על פי הבלוג של החברה. לכן, מומחים הם צעד אחד נוסף כדי להבטיח כי המערכת יכולה לשכפל דיבור בעל פה, אשר יהיה להבחין בין האדם.

דיבור סינתזה נדרשת להיווצרות של דיבורהאות מהטקסט המודפס, ואין זה הכרחי שהאדם המתעד את קולו עבור המערכת מדבר על כל הביטויים. עבור המודל הסופי, מדגם נתונים מייצג הוא מספיק - ואז המערכת עצמה קובעת כמה פונמות זה צריך לסינתזה נוספת.

מדוע הקלטה דיבור שנאספו בקנה מידה גדול אחדבסיס נתונים? העובדה היא שאם סינתזה באיכות גבוהה מתברר להיות בידי פולשים, הם יכולים להשתמש בקול של מישהו אחר למטרות אנוכיות שלהם. כדי למנוע זאת, מומחי Google פרסמו מסד נתונים של כמה אלפי קטעים מעיתונים. 68 קולות מסונתזים שונים שימשו לקריאה. עם זאת, בעוד מערך הנתונים זמין רק עבור המשתתפים בתחרות אימות רמקול אוטומטי. הם יוצרים מערכות המבדילות באופן אוטומטי דיבור מסונתז מהדיבור האמיתי.

לפני שנתיים, החברה Lyrebird ממונטריאולנוצר סינתיסייזר דיבור מבוסס AI מסוגל לשכפל כל קול. כדי לעקוב אחר המערכת, זה לוקח רק כמה שניות כדי לשמוע את קולו של האדם הנדרש, על בסיס אשר את שבר הקול ייווצר. החיקוי המדויק של הקול אפשרי באמצעות שימוש ברשתות עצביות המבוססות על אינטליגנציה מלאכותית, ועובדת על אותם עקרונות כמו רשתות עצביות של המוח האנושי. AI לומד לזהות את המאפיינים של הדיבור האנושי, ולאחר מכן נתונים אלה משמשים כבר כדי לסנתז קול מלאכותי.

נכון, יש ליקויים: יש בעיות עם הבנת הדיבור המדובר, יש "קול artifacts" וכמה סימנים אחרים המציינים כי המילים מבוטא על ידי המכונה.

אל תשכח להירשם לעדכון החדשות שלנו.